ΕΕΛΛΑΚ - Λίστες Ταχυδρομείου

Πεπραγμένα Εβδομάδας+ για το Greek Open Source LLM

  • Subject: Πεπραγμένα Εβδομάδας+ για το Greek Open Source LLM
  • From: Nina Gialoussi <ninagial [ at ] eellak [ dot ] gr>
  • Date: Fri, 23 Feb 2024 16:04:57 +0200
*Προς:*
το Διοικητικό Συμβούλιο
την Εσωτερική Επιτελική Ομάδα
τους Επικεφαλής Ομάδων
την Επιστημονική Επιτροπή
τους αποδέκτες της λίστας ηλ. ταχυδρομείου “Εργαστήρια Μηχανικής Μάθησης”


*Ως μέρος της σύμβασης εργασίας και στο πλαίσιο των ανατεθειμένων μου
καθηκόντων η εβδομαδιαία πρόοδος του έργου γλωσσAPI. Για απεγγραφή από τη
λίστα χρησιμοποιείστε τους προκαθορισμένους συνδέσμους.*

*ΠΕΠΡΑΓΜΕΝΑ*

Χαίρετε

Τις τελευταίες εβδομάδες κατά τις οποίες δεν έστειλα πεπραγμένα έχουν γίνει
τα εξής:

Συνεχίζεται η αποδελτίωση πηγών και η απόκτηση δεδομένων από επιλεγμένες
πηγές.

Ακόμα γίνεται στατιστική ανάλυση των γενικών τους χαρακτηριστικών και
δοκιμές προτυποποίησής τους σε διαφορετικές μορφές.

*Σκοπός είναι να καταλήξουμε σε ένα σχήμα που να μεγιστοποιεί την
επανάχρηση και τη διαλειτουργικότητα, πιθανότερο όμως είναι το corpus να
διανεμηθεί σε πολλαπλές μορφές με συνοδευτική τεκμηρίωση.*

*Συγκεκριμένα:*

Οι παρακάτω πηγές βρίσκονται αυτή τη στιγμή σε μορφή SQLITE 3,
κατατεμαχισμένες σε προτάσεις. (Η προέλευση των δεδομένων αναφέρεται στις
υποσημειώσεις)
Πηγή Αρ. Προτάσεων
Bible (1)
33260
Europarl (1)
1597955
GlobalVoices (1)
26621
HNC (2)
4614
Wikipedia (1)
116298

Οι παρακάτω πηγές βρίσκονται αυτή τη στιγμή σε μορφή RDS, δηλαδή R
binaries, που έχουν λίγο χειρότερη συμπίεση από τα PARQUET files. (Η
προέλευση των δεδομένων αναφέρεται στις υποσημειώσεις)
Πηγή Αρ. Τεκμηρίων Αρ. Προτάσεων
Gutenberg (3)
351 266796*
Δημώδης Γραμματεία (3)
228 181260*
Alpaca (4)
51760
Greek Legal Code / Train (4)
28536
Greek Legal Code / Test (4)
9516
Greek Legal Code / Validation (4)
9511


** Επελέγησαν μόνο οι προτάσεις που είναι πάνω από 10 λέξεις (αυτό
απαλείφει τίτλους, μεταφραστικά σημειώματα, και τα όμοια).*



*Εδώ βρίσκονται οι σημειώσεις για την προέλευση των πηγών*




*1 Opus2 ILSP3 Scraped4 HuggingFace*

Επίσης έγινε δοκιμή του Greek Tokenizer 160K στις συλλογές GlobalVoices και
Hellenic National Corpus (HNC) στην πλατφόρμα cloud.vast.ai σε 1 GPU με
῀45G RAM σε μοντέλο βάσης της οικογένειας Llama2 για 5 epochs.

Το script της επεξεργασίας υπάρχει και σε μορφή Docker (υπό επεξεργασία).

Τα αποτελέσματα ήταν κάτω από το αναμενόμενο για αυτό συνεχίζω τις
προσπάθειες για βελτίωση του tokenizer.

Με εκτίμηση

ΝΓ
-- 
*Νίνα Γιαλλούση | Εταιρεία Ελεύθερου Λογισμικού και Λογισμικού Ανοιχτού
Κώδικα | Greek Free and Open Source Software Alliance*
----
Λαμβάνετε αυτό το μήνυμα απο την λίστα: Επιστημονική Επιτροπή ΕΕΛ/ΛΑΚ,
https://lists.ellak.gr/epistimoniki-epitropi-ellak/listinfo.html
Μπορείτε να απεγγραφείτε από τη λίστα στέλνοντας κενό μήνυμα ηλ. ταχυδρομείου στη διεύθυνση <epistimoniki-epitropi-ellak+unsubscribe [ at ] ellak [ dot ] gr>.