ΕΕΛΛΑΚ - Λίστες Ταχυδρομείου

Re: Πεπραγμένα Εβδομάδας για το Greek Open Source LLM

  • Subject: Re: Πεπραγμένα Εβδομάδας για το Greek Open Source LLM
  • From: Nina Gialoussi <ninagial [ at ] eellak [ dot ] gr>
  • Date: Fri, 1 Mar 2024 20:44:13 +0200
κε Λουρίδα, χαίρετε,

Τώρα έκανα τις πράξεις, είναι 2.274.367 τα τεκμήρια αυτή τη στιγμή έκτασης
από πρόταση και πάνω.
Αυτά μπορούν να καταστούν άμεσα διαθέσιμα μαζί με τον κατατεμαχιστή τους,
αρκεί να συμφωνήσουμε σε ποιό φορμάτ τα θέλετε.

Από εκεί και πέρα τα ορόσημα είναι το βασικό data-warehousing στο δίμηνο,
και το paper με την στατιστική περιγραφή του σώματος στο εξάμηνο.

Στη διάθεσή σας για διευκρινήσεις
ΝΓ

*Νίνα Γιαλλούση | Εταιρεία Ελεύθερου Λογισμικού και Λογισμικού Ανοιχτού
Κώδικα | Greek Free and Open Source Software Alliance*



Στις Παρ 1 Μαρ 2024 στις 8:32 μ.μ., ο/η Panos Louridas <louridas [ at ] grnet [ dot ] gr>
έγραψε:

> Καλησπέρα,
>
> Από τη μεριά μας (ΕΔΥΤΕ) το εξάμηνο για τη διαθεσιμότητα των ελληνικών
> δεδομένων είναι πολύ μεγάλο διάστημα. Πρόθεση μας είναι να ξεκινήσουμε
> αμέσως, στην πορεία μπορεί να βελτιωθούν τα δεδομένα και σε έξι μήνες να
> είναι διαθέσιμα και σε όλους αν δεν γίνεται πιο νωρίς.
>
> Χαιρετισμούς,
>
> πλ
>
> > On 1 Mar 2024, at 5:26 PM, Nina Gialoussi <ninagial [ at ] eellak [ dot ] gr> wrote:
> >
> >
> > Προς:
> > το Διοικητικό Συμβούλιο
> > την Εσωτερική Επιτελική Ομάδα
> > τους Επικεφαλής Ομάδων
> > την Επιστημονική Επιτροπή
> > τους αποδέκτες της λίστας ηλ. ταχυδρομείου “Εργαστήρια Μηχανικής
> Μάθησης” και άλλα ενδιαφερόμενα άτομα
> > Λαμβάνετε αυτό το μήνυμα ως μέρος της σύμβασης εργασίας και στο πλαίσιο
> των ανατεθειμένων μου καθηκόντων η εβδομαδιαία πρόοδος του έργου γλωσσAPI.
> Για απεγγραφή από τη λίστα χρησιμοποιείστε τους προκαθορισμένους συνδέσμους.
> > ΠΕΠΡΑΓΜΕΝΑ
> >
> > Χαίρετε
> >
> > Ολοκληρώθηκε σήμερα ο πρώτος κύκλος συνεντεύξεων για τις θέσεις
> αμειβόμενης πρακτικής άσκησης Activist Data Annotator / Machine Learning
> Engineer στον Οργανισμό Ανοιχτών Τεχνολογιών. Μέσα από τον κύκλο αυτό
> γνωρίσαμε αξιόλογους ανθρώπους με υπόβαθρο στις επιστήμες, στην
> υπολογιστική γλωσσολογία, την επιστήμη υπολογιστών και μηχανική μάθηση,
> καθώς και την αρχειακή έρευνα. Κάποιοι από αυτούς θα στελεχώσουν αναμφίβολα
> το εγχείρημά μας κατά το αμέσως επόμενο διάστημα.
> >
> > Κοντά σε αυτούς θα προστεθούν και οι συνεργάτες υποψήφιοι διδάκτορες
> σημασιολογικής και τεχνικής διαλειτουργικότητας πληροφοριακών συστημάτων
> από το Πανεπιστήμιο Αιγαίου, ενώ έχουν εκδηλώσει ακόμα ενδιαφέρον
> τουλάχιστον 2 εθελοντές με αξιόλογη κατάρτιση σε θέματα που άπτονται στενά
> του εγχειρήματος για ένα Greek Open Source LLM.
> >
> > Με βάση τα παραπάνω είμαστε σε θέση να ανακοινώσουμε σε εύθετο χρόνο
> λεπτομέρειες για τον τρόπο διάθεσης των κειμενικών δεδομένων στην
> ερευνητική κοινότητα, θέμα για το οποίο σας προσκαλούμε να συμβάλλετε με
> υποδείξεις για βελτιστοποίηση της επανάχρησης του corpus από τους χρήστες,
> που είναι βέβαια όλη η ερευνητική κοινότητα.
> >
> > Πρέπει επιπλέον να σημειωθεί ότι το corpus θα επεκτείνεται, για αυτό
> είναι σημαντικό να σκεφτούμε πως τα δεδομένα θα είναι επαναχρησιμοποιήσιμα
> στο διηνεκές.
> >
> > Ακόμα, έλαβε χώρα συνάντηση συντονισμού του Οργανισμού Ανοιχτών
> Τεχνολογιών για την Τεχνητή Νοημοσύνη στην οποία καταρτίστηκαν στόχοι για
> το επόμενο εξάμηνο, λαμβάνοντας υπόψη τις αυξημένες δυνατότητες που μας
> δίνει η εισροή ανθρώπινου δυναμικού στο εγχείρημα, αλλά και οι στρατηγικές
> συνεργασίες του Οργανισμού με εταίρους του τεχνολογικού ερευνητικού
> οικοσυστήματος και τοπικούς κόμβους παροχής υποδομών Τεχνητής Νοημοσύνης,
> αλλά και τις προοπτικές διεθνών συνεργασιών στο πεδίο των πολυγλωσσικών
> μοντέλων ανοιχτής πρόσβασης, όπως το Φινλανδικό Poro που φιλοδοξεί να
> αντιπροσωπεύσει 24 ευρωπαϊκές γλώσσες μέσα από την λογοπαραγωγική
> τεχνολογία.
> >
> > Σε αυτές τις προσπάθειες ο Οργανισμός θα συμμετάσχει πρωτίστως με
> δεδομένα, που θα παρασχεθούν σε διαλειτουργική μορφή, αλλά και με την
> επέκταση των προσπαθειών μας για έναν αποτελεσματικό tokenizer της
> Ελληνικής γλώσσας που παράγουμε απευθείας από τα κειμενικά δεδομένα μας.
> Σύντομα, ακόμα, θα ενημερωθούν τα αποθετήριά μας με ανοιχτά δεδομένα που θα
> επιτρέψουν την αναπαραγωγή αυτών των πεπραγμένων από κάθε ενδιαφερόμενο
> άτομο ή οργανισμό. Τελικός μας σκοπός σε ορίζοντα εξαμήνου είναι η διάθεση
> των κειμενικών δεδομένων μέσα από μια πλατφόρμα ανοιχτής πρόσβασης, που θα
> επιτρέπει παραμετροποιημένη ανάκτηση από τους εταίρους μας αλλά και
> μεμονωμένα άτομα, αλλά και η δημοσίευση μιας διεξοδικής στατιστικής και
> θεματικής επεξεργασίας του σώματος κειμένων, που θεωρούμε ως βέλτιση μορφή
> τεκμηρίωσής του στα διεθνή πρότυπα.
> >
> > Έχοντας πει αυτά, αναπαράγουμε εδώ για ευκολία έναν κατάλογο των έως
> τώρα πεπραγμένων και των κατευθύνσεων που θα ακολουθήσουν
> >
> >     • Απογραφή πηγών και απόκτηση δεδομένων: Ενίσχυση του σώματος
> διαθέσιμων κειμένων, στο τέλος του μηνύματος παρατίθενται πιο αναλυτικές
> πληροφορίες
> >     • Στατιστική Ανάλυση και Προτυποποίηση: Στατιστική ανάλυση του
> σώματος και διερεύνηση της προτυποποιησής του. Πολλαπλά μορφότυπα και
> τεκμηρίωση για διευκόλυνση της επανάχρησής του.
> >     • Βελτιστοποίηση μορφότυπων αποθήκευσης: Χρήση τύπων αρχείων RDS,
> Pickle, Parquet, XML, και SQL
> >     • Δοκιμή και Βελτίωση Κατατεμαχιστή: Ανάπτυξη Greek Tokenizer 160K
> που δοκιμάστηκε στις συλλογές GlobalVoices, Hellenic National Corpus.
> Συνεχίζονται οι προσπάθειες για βελτίωση του tokenizer έχουν ακόμα δοθεί
> οδηγίες για την επανάχρησή του.
> >     • Διαστασιολόγηση και Αναπαραγώγιμη Μεθοδολογία: Με πρότυπο τη
> δημοσίευση του The Pile Paper's (2020) υιοθετούμε μια μεθοδολογία επέκτασης
> και περιγραφής του σώματος κειμένων, και ανάμεσα σε άλλες τεχνικές έχουμε
> εμβαθύνει στη θεματική ανάλυση και οπτικοποίηση του σώματος με εργαλεία
> όπως η LDA
> > Συγκεκριμένα:
> > Οι παρακάτω πηγές βρίσκονται αυτή τη στιγμή σε μορφή SQLITE 3,
> κατατεμαχισμένες σε προτάσεις. (Η προέλευση των δεδομένων αναφέρεται στις
> υποσημειώσεις)
> > Πηγή Αρ. Προτάσεων Bible (1)
> > 33260 Europarl (1)
> > 1597955 GlobalVoices (1)
> > 26621
> > HNC (2)
> > 4614 Wikipedia (1)
> > 116298 Οι παρακάτω πηγές βρίσκονται αυτή τη στιγμή σε μορφή RDS, δηλαδή
> R binaries, που έχουν λίγο χειρότερη συμπίεση από τα PARQUET files. (Η
> προέλευση των δεδομένων αναφέρεται στις υποσημειώσεις)
> > Πηγή Αρ. Τεκμηρίων Αρ. Προτάσεων
> > Gutenberg (3)
> > 351 266796* Δημώδης Γραμματεία (3)
> > 228 181260* Alpaca (4)
> > 51760
> > Greek Legal Code / Train (4)
> > 28536
> > Greek Legal Code / Test (4)
> > 9516
> > Greek Legal Code / Validation (4)
> > 9511
> > * Επελέγησαν μόνο οι προτάσεις που είναι πάνω από 10 λέξεις (αυτό
> απαλείφει τίτλους, μεταφραστικά σημειώματα, και τα όμοια).
> > Εδώ βρίσκονται οι σημειώσεις για την προέλευση των πηγών
> > 1 Opus
> > 2 ILSP
> > 3 Scraped
> > 4 HuggingFace
> >
> > Μελλοντικές Κατευθύνσεις
> >
> >     • Ελληνικές ομάδες γλωσσικής τεχνολογίας: Συνεργασία με ελληνικές
> ομάδες γλωσσικής τεχνολογίας για την προαγωγή της εκπαίδευσης ελληνόφωνων
> LLM ανοιχτής πρόσβασης
> >     • Ελληνικοί κόμβοι υποδομών τεχνητής νοημοσύνης: Συνεργασία με
> ελληνικούς ερευνητικούς κόμβους τεχνητής νοημοσύνης για διάθεση
> υπολογιστικών υποδομών
> >     • Ευρωπαϊκές πρωτοβουλίες πολυγλωσσικών λογοπαραγωγικών μοντέλων:
> Στρατηγικές συνεργασίες εξωτερικού με τις πρωτοβουλίες σε Φινλανδία και
> Γαλλία για την ανάπτυξη πολυγλωσσικών ευρωπαϊκών LLM ανοιχτού κώδικα
> >     • Διαμόρφωση της πλατφόρμας για ανοικτή διάθεση του σώματος
> κειμένων: Ανοικτή διάθεση των υπαρχόντων δεδομένων όπως και αυτών που και
> μελλοντικά θα αποκτηθούν και δημοσιοποίηση των στατιστικών και γλωσσικών
> ιδιοτήτων τους
> >     • Κλιμάκωση της ανθρώπινης προσπάθειας: Άμεση έναρξη της ομάδας
> εργασίας με τους νέους συνεργάτες και φοιτητές αμειβόμενης πρακτικής άσκησης
> >
> > Παρακαλούμε εφόσον γνωρίζετε άτομα που ενδιαφέρονται να συμβάλλουν ή να
> ενημερώνονται για την προσπάθεια προς ένα "Greek Open Source LLM" να τους
> προτείνετε να εγγραφούν στη σχετική λίστα
> > Με εκτίμηση
> > ΝΓ
> > ---
> > Νίνα Γιαλλούση | Εταιρεία Ελεύθερου Λογισμικού και Λογισμικού Ανοιχτού
> Κώδικα | Greek Free and Open Source Software Alliance
> >
>
>
----
Λαμβάνετε αυτό το μήνυμα απο την λίστα: Επιστημονική Επιτροπή ΕΕΛ/ΛΑΚ,
https://lists.ellak.gr/epistimoniki-epitropi-ellak/listinfo.html
Μπορείτε να απεγγραφείτε από τη λίστα στέλνοντας κενό μήνυμα ηλ. ταχυδρομείου στη διεύθυνση <epistimoniki-epitropi-ellak+unsubscribe [ at ] ellak [ dot ] gr>.

πλοήγηση μηνυμάτων