ΕΕΛΛΑΚ - Λίστες Ταχυδρομείου

Re: Πεπραγμένα Εβδομάδας για το Greek Open Source LLM

  • Subject: Re: Πεπραγμένα Εβδομάδας για το Greek Open Source LLM
  • From: Nina Gialoussi <ninagial [ at ] eellak [ dot ] gr>
  • Date: Fri, 1 Mar 2024 20:49:52 +0200
Αυτό θα σας το απαντήσω την επόμενη Παρασκευή.

*Νίνα Γιαλλούση | Εταιρεία Ελεύθερου Λογισμικού και Λογισμικού Ανοιχτού
Κώδικα | Greek Free and Open Source Software Alliance*



Στις Παρ 1 Μαρ 2024 στις 8:46 μ.μ., ο/η Panos Louridas <louridas [ at ] grnet [ dot ] gr>
έγραψε:

> Ευχαριστώ. Σε πόσα tokens αντιστοιχούν, whitespace-delimited;
>
> > On 1 Mar 2024, at 8:44 PM, Nina Gialoussi <ninagial [ at ] eellak [ dot ] gr> wrote:
> >
> > κε Λουρίδα, χαίρετε,
> >
> > Τώρα έκανα τις πράξεις, είναι 2.274.367 τα τεκμήρια αυτή τη στιγμή
> έκτασης από πρόταση και πάνω.
> > Αυτά μπορούν να καταστούν άμεσα διαθέσιμα μαζί με τον κατατεμαχιστή
> τους, αρκεί να συμφωνήσουμε σε ποιό φορμάτ τα θέλετε.
> >
> > Από εκεί και πέρα τα ορόσημα είναι το βασικό data-warehousing στο
> δίμηνο, και το paper με την στατιστική περιγραφή του σώματος στο εξάμηνο.
> >
> > Στη διάθεσή σας για διευκρινήσεις
> > ΝΓ
> >
> > Νίνα Γιαλλούση | Εταιρεία Ελεύθερου Λογισμικού και Λογισμικού Ανοιχτού
> Κώδικα | Greek Free and Open Source Software Alliance
> >
> >
> >
> > Στις Παρ 1 Μαρ 2024 στις 8:32 μ.μ., ο/η Panos Louridas <
> louridas [ at ] grnet [ dot ] gr> έγραψε:
> > Καλησπέρα,
> >
> > Από τη μεριά μας (ΕΔΥΤΕ) το εξάμηνο για τη διαθεσιμότητα των ελληνικών
> δεδομένων είναι πολύ μεγάλο διάστημα. Πρόθεση μας είναι να ξεκινήσουμε
> αμέσως, στην πορεία μπορεί να βελτιωθούν τα δεδομένα και σε έξι μήνες να
> είναι διαθέσιμα και σε όλους αν δεν γίνεται πιο νωρίς.
> >
> > Χαιρετισμούς,
> >
> > πλ
> >
> > > On 1 Mar 2024, at 5:26 PM, Nina Gialoussi <ninagial [ at ] eellak [ dot ] gr> wrote:
> > >
> > >
> > > Προς:
> > > το Διοικητικό Συμβούλιο
> > > την Εσωτερική Επιτελική Ομάδα
> > > τους Επικεφαλής Ομάδων
> > > την Επιστημονική Επιτροπή
> > > τους αποδέκτες της λίστας ηλ. ταχυδρομείου “Εργαστήρια Μηχανικής
> Μάθησης” και άλλα ενδιαφερόμενα άτομα
> > > Λαμβάνετε αυτό το μήνυμα ως μέρος της σύμβασης εργασίας και στο
> πλαίσιο των ανατεθειμένων μου καθηκόντων η εβδομαδιαία πρόοδος του έργου
> γλωσσAPI. Για απεγγραφή από τη λίστα χρησιμοποιείστε τους προκαθορισμένους
> συνδέσμους.
> > > ΠΕΠΡΑΓΜΕΝΑ
> > >
> > > Χαίρετε
> > >
> > > Ολοκληρώθηκε σήμερα ο πρώτος κύκλος συνεντεύξεων για τις θέσεις
> αμειβόμενης πρακτικής άσκησης Activist Data Annotator / Machine Learning
> Engineer στον Οργανισμό Ανοιχτών Τεχνολογιών. Μέσα από τον κύκλο αυτό
> γνωρίσαμε αξιόλογους ανθρώπους με υπόβαθρο στις επιστήμες, στην
> υπολογιστική γλωσσολογία, την επιστήμη υπολογιστών και μηχανική μάθηση,
> καθώς και την αρχειακή έρευνα. Κάποιοι από αυτούς θα στελεχώσουν αναμφίβολα
> το εγχείρημά μας κατά το αμέσως επόμενο διάστημα.
> > >
> > > Κοντά σε αυτούς θα προστεθούν και οι συνεργάτες υποψήφιοι διδάκτορες
> σημασιολογικής και τεχνικής διαλειτουργικότητας πληροφοριακών συστημάτων
> από το Πανεπιστήμιο Αιγαίου, ενώ έχουν εκδηλώσει ακόμα ενδιαφέρον
> τουλάχιστον 2 εθελοντές με αξιόλογη κατάρτιση σε θέματα που άπτονται στενά
> του εγχειρήματος για ένα Greek Open Source LLM.
> > >
> > > Με βάση τα παραπάνω είμαστε σε θέση να ανακοινώσουμε σε εύθετο χρόνο
> λεπτομέρειες για τον τρόπο διάθεσης των κειμενικών δεδομένων στην
> ερευνητική κοινότητα, θέμα για το οποίο σας προσκαλούμε να συμβάλλετε με
> υποδείξεις για βελτιστοποίηση της επανάχρησης του corpus από τους χρήστες,
> που είναι βέβαια όλη η ερευνητική κοινότητα.
> > >
> > > Πρέπει επιπλέον να σημειωθεί ότι το corpus θα επεκτείνεται, για αυτό
> είναι σημαντικό να σκεφτούμε πως τα δεδομένα θα είναι επαναχρησιμοποιήσιμα
> στο διηνεκές.
> > >
> > > Ακόμα, έλαβε χώρα συνάντηση συντονισμού του Οργανισμού Ανοιχτών
> Τεχνολογιών για την Τεχνητή Νοημοσύνη στην οποία καταρτίστηκαν στόχοι για
> το επόμενο εξάμηνο, λαμβάνοντας υπόψη τις αυξημένες δυνατότητες που μας
> δίνει η εισροή ανθρώπινου δυναμικού στο εγχείρημα, αλλά και οι στρατηγικές
> συνεργασίες του Οργανισμού με εταίρους του τεχνολογικού ερευνητικού
> οικοσυστήματος και τοπικούς κόμβους παροχής υποδομών Τεχνητής Νοημοσύνης,
> αλλά και τις προοπτικές διεθνών συνεργασιών στο πεδίο των πολυγλωσσικών
> μοντέλων ανοιχτής πρόσβασης, όπως το Φινλανδικό Poro που φιλοδοξεί να
> αντιπροσωπεύσει 24 ευρωπαϊκές γλώσσες μέσα από την λογοπαραγωγική
> τεχνολογία.
> > >
> > > Σε αυτές τις προσπάθειες ο Οργανισμός θα συμμετάσχει πρωτίστως με
> δεδομένα, που θα παρασχεθούν σε διαλειτουργική μορφή, αλλά και με την
> επέκταση των προσπαθειών μας για έναν αποτελεσματικό tokenizer της
> Ελληνικής γλώσσας που παράγουμε απευθείας από τα κειμενικά δεδομένα μας.
> Σύντομα, ακόμα, θα ενημερωθούν τα αποθετήριά μας με ανοιχτά δεδομένα που θα
> επιτρέψουν την αναπαραγωγή αυτών των πεπραγμένων από κάθε ενδιαφερόμενο
> άτομο ή οργανισμό. Τελικός μας σκοπός σε ορίζοντα εξαμήνου είναι η διάθεση
> των κειμενικών δεδομένων μέσα από μια πλατφόρμα ανοιχτής πρόσβασης, που θα
> επιτρέπει παραμετροποιημένη ανάκτηση από τους εταίρους μας αλλά και
> μεμονωμένα άτομα, αλλά και η δημοσίευση μιας διεξοδικής στατιστικής και
> θεματικής επεξεργασίας του σώματος κειμένων, που θεωρούμε ως βέλτιση μορφή
> τεκμηρίωσής του στα διεθνή πρότυπα.
> > >
> > > Έχοντας πει αυτά, αναπαράγουμε εδώ για ευκολία έναν κατάλογο των έως
> τώρα πεπραγμένων και των κατευθύνσεων που θα ακολουθήσουν
> > >
> > >     • Απογραφή πηγών και απόκτηση δεδομένων: Ενίσχυση του σώματος
> διαθέσιμων κειμένων, στο τέλος του μηνύματος παρατίθενται πιο αναλυτικές
> πληροφορίες
> > >     • Στατιστική Ανάλυση και Προτυποποίηση: Στατιστική ανάλυση του
> σώματος και διερεύνηση της προτυποποιησής του. Πολλαπλά μορφότυπα και
> τεκμηρίωση για διευκόλυνση της επανάχρησής του.
> > >     • Βελτιστοποίηση μορφότυπων αποθήκευσης: Χρήση τύπων αρχείων RDS,
> Pickle, Parquet, XML, και SQL
> > >     • Δοκιμή και Βελτίωση Κατατεμαχιστή: Ανάπτυξη Greek Tokenizer 160K
> που δοκιμάστηκε στις συλλογές GlobalVoices, Hellenic National Corpus.
> Συνεχίζονται οι προσπάθειες για βελτίωση του tokenizer έχουν ακόμα δοθεί
> οδηγίες για την επανάχρησή του.
> > >     • Διαστασιολόγηση και Αναπαραγώγιμη Μεθοδολογία: Με πρότυπο τη
> δημοσίευση του The Pile Paper's (2020) υιοθετούμε μια μεθοδολογία επέκτασης
> και περιγραφής του σώματος κειμένων, και ανάμεσα σε άλλες τεχνικές έχουμε
> εμβαθύνει στη θεματική ανάλυση και οπτικοποίηση του σώματος με εργαλεία
> όπως η LDA
> > > Συγκεκριμένα:
> > > Οι παρακάτω πηγές βρίσκονται αυτή τη στιγμή σε μορφή SQLITE 3,
> κατατεμαχισμένες σε προτάσεις. (Η προέλευση των δεδομένων αναφέρεται στις
> υποσημειώσεις)
> > > Πηγή Αρ. Προτάσεων Bible (1)
> > > 33260 Europarl (1)
> > > 1597955 GlobalVoices (1)
> > > 26621
> > > HNC (2)
> > > 4614 Wikipedia (1)
> > > 116298 Οι παρακάτω πηγές βρίσκονται αυτή τη στιγμή σε μορφή RDS,
> δηλαδή R binaries, που έχουν λίγο χειρότερη συμπίεση από τα PARQUET files.
> (Η προέλευση των δεδομένων αναφέρεται στις υποσημειώσεις)
> > > Πηγή Αρ. Τεκμηρίων Αρ. Προτάσεων
> > > Gutenberg (3)
> > > 351 266796* Δημώδης Γραμματεία (3)
> > > 228 181260* Alpaca (4)
> > > 51760
> > > Greek Legal Code / Train (4)
> > > 28536
> > > Greek Legal Code / Test (4)
> > > 9516
> > > Greek Legal Code / Validation (4)
> > > 9511
> > > * Επελέγησαν μόνο οι προτάσεις που είναι πάνω από 10 λέξεις (αυτό
> απαλείφει τίτλους, μεταφραστικά σημειώματα, και τα όμοια).
> > > Εδώ βρίσκονται οι σημειώσεις για την προέλευση των πηγών
> > > 1 Opus
> > > 2 ILSP
> > > 3 Scraped
> > > 4 HuggingFace
> > >
> > > Μελλοντικές Κατευθύνσεις
> > >
> > >     • Ελληνικές ομάδες γλωσσικής τεχνολογίας: Συνεργασία με ελληνικές
> ομάδες γλωσσικής τεχνολογίας για την προαγωγή της εκπαίδευσης ελληνόφωνων
> LLM ανοιχτής πρόσβασης
> > >     • Ελληνικοί κόμβοι υποδομών τεχνητής νοημοσύνης: Συνεργασία με
> ελληνικούς ερευνητικούς κόμβους τεχνητής νοημοσύνης για διάθεση
> υπολογιστικών υποδομών
> > >     • Ευρωπαϊκές πρωτοβουλίες πολυγλωσσικών λογοπαραγωγικών μοντέλων:
> Στρατηγικές συνεργασίες εξωτερικού με τις πρωτοβουλίες σε Φινλανδία και
> Γαλλία για την ανάπτυξη πολυγλωσσικών ευρωπαϊκών LLM ανοιχτού κώδικα
> > >     • Διαμόρφωση της πλατφόρμας για ανοικτή διάθεση του σώματος
> κειμένων: Ανοικτή διάθεση των υπαρχόντων δεδομένων όπως και αυτών που και
> μελλοντικά θα αποκτηθούν και δημοσιοποίηση των στατιστικών και γλωσσικών
> ιδιοτήτων τους
> > >     • Κλιμάκωση της ανθρώπινης προσπάθειας: Άμεση έναρξη της ομάδας
> εργασίας με τους νέους συνεργάτες και φοιτητές αμειβόμενης πρακτικής άσκησης
> > >
> > > Παρακαλούμε εφόσον γνωρίζετε άτομα που ενδιαφέρονται να συμβάλλουν ή
> να ενημερώνονται για την προσπάθεια προς ένα "Greek Open Source LLM" να
> τους προτείνετε να εγγραφούν στη σχετική λίστα
> > > Με εκτίμηση
> > > ΝΓ
> > > ---
> > > Νίνα Γιαλλούση | Εταιρεία Ελεύθερου Λογισμικού και Λογισμικού Ανοιχτού
> Κώδικα | Greek Free and Open Source Software Alliance
> > >
> >
>
>
----
Λαμβάνετε αυτό το μήνυμα απο την λίστα: Επιστημονική Επιτροπή ΕΕΛ/ΛΑΚ,
https://lists.ellak.gr/epistimoniki-epitropi-ellak/listinfo.html
Μπορείτε να απεγγραφείτε από τη λίστα στέλνοντας κενό μήνυμα ηλ. ταχυδρομείου στη διεύθυνση <epistimoniki-epitropi-ellak+unsubscribe [ at ] ellak [ dot ] gr>.

πλοήγηση μηνυμάτων