Αυτό θα σας το απαντήσω την επόμενη Παρασκευή. *Νίνα Γιαλλούση | Εταιρεία Ελεύθερου Λογισμικού και Λογισμικού Ανοιχτού Κώδικα | Greek Free and Open Source Software Alliance* Στις Παρ 1 Μαρ 2024 στις 8:46 μ.μ., ο/η Panos Louridas <louridas [ at ] grnet [ dot ] gr> έγραψε: > Ευχαριστώ. Σε πόσα tokens αντιστοιχούν, whitespace-delimited; > > > On 1 Mar 2024, at 8:44 PM, Nina Gialoussi <ninagial [ at ] eellak [ dot ] gr> wrote: > > > > κε Λουρίδα, χαίρετε, > > > > Τώρα έκανα τις πράξεις, είναι 2.274.367 τα τεκμήρια αυτή τη στιγμή > έκτασης από πρόταση και πάνω. > > Αυτά μπορούν να καταστούν άμεσα διαθέσιμα μαζί με τον κατατεμαχιστή > τους, αρκεί να συμφωνήσουμε σε ποιό φορμάτ τα θέλετε. > > > > Από εκεί και πέρα τα ορόσημα είναι το βασικό data-warehousing στο > δίμηνο, και το paper με την στατιστική περιγραφή του σώματος στο εξάμηνο. > > > > Στη διάθεσή σας για διευκρινήσεις > > ΝΓ > > > > Νίνα Γιαλλούση | Εταιρεία Ελεύθερου Λογισμικού και Λογισμικού Ανοιχτού > Κώδικα | Greek Free and Open Source Software Alliance > > > > > > > > Στις Παρ 1 Μαρ 2024 στις 8:32 μ.μ., ο/η Panos Louridas < > louridas [ at ] grnet [ dot ] gr> έγραψε: > > Καλησπέρα, > > > > Από τη μεριά μας (ΕΔΥΤΕ) το εξάμηνο για τη διαθεσιμότητα των ελληνικών > δεδομένων είναι πολύ μεγάλο διάστημα. Πρόθεση μας είναι να ξεκινήσουμε > αμέσως, στην πορεία μπορεί να βελτιωθούν τα δεδομένα και σε έξι μήνες να > είναι διαθέσιμα και σε όλους αν δεν γίνεται πιο νωρίς. > > > > Χαιρετισμούς, > > > > πλ > > > > > On 1 Mar 2024, at 5:26 PM, Nina Gialoussi <ninagial [ at ] eellak [ dot ] gr> wrote: > > > > > > > > > Προς: > > > το Διοικητικό Συμβούλιο > > > την Εσωτερική Επιτελική Ομάδα > > > τους Επικεφαλής Ομάδων > > > την Επιστημονική Επιτροπή > > > τους αποδέκτες της λίστας ηλ. ταχυδρομείου “Εργαστήρια Μηχανικής > Μάθησης” και άλλα ενδιαφερόμενα άτομα > > > Λαμβάνετε αυτό το μήνυμα ως μέρος της σύμβασης εργασίας και στο > πλαίσιο των ανατεθειμένων μου καθηκόντων η εβδομαδιαία πρόοδος του έργου > γλωσσAPI. Για απεγγραφή από τη λίστα χρησιμοποιείστε τους προκαθορισμένους > συνδέσμους. > > > ΠΕΠΡΑΓΜΕΝΑ > > > > > > Χαίρετε > > > > > > Ολοκληρώθηκε σήμερα ο πρώτος κύκλος συνεντεύξεων για τις θέσεις > αμειβόμενης πρακτικής άσκησης Activist Data Annotator / Machine Learning > Engineer στον Οργανισμό Ανοιχτών Τεχνολογιών. Μέσα από τον κύκλο αυτό > γνωρίσαμε αξιόλογους ανθρώπους με υπόβαθρο στις επιστήμες, στην > υπολογιστική γλωσσολογία, την επιστήμη υπολογιστών και μηχανική μάθηση, > καθώς και την αρχειακή έρευνα. Κάποιοι από αυτούς θα στελεχώσουν αναμφίβολα > το εγχείρημά μας κατά το αμέσως επόμενο διάστημα. > > > > > > Κοντά σε αυτούς θα προστεθούν και οι συνεργάτες υποψήφιοι διδάκτορες > σημασιολογικής και τεχνικής διαλειτουργικότητας πληροφοριακών συστημάτων > από το Πανεπιστήμιο Αιγαίου, ενώ έχουν εκδηλώσει ακόμα ενδιαφέρον > τουλάχιστον 2 εθελοντές με αξιόλογη κατάρτιση σε θέματα που άπτονται στενά > του εγχειρήματος για ένα Greek Open Source LLM. > > > > > > Με βάση τα παραπάνω είμαστε σε θέση να ανακοινώσουμε σε εύθετο χρόνο > λεπτομέρειες για τον τρόπο διάθεσης των κειμενικών δεδομένων στην > ερευνητική κοινότητα, θέμα για το οποίο σας προσκαλούμε να συμβάλλετε με > υποδείξεις για βελτιστοποίηση της επανάχρησης του corpus από τους χρήστες, > που είναι βέβαια όλη η ερευνητική κοινότητα. > > > > > > Πρέπει επιπλέον να σημειωθεί ότι το corpus θα επεκτείνεται, για αυτό > είναι σημαντικό να σκεφτούμε πως τα δεδομένα θα είναι επαναχρησιμοποιήσιμα > στο διηνεκές. > > > > > > Ακόμα, έλαβε χώρα συνάντηση συντονισμού του Οργανισμού Ανοιχτών > Τεχνολογιών για την Τεχνητή Νοημοσύνη στην οποία καταρτίστηκαν στόχοι για > το επόμενο εξάμηνο, λαμβάνοντας υπόψη τις αυξημένες δυνατότητες που μας > δίνει η εισροή ανθρώπινου δυναμικού στο εγχείρημα, αλλά και οι στρατηγικές > συνεργασίες του Οργανισμού με εταίρους του τεχνολογικού ερευνητικού > οικοσυστήματος και τοπικούς κόμβους παροχής υποδομών Τεχνητής Νοημοσύνης, > αλλά και τις προοπτικές διεθνών συνεργασιών στο πεδίο των πολυγλωσσικών > μοντέλων ανοιχτής πρόσβασης, όπως το Φινλανδικό Poro που φιλοδοξεί να > αντιπροσωπεύσει 24 ευρωπαϊκές γλώσσες μέσα από την λογοπαραγωγική > τεχνολογία. > > > > > > Σε αυτές τις προσπάθειες ο Οργανισμός θα συμμετάσχει πρωτίστως με > δεδομένα, που θα παρασχεθούν σε διαλειτουργική μορφή, αλλά και με την > επέκταση των προσπαθειών μας για έναν αποτελεσματικό tokenizer της > Ελληνικής γλώσσας που παράγουμε απευθείας από τα κειμενικά δεδομένα μας. > Σύντομα, ακόμα, θα ενημερωθούν τα αποθετήριά μας με ανοιχτά δεδομένα που θα > επιτρέψουν την αναπαραγωγή αυτών των πεπραγμένων από κάθε ενδιαφερόμενο > άτομο ή οργανισμό. Τελικός μας σκοπός σε ορίζοντα εξαμήνου είναι η διάθεση > των κειμενικών δεδομένων μέσα από μια πλατφόρμα ανοιχτής πρόσβασης, που θα > επιτρέπει παραμετροποιημένη ανάκτηση από τους εταίρους μας αλλά και > μεμονωμένα άτομα, αλλά και η δημοσίευση μιας διεξοδικής στατιστικής και > θεματικής επεξεργασίας του σώματος κειμένων, που θεωρούμε ως βέλτιση μορφή > τεκμηρίωσής του στα διεθνή πρότυπα. > > > > > > Έχοντας πει αυτά, αναπαράγουμε εδώ για ευκολία έναν κατάλογο των έως > τώρα πεπραγμένων και των κατευθύνσεων που θα ακολουθήσουν > > > > > > • Απογραφή πηγών και απόκτηση δεδομένων: Ενίσχυση του σώματος > διαθέσιμων κειμένων, στο τέλος του μηνύματος παρατίθενται πιο αναλυτικές > πληροφορίες > > > • Στατιστική Ανάλυση και Προτυποποίηση: Στατιστική ανάλυση του > σώματος και διερεύνηση της προτυποποιησής του. Πολλαπλά μορφότυπα και > τεκμηρίωση για διευκόλυνση της επανάχρησής του. > > > • Βελτιστοποίηση μορφότυπων αποθήκευσης: Χρήση τύπων αρχείων RDS, > Pickle, Parquet, XML, και SQL > > > • Δοκιμή και Βελτίωση Κατατεμαχιστή: Ανάπτυξη Greek Tokenizer 160K > που δοκιμάστηκε στις συλλογές GlobalVoices, Hellenic National Corpus. > Συνεχίζονται οι προσπάθειες για βελτίωση του tokenizer έχουν ακόμα δοθεί > οδηγίες για την επανάχρησή του. > > > • Διαστασιολόγηση και Αναπαραγώγιμη Μεθοδολογία: Με πρότυπο τη > δημοσίευση του The Pile Paper's (2020) υιοθετούμε μια μεθοδολογία επέκτασης > και περιγραφής του σώματος κειμένων, και ανάμεσα σε άλλες τεχνικές έχουμε > εμβαθύνει στη θεματική ανάλυση και οπτικοποίηση του σώματος με εργαλεία > όπως η LDA > > > Συγκεκριμένα: > > > Οι παρακάτω πηγές βρίσκονται αυτή τη στιγμή σε μορφή SQLITE 3, > κατατεμαχισμένες σε προτάσεις. (Η προέλευση των δεδομένων αναφέρεται στις > υποσημειώσεις) > > > Πηγή Αρ. Προτάσεων Bible (1) > > > 33260 Europarl (1) > > > 1597955 GlobalVoices (1) > > > 26621 > > > HNC (2) > > > 4614 Wikipedia (1) > > > 116298 Οι παρακάτω πηγές βρίσκονται αυτή τη στιγμή σε μορφή RDS, > δηλαδή R binaries, που έχουν λίγο χειρότερη συμπίεση από τα PARQUET files. > (Η προέλευση των δεδομένων αναφέρεται στις υποσημειώσεις) > > > Πηγή Αρ. Τεκμηρίων Αρ. Προτάσεων > > > Gutenberg (3) > > > 351 266796* Δημώδης Γραμματεία (3) > > > 228 181260* Alpaca (4) > > > 51760 > > > Greek Legal Code / Train (4) > > > 28536 > > > Greek Legal Code / Test (4) > > > 9516 > > > Greek Legal Code / Validation (4) > > > 9511 > > > * Επελέγησαν μόνο οι προτάσεις που είναι πάνω από 10 λέξεις (αυτό > απαλείφει τίτλους, μεταφραστικά σημειώματα, και τα όμοια). > > > Εδώ βρίσκονται οι σημειώσεις για την προέλευση των πηγών > > > 1 Opus > > > 2 ILSP > > > 3 Scraped > > > 4 HuggingFace > > > > > > Μελλοντικές Κατευθύνσεις > > > > > > • Ελληνικές ομάδες γλωσσικής τεχνολογίας: Συνεργασία με ελληνικές > ομάδες γλωσσικής τεχνολογίας για την προαγωγή της εκπαίδευσης ελληνόφωνων > LLM ανοιχτής πρόσβασης > > > • Ελληνικοί κόμβοι υποδομών τεχνητής νοημοσύνης: Συνεργασία με > ελληνικούς ερευνητικούς κόμβους τεχνητής νοημοσύνης για διάθεση > υπολογιστικών υποδομών > > > • Ευρωπαϊκές πρωτοβουλίες πολυγλωσσικών λογοπαραγωγικών μοντέλων: > Στρατηγικές συνεργασίες εξωτερικού με τις πρωτοβουλίες σε Φινλανδία και > Γαλλία για την ανάπτυξη πολυγλωσσικών ευρωπαϊκών LLM ανοιχτού κώδικα > > > • Διαμόρφωση της πλατφόρμας για ανοικτή διάθεση του σώματος > κειμένων: Ανοικτή διάθεση των υπαρχόντων δεδομένων όπως και αυτών που και > μελλοντικά θα αποκτηθούν και δημοσιοποίηση των στατιστικών και γλωσσικών > ιδιοτήτων τους > > > • Κλιμάκωση της ανθρώπινης προσπάθειας: Άμεση έναρξη της ομάδας > εργασίας με τους νέους συνεργάτες και φοιτητές αμειβόμενης πρακτικής άσκησης > > > > > > Παρακαλούμε εφόσον γνωρίζετε άτομα που ενδιαφέρονται να συμβάλλουν ή > να ενημερώνονται για την προσπάθεια προς ένα "Greek Open Source LLM" να > τους προτείνετε να εγγραφούν στη σχετική λίστα > > > Με εκτίμηση > > > ΝΓ > > > --- > > > Νίνα Γιαλλούση | Εταιρεία Ελεύθερου Λογισμικού και Λογισμικού Ανοιχτού > Κώδικα | Greek Free and Open Source Software Alliance > > > > > > >
---- Λαμβάνετε αυτό το μήνυμα απο την λίστα: Επιστημονική Επιτροπή ΕΕΛ/ΛΑΚ, https://lists.ellak.gr/epistimoniki-epitropi-ellak/listinfo.html Μπορείτε να απεγγραφείτε από τη λίστα στέλνοντας κενό μήνυμα ηλ. ταχυδρομείου στη διεύθυνση <epistimoniki-epitropi-ellak+unsubscribe [ at ] ellak [ dot ] gr>.