Καλημέρα, Για ενημέρωση δείτε... " Το track στην FOSDEM για "AI and Machine Learning" έχει ενδιαφέρον, πχ Building Open Source Language Models https://fosdem.org/2024/schedule/event/fosdem-2024-2591-building-open-source-language-models/ #FOSDEM . Ελπίζω στην επόμενη FOSDEM <https://fosdem.org> να έχουμε παρουσιάσεις και από Ελλάδα. Θ.Κ. -.- Στις Παρ 26 Ιαν 2024 στις 6:16 μ.μ., ο/η Nina Gialoussi <ninagial [ at ] eellak [ dot ] gr> έγραψε: > Προς: > το Διοικητικό Συμβούλιο > την Εσωτερική Επιτελική Ομάδα > τους Επικεφαλής Ομάδων > την Επιστημονική Επιτροπή > τους αποδέκτες της λίστας ηλ. ταχυδρομείου “Εργαστήρια Μηχανικής Μάθησης” > > Ως μέρος της σύμβασης εργασίας και στο πλαίσιο των ανατεθειμένων μου > καθηκόντων η εβδομαδιαία πρόοδος του έργου γλωσσAPI. *Για απεγγραφή από > τη λίστα χρησιμοποιείστε τους προκαθορισμένους συνδέσμους.* > > > *Προσαρμογή μεθόδου Online Bayesian LDA για στατιστική περιγραφή των > υπαρχόντων τεκμηρίων, και μελλοντική επανάχρησή του σε νέα τεκμήρια* > > Ακολουθώ την δημοσίευση The Pile Paper <https://arxiv.org/abs/2101.00027> > η οποία από την έκδοσή της <https://pile.eleuther.ai/> το 2020 είχε > σημαντικό ρόλο <https://github.com/EleutherAI/the-pile> στην ανάπτυξη της > αγγλόφωνης λογοπαραγωγικής ΤΝ. > > Το σημαντικό για το έργο μας κείμενο περιλαμβάνει μια πλήρη μεθοδολογία > για την επέκταση και την περιγραφή του σώματος κειμένων. > > Εμείς δεν έχουμε απαραίτητα όλα τα εργαλεία που οι ερευνητές εκείνοι > χρησιμοποίησαν, μπορεί όμως να αναπτύξουμε, έτσι ώστε να παίξει η ίδια η > δημοσίευση το ρόλο οδικού χάρτη στη δική μας προσπάθεια που είναι ίσως > συγκρίσιμη, αν λάβουμε υπόψη την διάθεση ενός αντιπροσωπευτικού δείγματος > της ελληνικής γλώσσας την οποία προσπαθούμε να πετύχουμε. > > Τα πηγαία αρχεία για την ανάλυση των topics βρίσκονται > <https://code.ellak.gr/ninagial/roberta_further_train/-/commit/8023d7ed0e57466762e01a965d19e384c557cc42> > στο αποθετήριο. > > Μπορείτε να χρησιμοποιήσετε το Jupyter Notebook που θα βρείτε > <https://code.ellak.gr/ninagial/roberta_further_train/-/blob/master/lda_try_01.ipynb> > σε αυτό, ώστε να οπτικοποιήσετε την ανάλυση εως τώρα. > > Αν δεν μπορείτε να το κάνετε αυτό, υπάρχουν ακόμα > <https://code.ellak.gr/ninagial/roberta_further_train/-/blob/master/lda_screens.zip> > κάποια στιγμιότυπα οθόνης. > > Προστέθηκε ακόμα κάποιο βασικό υλικό για να αρχίσει η στατιστική περιγραφή > <https://code.ellak.gr/ninagial/roberta_further_train/-/commit/32dbcc5b957a960cdcd8d9fa73f11dec741265ce> > των διαθέσιμων δεδομένων, επίσης στα πρότυπα της ίδιας μεθοδολογίας. > > Αυτή η διαδικασία μπορεί να δώσει μια “ματιά” μέσα στη σύσταση του σώματος > κειμένων που έχουμε συγκεντρώσει ήδη. > > Μπορούμε να πάρουμε ως σημείο αναφοράς το Hellenic National Corpus και να > εφαρμόσουμε αυτήν και άλλες μεθόδους που βρίσκονται στο Pile Paper. > > Μπορεί αυτό να είναι μια σχετικά επιφανειακή αντιγραφή της δομής του > αρχικού paper (συνέκριναν συγκεκριμένα απέναντι στο Common Crawl που ήταν > σύνηθες σώμα παραδειγμάτων εκπαίδευσης). Εφόσον όμως έχουμε τις > μεθοδολογίες και τους μηχανισμούς σύγκρισης, αυτό θα λειτουργήσει > σωρευτικά. Αφού θα προσθέσουμε αρκετές ακόμα διαφορετικές πηγές, θα έχουμε > μια ποσοτική αποτίμηση του εύρους της κάλυψης της ελληνικής γλώσσας, και > ένα άμεσο μέτρο σύγκρισης με ένα σημαντικό resource της αγγλόφωνης > λογοπαραγωγικής ΤΝ. > > Όπου λείπουν τα σχετικά εργαλεία στα ελληνικά, τότε αυτομάτως θα > εντάσσουμε στον οδικό χάρτη την ανάπτυξη ή υποκατάσταση αυτών των εργαλείων. > Ένα τέτοιο παράδειγμα είναι τα φίλτρα αναγνώρισης ακατάλληλου λεξιλογίου > καθώς και αναγνώρισης των διαλέκτων της αγγλικής. > Για τους ερευνητές αυτούς μεγάλο μέρος αυτής της δουλειάς έγινε με έτοιμα > διαθέσιμα εργαλεία. Για εμάς αυτό μπορεί να μην είναι το ίδιο. > Βάζοντας όμως αμέσως τα εργαλεία που λείπουν στον οδικό χάρτη θα μπορούμε > ίσως, συν τω χρόνω, να αναπαράγουμε το σημαντικό αυτό βήμα και να > διαθέσουμε ένα υψηλής ποιότητας σώμα ανοιχτών κειμενικών δεδομένων. > > Τέλος, προστέθηκαν 2 ακόμα > <https://github.com/eellak/glossAPI/wiki/%CE%9A%CE%B1%CF%84%CE%B1%CE%B3%CF%81%CE%B1%CF%86%CE%AE-%CE%A0%CE%B7%CE%B3%CF%8E%CE%BD#%CE%B2%CE%B9%CE%BA%CE%B9%CF%80%CE%B1%CE%B9%CE%B4%CE%B5%CE%AF%CE%B1> > πηγές στην απογραφή κειμενικών δεδομένων (Συλλογές Ιδρύματος Ευγενίδου, > Greek Legal Code). > > Με εκτίμηση > > ΝΓ > -- > *Νίνα Γιαλλούση | Εταιρεία Ελεύθερου Λογισμικού και Λογισμικού Ανοιχτού > Κώδικα | Greek Free and Open Source Software Alliance* > > -- Θεόδωρος Καρούνος, PGP KEY <https://www.karounos.gr/blog/theodoros-g-karounos-public-pgp-key>, <http://keys.gnupg.net/pks/lookup?op=get&search=0xBBDE6ABE85AE3458> Διεύθυνση Ψηφιακού Μετασχηματισμού και Ψηφιακών Ικανοτήτων *Τηλ.:*210-7474-269, tkarounos [ at ] admin [ dot ] grnet [ dot ] gr, ΕΔΥΤΕ Α.Ε., grnet.gr | Κηφισίας 7, 115 23
---- Λαμβάνετε αυτό το μήνυμα απο την λίστα: Επιστημονική Επιτροπή ΕΕΛ/ΛΑΚ, https://lists.ellak.gr/epistimoniki-epitropi-ellak/listinfo.html Μπορείτε να απεγγραφείτε από τη λίστα στέλνοντας κενό μήνυμα ηλ. ταχυδρομείου στη διεύθυνση <epistimoniki-epitropi-ellak+unsubscribe [ at ] ellak [ dot ] gr>.