Προς: το Διοικητικό Συμβούλιο την Εσωτερική Επιτελική Ομάδα τους Επικεφαλής Ομάδων την Επιστημονική Επιτροπή τους αποδέκτες της λίστας ηλ. ταχυδρομείου “Εργαστήρια Μηχανικής Μάθησης” Ως μέρος της σύμβασης εργασίας και στο πλαίσιο των ανατεθειμένων μου καθηκόντων η εβδομαδιαία πρόοδος του έργου γλωσσAPI. *Για απεγγραφή από τη λίστα χρησιμοποιείστε τους προκαθορισμένους συνδέσμους.* *Προσαρμογή μεθόδου Online Bayesian LDA για στατιστική περιγραφή των υπαρχόντων τεκμηρίων, και μελλοντική επανάχρησή του σε νέα τεκμήρια* Ακολουθώ την δημοσίευση The Pile Paper <https://arxiv.org/abs/2101.00027> η οποία από την έκδοσή της <https://pile.eleuther.ai/> το 2020 είχε σημαντικό ρόλο <https://github.com/EleutherAI/the-pile> στην ανάπτυξη της αγγλόφωνης λογοπαραγωγικής ΤΝ. Το σημαντικό για το έργο μας κείμενο περιλαμβάνει μια πλήρη μεθοδολογία για την επέκταση και την περιγραφή του σώματος κειμένων. Εμείς δεν έχουμε απαραίτητα όλα τα εργαλεία που οι ερευνητές εκείνοι χρησιμοποίησαν, μπορεί όμως να αναπτύξουμε, έτσι ώστε να παίξει η ίδια η δημοσίευση το ρόλο οδικού χάρτη στη δική μας προσπάθεια που είναι ίσως συγκρίσιμη, αν λάβουμε υπόψη την διάθεση ενός αντιπροσωπευτικού δείγματος της ελληνικής γλώσσας την οποία προσπαθούμε να πετύχουμε. Τα πηγαία αρχεία για την ανάλυση των topics βρίσκονται <https://code.ellak.gr/ninagial/roberta_further_train/-/commit/8023d7ed0e57466762e01a965d19e384c557cc42> στο αποθετήριο. Μπορείτε να χρησιμοποιήσετε το Jupyter Notebook που θα βρείτε <https://code.ellak.gr/ninagial/roberta_further_train/-/blob/master/lda_try_01.ipynb> σε αυτό, ώστε να οπτικοποιήσετε την ανάλυση εως τώρα. Αν δεν μπορείτε να το κάνετε αυτό, υπάρχουν ακόμα <https://code.ellak.gr/ninagial/roberta_further_train/-/blob/master/lda_screens.zip> κάποια στιγμιότυπα οθόνης. Προστέθηκε ακόμα κάποιο βασικό υλικό για να αρχίσει η στατιστική περιγραφή <https://code.ellak.gr/ninagial/roberta_further_train/-/commit/32dbcc5b957a960cdcd8d9fa73f11dec741265ce> των διαθέσιμων δεδομένων, επίσης στα πρότυπα της ίδιας μεθοδολογίας. Αυτή η διαδικασία μπορεί να δώσει μια “ματιά” μέσα στη σύσταση του σώματος κειμένων που έχουμε συγκεντρώσει ήδη. Μπορούμε να πάρουμε ως σημείο αναφοράς το Hellenic National Corpus και να εφαρμόσουμε αυτήν και άλλες μεθόδους που βρίσκονται στο Pile Paper. Μπορεί αυτό να είναι μια σχετικά επιφανειακή αντιγραφή της δομής του αρχικού paper (συνέκριναν συγκεκριμένα απέναντι στο Common Crawl που ήταν σύνηθες σώμα παραδειγμάτων εκπαίδευσης). Εφόσον όμως έχουμε τις μεθοδολογίες και τους μηχανισμούς σύγκρισης, αυτό θα λειτουργήσει σωρευτικά. Αφού θα προσθέσουμε αρκετές ακόμα διαφορετικές πηγές, θα έχουμε μια ποσοτική αποτίμηση του εύρους της κάλυψης της ελληνικής γλώσσας, και ένα άμεσο μέτρο σύγκρισης με ένα σημαντικό resource της αγγλόφωνης λογοπαραγωγικής ΤΝ. Όπου λείπουν τα σχετικά εργαλεία στα ελληνικά, τότε αυτομάτως θα εντάσσουμε στον οδικό χάρτη την ανάπτυξη ή υποκατάσταση αυτών των εργαλείων. Ένα τέτοιο παράδειγμα είναι τα φίλτρα αναγνώρισης ακατάλληλου λεξιλογίου καθώς και αναγνώρισης των διαλέκτων της αγγλικής. Για τους ερευνητές αυτούς μεγάλο μέρος αυτής της δουλειάς έγινε με έτοιμα διαθέσιμα εργαλεία. Για εμάς αυτό μπορεί να μην είναι το ίδιο. Βάζοντας όμως αμέσως τα εργαλεία που λείπουν στον οδικό χάρτη θα μπορούμε ίσως, συν τω χρόνω, να αναπαράγουμε το σημαντικό αυτό βήμα και να διαθέσουμε ένα υψηλής ποιότητας σώμα ανοιχτών κειμενικών δεδομένων. Τέλος, προστέθηκαν 2 ακόμα <https://github.com/eellak/glossAPI/wiki/%CE%9A%CE%B1%CF%84%CE%B1%CE%B3%CF%81%CE%B1%CF%86%CE%AE-%CE%A0%CE%B7%CE%B3%CF%8E%CE%BD#%CE%B2%CE%B9%CE%BA%CE%B9%CF%80%CE%B1%CE%B9%CE%B4%CE%B5%CE%AF%CE%B1> πηγές στην απογραφή κειμενικών δεδομένων (Συλλογές Ιδρύματος Ευγενίδου, Greek Legal Code). Με εκτίμηση ΝΓ -- *Νίνα Γιαλλούση | Εταιρεία Ελεύθερου Λογισμικού και Λογισμικού Ανοιχτού Κώδικα | Greek Free and Open Source Software Alliance*
---- Λαμβάνετε αυτό το μήνυμα απο την λίστα: Επιστημονική Επιτροπή ΕΕΛ/ΛΑΚ, https://lists.ellak.gr/epistimoniki-epitropi-ellak/listinfo.html Μπορείτε να απεγγραφείτε από τη λίστα στέλνοντας κενό μήνυμα ηλ. ταχυδρομείου στη διεύθυνση <epistimoniki-epitropi-ellak+unsubscribe [ at ] ellak [ dot ] gr>.