Προς: το Διοικητικό Συμβούλιο την Εσωτερική Επιτελική Ομάδα τους Επικεφαλής Ομάδων την Επιστημονική Επιτροπή τους αποδέκτες της λίστας ηλ. ταχυδρομείου “Εργαστήρια Μηχανικής Μάθησης” *Ως μέρος της σύμβασης εργασίας και στο πλαίσιο των ανατεθειμένων μου καθηκόντων η εβδομαδιαία πρόοδος του έργου γλωσσAPI. Για απεγγραφή από τη λίστα χρησιμοποιείστε τους προκαθορισμένους συνδέσμους.* Υπό επεξεργασία τελούν τα εξής σύνολα κειμενικών δεδομένων: -Δημώδης Γραμματεία <http://georgakas.lit.auth.gr/dimodis/> -Το ελληνικό τμήμα του Project Gutenberg <https://www.gutenberg.org/ebooks/subjects/search/?query=greek> Από αυτές τις πηγές έχουν αποκτηθεί πηγαία HTML για περίπου 500 τεκμήρια (έχουμε συμφωνήσει να αποκαλούμε τεκμήριο μία ενότητα έργου πχ ένα βιβλίο, ή έγγραφο). Το μήκος σε προτάσεις ή λέξεις μένει ακόμα να καθοριστεί σε περαιτέρω ανάλυση. Προηγούμενα, έχει κατασκευαστεί ο Tokenizer (λεξικός κατατεμαχιστής <https://github.com/eellak/glossAPI/blob/4a67366a91c1f87ca7874757c62f31b1a51f8c78/greek_tokenizer.json>) μεγέθους 60.000 tokens, και έχουν δοθεί οδηγίες χρήσης <https://github.com/eellak/glossAPI/wiki/%CE%A7%CF%81%CE%AE%CF%83%CE%B7-Tokenizer> του, πχ με την προσαρμογή του embedding layer ενός προεκπαιδευσμένου μοντέλου. Για το σκοπό αυτό, είχα ήδη επεξεργαστεί τις εξής πηγές -OPUS Bible Uedin <https://opus.nlpl.eu/bible-uedin.php> -OPUS Wikipedia <https://opus.nlpl.eu/Wikipedia.php> -OPUS EuroPARL <https://opus.nlpl.eu/Europarl.php> -OPUS GlobalVoices <https://opus.nlpl.eu/GlobalVoices.php> -Hellenic National Corpus <https://inventory.clarin.gr/corpus/870> Τα δεδομένα από τις πηγές αυτές αθροίζονται περίπου σε 42Μ λέξεις και 1.7Μ προτάσεις, και διερευνάται ο βέλτιστος τρόπος αναδιανομής τους, λαμβάνοντας υπόψην τον όγκο τους και τις καλές πρακτικές διακυβέρνησης δεδομένων. Με εκτίμηση ΝΓ -- *Νίνα Γιαλλούση | Εταιρεία Ελεύθερου Λογισμικού και Λογισμικού Ανοιχτού Κώδικα | Greek Free and Open Source Software Alliance*
---- Λαμβάνετε αυτό το μήνυμα απο την λίστα: Επιστημονική Επιτροπή ΕΕΛ/ΛΑΚ, https://lists.ellak.gr/epistimoniki-epitropi-ellak/listinfo.html Μπορείτε να απεγγραφείτε από τη λίστα στέλνοντας κενό μήνυμα ηλ. ταχυδρομείου στη διεύθυνση <epistimoniki-epitropi-ellak+unsubscribe [ at ] ellak [ dot ] gr>.