ΕΕΛΛΑΚ - Λίστες Ταχυδρομείου

Eβδομαδιαία πρόοδος του έργου γλωσσAPI

  • Subject: Eβδομαδιαία πρόοδος του έργου γλωσσAPI
  • From: Nina Gialoussi <ninagial [ at ] eellak [ dot ] gr>
  • Date: Mon, 15 Jan 2024 12:03:16 +0200
Προς:
το Διοικητικό Συμβούλιο
την Εσωτερική Επιτελική Ομάδα
τους Επικεφαλής Ομάδων
την Επιστημονική Επιτροπή
τους αποδέκτες της λίστας ηλ. ταχυδρομείου “Εργαστήρια Μηχανικής Μάθησης”

*Ως μέρος της σύμβασης εργασίας και στο πλαίσιο των ανατεθειμένων μου
καθηκόντων η εβδομαδιαία πρόοδος του έργου γλωσσAPI. Για απεγγραφή από τη
λίστα χρησιμοποιείστε τους προκαθορισμένους συνδέσμους.*

Υπό επεξεργασία τελούν τα εξής σύνολα κειμενικών δεδομένων:

-Δημώδης Γραμματεία <http://georgakas.lit.auth.gr/dimodis/>
-Το ελληνικό τμήμα του Project Gutenberg
<https://www.gutenberg.org/ebooks/subjects/search/?query=greek>

Από αυτές τις πηγές έχουν αποκτηθεί πηγαία HTML για περίπου 500 τεκμήρια
(έχουμε συμφωνήσει να αποκαλούμε τεκμήριο μία ενότητα έργου πχ ένα βιβλίο,
ή έγγραφο). Το μήκος σε προτάσεις ή λέξεις μένει ακόμα να καθοριστεί σε
περαιτέρω ανάλυση.

Προηγούμενα, έχει κατασκευαστεί ο Tokenizer (λεξικός κατατεμαχιστής
<https://github.com/eellak/glossAPI/blob/4a67366a91c1f87ca7874757c62f31b1a51f8c78/greek_tokenizer.json>)
μεγέθους 60.000 tokens, και έχουν δοθεί οδηγίες χρήσης
<https://github.com/eellak/glossAPI/wiki/%CE%A7%CF%81%CE%AE%CF%83%CE%B7-Tokenizer>
του, πχ με την προσαρμογή του embedding layer ενός προεκπαιδευσμένου
μοντέλου.

Για το σκοπό αυτό, είχα ήδη επεξεργαστεί τις εξής πηγές

-OPUS Bible Uedin <https://opus.nlpl.eu/bible-uedin.php>
-OPUS Wikipedia <https://opus.nlpl.eu/Wikipedia.php>
-OPUS EuroPARL <https://opus.nlpl.eu/Europarl.php>
-OPUS GlobalVoices <https://opus.nlpl.eu/GlobalVoices.php>
-Hellenic National Corpus <https://inventory.clarin.gr/corpus/870>

Τα δεδομένα από τις πηγές αυτές αθροίζονται περίπου σε 42Μ λέξεις και 1.7Μ
προτάσεις, και διερευνάται ο βέλτιστος τρόπος αναδιανομής τους, λαμβάνοντας
υπόψην τον όγκο τους και τις καλές πρακτικές διακυβέρνησης δεδομένων.


Με εκτίμηση

ΝΓ
-- 
*Νίνα Γιαλλούση | Εταιρεία Ελεύθερου Λογισμικού και Λογισμικού Ανοιχτού
Κώδικα | Greek Free and Open Source Software Alliance*
----
Λαμβάνετε αυτό το μήνυμα απο την λίστα: Επιστημονική Επιτροπή ΕΕΛ/ΛΑΚ,
https://lists.ellak.gr/epistimoniki-epitropi-ellak/listinfo.html
Μπορείτε να απεγγραφείτε από τη λίστα στέλνοντας κενό μήνυμα ηλ. ταχυδρομείου στη διεύθυνση <epistimoniki-epitropi-ellak+unsubscribe [ at ] ellak [ dot ] gr>.