ΕΕΛΛΑΚ - Λίστες Ταχυδρομείου

Πεπραγμένα Εβδομάδας για το Greek Open Source LLM

  • Subject: Πεπραγμένα Εβδομάδας για το Greek Open Source LLM
  • From: Nina Gialoussi <ninagial [ at ] eellak [ dot ] gr>
  • Date: Fri, 15 Mar 2024 19:07:57 +0200
*Προς:*
το Διοικητικό Συμβούλιο
την Εσωτερική Επιτελική Ομάδα
τους Επικεφαλής Ομάδων
την Επιστημονική Επιτροπή
τους αποδέκτες της λίστας ηλ. ταχυδρομείου “Εργαστήρια Μηχανικής Μάθησης”
και άλλα ενδιαφερόμενα άτομα

*Λαμβάνετε αυτό το μήνυμα ως μέρος της σύμβασης εργασίας και στο πλαίσιο
των ανατεθειμένων μου καθηκόντων η εβδομαδιαία πρόοδος του έργου γλωσσAPI.
Για απεγγραφή από τη λίστα χρησιμοποιείστε τους προκαθορισμένους
συνδέσμους.*

*ΠΕΠΡΑΓΜΕΝΑ*

Χαίρετε
Αυτήν την εβδομάδα παρουσιάστηκε η εξέλιξη της δράσης στην Γενική Συνέλευση
του Οργανισμού Ανοιχτών Τεχνολογιών ΕΛ/ΛΑΚ, και ενημερώθηκαν οι
επιστημονικά υπεύθυνοι για τους ρόλους τους οποίους θα κληθούν να πληρώσουν
οι υποψήφιοι συνεργάτες.

Οι ρόλοι που θα κληθούν να αναλάβουν οι υποψήφιοι/ες συνεργάτες αφορούν σε:

   -

   αρχειακή έρευνα
   -

   υπολογιστική γλωσσολογία
   -

   μηχανική μάθηση / ανάπτυξη εργαλείων
   -

   μηχανική μάθηση / εκπαίδευση μοντέλων

τα καθήκοντα που θα αναλάβουν οι εισερχόμενοι/ες συνεργάτες θα είναι:

   -

   απογραφή, επιμέλεια, διαλογή πηγών (ρόλος αρχειακής έρευνας)
   -

   απόκτηση, διόρθωση, προτυποποίηση και επισημείωση υλικού (ρόλος
   υπολογιστικού γλωσσολόγου)
   -

   μελέτη και επέκταση εργαλείων υποβάθρου (OCR / Tokenizers / etc - ρόλος
   μηχανικής μάθησης 1)
   -

   εκπαίδευση μοντέλων σε επίπεδο παράλληλης επεξεργασίας σε υλικό υψηλών
   απαιτήσεων (ρόλος μηχανικής μάθησης 2)

Οι υποψήφιοι μπαίνουν στον δεύτερο κύκλο συνεντεύξεων την ερχόμενη εβδομάδα.

Έχουν επιπλέον αποκτηθεί δεδομένα από τις παρακάτω πηγές*:*

*Από ψηφιακές συλλογές του OPUS*

Greek Administration (3.3M)
CCMatrix (16G)
ELRC_EMEA (169M)
ELRC_PRESS_RELEASES (1.4M)
EuroParl (457M)
GlobalVoice (28M)
GNOME (388K)
NLLB  (15G)
PARACRAWL (4.0G)
SUBTITLES (6.6G)
WikiMatrix (601M)
WikiPedia (18M)

*Από δική μας απόκτηση:*

Δημώδης Ελληνική Γραμματεία (21.9M)

Ελληνικό Σκέλος Gutenberg (134.9M)

*Από HuggingFace:*

Greek Legal Code (342.8M)

Alpaca Output (45.3M)

*Από ILSP*

Hellenic National Corpus (9.7M)

*(Το συνολικό μέγεθος είναι κατ' εκτίμηση λίγο μικρότερο των 43.5G)*

Η μετατροπή των παραπάνω πηγών σε ενιαία μορφή βρίσκεται υπό εξέλιξη, και
εστιάζουμε με το συνεργάτη μας από το Πανεπιστήμιο Αιγαίου στην αναπαραγωγή
των αδρών στατιστικών μέτρων των πρώτων πινάκων του The Pile Paper.


*Παρακαλούμε εφόσον γνωρίζετε άτομα που ενδιαφέρονται να συμβάλλουν ή να
ενημερώνονται για την προσπάθεια προς ένα "Greek Open Source LLM" να τους
προτείνετε να εγγραφούν στη σχετική λίστα
<https://edu.ellak.gr/2023/04/11/nevronika-diktia-ke-michaniki-mathisi/>*

Με εκτίμηση

ΝΓ

*Νίνα Γιαλλούση | Εταιρεία Ελεύθερου Λογισμικού και Λογισμικού Ανοιχτού
Κώδικα | Greek Free and Open Source Software Alliance*
----
Λαμβάνετε αυτό το μήνυμα απο την λίστα: Επιστημονική Επιτροπή ΕΕΛ/ΛΑΚ,
https://lists.ellak.gr/epistimoniki-epitropi-ellak/listinfo.html
Μπορείτε να απεγγραφείτε από τη λίστα στέλνοντας κενό μήνυμα ηλ. ταχυδρομείου στη διεύθυνση <epistimoniki-epitropi-ellak+unsubscribe [ at ] ellak [ dot ] gr>.