ΕΕΛΛΑΚ - Λίστες Ταχυδρομείου

Πεπραγμένα εβδομάδας για το Ελληνικό LLM Ανοιχτού Κώδικα

  • Subject: Πεπραγμένα εβδομάδας για το Ελληνικό LLM Ανοιχτού Κώδικα
  • From: Nina Gialoussi <ninagial [ at ] eellak [ dot ] gr>
  • Date: Fri, 19 Jan 2024 17:31:06 +0200
Προς:
το Διοικητικό Συμβούλιο
την Εσωτερική Επιτελική Ομάδα
τους Επικεφαλής Ομάδων
την Επιστημονική Επιτροπή
τους αποδέκτες της λίστας ηλ. ταχυδρομείου “Εργαστήρια Μηχανικής Μάθησης”


*Ως μέρος της σύμβασης εργασίας και στο πλαίσιο των ανατεθειμένων μου
καθηκόντων η εβδομαδιαία πρόοδος του έργου γλωσσAPI. Για απεγγραφή από τη
λίστα χρησιμοποιείστε τους προκαθορισμένους συνδέσμους.*


*Απογραφή Δεδομένων*

   - Προσθήκη περισσότερων πηγών στα διαθέσιμα κείμενα (Greek Legal Code
   <https://huggingface.co/datasets/greek_legal_code/tree/main>, Alpaca
   Greek Small
   <https://huggingface.co/datasets/iamshnoo/alpaca-cleaned-greek>)

*Οι αλλαγές είναι διαθέσιμες σε αυτό το αποθετήριο μέσα από R package*

   -
   https://code.ellak.gr/ninagial/scrape-greek-sources/-/commit/6a5acab76dd28a2b3ddc22a4fd1acf6b00952ea7
   Οδηγίες <https://code.ellak.gr/ninagial/scrape-greek-sources/>
   - Αρχεία <https://code.ellak.gr/ninagial/scrape-greek-sources/-/releases>



*ΓλωσσΑΡΙ*

Ως προς το αποθετήριο γλωσσΆΡΙ <https://github.com/eellak/glossAPI>
προσέθεσα λεξικό κατατεμαχιστή 160Κ λέξεων, βελτίωσα τη δομή, και ανέβασα
ενδεικτικά αρχεία κειμενικών δεδομένων για πειραματισμό από άλλους

   - Εκπαίδευση νέου Tokenizer 160K tokens
   <https://github.com/eellak/glossAPI/commit/b3542b9206c8d0a575e86418e62c50aa2cd795b1>

   - Ανανέωση δομής αποθετηρίου και μεταφόρτωση ενδεικτικών αρχείων
   δεδομένων <https://github.com/eellak/glossAPI/commits/master/>
   - Έχω κλείσει όλα τα issues και όσα έχουν χαρακτήρα ανοικτής ανταλλαγής
   απόψεων έχουν μεταφερθεί στο Discussions
   <https://github.com/eellak/glossAPI/discussions>

*Άλλα*

Εξοικείωση με πλατφόρμα Vast AI <http://cloud.vast.ai> και δοκιμές χρήσης

Δοκιμή μοντέλων Greek_Legal_Roberta_cased_2
<https://huggingface.co/basilis/Greek_Legal_Roberta_cased-v3>, XLM_Roberta
<https://huggingface.co/xlm-roberta-base> (Δοκιμή με custom dataset 350K
προτάσεων
<https://github.com/eellak/glossAPI/blob/master/data/result_sentences.pkl>
) Καλύτερη επίδοση out of the box έχει το πρώτο μοντέλο.


*Θέση αμειβόμενης πρακτικής άσκησης*

Δημοσίευση θέσης αμειβόμενης πρακτικής για Activist Data Annotation και
επεξεργασία υποβολών <https://eellak.ellak.gr/2024/01/18/data-ann/>




Με εκτίμηση

ΝΓ
-- 
*Νίνα Γιαλλούση | Εταιρεία Ελεύθερου Λογισμικού και Λογισμικού Ανοιχτού
Κώδικα | Greek Free and Open Source Software Alliance*
----
Λαμβάνετε αυτό το μήνυμα απο την λίστα: Επιστημονική Επιτροπή ΕΕΛ/ΛΑΚ,
https://lists.ellak.gr/epistimoniki-epitropi-ellak/listinfo.html
Μπορείτε να απεγγραφείτε από τη λίστα στέλνοντας κενό μήνυμα ηλ. ταχυδρομείου στη διεύθυνση <epistimoniki-epitropi-ellak+unsubscribe [ at ] ellak [ dot ] gr>.