ΕΕΛΛΑΚ - Λίστες Ταχυδρομείου

Πεπραγμένα Εβδομάδας για το Greek Open Source LLM

  • Subject: Πεπραγμένα Εβδομάδας για το Greek Open Source LLM
  • From: Nina Gialoussi <ninagial [ at ] eellak [ dot ] gr>
  • Date: Fri, 8 Mar 2024 18:04:20 +0200
*Προς:*
το Διοικητικό Συμβούλιο
την Εσωτερική Επιτελική Ομάδα
τους Επικεφαλής Ομάδων
την Επιστημονική Επιτροπή
τους αποδέκτες της λίστας ηλ. ταχυδρομείου “Εργαστήρια Μηχανικής Μάθησης”
και άλλα ενδιαφερόμενα άτομα

*Λαμβάνετε αυτό το μήνυμα ως μέρος της σύμβασης εργασίας και στο πλαίσιο
των ανατεθειμένων μου καθηκόντων η εβδομαδιαία πρόοδος του έργου γλωσσAPI.
Για απεγγραφή από τη λίστα χρησιμοποιείστε τους προκαθορισμένους
συνδέσμους.*

*ΠΕΠΡΑΓΜΕΝΑ*

Χαίρετε

*Προσθήκη νέων κειμενικών δεδομένων*

Την προηγούμενη εβδομάδα έγινε επεξεργασία των υφισταμένων dataset και
προστέθηκε ακόμα ένα, το WikiMatrix από το OPUS.

*Τρέχον μέγεθος του corpus*

*1. XML format: *Ο αριθμός λέξεων των τεκμηρίων που βρίσκονται αποθηκευμένα
σε μορφή XML είναι περίπου 3.6M (300Κ μοναδικές) για τα κείμενα που
προέρχονται από το OPUS, ενώ εκείνα που προέρχονται από το Hellenic
National Corpus συνεισφέρουν μόλις 88K λέξεις ακόμα.

*2. Δική μας απόκτηση/RDS format: *Για τις πηγές που προέρχονται από δικό
μας scraping ο συνολικός αριθμός λέξεων είναι ακόμα περίπου 10.1Μ (462Κ
μοναδικές)

*3. RDS format συνολικά:* Συνολικά όσες πηγές έχουμε σε μορφή RDS
ανέρχονται σε περίπου 76G λέξεις (761Κ μοναδικές). Ο αριθμός αυτός
συμπεριλαμβάνει τον αμέσως παραπάνω.


*Παρατηρήσεις για το μέγεθος του corpus*

Οι παραπάνω μετρήσεις αναφέρονται στο συνολικό αριθμό λέξεων, όχι τον
αριθμό μοναδικών, διακριτών λέξεων. (Τα πλήθη των μοναδικών λέξεων δεν
μπορούμε να τα προσθέσουμε μεταξύ τους, εφόσον δεν έχουμε ενοποιήσει τα
φορμάτ).

Γενικά η καταμέτρηση του αριθμού λέξεων σε ένα τέτοιο πολυμορφικό corpus
δεν είναι τετριμμένη. Επιπλέον, είναι θέμα συζήτησης αν ο απόλυτος αριθμός
λεξικών τύπων είναι χρήσιμη μετρική σε αυτήν την περίπτωση. Επί
παραδείγματι, και παραθέτω μόνο ως έναυσμα σχετικής συζήτησης, στο Pile
Paper <https://arxiv.org/pdf/2101.00027.pdf> αναφέρονται ως βασικές
μετρήσεις οι ακόλουθες (Πίνακας 1)

> Component, Raw Size, Weight, Epochs, Effective Size, Mean Document Size
>
Ενώ όσον αφορά το benchmarking


> Our preferred metric is bits per UTF-8 encoded
> byte (BPB). Bits per byte is preferred over bits per
> character or perplexity when using Pile as a met-
> ric due to its invariance to different tokenization
> schemes and the ambiguity of measuring charac-
> ters in Unicode.
>
*Ενημέρωση αποθετηρίου GlossAPI *

Το αποθετήριο https://github.com/eellak/glossAPI έχει ενημερωθεί με
δεδομένα, scripts για μετασχηματισμό δεδομένων, και εκπαίδευση μοντέλων
βάσης.

   -  Οδηγός για τα δεδομένα
   <https://github.com/eellak/glossAPI/wiki/Guide-to-Datasets>
   - Οδηγός για τα script
   <https://github.com/eellak/glossAPI/wiki/Guide-to-Scripts>
   - Προστέθηκε νέο tokenizer 280Κ λέξεων.
   <https://github.com/eellak/glossAPI/tree/master/tokenizers>

*Εισαγωγή συνεργατών στη δράση*

Την προηγούμενη εβδομάδα έχει ήδη γίνει onboarding δύο συνεργατών από το
Πανεπιστήμιο Αιγαίου. Ολοκληρώθηκε ακόμα η διαδικασία των συνεντεύξεων μετά
από κάποιες αναβολές, και συνεχίζουμε στην επιλογή των συνεργατών.

*Επικοινωνία με φορείς υποδομών*

Έχουμε λάβει επικοινωνίες τεχνικής υποστήριξης από το κόμβο του ΠΑΔΑ για
τις υπολογιστικές υποδομές, και συνεχίζουμε την μελέτη του τεχνικού σκέλους
της εκπαίδευσης μοντέλων στα ελληνικά.

*Παρακαλούμε εφόσον γνωρίζετε άτομα που ενδιαφέρονται να συμβάλλουν ή να
ενημερώνονται για την προσπάθεια προς ένα "Greek Open Source LLM" να τους
προτείνετε να εγγραφούν στη σχετική λίστα
<https://edu.ellak.gr/2023/04/11/nevronika-diktia-ke-michaniki-mathisi/>*

Με εκτίμηση

ΝΓ

*Νίνα Γιαλλούση | Εταιρεία Ελεύθερου Λογισμικού και Λογισμικού Ανοιχτού
Κώδικα | Greek Free and Open Source Software Alliance*
----
Λαμβάνετε αυτό το μήνυμα απο την λίστα: Επιστημονική Επιτροπή ΕΕΛ/ΛΑΚ,
https://lists.ellak.gr/epistimoniki-epitropi-ellak/listinfo.html
Μπορείτε να απεγγραφείτε από τη λίστα στέλνοντας κενό μήνυμα ηλ. ταχυδρομείου στη διεύθυνση <epistimoniki-epitropi-ellak+unsubscribe [ at ] ellak [ dot ] gr>.

απαντήσεις

πλοήγηση μηνυμάτων