ΕΕΛΛΑΚ - Λίστες Ταχυδρομείου

FYI... Turkish Data Sets

Δείτε για ενημέρωση το https://data.tdd.ai/ <https://data.tdd.ai/#/> & το
https://joinup.ec.europa.eu/sites/default/files/inline-files/OSS%20Country%20Intelligence%20Report_TR_Update.pdf

...

On Fri, Mar 8, 2024 at 6:04 PM Nina Gialoussi <ninagial [ at ] eellak [ dot ] gr> wrote:

>
> *Προς:*
> το Διοικητικό Συμβούλιο
> την Εσωτερική Επιτελική Ομάδα
> τους Επικεφαλής Ομάδων
> την Επιστημονική Επιτροπή
> τους αποδέκτες της λίστας ηλ. ταχυδρομείου “Εργαστήρια Μηχανικής Μάθησης”
> και άλλα ενδιαφερόμενα άτομα
>
> *Λαμβάνετε αυτό το μήνυμα ως μέρος της σύμβασης εργασίας και στο πλαίσιο
> των ανατεθειμένων μου καθηκόντων η εβδομαδιαία πρόοδος του έργου γλωσσAPI.
> Για απεγγραφή από τη λίστα χρησιμοποιείστε τους προκαθορισμένους
> συνδέσμους.*
>
> *ΠΕΠΡΑΓΜΕΝΑ*
>
> Χαίρετε
>
> *Προσθήκη νέων κειμενικών δεδομένων*
>
> Την προηγούμενη εβδομάδα έγινε επεξεργασία των υφισταμένων dataset και
> προστέθηκε ακόμα ένα, το WikiMatrix από το OPUS.
>
> *Τρέχον μέγεθος του corpus*
>
> *1. XML format: *Ο αριθμός λέξεων των τεκμηρίων που βρίσκονται
> αποθηκευμένα σε μορφή XML είναι περίπου 3.6M (300Κ μοναδικές) για τα
> κείμενα που προέρχονται από το OPUS, ενώ εκείνα που προέρχονται από το
> Hellenic National Corpus συνεισφέρουν μόλις 88K λέξεις ακόμα.
>
> *2. Δική μας απόκτηση/RDS format: *Για τις πηγές που προέρχονται από δικό
> μας scraping ο συνολικός αριθμός λέξεων είναι ακόμα περίπου 10.1Μ (462Κ
> μοναδικές)
>
> *3. RDS format συνολικά:* Συνολικά όσες πηγές έχουμε σε μορφή RDS
> ανέρχονται σε περίπου 76G λέξεις (761Κ μοναδικές). Ο αριθμός αυτός
> συμπεριλαμβάνει τον αμέσως παραπάνω.
>
>
> *Παρατηρήσεις για το μέγεθος του corpus*
>
> Οι παραπάνω μετρήσεις αναφέρονται στο συνολικό αριθμό λέξεων, όχι τον
> αριθμό μοναδικών, διακριτών λέξεων. (Τα πλήθη των μοναδικών λέξεων δεν
> μπορούμε να τα προσθέσουμε μεταξύ τους, εφόσον δεν έχουμε ενοποιήσει τα
> φορμάτ).
>
> Γενικά η καταμέτρηση του αριθμού λέξεων σε ένα τέτοιο πολυμορφικό corpus
> δεν είναι τετριμμένη. Επιπλέον, είναι θέμα συζήτησης αν ο απόλυτος αριθμός
> λεξικών τύπων είναι χρήσιμη μετρική σε αυτήν την περίπτωση. Επί
> παραδείγματι, και παραθέτω μόνο ως έναυσμα σχετικής συζήτησης, στο Pile
> Paper <https://arxiv.org/pdf/2101.00027.pdf> αναφέρονται ως βασικές
> μετρήσεις οι ακόλουθες (Πίνακας 1)
>
>> Component, Raw Size, Weight, Epochs, Effective Size, Mean Document Size
>>
> Ενώ όσον αφορά το benchmarking
>
>
>> Our preferred metric is bits per UTF-8 encoded
>> byte (BPB). Bits per byte is preferred over bits per
>> character or perplexity when using Pile as a met-
>> ric due to its invariance to different tokenization
>> schemes and the ambiguity of measuring charac-
>> ters in Unicode.
>>
> *Ενημέρωση αποθετηρίου GlossAPI *
>
> Το αποθετήριο https://github.com/eellak/glossAPI έχει ενημερωθεί με
> δεδομένα, scripts για μετασχηματισμό δεδομένων, και εκπαίδευση μοντέλων
> βάσης.
>
>    -  Οδηγός για τα δεδομένα
>    <https://github.com/eellak/glossAPI/wiki/Guide-to-Datasets>
>    - Οδηγός για τα script
>    <https://github.com/eellak/glossAPI/wiki/Guide-to-Scripts>
>    - Προστέθηκε νέο tokenizer 280Κ λέξεων.
>    <https://github.com/eellak/glossAPI/tree/master/tokenizers>
>
> *Εισαγωγή συνεργατών στη δράση*
>
> Την προηγούμενη εβδομάδα έχει ήδη γίνει onboarding δύο συνεργατών από το
> Πανεπιστήμιο Αιγαίου. Ολοκληρώθηκε ακόμα η διαδικασία των συνεντεύξεων μετά
> από κάποιες αναβολές, και συνεχίζουμε στην επιλογή των συνεργατών.
>
> *Επικοινωνία με φορείς υποδομών*
>
> Έχουμε λάβει επικοινωνίες τεχνικής υποστήριξης από το κόμβο του ΠΑΔΑ για
> τις υπολογιστικές υποδομές, και συνεχίζουμε την μελέτη του τεχνικού σκέλους
> της εκπαίδευσης μοντέλων στα ελληνικά.
>
> *Παρακαλούμε εφόσον γνωρίζετε άτομα που ενδιαφέρονται να συμβάλλουν ή να
> ενημερώνονται για την προσπάθεια προς ένα "Greek Open Source LLM" να τους
> προτείνετε να εγγραφούν στη σχετική λίστα
> <https://edu.ellak.gr/2023/04/11/nevronika-diktia-ke-michaniki-mathisi/>.*
>
> Με εκτίμηση
>
> ΝΓ
>
> *Νίνα Γιαλλούση | Εταιρεία Ελεύθερου Λογισμικού και Λογισμικού Ανοιχτού
> Κώδικα | Greek Free and Open Source Software Alliance*
>
>

-- 
Θεόδωρος Καρούνος, PGP KEY
<https://www.karounos.gr/blog/theodoros-g-karounos-public-pgp-key>
<https://www.karounos.gr/blog/theodoros-g-karounos-public-pgp-key>
______________________________________________________________
https://mathe.ellak.gr/ - https://ellak.gr/wiki/ -  https://gfoss.eu/ -
https://ellak.gr/
<https://ellak.gr/wiki/>
----
Λαμβάνετε αυτό το μήνυμα απο την λίστα: Επιστημονική Επιτροπή ΕΕΛ/ΛΑΚ,
https://lists.ellak.gr/epistimoniki-epitropi-ellak/listinfo.html
Μπορείτε να απεγγραφείτε από τη λίστα στέλνοντας κενό μήνυμα ηλ. ταχυδρομείου στη διεύθυνση <epistimoniki-epitropi-ellak+unsubscribe [ at ] ellak [ dot ] gr>.