Δείτε για ενημέρωση το https://data.tdd.ai/ <https://data.tdd.ai/#/> & το https://joinup.ec.europa.eu/sites/default/files/inline-files/OSS%20Country%20Intelligence%20Report_TR_Update.pdf ... On Fri, Mar 8, 2024 at 6:04 PM Nina Gialoussi <ninagial [ at ] eellak [ dot ] gr> wrote: > > *Προς:* > το Διοικητικό Συμβούλιο > την Εσωτερική Επιτελική Ομάδα > τους Επικεφαλής Ομάδων > την Επιστημονική Επιτροπή > τους αποδέκτες της λίστας ηλ. ταχυδρομείου “Εργαστήρια Μηχανικής Μάθησης” > και άλλα ενδιαφερόμενα άτομα > > *Λαμβάνετε αυτό το μήνυμα ως μέρος της σύμβασης εργασίας και στο πλαίσιο > των ανατεθειμένων μου καθηκόντων η εβδομαδιαία πρόοδος του έργου γλωσσAPI. > Για απεγγραφή από τη λίστα χρησιμοποιείστε τους προκαθορισμένους > συνδέσμους.* > > *ΠΕΠΡΑΓΜΕΝΑ* > > Χαίρετε > > *Προσθήκη νέων κειμενικών δεδομένων* > > Την προηγούμενη εβδομάδα έγινε επεξεργασία των υφισταμένων dataset και > προστέθηκε ακόμα ένα, το WikiMatrix από το OPUS. > > *Τρέχον μέγεθος του corpus* > > *1. XML format: *Ο αριθμός λέξεων των τεκμηρίων που βρίσκονται > αποθηκευμένα σε μορφή XML είναι περίπου 3.6M (300Κ μοναδικές) για τα > κείμενα που προέρχονται από το OPUS, ενώ εκείνα που προέρχονται από το > Hellenic National Corpus συνεισφέρουν μόλις 88K λέξεις ακόμα. > > *2. Δική μας απόκτηση/RDS format: *Για τις πηγές που προέρχονται από δικό > μας scraping ο συνολικός αριθμός λέξεων είναι ακόμα περίπου 10.1Μ (462Κ > μοναδικές) > > *3. RDS format συνολικά:* Συνολικά όσες πηγές έχουμε σε μορφή RDS > ανέρχονται σε περίπου 76G λέξεις (761Κ μοναδικές). Ο αριθμός αυτός > συμπεριλαμβάνει τον αμέσως παραπάνω. > > > *Παρατηρήσεις για το μέγεθος του corpus* > > Οι παραπάνω μετρήσεις αναφέρονται στο συνολικό αριθμό λέξεων, όχι τον > αριθμό μοναδικών, διακριτών λέξεων. (Τα πλήθη των μοναδικών λέξεων δεν > μπορούμε να τα προσθέσουμε μεταξύ τους, εφόσον δεν έχουμε ενοποιήσει τα > φορμάτ). > > Γενικά η καταμέτρηση του αριθμού λέξεων σε ένα τέτοιο πολυμορφικό corpus > δεν είναι τετριμμένη. Επιπλέον, είναι θέμα συζήτησης αν ο απόλυτος αριθμός > λεξικών τύπων είναι χρήσιμη μετρική σε αυτήν την περίπτωση. Επί > παραδείγματι, και παραθέτω μόνο ως έναυσμα σχετικής συζήτησης, στο Pile > Paper <https://arxiv.org/pdf/2101.00027.pdf> αναφέρονται ως βασικές > μετρήσεις οι ακόλουθες (Πίνακας 1) > >> Component, Raw Size, Weight, Epochs, Effective Size, Mean Document Size >> > Ενώ όσον αφορά το benchmarking > > >> Our preferred metric is bits per UTF-8 encoded >> byte (BPB). Bits per byte is preferred over bits per >> character or perplexity when using Pile as a met- >> ric due to its invariance to different tokenization >> schemes and the ambiguity of measuring charac- >> ters in Unicode. >> > *Ενημέρωση αποθετηρίου GlossAPI * > > Το αποθετήριο https://github.com/eellak/glossAPI έχει ενημερωθεί με > δεδομένα, scripts για μετασχηματισμό δεδομένων, και εκπαίδευση μοντέλων > βάσης. > > - Οδηγός για τα δεδομένα > <https://github.com/eellak/glossAPI/wiki/Guide-to-Datasets> > - Οδηγός για τα script > <https://github.com/eellak/glossAPI/wiki/Guide-to-Scripts> > - Προστέθηκε νέο tokenizer 280Κ λέξεων. > <https://github.com/eellak/glossAPI/tree/master/tokenizers> > > *Εισαγωγή συνεργατών στη δράση* > > Την προηγούμενη εβδομάδα έχει ήδη γίνει onboarding δύο συνεργατών από το > Πανεπιστήμιο Αιγαίου. Ολοκληρώθηκε ακόμα η διαδικασία των συνεντεύξεων μετά > από κάποιες αναβολές, και συνεχίζουμε στην επιλογή των συνεργατών. > > *Επικοινωνία με φορείς υποδομών* > > Έχουμε λάβει επικοινωνίες τεχνικής υποστήριξης από το κόμβο του ΠΑΔΑ για > τις υπολογιστικές υποδομές, και συνεχίζουμε την μελέτη του τεχνικού σκέλους > της εκπαίδευσης μοντέλων στα ελληνικά. > > *Παρακαλούμε εφόσον γνωρίζετε άτομα που ενδιαφέρονται να συμβάλλουν ή να > ενημερώνονται για την προσπάθεια προς ένα "Greek Open Source LLM" να τους > προτείνετε να εγγραφούν στη σχετική λίστα > <https://edu.ellak.gr/2023/04/11/nevronika-diktia-ke-michaniki-mathisi/>.* > > Με εκτίμηση > > ΝΓ > > *Νίνα Γιαλλούση | Εταιρεία Ελεύθερου Λογισμικού και Λογισμικού Ανοιχτού > Κώδικα | Greek Free and Open Source Software Alliance* > > -- Θεόδωρος Καρούνος, PGP KEY <https://www.karounos.gr/blog/theodoros-g-karounos-public-pgp-key> <https://www.karounos.gr/blog/theodoros-g-karounos-public-pgp-key> ______________________________________________________________ https://mathe.ellak.gr/ - https://ellak.gr/wiki/ - https://gfoss.eu/ - https://ellak.gr/ <https://ellak.gr/wiki/>
---- Λαμβάνετε αυτό το μήνυμα απο την λίστα: Επιστημονική Επιτροπή ΕΕΛ/ΛΑΚ, https://lists.ellak.gr/epistimoniki-epitropi-ellak/listinfo.html Μπορείτε να απεγγραφείτε από τη λίστα στέλνοντας κενό μήνυμα ηλ. ταχυδρομείου στη διεύθυνση <epistimoniki-epitropi-ellak+unsubscribe [ at ] ellak [ dot ] gr>.