ΕΕΛΛΑΚ - Λίστες Ταχυδρομείου

Open source AI and Machine Learning @ FOSDEM

Καλημέρα,

Για ενημέρωση δείτε... " Το track στην FOSDEM για "AI and Machine Learning"
έχει ενδιαφέρον, πχ Building Open Source Language Models


https://fosdem.org/2024/schedule/event/fosdem-2024-2591-building-open-source-language-models/
#FOSDEM .

Ελπίζω στην επόμενη FOSDEM <https://fosdem.org> να έχουμε παρουσιάσεις και
από Ελλάδα.

Θ.Κ.

-.-


Στις Παρ 26 Ιαν 2024 στις 6:16 μ.μ., ο/η Nina Gialoussi <ninagial [ at ] eellak [ dot ] gr>
έγραψε:

> Προς:
> το Διοικητικό Συμβούλιο
> την Εσωτερική Επιτελική Ομάδα
> τους Επικεφαλής Ομάδων
> την Επιστημονική Επιτροπή
> τους αποδέκτες της λίστας ηλ. ταχυδρομείου “Εργαστήρια Μηχανικής Μάθησης”
>
> Ως μέρος της σύμβασης εργασίας και στο πλαίσιο των ανατεθειμένων μου
> καθηκόντων η εβδομαδιαία πρόοδος του έργου γλωσσAPI. *Για απεγγραφή από
> τη λίστα χρησιμοποιείστε τους προκαθορισμένους συνδέσμους.*
>
>
> *Προσαρμογή μεθόδου Online Bayesian LDA για στατιστική περιγραφή των
> υπαρχόντων τεκμηρίων, και μελλοντική επανάχρησή του σε νέα τεκμήρια*
>
> Ακολουθώ την δημοσίευση The Pile Paper <https://arxiv.org/abs/2101.00027>
> η οποία από την έκδοσή της <https://pile.eleuther.ai/> το 2020 είχε
> σημαντικό ρόλο <https://github.com/EleutherAI/the-pile> στην ανάπτυξη της
> αγγλόφωνης λογοπαραγωγικής ΤΝ.
>
> Το σημαντικό για το έργο μας κείμενο περιλαμβάνει μια πλήρη μεθοδολογία
> για την επέκταση και την περιγραφή του σώματος κειμένων.
>
> Εμείς δεν έχουμε απαραίτητα όλα τα εργαλεία που οι ερευνητές εκείνοι
> χρησιμοποίησαν, μπορεί όμως να αναπτύξουμε, έτσι ώστε να παίξει η ίδια η
> δημοσίευση το ρόλο οδικού χάρτη στη δική μας προσπάθεια που είναι ίσως
> συγκρίσιμη, αν λάβουμε υπόψη την διάθεση ενός αντιπροσωπευτικού δείγματος
> της ελληνικής γλώσσας την οποία προσπαθούμε να πετύχουμε.
>
> Τα πηγαία αρχεία για την ανάλυση των topics βρίσκονται
> <https://code.ellak.gr/ninagial/roberta_further_train/-/commit/8023d7ed0e57466762e01a965d19e384c557cc42>
> στο αποθετήριο.
>
> Μπορείτε να χρησιμοποιήσετε το Jupyter Notebook που θα βρείτε
> <https://code.ellak.gr/ninagial/roberta_further_train/-/blob/master/lda_try_01.ipynb>
> σε αυτό, ώστε να οπτικοποιήσετε την ανάλυση εως τώρα.
>
> Αν δεν μπορείτε να το κάνετε αυτό, υπάρχουν ακόμα
> <https://code.ellak.gr/ninagial/roberta_further_train/-/blob/master/lda_screens.zip>
> κάποια στιγμιότυπα οθόνης.
>
> Προστέθηκε ακόμα κάποιο βασικό υλικό για να αρχίσει η στατιστική περιγραφή
> <https://code.ellak.gr/ninagial/roberta_further_train/-/commit/32dbcc5b957a960cdcd8d9fa73f11dec741265ce>
> των διαθέσιμων δεδομένων, επίσης στα πρότυπα της ίδιας μεθοδολογίας.
>
> Αυτή η διαδικασία μπορεί να δώσει μια “ματιά” μέσα στη σύσταση του σώματος
> κειμένων που έχουμε συγκεντρώσει ήδη.
>
> Μπορούμε να πάρουμε ως σημείο αναφοράς το Hellenic National Corpus και να
> εφαρμόσουμε αυτήν και άλλες μεθόδους που βρίσκονται στο Pile Paper.
>
> Μπορεί αυτό να είναι μια σχετικά επιφανειακή αντιγραφή της δομής του
> αρχικού paper (συνέκριναν συγκεκριμένα απέναντι στο Common Crawl που ήταν
> σύνηθες σώμα παραδειγμάτων εκπαίδευσης). Εφόσον όμως έχουμε τις
> μεθοδολογίες και τους μηχανισμούς σύγκρισης, αυτό θα λειτουργήσει
> σωρευτικά. Αφού θα προσθέσουμε αρκετές ακόμα διαφορετικές πηγές, θα έχουμε
> μια ποσοτική αποτίμηση του εύρους της κάλυψης της ελληνικής γλώσσας, και
> ένα άμεσο μέτρο σύγκρισης με ένα σημαντικό resource της αγγλόφωνης
> λογοπαραγωγικής ΤΝ.
>
> Όπου λείπουν τα σχετικά εργαλεία στα ελληνικά, τότε αυτομάτως θα
> εντάσσουμε στον οδικό χάρτη την ανάπτυξη ή υποκατάσταση αυτών των εργαλείων.
> Ένα τέτοιο παράδειγμα είναι τα φίλτρα αναγνώρισης ακατάλληλου λεξιλογίου
> καθώς και αναγνώρισης των διαλέκτων της αγγλικής.
> Για τους ερευνητές αυτούς μεγάλο μέρος αυτής της δουλειάς έγινε με έτοιμα
> διαθέσιμα εργαλεία. Για εμάς αυτό μπορεί να μην είναι το ίδιο.
> Βάζοντας όμως αμέσως τα εργαλεία που λείπουν στον οδικό χάρτη θα μπορούμε
> ίσως, συν τω χρόνω, να αναπαράγουμε το σημαντικό αυτό βήμα και να
> διαθέσουμε ένα υψηλής ποιότητας σώμα ανοιχτών κειμενικών δεδομένων.
>
> Τέλος, προστέθηκαν 2 ακόμα
> <https://github.com/eellak/glossAPI/wiki/%CE%9A%CE%B1%CF%84%CE%B1%CE%B3%CF%81%CE%B1%CF%86%CE%AE-%CE%A0%CE%B7%CE%B3%CF%8E%CE%BD#%CE%B2%CE%B9%CE%BA%CE%B9%CF%80%CE%B1%CE%B9%CE%B4%CE%B5%CE%AF%CE%B1>
> πηγές στην απογραφή κειμενικών δεδομένων (Συλλογές Ιδρύματος Ευγενίδου,
> Greek Legal Code).
>
> Με εκτίμηση
>
> ΝΓ
> --
> *Νίνα Γιαλλούση | Εταιρεία Ελεύθερου Λογισμικού και Λογισμικού Ανοιχτού
> Κώδικα | Greek Free and Open Source Software Alliance*
>
>

-- 
Θεόδωρος Καρούνος, PGP KEY
<https://www.karounos.gr/blog/theodoros-g-karounos-public-pgp-key>,
<http://keys.gnupg.net/pks/lookup?op=get&search=0xBBDE6ABE85AE3458>

Διεύθυνση Ψηφιακού Μετασχηματισμού και Ψηφιακών Ικανοτήτων

*Τηλ.:*210-7474-269, tkarounos [ at ] admin [ dot ] grnet [ dot ] gr,
ΕΔΥΤΕ Α.Ε., grnet.gr | Κηφισίας 7, 115 23
----
Λαμβάνετε αυτό το μήνυμα απο την λίστα: Επιστημονική Επιτροπή ΕΕΛ/ΛΑΚ,
https://lists.ellak.gr/epistimoniki-epitropi-ellak/listinfo.html
Μπορείτε να απεγγραφείτε από τη λίστα στέλνοντας κενό μήνυμα ηλ. ταχυδρομείου στη διεύθυνση <epistimoniki-epitropi-ellak+unsubscribe [ at ] ellak [ dot ] gr>.