ΕΕΛ/ΛΑΚ - Λίστες Ταχυδρομείου

Ελληνική γλώσσα / FP7

Καλημέρα,

Όπως είχα γράψει σε σχετικό blog post υπάρχουν κάποιες περιοχές σχετικές
με την υποστήριξη των Ελληνικών στο ΕΛ/ΛΑΚ στις οποίες υπάρχει πολύ
"low hanging fruit" και άρα μπορεί να υπάρξει άμεση πρόοδος:

  * Αναγνώριση φωνής: (Simon + CMU Sphinx ή HTK Toolkit)
     -> χρειάζονται λεξικά + τουλάχιστον ένα ελληνικό port του
         voxforge ώστε να επιταχυνθεί η συλλογή / review των
         Ελληνικών δειγμάτων φωνής και μαζική αποστολή
         αφού αυτή τη στιγμή είμαστε review bandwidth - limited.

  * OCR (Ocropus / tesseract)
      -> Κατάλληλα λεξικά + πιθανόν να χρειάζονται μοντέλα για diacritics ή
          να παραλείπει τελείως τους τόνους το πρόγραμμα και να
          τους βάζει στο επόμενο στάδιο ο ορθογραφικός έλεγχος.

  * Γραμματικός έλεγχος (LanguageTool, Lightproof, AfterTheDeadline)
      -> Χρειάζονται corpora

  * Συνώνυμα / Ελεύθερο Ελληνικό wordnet με mappings στο Αγγλικό wordnet.
    (Το openthesaurus.gr είναι ένα βήμα προς αυτή την κατεύθυνση και ήδη
      αποκτά δειλά-δειλά χρήστες αλλά όπως είναι λογικό προχωρά αργά).

  * Ορθογραφικός έλεγχος (ή πρέπει να πειστούν τα σημαντικά προγράμματα
    όπως Firefox και LibreOffice να γυρίσουν σε enchant και να έχουμε δικό
    μας κώδικα για spellcheck (όπως το voikko για τα φιλανδικά) ή να βρεθεί
    κάποιος τρόπος approximation / mapping ενός χρήσιμου υποσυνόλου
    των κανόνων της ελληνικής μορφολογίας στο 2-level morphology
    του hunspell.

  * Επεξεργασία φυσικής γλώσσας:
     Επίσης χρειάζονται corpora (πιθανόν με semi-automatic annotations)
     τα οποία αν είναι δυνατόν να μπορούν να διανεμηθούν με CC άδεια
     ώστε να γίνουν μέρος πλατφόρμας σύγκρισης εναλλακτικών αλγορίθμων κλπ.

Και αρκετά άλλα. Τα παραπάνω μπορούν και να δώσουν ανταγωνιστικό
πλεονέκτημα στα OSS πακέτα όπως LibreOffice και να βοηθήσουν να
αναπτυχθούν εφαρμογές όπως π.χ., κάποιος parser για τα κείμενα της
"διαύγειας" από τον οποίο να βγαίνουν στατιστικά όπως "τι ποσοστό
του προϋπολογισμού ενός φορέα διανεμήθηκε μέσω απευθείας αναθέσεων
και σε ποιους" στο μακροπρόθεσμο μέλλον ;)

Αυτά όμως μπορεί να είναι "low hanging fruit" αλλά χρειάζονται ανθρώπους
που ξέρουν 5 10 (ή και 20) πράγματα για προγραμματισμό, OSS μοντέλα
και γλωσσικές τεχνολογίες για να τα κάνουν + χρειάζονται dedicated full time
εργασία, δεν είναι πράγματα που μπορεί να τα κάνει κάποιος εύκολα όταν
γυρνάει σπίτι από τη δουλειά (κάθε άρνηση αυτού παρακαλώ να συνοδεύεται
από patches :) )

Λοιπόν, υπάρχει το
"Challenge 4: Technologies for Digital Content and Languages"
του ερευνητικού FP7:
http://cordis.europa.eu/fp7/ict/language-technologies/fp7-call10_en.html
Στο οποίο τέτοια δουλειά είναι αρκετά πιθανό να μπορεί να ενταχθεί.

Πιστεύετε υπάρχει περίπτωση να γίνει κάτι ώστε να έχουμε σχετικό
proposal? Οι "προτασιακές" μου ικανότητες είναι λίγο σκουριασμένες
(η τελευταία φορά που ασχολήθηκα ήταν το 2003 αν θυμάμαι καλά)
οπότε δεν ξέρω πώς παίζεται τώρα το σχετικό παιχνίδι.

Θα ήθελα όμως **πάρα** μα **πάρα** πολύ να δω τα προβλήματα αυτά
λυμένα (δε με νοιάζει αν θα τα λύσω εγώ ή κάποιος άλλος) οπότε
αν υπάρχει κάποια ρεαλιστική πρόταση για το πώς μπορούν να λυθούν
είμαι όλος αυτιά.

Χαιρετισμούς,
Παντελής

απαντήσεις

πλοήγηση μηνυμάτων