ΕΕΛ/ΛΑΚ - Λίστες Ταχυδρομείου

Re: Fwd: Διαγωνισμός ανάπτυξης ΕΛ/ΛΑΚ

  • Subject: Re: Fwd: Διαγωνισμός ανάπτυξης ΕΛ/ΛΑΚ
  • From: Diomidis Spinellis <dds [ at ] aueb [ dot ] gr>
  • Date: Mon, 16 Feb 2009 10:52:02 +0200
Ενδιαφέρουσα ιδέα και βιογραφικό!

Theodoros G. Karounos wrote:
ΓΙΑ ΕΝΗΜΕΡΩΣΗ ΚΑΙ ΣΧΟΛΙΑΣΜΟ.


---------- Forwarded message ----------
From: Spyros Blanas <sblanas [ at ] gmail [ dot ] com>
Date: 2009/2/16
Subject: Διαγωνισμός ανάπτυξης ΕΛ/ΛΑΚ
To: info [ at ] ellak [ dot ] gr


=======================================
 Μετατροπέας από Greeklish σε Ελληνικά
=======================================

:Περίληψη: Δημιουργία αυτόματου μετατροπέα από Greeklish σε ελληνικά, με τέσσερα
παραδοτέα: μια βιβλιοθήκη και τρία plug-ins για Pidgin, Thunderbird και
Firefox.

Ιστορικό
--------

Greeklish ονομάζεται η γραφή της ελληνικής γλώσσας με λατινικούς χαρακτήρες.
Το πρόβλημα των Greeklish έχει τις ρίζες του στην προτυποποίηση του σετ
χαρακτήρων των υπολογιστών, καθώς το κοινά αποδεκτό standard ASCII περιείχε
μόνο λατινικούς χαρακτήρες. Δημοφιλείς γλώσσες όπως τα γαλλικά και τα γερμανικά
μπορούσανε να γραφούν μόνο απλοποιώντας χαρακτήρες, ενώ άλλες γλώσσες, όπως τα
ελληνικά, ρωσικά ή νορβηγικά είχανε πολύ μικρή επικάλυψη με το ASCII standard
(πχ. στα ελληνικά επικάλυψη έχουν μόνο ορισμένοι κεφαλαίοι χαρακτήρες).

Η λύση που δόθηκε ήταν να χρησιμοποιηθούν διαφορετικές κωδικοσελίδες
(codepages) για κάθε γλώσσα. Τα ελληνικά είχαν δυστυχώς την ατυχία να
καλύπτονται από δύο κωδικοσελίδες (CP737 και CP869), οι οποίες δεν ήταν
συμβατές μεταξύ τους.  Επίσης, καθώς δεν υπήρχε κάποιο ενιαίο standard για την
μεταφορά μέτα-δεδομένων, που περιλαμβάνει και την μετάδοση πληροφοριών
κωδικοσελίδας, συχνά οι χρήστες έπρεπε να μαντέψουν τη σωστή κωδικοποίηση για
να διαβάσουν ένα ελληνικό κείμενο.  Τέλος η προβληματική υποστήριξη μη-αγγλικών
αλφαβήτων στις συνηθισμένες εγκαταστάσεις Microsoft Windows σήμαινε ότι
ενδεχομένως να μην υπήρχαν καν ελληνικές γραμματοσειρές σε κοινόχρηστους
υπολογιστές σε πανεπιστήμια ή internet cafe.

Για όλους αυτούς τους λόγους οι χρήστες οδηγήθηκαν στο να γράφουν ελληνικά με
αγγλικούς χαρακτήρες για να αποφύγουν τα προβλήματα συμβατότητας. Σήμερα πια,
ενώ η υποστήριξη έχει βελτιωθεί τρομερά, το πρόβλημα -εν μέρει λόγω της δύναμης
της συνήθειας- έχει πάρει διαστάσεις επιδημίας. Φόρουμ που παλιότερα απαγόρευαν
άρθρα γραμμένα στα αγγλικά αναγκάστηκαν εκ των πραγμάτων να αναθεωρήσουν τη
στάση τους λόγω του μεγάλου όγκου των άρθρων που γραφόταν σε greeklish. Στα
δίκτυα IRC και IM οι έλληνες χρήστες επικοινωνούν σχεδόν αποκλειστικά σε
greeklish. Τα περισσότερα ελληνικά βίντεο στο youtube έχουν σχόλια μόνο σε
greeklish. Στις μηχανές αναζήτησης, πολλές ελληνικές φράσεις φέρνουν λιγότερα
αποτελέσματα από τις ίδιες φράσεις γραμμένες σε greeklish!

Αυτά τα φαινόμενα έχουν κάνει πολλούς να μιλήσουν για αλλοτρίωση της
ελληνικής γλώσσας.

Στόχοι
------

Πιστεύω ότι η πάταξη των greeklish "δια ροπάλου" δεν μπορεί να δώσει
αποτελέσματα. Εναλλακτικά προτείνω τη δημιουργία μιας βιβλιοθήκης η οποία θα
μπορεί να μετατρέπει τα greeklish σε ελληνικά αυτόματα, χωρίς την παρέμβαση του
χρήστη. Ιδανικά, αυτό θα σήμαινε ότι όλα τα greeklish θα φαινόταν σε όλους τους
χρήστες σαν κανονικά ελληνικά, ωθώντας τους να απαντήσουν σε κανονικά ελληνικά.

Ο καλύτερος τρόπος να δείξω στη πράξη την ευελιξία και ελευθερία διακίνησης της
βιβλιοθήκης, είναι να κατασκευάσω plug-ins για γνωστά προγράμματα. Καθώς
πιστεύω ότι η μεγαλύτερος όγκος greeklish κειμένου διακινείται μέσω
ηλεκτρονικών μηνυμάτων (e-mail ή IM) και ιστοσελίδων, στοχεύω στην δημιουργία
τριών πολύ απλών plug-ins για Pidgin (IM πελάτης), Thunderbird (πελάτης
ηλεκτρονικού ταχυδρομίου) και Firefox (περιηγητής ιστοσελίδων).

Η μετατροπή θα στηριχτεί σε ένα finite state transducer, o οποίος θα έχει
προϋπολογισμένες πιθανότητες μετατροπής κάθε αγγλικού χαρακτήρα σε ελληνικό.  Ο
transducer θα κατασκευαστεί ως εξής: Αρχικά ο transducer θα περιέχει μια λίστα
από απλούς κανόνες (όπως: το "ks" είναι "ξ"). Μετά, θα δημιουργήσω μια λίστα με
όλες τις έγκυρες μετατροπές στην ελληνική γλώσσα. Στη συνέχεια θα υπολογίσω τις
πιθανότητες μετάβασης αυτών των μετατροπών πάνω σε ένα σύνολο προμεταφρασμένου
κειμένου, χρησιμοποιώντας ένα απλό unigram γλωσσικό μοντέλο της Ελληνικής
γλώσσας και εκμάθηση Bayes. H συγκεκριμένη διαδικασία είναι τυπική για την
κατασκευή αυτοματοποιημένων μεταφραστών (`Machine translator`_), μόνο που
ορισμένα βήματα είναι περιττά, λόγω μετατροπής μεταξύ δύο γραφών της ίδιας
γλώσσας.

Παρόμοια προγράμματα υπάρχουν ήδη, όπως το `Greeklish converter`_ και το `All
Greek to me!`_. Το πρώτο είναι μια δικτυακή υπηρεσία η οποία μεταφράζει
συνοπτικά αποσπάσματα κείμενου σε ελληνικά. Το δεύτερο είναι ένα κλειστό
πρόγραμμα που μάλλον ταιριάζει περισσότερο σε εταιρικά περιβάλλοντα που
λαμβάνουν ή στέλνουν μεγάλο όγκο κειμένου σε greeklish. Δυστυχώς όμως και οι
δύο λύσεις έχουν το μειονέκτημα της μειωμένης ευελιξίας λόγω των περιορισμών
χρήσης. Αντίθετα η βιβλιοθήκη που θα αναπτύξω δεν θα έχει τέτοιους
περιορισμούς.

Παραδοτέα
---------

- Κώδικας για τη βιβλιοθήκη και τα τρία plug-ins.
- Repository στο sourceforge.
- Πλήρη training data και unigram γλωσσικό μοντέλο της ελληνικής γλώσσας.
- Τεκμηρίωση.
- Binary plug-ins για απευθείας εγκατάσταση.

Χρονοδιάγραμμα
--------------

- 9/3: Δημιουργία repository, ανάγνωση βιβλιογραφίας για αυτόματη
μετάφραση, εξοικίωση με υπάρχοντα εργαλεία επεξεργασίας λόγου.
- 16/3: Συλλογή κειμένων σε greeklish από το internet.
- 23/3: Μετατροπή των παραπάνω αποσπασμάτων σε ελληνικά.
- 13/4: Γλωσσικό μοντέλο και transducer έτοιμα σύμφωνα με την ανωτέρω
διαδικασία.
- 20/4: Δημιουργία απλής βιβλιοθήκης με ένα API call για να μετατρέπει
greeklish σε ελληνικά χρησιμοποιώντας τον transducer.
- 27/4: Δημιουργία plug-in για Pidgin.
- 11/5: Δημιουργία plug-in για Thunderbird.
- 18/5: Δημιουργία plug-in για Firefox.
- 25/5: Ολοκλήρωση της συγγραφής τεκμηρίωσης, public release των
plug-ins σε binary μορφή.

Βιογραφικό
----------

Είμαι διπλωματούχος μηχανικός από το Πολυτεχνείο Κρήτης από το 2006. Συνεχίζω
τις σπουδές μου με στόχο την απόκτηση διδακτορικού διπλώματος στις βάσεις
δεδομένων στο τμήμα Επιστήμης Υπολογιστών στο University of Wisconsin - Madison
στις ΗΠΑ.

Σαν προπτυχιακός φοιτητής στο Πολυτεχνείο Κρήτης στα Χανιά υπήρξα ένα από τα
ιδρυτικά μέλη της ομάδας ΕΛ/ΛΑΚ του Πολυτεχνείου. Έκανα μια εκτεταμένη
έρευνα για
το πόσο είναι εφικτό να αντικατασταθούν τα υπάρχοντα συστήματα με
ανοιχτές λύσεις,
η οποία ανέδειξε τρία σημαντικά εμπόδια στην πλήρη υιοθέτηση λύσεων
ΕΛ/ΛΑΚ στο Πολυτεχνείο:

- Αποκλειστική χρήση κλειστών συστημάτων σε νευραλγικά διοικητικά τμήματα, όπως
  το φοιτητολόγιο, η βιβλιοθήκη και η μισθοδοσία. Αυτές οι επιλογές οδήγησαν
  σε μια σχέση εξάρτησης του Πολυτενχείου από συγκεκριμένες εταιρίες (vendor
  lock-in).
- Η μαθησιακή διαδικασία απαιτούσε την χρήση κλειστών πακέτων λογισμικού, ακόμη
  και όταν υπήρχαν λύσεις ανοιχτού λογισμικού (πχ. Οctave αντί Matlab).
- Η απουσία προσωπικού με αντικείμενο την λύση καθημερινών τεχνικών προβλημάτων
  (IT support staff), η οποία δημιουργούσε εξάρτηση στο δημοφιλές
λειτουργικό σύστημα της
  Microsoft το οποίο θεωρούνταν και ως προαπαιτούμενο για τις περισσότερες
  διοικητικές θέσεις.

H έρευνα οδήγησε σε γόνιμο διάλογο στην πανεπιστημιακή κοινότητα, με αποτέλεσμα
να υπάρξει πλήρης απεμπλοκή της εκπαιδευτικής λειτουργίας από συγκεκριμένα
προϊόντα και να προβλεφθεί κονδύλι στο πανεπιστημιακό προϋπολογισμό για τεχνικό
προσωπικό.

Έχω συμμετάσχει στον (ημιτελή) εξελληνισμό του Inkscape_, προγράμματος
διανυσματικών γραφικών. Έχω επίσης βοηθήσει την κοινότητα ανάπτυξης του
Inkscape με patches καθώς και με αποσφαλμάτωση στην εκάστοτε τρέχουσα
έκδοση (trunk).
Έχω επίσης βοηθήσει στην ανάπτυξη του συστήματος Hadoop_, μιας ανοιχτής
υλοποίησης της υπολογιστικής πλατφόρμας MapReduce, συνεισφέροντας
κώδικα μέσω patcehs.
Τέλος, έχω εργαστεί ένα καλοκαίρι στην IBM, στο `Almaden Research Center`_, όπου
ήμουνα μέλος της ομάδας που ανέπτυξε και οδήγησε την γλώσσα JAQL_ στο πρώτο
open-source release της.

:Συγγραφέας: Σπύρος Μπλάνας
:Email: sblanas [ at ] gmail [ dot ] com
:ΑΦΜ: 073272354 A' Βόλου
:Διεύθυνση: 228 Langdon St Apt 6, Madison, WI, USA
:Τηλέφωνο: +1-608-695-4151

Αναφορές
--------
Database group at University of Wisconsin-Madison
http://www.cs.wisc.edu/~dbgroup

Περισσότερες λεπτομέρειες για language models
http://en.wikipedia.org/wiki/Language_model

Πληροφορίες για στατιστική μετάφραση κειμένου
http://en.wikipedia.org/wiki/Statistical_machine_translation

.. _`Greeklish converter`:
http://www.translatum.gr/converter/greeklish-converter.htm
.. _`All Greek to me!`: http://www.ilsp.gr/greeklish.html
.. _`Machine translator`: http://en.wikipedia.org/wiki/Machine_translator
.. _JAQL: http://code.google.com/p/jaql/
.. _Inkscape: http://www.inksacpe.org
.. _Hadoop: http://hadoop.apache.org
.. _`Almaden Research Center`: http://www.almaden.ibm.com






αναφορές

πλοήγηση μηνυμάτων