ΕΕΛΛΑΚ - Λίστες Ταχυδρομείου

Πιθανή πρόταση για GSOC (iate for stardict/goldendict)

  • Subject: Πιθανή πρόταση για GSOC (iate for stardict/goldendict)
  • From: Jennie Petoumenou <epetoumenou [ at ] gmail [ dot ] com>
  • Date: Tue, 17 Dec 2019 23:53:25 +0100
Καλησπέρα,
Ζητώ συγγνώμη για το σπαμ, αλλά τα τελευταία χρόνια έχω χάσει την επαφή με
την κοινότητα και δεν ήξερα που να απευθυνθώ.
Δεν ξέρω κατά πόσο η πρότασή μου θα ήταν κατάλληλη για το Google Summer of
Code, και δεν έχω αρκετές γνώσεις προγραμματισμού για να αναλάβω
αποκλειστικά ως mentor, οπότε την καταθέτω εδώ με την ελπίδα ότι ίσως
ενδιαφέρει και κάποιον άλλο.
Το iate είναι η πολύγλωσση βάση ορολογίας της Ευρωπαϊκής Επιτροπής, που
πλέον διατίθεται για κατέβασμα και ελεύθερη χρήση σε μορφή xml.
Εδώ και κάποια χρόνια χρησιμοποιώ ένα απλό σκριπτ perl για να μετατρέπω το
αρχείο αυτό xml στις μορφές text που διαβάζουν το goldendict ή το stardict
(ΕΛΛΑΚ προγράμματα λεξικών - διαθέσιμα για linux, win). Και αποκτώ πχ ένα
λεξικό ορολογίας αγγλο-γαλλο-γερμανο-ελληνικό με 750.000 λήμματα.
Επισυνάπτω ένα screenshot λήμματος από το goldendict.
Η πρότασή μου θα ήταν να δημιουργηθεί μία gui εφαρμογή που να αυτοματοποιεί
αυτή τη μετατροπή. Ο επίδοξος χρήστης να επιλέγει τις γλώσσες εργασίας του,
και το λεξικό να κατεβαίνει έτοιμο προς χρήση. Από τεχνικής πλευράς, θα
έπρεπε να φτιαχτεί το gui, και ένα πρόγραμμα (ενδεχομένως σε python;) που
να κάνει regexxing σε ένα μεγάλο αρχείο (2gb), και στο τέλος συμπίεση με
dictzip  ή compile με τα υπάρχοντα script του stardict-tools (και τα δύο
υπάρχουν στα αποθετήρια).
Πέρα από linux και win, ιδανικά θα μπορούσε να κατασκευαστεί και εφαρμογή
για android. Με το μόνο πρόβλημα ότι τότε το λεξικό θα μπορούσε μεν να
χρησιμοποιηθεί από διάφορες εφαρμογές, αλλά καμία τους δεν είναι ΕΛΛΑΚ. Και
τους πιθανούς τεχνικούς περιορισμούς εφόσον μιλάμε για επεξεργασία αρχείου
2gb.

Σας ευχαριστώ για την προσοχή σας και είμαι στη διάθεση όλων όσων
ενδιαφέρονται.

Φιλικά,
Τζένη Πετούμενου

Attachment: Screenshot_20191217-233940_GoldenDict.jpg
Description: JPEG image

 
----
Λαμβάνετε αυτό το μήνυμα απο την λίστα: Λίστα αλληλογραφίας και συζητήσεων για την δημόσια διαβούλευση και συμμετοχή στις συζητήσεις και αποφάσεις της ΕΕΛ\/ΛΑΚ,
https://lists.ellak.gr/eellak-advisory/listinfo.html

Μπορείτε να απεγγραφείτε από τη λίστα στέλνοντας κενό μήνυμα ηλ. ταχυδρομείου στη διεύθυνση <eellak-advisory+unsubscribe [ at ] ellak [ dot ] gr>.

πλοήγηση μηνυμάτων