Καλησπέρα,
κάναμε ως EBS Ε.Π.Ε. μια προσφορά στο Apache Lucene project που ίσως
φανεί χρήσιμη σε ορισμένους από εσάς.
Για όσους δε γνωρίζουν το Lucene (http://lucene.apache.org), πρόκειται
για ένα full text search engine γραμμένο σε Java και με σημαντική
θεωρητική θεμελίωση. Με τη βοήθειά του μπορεί κανείς να κάνει
αναζητήσεις σε τεράστιο όγκο πληροφορίας σε κλάσματα δευτερολέπτου.
Χρησιμοποιείται από εταιρείες όπως η Akamai, η IBM, κλπ., είτε
ενσωματωμένο σε προϊόντα (π.χ. Eclipse) είτε σε server-side εφαρμογές.
Οι αλλαγές που συνεισφέραμε στο Lucene προσφέρουν τα ακόλουθα
πλεονεκτήματα, που είναι δυσεύρετα και σε search engines από διαφορετικά
περιβάλλοντα:
- η αναζήτηση για λέξεις όπως "ΜΗΧΑΝΙΚΟΣ", "Μηχανικός" και "μηχανικός"
επιστρέφει τα ίδια αποτελέσματα, καθώς το search query μετατρέπει όλες
τις δυνατές μορφές σε μια μοναδική απεικόνιση, λαμβάνοντας υπόψη τις
ιδιαιτερότητες της ελληνικής γλώσσας (τόνοι, διαλυτικά, κλπ.)
- η αναζήτηση μπορεί να πραγματοποιηθεί στα πλέον ευρέως
χρησιμοποιούμενα character sets Unicode, ISO-8859-7 και Windows-1253,
ενώ και άλλα (βλ. RFC 1947) μπορούν να προστεθούν εύκολα
- η διαδικασία του indexing διαθέτει βελτιωμένες επιδόσεις, αποφεύγοντας
κοινές λέξεις (π.χ. και, ο, για, του) οι οποίες σύμφωνα με τις θεωρίες
του χώρου του Information Retrieval δε συνεισφέρουν στην ταυτοποίηση
ενός κειμένου, άρα και στην αναζήτηση σε αυτό
Για να χρησιμοποιήσει κάποιος τον εληνικό analyzer θα πρέπει να
κατεβάσει την τρέχουσα έκδοση του Lucene από το subversion repository
του project ή να αναμένει την επόμενη έκδοση.
Εάν υπάρχουν παρατηρήσεις, σχόλια είτε προτάσεις για βελτιώσεις, θα
χαρούμε να τις ακούσουμε.
Φιλικά,
--
Panagiotis Astithas, PhD
EBS, Electronic Business Systems Ltd.
18 Evgenidou Street, 115 25, Athens GREECE
Phone: +30 210 674 7631
Fax: +30 210 674 7601
http://www.ebs.gr