Γεια σου Θάνο, Ευχαριστούμε για το ενδιαφέρον σου στο OpenCouncil και στο συγκεκριμένο έργο! Δεν έχουμε κάποια συγκεκριμένη προτίμηση ως προς τη μεθοδολογία για το extraction. Στο πλαίσιο της πρότασής σου μπορείς να εξετάσεις και να συγκρίνεις διαφορετικές προσεγγίσεις. Η χρήση εξωτερικών APIs για LLMs ακούγεται απολύτως λογική επιλογή και πιθανόν να είναι και η πιο παραγωγική λύση για το συγκεκριμένο πρόβλημα. Για περαιτέρω συζήτηση ή οτιδήποτε άλλο χρειαστείς, μπορείς να μας βρεις στο Discord. https://discord.gg/VdwtVG43WB Έχουν ήδη αρχίσει να συγκεντρώνονται εκεί ενδιαφερόμενοι για το πρότζεκτ, οπότε έχουμε μεταφέρει τη σχετική συζήτηση εκεί αντί για τη mailing list. Στο Discord θα βρεις επίσης και τα δοκιμαστικά αρχεία που ζήτησες. Φιλικά, Ανδρέας On Fri, 13 Mar 2026 at 12:36 PM, Thanos Smponias <s_sbonias [ at ] hotmail [ dot ] com> wrote: > *Dear OpenCouncil Mentors Andreas and Christos,* > I am Thanos and writing to express my strong interest in the "Municipal > Budget and Technical Program Visualization Tool" project for the GSoC 2026. > I am a native Greek speaker, holding a PhD in Physics and currently > completing my Master's in Machine Learning and AI from the Xarokopeio > University of Athens. Professionally, I have 4 years of experience as a > Frontend Developer with a strong bckground in Frontend technologies like > Next.js and React. > While reading the project’s expected results, I noticed that the core > architecture requires building a pipeline from *PDF extraction -> > PostgreSQL schema -> Next.js/React API and finally the UI*. I am reaching > out because I have built this exact architecture before. > In the context of my Master's Course Cloud Platforms, I developed a > project that addreses the exact same pattern, that is, it extracts > unstructured data from varied PDFs (like invoices and recipes) using > external API for LLMs like Gemini, structures it, saves it to a PostgreSQL > database, and visualizes it on a frontend table. Below, I give you the > github repo of this project. > > - *Repository:* https://github.com/Thanos-83/cloude-platforms-project > > As I begin drafting the architecture for the "robust extraction system" > mentioned in your Expected Results, I have two technical questions: > > 1. *Extraction Pipeline Strategy:* Given the high variaty of tabular > data across the 332 municipalities, what would be your preferred approach > for the extraction? Are there any constraints against using third-party LLM > APIs (like Gemini or OpenAI) , or should I focus my proposal entirely on > building a custom pipeline using open-source Python libraries (e.g., > pdfplumber, OCR, or local open-source Vision models) > 2. *Sample Data:* Could you share 1 or 2 sample budget PDFs from your > existing municipal partners? Since, I could run some extraction tests so I > can propose the most accurate data model in my application. > > If you have any other observations or advice that could help shape my > proposal, they would be more than welcome. Thank you for your time > Best regards, > *Thanos Smponias* > > ---- > Λαμβάνετε αυτό το μήνυμα απο την λίστα: Λίστα αλληλογραφίας και συζητήσεων > που απευθύνεται σε φοιτητές developers \& mentors έργων του Google Summer > of Code - A discussion list for student developers and mentors of Google > Summer of Code projects., > https://lists.ellak.gr/gsoc-developers/listinfo.html > Μπορείτε να απεγγραφείτε από τη λίστα στέλνοντας κενό μήνυμα ηλ. > ταχυδρομείου στη διεύθυνση <gsoc-developers+unsubscribe [ at ] ellak [ dot ] gr>. >
---- Λαμβάνετε αυτό το μήνυμα απο την λίστα: Λίστα αλληλογραφίας και συζητήσεων που απευθύνεται σε φοιτητές developers \& mentors έργων του Google Summer of Code - A discussion list for student developers and mentors of Google Summer of Code projects., https://lists.ellak.gr/gsoc-developers/listinfo.html Μπορείτε να απεγγραφείτε από τη λίστα στέλνοντας κενό μήνυμα ηλ. ταχυδρομείου στη διεύθυνση <gsoc-developers+unsubscribe [ at ] ellak [ dot ] gr>.