Institutional Repository
Technical University of Crete
EN  |  EL

Search

Browse

My Space

Persistency and interoperability in Synopses Data Engine: integration into Knowledge Lakes

Petrou Dimitrios

Simple record


URIhttp://purl.tuc.gr/dl/dias/E2FF251B-87FF-4EA0-898F-A6C338A053CF-
Identifierhttps://doi.org/10.26233/heallink.tuc.102295-
Languageen-
Extent73 pagesen
Extent10 megabytesen
TitlePersistency and interoperability in Synopses Data Engine: integration into Knowledge Lakesen
TitleΣυνεχής αποθήκευση και διαλειτουργικότητα συνόψεων στο Synopses Data Engine: ενσωμάτωση σε Λίμνες Γνώσηςel
CreatorPetrou Dimitriosen
CreatorΠετρου Δημητριοςel
Contributor [Thesis Supervisor]Samoladas Vasilisen
Contributor [Thesis Supervisor]Σαμολαδας Βασιληςel
Contributor [Committee Member]Deligiannakis Antoniosen
Contributor [Committee Member]Δεληγιαννακης Αντωνιοςel
Contributor [Committee Member]Giatrakos Nikolaosen
Contributor [Committee Member]Γιατρακος Νικολαοςel
PublisherΠολυτεχνείο Κρήτηςel
PublisherTechnical University of Creteen
Academic UnitTechnical University of Crete::School of Electrical and Computer Engineeringen
Academic UnitΠολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστώνel
Content SummaryIn the era of big data where real-time information is generated at an unprecedented scale, the ability to process, analyze, and extract actionable insights efficiently is con- sidered a requirement in many use cases. Stream summarization has emerged as novel technique when it comes to addressing this, enabling the creation of compact, yet in- formative, representations of continuous data streams, termed synopses, eliminating the need of storing vast amounts of raw data for future processing. A prominent effort con- ducted in this sector, is the Synopses Data Engine (SDE), an advanced framework that integrates state-of-the-art stream summarization techniques with the high-performance capabilities of Apache Flink, eventually forming an interactive summarization service at a scale. While SDE has proven its merit in other big data ecosystems, its applica- tion within knowledge-driven environments introduces new requirements. In their native form, synopses are volatile. Their lifespan depends on the runtime of the engine. How- ever, in the context of Knowledge Lakes, where long-term insights and temporal analytics are essential, the inability to retain and revisit previous states introduces a significant limitation. This thesis aims to bridge this gap by extending the capabilities of SDE to incorporate persistency and a versatile snapshot mechanism, allowing for the long-term storage and retrieval of Synopses by respecting SDE’s indigenous key features. Further- more, the work expands the Streaming API of SDE to provide broader observability into the internal state of the engine, allowing metadata to be extracted towards outer data an- alytics ecosystems. The STELAR KLMS (Knowledge Lake Management System) serves as the domain of application for this Thesis, where SDE is integrated to process real-time agri-food data for precision interventions.en
Content SummaryΣτην εποχή των μεγάλων δεδομένων, όπου η παραγωγή πληροφοριών σε πραγματικό χρόνο έχει αυξηθεί σε πρωτοφανή επίπεδα, η ικανότητα επεξεργασίας, ανάλυσης και εξαγωγής χρήσιμων συμπερασμάτων με αποτελεσματικό τρόπο θεωρείται απαραίτητη σε πολλές περιπτώσεις χρήσης. Το stream summarization έχει αναδειχθεί ως μια καινοτόμος τεχνική για την αντιμετώπιση αυτής της πρόκλησης, επιτρέποντας τη δημιουργία συμπαγών, αλλά ταυτόχρονα πλούσιων σε πληροφορία, αναπαραστάσεων ροών δεδομένων (data streams), που αποκαλούνται συνόψεις, καταργώντας έτσι την ανάγκη αποθήκευσης τεράστιων όγκων πρωτογενών δεδομένων με σκοπό την μελλοντική επεξεργασία. Μια εξέχουσα προσπάθεια που έχει εκπονηθεί σε αυτό τον τομέα είναι το Synopses Data Engine (SDE), ένα προηγμένο εργαλείο το οποίο ενσωματώνει τεχνικές αιχμής συνδυάζοντας τις συνόψεις με το ευέλικτο περιβάλλον του Apache Flink, παρέχει στον τελικό χρήστη το stream summarization υπό την μορφή υπηρεσίας λογισμικού (SaaS). Το SDE έχει επιβεβαιώσει την αξία του σε οικοσυστήματα μεγάλων δεδομένων στο παρελθόν, ωστόσο η εφαρμογή του σε περιβάλλοντα που προσανατολίζονται στην δημιουργία γνώσης εισάγει νέες απαιτήσεις. Στην εγγενή τους μορφή, οι συνόψεις έχουν μικρό προσδόκιμο ζωής. Η διάρκειά τους εξαρτάται από τον χρόνο εκτέλεσης της διεργασίας που τις δημιούργησε στη μνήμη ενός υπολογιστικού συστήματος. Στο πλαίσιο μιας Λίμνης Γνώσης, όπου τα μακροπρόθεσμα στατιστικά και η διαχρονική διαθεσιμότητα των δεδομένων, είναι ουσιώδους σημασίας, η αδυναμία διατήρησης και επανεξέτασης προηγούμενων καταστάσεων της πληροφορίας θέτει σοβαρούς περιορισμούς. Στόχος αυτής της διπλωματικής εργασίας, είναι να γεφυρώσει αυτό το κενό, επεκτείνοντας τις δυνατότητες του SDE ώστε να ενσωματώνει συνεχή αποθήκευση και ανάκληση συνόψεων μέσω ενός ευέλικτου μηχανισμού δημιουργίας στιγμιοτύπων. Οι συνόψεις έτσι, αποκτούν μακροπρόθεσμο χαρακτήρα ενώ η νέα λειτουργικότητα εγγυάται για τα αρχικά χαρακτηριστικά απόδοσης του SDE. Επιπλέον, η δουλειά αυτή, αναπτύσσει το Streaming API του SDE προκειμένου να παρέχει ευρύτερη παρατηρησιμότητα στην εσωτερική του κατάσταση , επιτρέποντας την εξαγωγή μεταδεδομένων προς τρίτα οικοσύστημα λογισμικού. Το STELAR KLMS (Knowledge Lake Management System) λειτουργεί ως πεδίο εφαρμογής αυτής της εργασίας, όπου το SDE ενσωματώνεται για την επεξεργασία real-time αγροδιατροφικών δεδομένων με σκοπό την καθοδήγηση παρεμβάσεων στην γεωργία ακριβείας.el
Type of ItemΔιπλωματική Εργασίαel
Type of ItemDiploma Worken
Licensehttp://creativecommons.org/licenses/by/4.0/en
Date of Item2025-02-17-
Date of Publication2025-
SubjectStateful Stream Processingen
SubjectData Synopsesen
SubjectStream Summarizationen
SubjectData Summarizationen
Bibliographic CitationDimitrios Petrou, "Persistency and interoperability in Synopses Data Engine: integration into Knowledge Lakes", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2025en
Bibliographic CitationΔημήτριος Πέτρου, "Συνεχής αποθήκευση και διαλειτουργικότητα συνόψεων στο Synopses Data Engine: ενσωμάτωση σε Λίμνες Γνώσης", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2025el

Available Files

Services

Statistics