Η Η ΥπερΔι@ύγεια είναι μια μηχανή αναζήτησης που ψάχνει σε όλα τα έγγραφα που αναρτώνται στο πρόγραμμα Δι@ύγεια.
Βασικά χαρακτηριστικά:
- Αναζήτηση στο περιεχόμενο των PDF που αναρτώνται στην Δι@ύγεια.
- Πρόσβαση σε αντίγραφα των τελευταίων εγγράφων που αναρτώνται στην Δι@ύγεια. (Πολύ χρήσιμο όταν πέφτει η Δι@ύγεια).
Γιατί δημιουργήθηκε;
- Διότι παρά το γεγονός ότι η Δι@ύγεια είναι μια καλή αρχή, έχει προβλήματα αξιοπιστίας και δεν διαθέτει καλές υπηρεσίες αναζήτησης.
Η προσέγγιση της ΥπερΔιαύγειας:
- Η ΥπερΔιαύγεια χρησμοποιεί σύγχρονες τεχνολογίες αναζήτησης και Οπτική Αναγνώριση Χαρακτήρων (OCR) με σκοπό την ακρίβεια και την ταχύτητα των αποτελεσμάτων.
Για ποιόν;
Από τη ΔΙ@ΥΓΕΙΑ στην ΥπερΔΙ@ΥΓΕΙΑ
του Βαγγέλη Μπάνου
Από την 1η Οκτωβρίου 2010, το Ελληνικό Κράτος άρχισε να αναρτά το σύνολο των αποφάσεων και των πράξεών του στο διαδίκτυο μέσω του προγράμματος “Δι@ύγεια” [Ν.3861/2010 (ΦΕΚ112/Α’/13-7-2010)] στην ιστοσελίδα Δι@ύγεια, διαφάνεια στο κράτος. Αυτή η ενέργεια εντάσσεται στο πλαίσιο της γενικότερης τάσης που παρατηρείται σε ολόκληρη την Ευρωπαϊκή Ένωση αλλά και στα προηγμένα κράτη παγκοσμίως για την ελεύθερη διάθεση και χρήση των δεδομένων του δημοσίου τομέα με σκοπό τη διαφάνεια στη δημόσια διοίκηση αλλά και την εκμετάλλευσή τους για την προώθηση της καινοτομίας. Ενδεικτικά παραδείγματα είναι τα προγράμματα ανοικτών δημόσιων δεδομένων του Ηνωμένου Βασιλείου: data.gov.uk, Opening up Government all about, της Γαλλίας: data.gouv.fr, Innovation Transparence Ouverture και για όλη την Ευρώπη, publicdata.eu beta, Europe's Public Data.
Το πρόγραμμα Δι@ύγεια είναι λοιπόν μια πρωτοβουλία που κινείται προς τη σωστή κατεύθυνση, καθώς υποχρεώνει όλους τους δημόσιους φορείς να αναρτούν τις αποφάσεις τους στο διαδίκτυο. Αν ένας φορέας δεν αναρτήσει μια απόφαση στο διαδίκτυο και αυτή δεν λάβει Αριθμό Διαδικτυακής Ανάρτησης (ΑΔΑ) από το σύστημα, δεν θεωρείται έγκυρη. Επιπλέον, με πρόσφατη εγκύκλιο από το Υπουργείο Εσωτερικών, Δημόσιας Διοίκησης και Αποκέντρωσης ενημερώθηκαν οι φορείς της κυβέρνησης ότι μπορούν στην ηλεκτρονική τους αλληλογραφία να διαβιβάζουν έγγραφα χρησιμοποιώντας μόνο το ΑΔΑ τους και χωρίς να τα επισυνάπτουν στα ηλεκτρονικά τους μηνύματα. Βλέπουμε λοιπόν πως η Δι@ύγεια αποτελεί ένα σοβαρό κομμάτι της υποδομής του Δημοσίου και η χρήση της τείνει να εδραιωθεί.
Παρ’ όλα αυτά, η απλή παράθεση των δημόσιων δεδομένων στο πρόγραμμα Δι@ύγεια δεν αποτελεί εχέγγυο για τη διαφάνεια και την εκμετάλλευσή τους για κοινωφελείς σκοπούς, όπως η προώθηση της πληροφόρησης και της καινοτομίας. Είναι απλά η κύρια προϋπόθεση για να επιτευχθεί αυτός ο στόχος. Είναι απαραίτητο να εφαρμοστούν προηγμένες προγραμματιστικές τεχνικές για τη διαχείριση, την ανάλυση, τον εμπλουτισμό και την παρουσίαση των δημόσιων δεδομένων ώστε να μπορέσει ο πολίτης να εκμεταλλευτεί πλήρως αυτό το δημόσιο αγαθό. Σε κάθε περίπτωση, το ιδιαίτερα θετικό σημείο της Δι@ύγειας είναι ότι παρέχει ικανοποιητική πρόσβαση στα πρωτογενή δεδομένα της μέσω του συστήματος Opendata API ώστε να μπορεί ο καθένας να έχει πρόσβαση σε αυτά. Έτσι έχει δημιουργηθεί μια σειρά από εφαρμογές που έχοντας πρόσβαση στα δεδομένα αυτά μπορούν να τα διαχειριστούν με το δικό τους τρόπο, παρέχοντας νέες υπηρεσίες. Η σημαντικότερη από αυτές τις εφαρμογές είναι η ΥπερΔιαύγεια.
Σκοπός της ΥπερΔιαύγειας είναι να παρέχει με ταχύτητα, ευχρηστία και ακρίβεια, πρόσβαση στα δημόσια δεδομένα που δημοσιεύονται στο πρόγραμμα Δι@ύγεια. Υπεύθυνος εξ’ ολοκλήρου για την αρχική σύλληψη, το σχεδιασμό, την υλοποίηση και την εξέλιξη του έργου είναι ο Βαγγέλης Μπάνος, Διπλ. Μηχανικός Πληροφοριακών & Επικοινωνιακών Συστημάτων, Msc. Η ΥπερΔιαύγεια ξεκίνησε τη λειτουργία της το Σεπτέμβριο του 2011 και έκτοτε συνεχίζει αδιάλειπτα την εξέλιξη της.
(i) Πληροφορίες Αποκλειστικά υπεύθυνος για τον σχεδιασμό και την υλοποίηση της ΥπερΔιαύγειας είναι ο Βαγγέλης Μπάνος. Η ΥπερΔιαύγεια αποτελεί προσωπική ερευνητική προσπάθεια και δεν συνδέεται με κανέναν δημόσιο ή ιδιωτικό φορέα
.
Ορισμένα βασικά χαρακτηριστικά της ΥπερΔιαύγειας τα οποία θεωρούνται κρίσιμα για την επιτυχία της είναι τα εξής:
- 1. Αποθήκευση ολόκληρων των αρχείων PDF των αποφάσεων που δημοσιεύονται στη Δι@ύγεια ώστε να είναι διαθέσιμα ανά πάσα στιγμή. Το χαρακτηριστικό αυτό είναι ιδιαίτερα σημαντικό διότι η Δι@ύγεια παρουσιάζει συχνά προβλήματα διαθεσιμότητας ειδικά τις ώρες αιχμής.
- 2. Ευρετήριο αναζήτησης πλήρους κειμένου (full text search index) για το σύνολο των εγγράφων και των μεταδεδομένων που αναρτώνται στη Δι@ύγεια.
- 3. Οπτική αναγνώριση κειμένων (OCR) για τα έγγραφα που είναι κωδικοποιημένα σε μορφή εικόνας (για παράδειγμα, έγγραφα που προέρχονται από scanner). Τα έγγραφα αυτά δεν περιέχουν πληροφορίες κειμένου και ως εκ τούτου χρειάζονται ειδική ανάλυση (OCR Text extraction) για να μπορέσει να γίνει ανάκτηση του κειμένου που περιέχουν.
- 4. Προεπισκόπηση της πρώτης σελίδας όλων των εγγράφων σε μορφή εικόνας για να μπορεί κανείς άμεσα να δει αν ένα κείμενο τον ενδιαφέρει και να πλοηγηθεί ταχύτερα και αποτελεσματικότερα.
- 5. Σύνθετα φίλτρα αναζήτησης ανά οργανισμό, υπογράφοντα και χρόνο δημοσίευσης.
- 6. APIs ανοικτής πρόσβασης ώστε να μπορεί κανείς να έχει πρόσβαση μέσω ειδικών πρωτοκόλλων και να αναπτύξει νέες εφαρμογές.
- 7. Έμφαση στην ταχύτητα απόκρισης και στην απλότητα χρήσης.
Κρίνοντας από τα μέχρι τώρα αποτελέσματα, το έργο της ΥπερΔιαύγειας είναι πολύ θετικό. Ένας αυξανόμενος αριθμός χρηστών επισκέπτεται καθημερινά την ιστοσελίδα, φτάνοντας και σε χιλιάδες επισκέπτες ανά ημέρα ορισμένες φορές. Πολλοί από αυτούς είναι μάλιστα και συστηματικοί χρήστες που έπαψαν να επισκέπτονται την ιστοσελίδα του προγράμματος Δι@ύγεια, καθώς σε αντίθεση με την ΥπερΔιαύγεια βρίσκεται σε ένα στάδιο αποτελμάτωσης, ενώ παράλληλα εμφανίζει προβλήματα διαθεσιμότητας κατά τις ώρες αιχμής.
Οι ερευνητικές κατευθύνσεις και οι στόχοι της ΥπερΔιαύγειας για το επόμενο διάστημα μπορούν να συνοψιστούν στα εξής:
- 1. Eμπλουτισμός των δεδομένων της Δι@ύγειας δημιουργώντας νέα γνωρίσματα που περιγράφουν την πληροφορία που εμπεριέχεται στο κείμενο κάθε απόφασης. Επίσης, θα επιχειρηθεί η συμπλήρωση/πρόβλεψη κενών γνωρισμάτων για έγγραφα που έχουν ήδη αναρτηθεί. Τα γνωρίσματα αυτά θα προκύψουν αυτόματα είτε αναλύοντας με προγραμματιστικές τεχνικές το κείμενο του κάθε εγγράφου, είτε εφαρμόζοντας αλγορίθμους εξόρυξης γνώσης. Για παράδειγμα, είναι πιθανό σε ένα έντυπο δαπάνης να μην έχει συμπληρωθεί το ΑΦΜ του αναδόχου. Το σύστημά μας θα εξάγει το ΑΦΜ από το πλήρες κείμενο της απόφασης μέσω τεχνολογίας Οπτικής Αναγνώρισης Χαρακτήρων (OCR), θα το επικυρώνει αξιοποιώντας τη διαδικτυακή υπηρεσία (web service) της Γενικής Γραμματείας Πληροφοριακών Συστημάτων (ΓΓΠΣ) και θα το προσθέτει στα μεταδεδομένα της απόφασης.
- 2. Eμπλουτισμός των δεδομένων της Δι@ύγειας με γνωρίσματα γεωγραφικών πληροφοριών έτσι ώστε σε συνδυασμό με τα προαναφερθέντα γνωρίσματα να είναι δυνατή και η χωρική οργάνωση και διαχείριση των πληροφοριών. Χρήσιμα συμπεράσματα από αυτή την ανάλυση θα παρουσιαστούν στην παραδοτέα μελέτη. Ένα ενδεικτικό παράδειγμα, “Πώς κατανέμονται οι δαπάνες για τον πολιτισμό σε κάθε γεωγραφική περιοχή της χώρας;”
- 3. Εφαρμογή διαδικασιών ανακάλυψης γνώσης από δεδομένα (Knowledge Discovery from Databases - KDD) ή/και μεθόδων ανάκτησης πληροφορίας (Information Retrieval) στα δεδομένα της Δι@ύγειας. Τέτοιου είδους εφαρμογές περιλαμβάνουν την εκτέλεση τεσσάρων διαδοχικών σταδίων: (i) επιλογή δεδομένων, (ii) προεπεξεργασία, (iii) εξόρυξη γνώσης και (iv) αξιολόγηση/ερμηνεία αποτελεσμάτων. Πιο συγκεκριμένα, θα επιχειρηθεί η εφαρμογή διαδεδομένων από τη βιβλιογραφία τεχνικών όπως ανακάλυψη κανόνων συσχέτισης (association rules mining), ομαδοποίηση (clustering) και κατηγοριοποίηση (classification).
Να κλείσουμε λέγοντας ότι σύμφωνα με το Ελληνικό Σύνταγμα, τα Ανοιχτά Δημόσια Δεδομένα αποτελούν κτήμα όλων μας (άρθρο 5 Α του Συντάγματος) και η σημασία τους είναι εφάμιλλη του ανοικτού λογισμικού. Στην εποχή της πληροφορίας που διανύουμε, το αγαθό αυτό θα πρέπει να διαφυλαχθεί και να χρησιμοποιηθεί για κοινωφελείς σκοπούς.
Βαγγέλης Μπάνος
[File:Yperdiaygeia.jpg]
|