Την ακούμε παντού: στην τεχνολογία, την υγεία, τα social media, τις επιχειρήσεις. Η επιστήμη δεδομένων έχει μετατραπεί σε μια από τις πιο κρίσιμες και δημοφιλείς ειδικότητες της εποχής μας. Αλλά τι ακριβώς είναι; Γιατί πρέπει να μας ενδιαφέρει και πώς μπορεί ένα άτομο να ξεκινήσει να εκπαιδεύεται ή να εργάζεται σε αυτό το πεδίο;
Επειδή θέλαμε να μάθουμε περισσότερα, απευθυνθήκαμε στον Δρ. Δημήτριο Βογιατζή, συντονιστή του προγράμματος MS in Data Science, στο Αμερικανικό Κολλέγιο Ελλάδος. Παρακάτω, μας εξηγεί γιατί τα δεδομένα έχουν τόση δύναμη - και τι χρειάζεται για να τα μετατρέψεις σε γνώση.
Η επιστήμη δεδομένων μέσα από τα μάτια ενός ειδικού:
Η Επιστήμη Δεδομένων (data science) είναι ένα διεπιστημονικό πεδίο που συνδυάζει μαθηματικά, στατιστική, πληροφορική και μηχανική μάθηση προκειμένου να εξαχθούν χρήσιμες πληροφορίες από ένα σύνολο δεδομένων. Η Επιστήμη Δεδομένων (ΕΔ) χρησιμοποιεί διάφορα εργαλεία για να συλλέξει, επεξεργαστεί και να οπτικοποιήσει δεδομένα προκειμένου να επιλύσει πολύπλοκα προβλήματα, και να βοηθήσει στη λήψη αποφάσεων.
Στο σημερινό κόσμο υπάρχει πληθώρα δεδομένων τα οποία εμφανίζονται με διάφορες μορφές. Τα δεδομένα παράγονται από το ψηφιακό αποτύπωμα κάθε ατόμου στο διαδίκτυο, από διάφορες εμπορικές συναλλαγές, ως αποτέλεσμα επιστημονικών πειραμάτων κ.ά. Επίσης, τα δεδομένα συλλέγονται σε διάφορες μορφές, όπως κείμενο, εικόνα, βίντεο, καθώς και σε δομημένη μορφή.
Αν και πάντοτε υπήρχαν αυτοματοποιημένες μέθοδοι ανάλυσης δεδομένων, σήμερα διαθέτουμε πολύ μεγαλύτερο όγκο δεδομένων, σε πολλές και διαφορετικές μορφές, με ενδεχόμενη υψηλή αξία. Μέσα από τα δεδομένα μπορούν να εντοπιστούν τάσεις ή να αξιοποιηθούν για σκοπούς πρόβλεψης. Για παράδειγμα, μπορούν να προταθούν προϊόντα ή υπηρεσίες στους καταναλωτές, να σχεδιαστούν νέα φάρμακα, να γίνει πρόβλεψη πωλήσεων ή να διερευνηθεί αν μία δημοσίευση σε κοινωνικά μέσα είναι αξιόπιστη.
Η ενασχόληση με την ΕΔ προϋποθέτει κάποιες γνώσεις που αφορούν στο προγραμματισμό, τις βάσεις δεδομένων, τα μαθηματικά (κυρίως στατιστική και άλγεβρα), καθώς και τεχνικές οπτικοποίησης δεδομένων. Χρήσιμες είναι επίσης και οι λεγόμενες οριζόντιες δεξιότητες, όπως η δυνατότητα ομαδικής εργασίας, αλλά και η δυνατότητα επικοινωνίας με συνεργάτες που δεν βρίσκονται στο ίδιο τεχνικό πεδίο. Για παράδειγμα, το τμήμα διαφήμισης μιας εταιρείας ή οι γιατροί ενός νοσοκομείου ως οι τελικοί αποδέκτες μιας εφαρμογής της ΕΔ, θα εμπλακούν σε όλες τις φάσεις του έργου, όπως στην παροχή δεδομένων, στον καθορισμό στόχων του έργου και στην τελική αξιολόγηση.
Τα βήματα πίσω από κάθε Project Επιστήμης Δεδομένων
- Καθορισμός του προς επίλυση προβλήματος.
- Συλλογή δεδομένων: μπορεί να είναι από εταιρικές βάσεις, από ανοιχτά δεδομένα, κτλ.
- Καθαρισμός και προετοιμασία δεδομένων για τα επόμενα στάδια: Εδώ τίθενται διάφορα θέματα όπως η ποιότητα των δεδομένων ή η ύπαρξη «θορύβου» που πρέπει να αντιμετωπιστούν.
- Εξερεύνηση των δεδομένων προκειμένου να βρεθούν χρήσιμα μορφώματα.
- Οπτικοποίηση δεδομένων: εξυπηρετεί το στάδιο της διερεύνησης δεδομένων, αλλά και την επικοινωνία των ευρημάτων.
- Διαμόρφωση χαρακτηριστικών (feature engineering) των δεδομένων που θα χρησιμοποιηθούν σε επόμενα βήματα: Τα αρχικά δεδομένα μπορεί να μην είναι στην κατάλληλη μορφή, άρα μπορεί να απαιτηθεί η δημιουργία μιας άλλης αναπαράστασης.
- Επιλογή και «εκπαίδευση» ενός μοντέλου μηχανικής μάθησης.
- Αξιολόγηση του εκπαιδευμένου μοντέλου: Η αξιολόγηση είναι στατιστικής φύσης.
- Θέση στην «παραγωγή» του μοντέλου: Κατασκευή διεπαφής χρήστη (user interface) που παρέχει εύκολη πρόσβαση στο μοντέλο.
- Παρακολούθηση και συντήρηση του μοντέλου: Αξιολόγηση του μοντέλου αναφορικά με τους στόχους του έργου, οι οποίοι μπορεί να είναι και ποσοτικοί και ποιοτικοί. Επίσης, νέα δεδομένα μπορούν να επανεκκινήσουν τη διαδικασία «εκπαίδευσης» του μοντέλου.
Αναρωτιέσαι πώς θα μπορούσες να ξεκινήσεις; Λοιπόν…
- Kaggle (https://www.kaggle.com/): Εκπαιδευτικό υλικό, σύνολα δεδομένων, και διαγωνισμοί.
- Σχετικά με γενικότερα θέματα της ΕΠ: https://towardsdatascience.com/, https://www.youtube.com/c/joshstarmer
- Βιβλίο: Charles Wheelan (2014), Naked Statistics: Stripping the Dread from the Data
- Οπτικοποίηση δεδομένων (data visualization): Tableau Public
- Βάσεις δεδομένων: Kahn Academy: Intro to SQL: querying and managing data https://www.khanacademy.org/computing/computer-programming/sql
Νέες τάσεις στην επιστήμη δεδομένων
Τα μεγάλα γλωσσικά μοντέλα (LLMs) όπως το Copilot, και το ChatGTP αναμένεται να επηρεάσουν την πρακτική της ΕΔ σε πολλά επίπεδα:
- Στην αυτοματοποίηση πολλών εργασιών, όπως στη δημιουργία κώδικα για τον καθαρισμό και την προ-επεξεργασία δεδομένων.
- Στη διατύπωση επερωτημάτων σε βάσεις δεδομένων σε φυσική γλώσσα, μειώνοντας την ανάγκη να γράφονται αυτά σε ειδικές γλώσσες όπως η SQL.
- Στον τομέα της μηχανικής μάθησης, μπορεί να αυτοματοποιηθεί η παραμετροποίηση μοντέλων.
- Στην εύρεση χρήσιμης πληροφορίας σε μεγάλα σύνολα δεδομένων.
- Με την αυτοματοποίηση πολλών «χαμηλών» εργασιών, οι ΕΔ θα μπορούν να εστιάσουν περισσότερο στη διαμόρφωση του προβλήματος που καλούνται να επιλύσουν, στη δημιουργία υποθέσεων για περαιτέρω διερεύνηση και στην στρατηγική λήψη αποφάσεων.
Επιστήμη δεδομένων και νομικά θέματα
Η εργασία ενός/μίας ΕΔ επηρεάζεται από νομικά θέματα και ιδιαίτερα από την ευρωπαϊκή νομοθεσία. Ειδικότερα, τo 2018 η Ευρωπαϊκή Ένωση έθεσε σε εφαρμογή τον κανονισμό General Data Protection Regulation (GDPR). Ο κανονισμός θέτει αυστηρούς κανόνες για τη συλλογή, αποθήκευση και επεξεργασία προσωπικών δεδομένων. Οι ΕΔ πρέπει να διασφαλίσουν ότι η συλλογή δεδομένων είναι σύννομη και διαφανής, να ανωνυμοποιούν τα δεδομένα όπου αυτό είναι εφικτό και να εστιάζουν στην ασφάλεια των δεδομένων ώστε να αποφεύγουν τυχόν παραβιάσεις. Πρέπει επίσης να δίνουν την δυνατότητα σε κάθε πολίτη να προσπελάσει, διορθώσει ή και να διαγράψει τελείως τα δεδομένα που τον αφορούν.
Επίσης, η Ευρωπαϊκή Ένωση έθεσε ένα νομικό πλαίσιο για την Τεχνητή Νοημοσύνη (ΤΝ) το 2024 (Regulation (EU) 2024/1689). Προβλέπει συγκεκριμένες απαιτήσεις και υποχρεώσεις σε όσους αναπτύσσουν και σε όσους θέτουν σε λειτουργία εφαρμογές ΤΝ. Βασίζεται σε μία ιεράρχηση κινδύνων και σε τρόπους αντιμετώπισής τους.
Ο Δρ. Δημήτριος Βογιατζής είναι συντονιστής του προγράμματος MS in Data Science, στο Αμερικανικό Κολλέγιο Ελλάδος, Deree. Διδάσκει προπτυχιακά και μεταπτυχιακά μαθήματα Πληροφορικής. Συνεργάζεται επίσης και με το ΕΚΕΦΕ «Δημόκριτος».
Ο ίδιος, είναι κάτοχος Πτυχίου Πληροφορικής από το Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών∙ MSc, στα Knowledge Based Systems από το University of Edinburgh και Διδακτορικό Δίπλωμα πάνω στα Νευρωνικά Δίκτυα από το Εθνικό Μετσόβιο Πολυτεχνείο.
Τα ερευνητικά ενδιαφέροντά του βρίσκονται στην Τεχνητή Νοημοσύνη, με εφαρμογές στην ανάλυση πολύπλοκων δικτύων, ανάλυση κοινωνικών δικτύων και στην ιατρική. Έχει 60 δημοσιεύσεις σε διεθνή συνέδρια, περιοδικά και κεφάλαια βιβλίων. Έχει, επιπλέον, συμμετάσχει σε 16 ερευνητικά έργα (ευρωπαϊκά και ελληνικά).






Δεν υπάρχουν σχόλια:
Δημοσίευση σχολίου
To μπλόκ " Στοχσμός-Πολιτική" είναι υπεύθυνο μόνο για τα δικά του σχόλια κι όχι για αυτά των αναγνωστών του...Eπίσης δεν υιοθετεί απόψεις από καταγγελίες και σχόλια αναγνωστών καθώς και άρθρα που το περιεχόμενο τους προέρχεται από άλλες σελίδες και αναδημοσιεύονται στον παρόντα ιστότοπο και ως εκ τούτου δεν φέρει οποιασδήποτε φύσεως ευθύνη.