Σύντομη περιγραφή προγράμματος
Το πρόγραμμα εστιάζει στη συλλογή (web scraping) και επεξεργασία δεδομένων κειμένου (text mining). Χαρακτηριστικά παραδείγματα δεδομένων text είναι οι κριτικές πελατών και ειδικών (customer and expert reviews), τα σχόλια των χρηστών σε πλατφόρμες κοινωνικής δικτύωσης (social media posts), blogs, άρθρα σε πλατφόρμες ενημέρωσης (news articles) και οι περιγραφές προϊόντων σε ιστοσελίδες ηλεκτρονικού εμπορίου. Η ύλη του προγράμματος καλύπτει όλα τα στάδια της διαδικασίας που πρέπει να ολοκληρώσει καποιος που επιθυμεί να δουλέψει με δεδομένα κειμένου: συλλογή από τον παγκόσμιο ιστό (web scraping), προετοιμασία (clearing and parsing) και ανάλυση. Μέσα από το μάθημα, οι εκπαιδευόμενοι θα αποκτήσουν τις απαραίτητες γνώσεις πάνω στη γλώσσα προγραμματισμού Python και θα μάθουν πως να χρησιμοποιούν την Python για να λύσουν πρακτικά προβλήματα σχετικά με δεδομένα κειμένου, όπως επεξεργασία συναισθημάτων (sentiment analysis), κατηγοριοποίηση (classification), μοντελοποίηση θεμάτων (topic modeling), δημιουργία περιλήψεων summarization), και επεξεργασία οντοτήτων (entity extraction and disambiguation).
Τρόπος διεξαγωγής
Το πρόγραμμα χρησιμοποιεί την εκπαιδευτική μέθοδο eLearning: η μάθηση γίνεται αμιγώς ασύγχρονα (δηλαδή σε ημέρες και ώρες που εξυπηρετούν τον καταρτιζόμενο, χωρίς να υπάρχει υποχρεωτική παρακολούθηση σε συγκεκριμένη ώρα ή ημέρα), αποκλειστικά εξ αποστάσεως (με χρήση ειδικής εκπαιδευτικής πλατφόρμας μέσω διαδικτύου και Η/Υ από το χώρο του καταρτιζόμενου) και με την χρήση ψηφιακών εκπαιδευτικών εργαλείων όπως η παρακολούθηση βιντεοδιαλέξεων, η επίλυση διαδραστικών ασκήσεων αυτοαξιολόγησης και άλλα εργαλεία elearning που εξασφαλίζουν την αποτελεσματική και ευέλικτη ατομική αυτό-εκμάθηση. Το εκπαιδευτικό υλικό του προγράμματος γίνεται διαθέσιμο σε συγκεκριμένες χρονικές περιόδους, με βάση το μονοπάτι εκπαίδευσης που ακολουθείται, και εν συνεχεία παραμένει διαθέσιμο στην πλατφόρμα εκπαίδευσης χωρίς περιορισμούς σε όλη τη διάρκεια του προγράμματος.
Μαθησιακά αποτελέσματα
Στο τέλος του εκπαιδευτικού προγράμματος, ο εκπαιδευόμενος θα είναι σε θέση να χρησιμοποιεί την Python για να:
- Γράφει χρήσιμα scripts για πρακτικά tasks
- Αξιοποιεί δημοφιλείς δομές δεδομένων και βιβλιοθήκες
- Συλλέγει αυτόματα μεγάλους όγκους δεδομένων από τον παγκόσμιο ιστό
- Επεξεργάζεται δεδομένα κειμένου και να τα προετοιμάζει για ανάλυση
- Εξάγει πολύτιμες πληροφορίες από μεγάλους όγκους δεδομένων κειμένου
- Αναλύει κριτικές πελατών
- Αναλύει περιγραφές προϊόντων
- Χρησιμοποιεί δεδομένα κειμένου για να αξιολογήσει την ανταγωνιστικότητα ανάμεσα σε δύο οντότητες (π.χ. προϊόντα ή επιχειρήσεις)
- Αναλύει σχόλια χρηστών από πλατφόρμες κοινωνικής δικτύωσης
- Εξάγει απόψεις και συναισθήματα από δεδομένα κειμένου
- Αξιολογεί διάφορες διαστάσεις δεδομένων κειμένου
- Δημιουργεί μια αντιπροσωπευτική περίληψη μιας μεγάλης συλλογής κειμένων
- Ομαδοποιεί και κατηγοριοποιεί κείμενα με βάση την λεξικογραφική και νοηματική ομοιότητά τους.
- Επιλέγει αντιπροσωπευτικές λέξεις (tags) που περιγράφουν με ακρίβεια ένα προϊόν ήοποιαδήποτε άλλη οντότητα για την οποία υπάρχουν διαθέσιμα δεδομένα κειμένου.
Θεματικές ενότητες
- Εισαγωγή στην Python
(Διάρκεια Θεματικής Ενότητας: 4 εβδομάδες) Εγκατάσταση Python και των σχετικών βιβλιοθηκών, Εισαγωγή στην Python Ι: θεμελιώδεις έννοιες και απλά προγράμματα, Εισαγωγή στην Python ΙΙ: Δομές Δεδομένων, Εισαγωγή στην Python ΙΙΙ: Διαβάζοντας και γράφοντας σε αρχεία κειμένου. - Συλλογή και Επεξεργασία Κειμένων
(Διάρκεια Θεματικής Ενότητας: 3 εβδομάδες) Συλλογή δεδομένων κειμένου από τον παγκόσμιο ιστό I (Web Scraping), Συλλογή δεδομένων κειμένου από τον παγκόσμιο ιστό II, Συλλογή δεδομένων κειμένου από τον παγκόσμιο ιστό III, Επεξεργασία και προετοιμασία δεδομένων I (Data Cleaning and Parsing) . - Εφαρμογή Text Mining 1: Ανάλυση Απόψεων και Συναισθημάτων (Opinion and Sentiment Analysis)
(Διάρκεια Θεματικής Ενότητας: 2 Εβδομάδες)- Συλλογή και προετοιμασία δεδομένων (data collection & parsing)
- Ανάλυση απόψεων και συναισθημάτων Ι (opinion mining & sentiment analysis)
- Ανάλυση απόψεων και συναισθημάτων ΙΙ
- Αξιολόγηση και Περίληψη (evaluation & summarization)
- Εφαρμογή Μάρκετινγκ 2: Ομαδοποίηση κειμένων (document clustering)
(Διάρκεια Θεματικής Ενότητας: 1 εβδομάδα)- Συλλογή και προετοιμασία δεδομένων (data collection & parsing)
- Εφαρμοσμένη ομαδοποίηση διαφορετικών ειδών δεδομένων
- Εφαρμογή Text Mining 3: Κατηγοριοποίηση κειμένων (document classification)
(Διάρκεια Θεματικής Ενότητας: 1 εβδομάδα)- Συλλογή και προετοιμασία δεδομένων (data collection & parsing)
- Εφαρμοσμένη κατηγοριοποίηση διαφορετικών ειδών κειμένων
- Εφαρμογή Μάρκετινγκ 4: Εξόρυξη Περιγραφικών Λέξεων (Tag Extraction)
(Διάρκεια Θεματικής Ενότητας: 1 εβδομάδα) Συλλογή και προετοιμασία δεδομένων (data collection & parsing), Εξόρυξη περιγραφικών λέξεων (tag extraction) από περιγραφές προϊόντων.
Εκπαιδευτικό υλικό
- Python Scripts (με εσωτερικά σχόλια) για κάθε μια από τις ενότητες του προγράμματος
- Εικονοσκοπημένες διαλέξεις που θα συνοδεύουν τα Scripts.
- Ηλεκτρονικές σημειώσεις και βιβλιογραφία
- Πλήθος διαδραστικών ασκήσεων, ερωτήσεις πολλαπλής επιλογής και λυμένες ασκήσεις
Η αξία του προγράμματος
Μέσα από το παρόν εκπαιδευτικό πρόγραμμα, οι εκπαιδευόμενοι θα μάθουν πως να χρησιμοποιούν την Python για να εξάγουν και να αξιοποιούν τις πληροφορίες αυτές από διάφορα είδη δεδομένων κειμένου.
Μέθοδοι αξιολόγησης και υπολογισμού τελικού βαθμού
Υποβολή εργασιών ανά θεματική ενότητα. Η επιτυχημένη ολοκλήρωση του προγράμματος και η απονομή πιστοποιητικού κατάρτισης απαιτούν την λήψη τελικού βαθμού τουλάχιστον 50%.