Big Data Big Bang

: by Angellight Services Ltd; in ΕΠΙΧΕΙΡΕΙΝ; on 01 Δεκεμβρίου 2012

Η επανάσταση των δεδομένων...
Εξετάζοντας τις προοπτικές big data analytics για τη δημιουργία αξιών σε επιχειρηματικό περιβάλλον.

Γράφουν οι: Χρήστος Τσίγκανος - Ιωάννης Βασαριώτης
Noofron Labs PC- Smart Consulting & Disruptive Software
http://noofron.com/

Συχνά χαρακτηριζόμενα ως η μεγαλύτερη τάση στην πληροφορική σήμερα, τα big data τελευταία απολαμβάνουν προσοχή παγκόσμιου βεληνεκούς και μπορούν να περιγραφούν χρησιμοποιώντας τρεις έννοιες που αφορούν τα δεδομένα: Όγκος (volume), Ποικιλία (variety) και Ταχύτητα (velocity). Ο όγκος είναι η γενεσιουργός αιτία του φαινομένου big data, και αφορά την εκρηκτική αύξηση του πλήθους των δεδομένων. Η πτυχή ποικιλία, αφορά την ποικιλομορφία τους. Υπολογίζεται πως περίπου 80% των δεδομένων μιας οργάνωσης, μπορεί να χαρακτηριστεί ως αδόμητα δεδομένα: για παράδειγμα, τα δεδομένα που αφορούν δραστηριότητα χρηστών, e-mail, κοινωνικά δίκτυα ή αρχεία πολυμέσων όπως εικόνες ή βίντεο. Όμως, οι παραδοσιακές τεχνικές και εργαλεία business analytics, προσανατολίζονται αποκλειστικά σε δομημένα δεδομένα, δηλαδή στο υπόλοιπο 20%. Ως εκ τούτου, αγνοείται μια πιθανή πηγή πολύτιμων πληροφοριών των χρηστών. Επίσης, η έννοια της ταχύτητας είναι σημαντική: ο ρυθμός παραγωγής δεδομένων έχει αυξηθεί δραματικά, και τα εργαλεία και οι μηχανισμοί ανάλυσης θα πρέπει να είναι σε θέση να συμβαδίσουν. Όπως είναι γνωστό, η επιχειρηματική αξία ενός business decision που πρέπει να ληφθεί ελαττώνεται όσο περνά χρόνος από το αρχικό συμβάν που την προκάλεσε.

“Tα Big Data δεν είναι η λύση: είναι το πρόβλημα. Η ίδια η φύση των δεδομένων είναι πλέον διαφορετική, όχι μόνο ο όγκος ή η ταχύτητα δημιουργίας τους· είναι πλέον ένας χείμμαρος, ένα συνεχές ρεύμα, και όχι μόνο απομονωμένων, δομημένων στοιχείων και αριθμών. Και αυτό οδηγεί σε μια άμεση ανάγκη αναδόμησης του στρατηγικού management“

Στο επιστημονικό και τεχνολογικό επίπεδο, πληθώρα εξελίξεων υποστηρίζουν αυτές τις αρχέτυπες έννοιες του Όγκου, Ποικιλίας και Ταχύτητας. Οι νέες μη σχεσιακές βάσεις δεδομένων είναι άμεση συνέπεια του αυξανόμενου όγκου μη δομημένων δεδομένων, και στοχεύουν στο να αποθηκεύουν πληροφορία που έχει άγνωστη ή δυναμική δομή. Επίσης, είναι σχεδιασμένες να παρέχουν την ικανότητα κλιμακωσιμότητας (scalability) εύκολα και αποτελεσματικά με οριζόντιο τρόπο, με απλή προσθήκη κόμβων. Όσον αφορά την επεξεργασία, νέα μοντέλα και υλοποιήσεις έχουν εμφανιστεί ικανά να επεξεργαστούν δεδομένα γρήγορα και παράλληλα, κάνοντας χρήση κατανεμημένων αρχιτεκτονικών. Το cloud computing παίζει σημαντικό ρόλο σε όλες τις συνιστώσες των τεχνολογιών που μπορούν να χαρακτηριστούν μέρος των big data, καθώς δίνει στους οργανισμούς τη δυνατότητα να αναλύσουν μεγάλους όγκους δεδομένων οικονομικά, δεδομένου ότι προσφέρει υπολογιστικούς πόρους ανά ζήτηση (on demand).

Τι σημαίνει big data και επιχειρηματικότητα;
Τα big data στην επιχειρηματική τους εφαρμογή, τη σήμερα εποχή των κοινωνικών δικτύων και της συνεχής ροής πληροφοριών αποτελούν το επόμενο στάδιο, την μετα-analytics εποχή. Με απλά λόγια πρόκειται για την εκμετάλλευση πολλών δεδομένων και πληροφοριών που είναι διαθέσιμα από τους πελάτες, για την δημιουργία επιχειρηματικής νοημοσύνης (business intelligence) προς όφελος των ιδίων επιχειρήσεων. Δημιουργείται συνεπώς μια εικόνα των συμπεριφορών του καταναλωτή που φιλοδοξεί σε πραγματικό χρόνο να γνωρίζει τι ακριβώς του λείπει, και ενδεχομένως να του το προτείνει.

Τα business analytics βέβαια, δεν αποτελούν κάτι νέο· οι ιδέες και οι κατάλληλες τεχνικές για το μετασχηματισμό δεδομένων σε πληροφορία και ακολούθως σε γνώση, είχαν εισηχθεί ήδη στη βιομηχανία από τις αρχές του ‘90 για να ικανοποιήσουν τις ανάγκες των διοικήσεων για πιο αποδοτική ανάλυση επιχειρησιακών δεδομένων. Σήμερα όμως, η επιστημονική έρευνα και τα αντίστοιχα εργαλεία έχουν προσανατολιστεί με άριστα αποτελέσματα σε αυτό που καλείται Machine Learning ή αντιστοίχως Data Mining, ένα επιστημονικό χώρο παραπλήσιο της τεχνητής νοημοσύνης με βαθιές μαθηματικές ρίζες που ασχολείται με την κατασκευή και τη μελέτη συστημάτων που μπορούν να “μάθουν” από τα δεδομένα. Ένα καθημερινό σε όλους παράδειγμα, είναι η κατάταξη μηνύματων ηλεκτρονικού ταχυδρομείου ως spam, ή όχι. Ένα βασισμένο σε τέτοιες τεχνολογίες σύστημα, αρχικά εκπαιδεύεται τροφοδοτούμενο με e-mail ώστε να “μάθει” να διακρίνει μεταξύ spam και μη-spam μηνύματων. Μετά την εκμάθηση, μπορεί στη συνέχεια να χρησιμοποιηθεί ώστε να χαρακτηρίσει και να τοποθετήσει νέα μηνύματα σε spam και μη-spam φακέλους.

Πώς όμως επιχειρήσεις και οργανισμοί αξιοποιούν τα big data? Κυρίως ο προσανατολισμός βρίσκεται σε δεδομένα που αφορούν τον πελάτη, με στόχους σε αυτό τον άξονα να αντιπροσωπεύουν τις πιο συνήθεις εφαρμογές για καλύτερη κατανόηση των αναγκών και πρόβλεψη συμπεριφορών, με σκοπό τη βελτίωση της συνολικής εμπειρίας (customer experience). Αλληλεπιδράσεις με κάθε λογής εφαρμογή, κοινωνικά δίκτυα και γενικά οπουδήποτε μπορεί να ανακαλυφθεί ένα μοτίβο χρήσης, χτίζουν ένα ολοκληρωμένο προφίλ για τις προτιμήσεις και τις απαιτήσεις πελατών. Άλλες εφαρμογές που αναφέρονται συχνά είναι η επιχειρησιακή βελτιστοποίηση, η ανάπτυξη νέων επιχειρηματικών μοντέλων και σίγουρα οι εφαρμογές σε εξειδικευμένα γνωσιακά πεδία.

Ως παράδειγμα, ας αναλογιστούμε ένα οποιδήποτε κατάστημα. Η διοίκηση μπορεί κάλλιστα να γνωρίζει ποια προϊόντα έχουν μεγαλύτερες πωλήσεις και ποιά όχι, και ενδεχομένως μπορεί να τα συσχετίσει με προφίλ πελατών με χρήση κάποιου (συνήθως εκπτωτικού) προγράμματος ανταμοιβής πελατών, και ακολούθως για παράδειγμα να διαμορφώσει κατάλληλες τιμολογιακές πολιτικές. Καθώς όμως το shopping μετακινείται όλο και περισσότερο online, ένα διαδικτυακό κατάστημα μπορεί να αποθηκεύει σωρεία χρησιμότατων δεδομένων. Έτσι, είναι σε θέση να συνυπολογίζει όχι μόνο τις καταναλωτικές συνηθείες των πελάτων, αλλά και πόσο επηρεάστηκαν από συγκεκριμένες προσφορές, πόσο στάθηκαν σε ένα προϊόν, ή σε ποιο καταναλωτικό προφίλ εντάσσονται. Βεβαίως, αυτά τα σχεδόν στοιχειώδη analytics είναι διαθέσιμα χωρίς κάν να αναλογιζόμαστε εφαρμογές Machine Learning, όπου πλέον οι συσχετισμοί γίνονται από προχωρημένους αλγορίθμους ικανούς να προβλέπουν συμπεριφορές και να δημιουργουν ενα δυναμικά μεταβαλλόμενο μοντέλο πώλησης. Τέτοια παραδείγματα μπορούν να αποτελούν προβλέψεις για το τις ανάγκες του πελάτη με βάση όχι μόνο το ιστορικό αγορών του αλλά και άλλες παραμέτρους όπως η λεπτομερής συμπεριφορά του στο κατάστημα κ.α.. Όλα αυτά γίνονται δυνατά λόγω αξιοποίησης τεχνολογιών που εντάσσονται σημασιολογικά στο υπερσύνολο big data.

Είναι όμως αυτές οι λύσεις μόνο για τη μεγάλη βιομηχανία? Οι τοπικοί καταστηματάρχες κάποτε ήξεραν προσωπικά τους πελάτες και τις συνήθειες τους, και μπορούσαν για παράδειγμα να προτείνουν παρεμφερή προϊόντα. Τεχνολογίες big data μπορούν με τον ίδιο τρόπο να προσεγγίσουν εξατομικευμένες υπηρεσίες παρέχοντας στις επιχειρήσεις άποψη για τις συνήθειες των καταναλωτών χωρίς καν να υπάρχει προσωπική επαφή, απλά επειδή χρήστες αφήνουν ψηφιακά ίχνη όταν χρησιμοποιούν υπηρεσίες, εταιρικά προϊόντα ή συζητούν για αυτά σε κοινωνικά δίκτυα. Στην ουσία, πρόκειται για την ίδια πληροφορία: οι σύγχρονοι έμποροι μπορούν να συγκεντρώνουν τώρα τα δεδομένα ψηφιακά και μαζικά, και να τα χρησιμοποιούν για να διαθέσουν με βέλτιστο τρόπο τα αγαθά και τις υπηρεσίες που έχουν ανάγκη οι πελάτες.

Είναι όμως όλα αυτά τόσο μακριά? Ας εξετάσουμε μια κλασσική πραγματική περίπτωση με μια δημοφιλή μέθοδο που εντάσσεται στην εξόρυξη δεδομένων και χρησιμοποιείται ώστε να ανακαλυφθούν ενδιαφέρουσες σχέσεις μεταξύ μεταβλητών σε μεγάλες βάσεις δεδομένων. Πρόκειται για μια απλή μέθοδο που παράγει συσχετίσεις ανάλογα με τις πιθανότητες κάποιων αντικειμένων να βρεθούν μαζί.

Έστω πως σε ένα βιβλιοπωλείο, υπάρχουν διαθέσιμες οι αποδείξεις των συναλλαγών. Η εφαρμογή ενός τέτοιου αλγόριθμου προσπερνώντας τις μαθηματικές λεπτομέρειες, στοχεύει στο να ανακαλύψει μοτίβο της ακόλουθης μορφής: “Αν κάποιος αγοράσει ένα μολύβι, θα αγοράσει και μια ξύστρα”, ή “Άν κάποιος αγοράσει τρία μολύβια, θα αγοράσει και δύο στυλό και ένα τετράδιο, με 70% πιθανότητα”. Μόλις ένα τέτοιο μοτίβο ανακαλυφθεί, μπορεί να ενσωματωθεί στο πλαίσιο αποφάσεων του βιβλιοπωλείου και να διαμορφωθούν στρατηγικές πώλησης ή κατάλληλες προσφορές που το εκμεταλλεύονται. Στην ανωτέρω περίπτωση, η εταιρεία μπορεί κάλλιστα να χρησιμοποιήσει αυτόν τον κανόνα για να τοποθετήσει το μολύβι και την ξύστρα σε κοντινή απόσταση στο κατάστημα, κάτι που ίσως αυξήσει τις πωλήσεις και κατά συνέπεια το κέρδος.

Παρ’όλες τις υποσχέσεις των νέων εργαλείων analytics όμως, δεν πρέπει ποτέ να παραμερίζεται ο ανθρώπινος παράγοντας. Κατά την επιλογή, επεξεργασία και αξιολόγηση των πηγών δεδομένων ή μεθόδων περισυλλογής και ανάλυσης, δύναται να εισαχθούν γνωσιακές προκαταλήψεις που μπορεί να επηρεάσουν δραστικά την επιχειρηματική ερμηνεία τους. Πάντα επίκαιρος, ο νομπελίστας Daniel Kahneman στο “Thinking Fast and Slow” μιλά για τις πολώσεις που μπορούν να δημιουργήσουν δεδομένα ανάλογα με την οπτική γωνία που κάποιος τα εξετάζει. Μα μια ελεγχόμενη μεροληψία, μπορεί να ταχθεί υπέρ κάποιου άξονα· μπορούμε να προχωρήσουμε από την εστίαση σε απλά μεγάλο όγκο δεδομένων προς κάτι πολύτιμο: δεδομένα με σημασιολογικό βάθος.

Εν κατακλείδι, δεν πρέπει κανείς ερμηνεύοντας αποτελέσματα να λησμονεί, πως τα δεδομένα που λαμβάνουμε πάντα θα εξαρτώνται από τις ερωτήσεις που θέτουμε, και πάλι αυτές ίσως έχουν τεθεί με σχετική υποκειμενικότητα.

Τεύχος 2