Data analysis vs. data science



Ένα μικρό σχόλιο για τη χρήση των δύο όρων data analysis data  και  data science. Προς το παρόν δεν υπάρχει μια ξεκάθαρη διαχωριστική γραμμή μεταξύ των δύο. Σύμφωνά με μια άποψη (βλ. quora) η διαφορά των δύο είναι ότι ο όρος data science εφαρμόζεται όταν η διαδικασία της ανάλυσής δεδομένων γίνεται πιο απαιτητική λόγω όγκου και «ταχύτητάς» δεδομένων. Σύμφωνα με μια άλλη άποψη (βλ. insidebigdata) η διαφορά είναι ότι ένας αναλυτής δεδομένων έχει πιο συγκεκριμένα προβλήματα προς επίλυση ενώ ένας  data scientist ασχολείται και με γενικότερα θέματα σχέσεων μεταξύ των δεδομένων.
Προς το παρόν, και αυτό είναι το πιο σημαντικό, είναι πολύ συχνό το φαινόμενο η διαχωριστική γραμμή μεταξύ των δύο όρων να είναι διαφορετική από τον ένα οργανισμό ή εταιρεία στον άλλο.

Σχτικά με Big Data



Image by Camelia.boban
Πολύς λόγος γίνεται στην εποχή μας για τα λεγόμενα «Big Data». Η γενική παραδοχή είναι ότι για να χαρακτηριστούν τα δεδομένα ως  big data  θα πρέπει να έχουν ένα τουλάχιστον από τα τρία V: Volume, Velocity, Variety.


  • Με το όρο  «Volume» εννοούμε ότι θα πρέπει να έχουμε μεγάλο όγκο δεδομένων. Αυτή η προϋπόθεσή είναι ίσως η πιο απλή αλλά και η πιο δύσκολο να αυστηροποιηθεί. Πριν από λίγα χρόνια ένας όγκος δεδομένων της τάξης των 100GB θα θεωρούνταν μεγάλος και χρειαζόταν εξειδικευμένη υποδομή για την επεξεργασία του. Σήμερα, projects της τάξης των 500GB  μπορεί να τρέχουν τοπικά σε ένα μόνο απλό μηχάνημα. 
  •  Με το όρο  «Velocity» εννοούμε ότι θα πρέπει  τα δεδομένα μας να θα πρέπει να μεταβάλλονται/αυξάνονται γρήγορα. Για παράδειγμα, δεδομένα που καταγράφουν σε πραγματικό χρόνο την συμπεριφορά των χρηστών μια μεγάλης διαδικτυακής πύλης. 
  •  Με το όρο  «Variety» εννοούμε ότι θα πρέπει να έχουν μεγάλη ποικιλία, να παρουσιάζουν διαφοροποιήσεις ή να μην είναι πλήρως δομημένα (unstructured). Για παράδειγμα, πίνακες που αποτελούνται από δεκάδες στήλες με διαφορετικούς τύπους πληροφορίας ή ελεύθερο κείμενο.

Είναι γεγονός πάντως ότι τα εργαλεία που έχει στη διάθεσή του πλέον ένας αναλυτής δεδομένων είναι πολύ ισχυρά και ικανά να αντιμετωπίσουν καταστάσεις που πριν από μερικά χρόνια θα απαιτούσαν πανάκριβο εξοπλισμό. Καλό είναι σε κάθε περίπτωση να αναρωτηθεί κάποιος αν πραγματικά χρειάζεται εξειδικευμένο λογισμικό και υποδομές (π.χ. cluster υπολογιστών με  Hadoop) όταν ξεκινά ένα project ανάλυσης δεδομένων και να μην θεωρεί  a priory  αναγκαία την ύπαρξη τους.