Σχτικά με Big Data



Image by Camelia.boban
Πολύς λόγος γίνεται στην εποχή μας για τα λεγόμενα «Big Data». Η γενική παραδοχή είναι ότι για να χαρακτηριστούν τα δεδομένα ως  big data  θα πρέπει να έχουν ένα τουλάχιστον από τα τρία V: Volume, Velocity, Variety.


  • Με το όρο  «Volume» εννοούμε ότι θα πρέπει να έχουμε μεγάλο όγκο δεδομένων. Αυτή η προϋπόθεσή είναι ίσως η πιο απλή αλλά και η πιο δύσκολο να αυστηροποιηθεί. Πριν από λίγα χρόνια ένας όγκος δεδομένων της τάξης των 100GB θα θεωρούνταν μεγάλος και χρειαζόταν εξειδικευμένη υποδομή για την επεξεργασία του. Σήμερα, projects της τάξης των 500GB  μπορεί να τρέχουν τοπικά σε ένα μόνο απλό μηχάνημα. 
  •  Με το όρο  «Velocity» εννοούμε ότι θα πρέπει  τα δεδομένα μας να θα πρέπει να μεταβάλλονται/αυξάνονται γρήγορα. Για παράδειγμα, δεδομένα που καταγράφουν σε πραγματικό χρόνο την συμπεριφορά των χρηστών μια μεγάλης διαδικτυακής πύλης. 
  •  Με το όρο  «Variety» εννοούμε ότι θα πρέπει να έχουν μεγάλη ποικιλία, να παρουσιάζουν διαφοροποιήσεις ή να μην είναι πλήρως δομημένα (unstructured). Για παράδειγμα, πίνακες που αποτελούνται από δεκάδες στήλες με διαφορετικούς τύπους πληροφορίας ή ελεύθερο κείμενο.

Είναι γεγονός πάντως ότι τα εργαλεία που έχει στη διάθεσή του πλέον ένας αναλυτής δεδομένων είναι πολύ ισχυρά και ικανά να αντιμετωπίσουν καταστάσεις που πριν από μερικά χρόνια θα απαιτούσαν πανάκριβο εξοπλισμό. Καλό είναι σε κάθε περίπτωση να αναρωτηθεί κάποιος αν πραγματικά χρειάζεται εξειδικευμένο λογισμικό και υποδομές (π.χ. cluster υπολογιστών με  Hadoop) όταν ξεκινά ένα project ανάλυσης δεδομένων και να μην θεωρεί  a priory  αναγκαία την ύπαρξη τους.

Σχόλια