Jeder definiert Big Data mit einem Satz von 3, 4 oder 10 Vs. Geben uns diese Vs tatsächlich die Definition des Big-Data-Konzepts oder ist es etwas anderes, was sie uns sagen wollen? Der Hauptgrund für die Verwendung dieser V-basierten Charakterisierung besteht darin, die Herausforderungen hervorzuheben, die diese Big Data mit sich bringen. Herausforderungen wie – Erfassung, Reinigung, Kuratierung, Integration, Speicherung, Verarbeitung und vieles mehr.
Diese Vs geben die Anweisungen, wie Sie sich auf die wahrscheinlichen Herausforderungen vorbereiten können. Herausforderungen, die auf Sie zukommen können, wenn Sie mit der Verwaltung Ihrer Big Data beginnen, die:
Diese Vs erklären die wichtigen Aspekte von Big Data und einer Big-Data-Strategie, die ein Unternehmen nicht ignorieren kann. Schauen wir uns alle Vs an, die zu verschiedenen Attributen von Big Data beitragen:
1. Volumen:
100 Terabyte an Daten werden täglich auf Facebook hochgeladen; Akamai analysiert täglich 75 Millionen Ereignisse, um Online-Anzeigen gezielt einzusetzen. Walmart wickelt jede Stunde 1 Million Kundentransaktionen ab. 90 % aller jemals erstellten Daten wurden in den letzten zwei Jahren generiert.
Die obigen Zahlen zeigen wirklich, was es bedeutet, wenn wir von „großen Datenmengen“ sprechen. Es sind diese ersten Eigenschaften von Daten, die sie zu Big Data machen. Diese schiere Datenmenge stellt wiederum eine Herausforderung für uns dar, diese Daten zu speichern.
Siehe auch: Die 19 besten kostenlosen Data-Mining-Tools
2. Geschwindigkeit:
1999, jede Minute eines jeden Tages, laden wir 100 Stunden Video auf YouTube hoch, verschicken über 200 Millionen E-Mails und verschicken 300.000 Tweets.
Den Volumenzahlen liegt ein Noch größer ist der Trend, dass 90 % der vorhandenen Daten erst in den letzten zwei Jahren erstellt wurden. Dies stellt die Geschwindigkeit dar, mit der die Daten erstellt, gespeichert, analysiert und visualisiert werden.
Die Herausforderung für Unternehmen besteht darin, mit der enormen Geschwindigkeit zurechtzukommen, mit der die Daten in Echtzeit erstellt und verwendet werden.
3. Vielfalt
In der Vergangenheit waren alle Daten, die erstellt wurden, strukturierte Daten, die genau in Spalten und Zeilen passten, aber diese Zeiten sind vorbei. 90 % der heute generierten Daten sind unstrukturiert und kommen in allen Formen vor – von Geodaten bis hin zu Tweets, die auf Inhalt und Stimmung analysiert werden können visuelle Daten als Fotos und Videos.
Variety beschreibt eine der größten Herausforderungen von Big Data. Es kann unstrukturiert sein und so viele verschiedene Arten von Daten enthalten, von XML über Video bis hin zu SMS. Die sinnvolle Organisation der Daten ist keine einfache Aufgabe, insbesondere wenn sich die Daten selbst schnell ändern.
4. Variabilität
Variabilität wird oft mit Vielfalt verwechselt. Ein einfaches Beispiel zur Unterscheidung ist: Denken Sie an Starbucks – Cold Coffee hat so viele Geschmacksrichtungen. Das ist Vielfalt. Angenommen, Sie kaufen jeden Tag Café Mocha und er schmeckt und riecht ein wenig anders als am Tag zuvor. Es ist Variabilität.
Variabilität bezieht sich im Kontext von Big Data auf einige verschiedene Dinge. Einer davon ist die Anzahl der Inkonsistenzen in den Daten. Diese müssen durch Anomalie- und Ausreißererkennungsmethoden gefunden werden, damit sinnvolle Analysen durchgeführt werden können. Big Data ist auch aufgrund der Vielzahl von Datendimensionen, die sich aus mehreren unterschiedlichen Datentypen und -quellen ergeben, variabel. Variabilität kann sich auch auf die inkonsistente Geschwindigkeit beziehen, mit der Big Data in Ihre Datenbank geladen wird.
Siehe auch: Beste Tools zur Offline-Datenbereinigung
5. Wahrhaftigkeit
Was für das Verständnis von Big Data entscheidend ist, ist die chaotische und verrauschte Natur der Daten sowie der Arbeitsaufwand, der in die Erstellung eines genauen Datensatzes gesteckt wird, bevor mit der Analyse überhaupt begonnen werden kann. Es ist nutzlos, wenn die analysierten Daten ungenau oder unvollständig sind.
Diese Situation entsteht, wenn Datenströme aus verschiedenen Quellen stammen und unterschiedliche Formate mit unterschiedlichen Signal-Rausch-Verhältnissen aufweisen. Wenn man zu Big Data Analytics greift, kann es sein, dass sich diese Fehler angesammelt haben.
Bei Wahrhaftigkeit geht es darum, sicherzustellen, dass die Daten korrekt sind. Dazu sind Prozesse erforderlich, die verhindern, dass sich fehlerhafte Daten in Ihren Systemen ansammeln. Das einfachste Beispiel sind Kontakte, die mit falschen Namen und ungenauen Kontaktinformationen in Ihr Marketing-Automatisierungssystem gelangen. Wie oft haben Sie Mickey Mouse in Ihrer Datenbank gesehen? Es ist die klassische „Müll rein, Müll raus“-Herausforderung.
6. Visualisierung
Das ist der schwierige Teil von Big Data, denn ein Scheitern macht diese riesigen Datenmengen nutzlos. Eine Kernaufgabe jedes Big-Data-Verarbeitungssystems besteht darin, den immensen Umfang der Daten in leicht verständliche und umsetzbare Informationen umzuwandeln. Für den menschlichen Gebrauch ist die Konvertierung in grafische Formate eine der besten Methoden.
Aktuelle Big-Data-Visualisierungstools stehen vor technischen Herausforderungen Einschränkungen der In-Memory-Technologie und schlechte Skalierbarkeit, Funktionalität und Reaktionszeit. Herkömmliche Diagramme können den Bedarf, eine Milliarde Datenpunkte darzustellen, nicht erfüllen, daher benötigen Sie andere Arten der Datendarstellung, z. B. Datenclustering oder die Verwendung von Baumkarten, Sunbursts, parallelen Koordinaten, kreisförmigen Netzwerkdiagrammen oder Kegelbäumen.
7 . Wert
Wert ist das Endspiel. Der potenzielle Wert von Big Data ist enorm. Nachdem Sie sich um Volumen, Geschwindigkeit, Vielfalt, Variabilität, Richtigkeit und Visualisierung gekümmert haben – was viel Zeit und Mühe kostet – ist es wichtig, sicherzustellen, dass Ihr Unternehmen einen Nutzen aus den Daten zieht.
Natürlich Daten an sich sind überhaupt nicht wertvoll. Der Wert liegt in den Analysen, die mit diesen Daten durchgeführt werden, und darin, wie die Daten in Informationen und schließlich in Wissen umgewandelt werden.
Die oben genannten 7 Vs informieren Sie über drei wichtige Aspekte von Big Data, nämlich Definition, Merkmale und Herausforderungen. Aber als die Leute anfingen, sich mit Big Data zu befassen, um Methoden zu entwickeln, um den oben genannten 7 V-Herausforderungen zu begegnen, stießen sie auf einige andere V-Herausforderungen. Obwohl sie bei Big Data nicht die entscheidende Rolle spielen, vervollständigen sie die Liste der Merkmale und Herausforderungen.
8. Gültigkeit
Ähnlich wie die Richtigkeit bezieht sich die Gültigkeit darauf, wie genau und korrekt die Daten für den beabsichtigten Verwendungszweck sind. Die Richtigkeit von Big Data ist eine Frage der Gültigkeit, d. h., dass die Daten für den beabsichtigten Verwendungszweck korrekt und genau sind. Eindeutig valide Daten sind der Schlüssel für die richtigen Entscheidungen. Bei der Datenvalidierung handelt es sich um eine Datenvalidierung, die die einwandfreie Übertragung von Daten bescheinigt.
9. Rentabilität
Denken Sie einfach über die folgenden Aussagen nach:
Unsere erste Aufgabe besteht darin, die Brauchbarkeit dieser Daten zu bewerten, da wir bei der Erstellung eines effektiven Vorhersagemodells so viele Arten von Daten und Variablen berücksichtigen müssen, dass wir schnell und kostengünstig eine Lösung finden möchten. Testen und bestätigen Sie effektiv die Relevanz einer bestimmten Variablen, bevor Sie in die Erstellung eines voll ausgestatteten Modells investieren. Mit anderen Worten: Wir möchten diese Hypothese validieren, bevor wir weitere Maßnahmen ergreifen und im Zuge der Feststellung der Lebensfähigkeit von a Variable können wir unsere Sichtweise erweitern, um festzustellen, ob andere Variablen – solche, die nicht Teil unserer ursprünglichen Hypothese waren – einen sinnvollen Einfluss auf unsere gewünschten oder beobachteten Ergebnisse haben.
10. Volatilität
Wie alt müssen Ihre Daten sein, bevor sie als irrelevant, historisch oder nicht mehr nützlich gelten? Wie lange müssen Daten aufbewahrt werden?
Wenn wir über die Volatilität von Big Data sprechen, können wir uns leicht an die Aufbewahrungsrichtlinie für strukturierte Daten erinnern, die wir täglich in unseren Unternehmen umsetzen. Sobald die Aufbewahrungsfrist abgelaufen ist, können wir sie leicht vernichten.
Aufgrund der Geschwindigkeit und des Volumens von Big Data muss deren Volatilität jedoch sorgfältig abgewogen werden. Sie müssen nun Regeln für die Datenaktualität und -verfügbarkeit festlegen und bei Bedarf einen schnellen Abruf von Informationen sicherstellen.
11. Sicherheitslücke
Erinnern Sie sich an den Ashley Madison Hack im Jahr 2015? Oder erinnern Sie sich, dass CRN im Mai 2016 berichtete: „Ein Hacker namens Peace hat Daten im Dark Web veröffentlicht, um sie zu verkaufen, darunter angeblich Informationen zu 167 Millionen LinkedIn-Konten und 360 Millionen E-Mails und Passwörtern für MySPace-Benutzer.“
Großartig Daten bringen neue Sicherheitsbedenken mit sich. Gerade bei diesen Eigenschaften wird es zu einer Herausforderung, ein Sicherheitsprogramm für Big Data zu entwickeln. Schließlich ist ein Datenschutzverstoß ein großer Verstoß.
Was sagt uns das alles über die Natur von Big Data? Nun, es ist riesig und wächst schnell, aber es ist auch laut, chaotisch, verändert sich ständig, ist in Hunderten von Formaten erhältlich und ohne Analyse und Visualisierung praktisch wertlos.
Volumen, Geschwindigkeit und Vielfalt sind nicht nur die Schlüsselparameter von Big Data, aber sie sind auch der Grund für die Geburt des Konzepts von Big Data und der wichtigsten Unterscheidungsmerkmale zwischen normalen Daten und Big Data. Obwohl sie Big Data selbst innewohnen, sind Variabilität, Wahrhaftigkeit, Visualisierung und Wert der anderen Vs wichtige Attribute, die die gigantische Komplexität widerspiegeln, die Big Data für diejenigen darstellt, die es verarbeiten, analysieren und davon profitieren würden.
Zweifellos ist Big Data ein zentraler Trend, dem die Unternehmens-IT mit geeigneten Computerinfrastrukturen Rechnung tragen muss. Aber ohne leistungsstarke Analysen und Datenwissenschaftler, die das Ganze verstehen, laufen Sie Gefahr, einfach hohe Kosten zu verursachen, ohne den Wert zu schaffen, der sich in Geschäftsvorteilen niederschlägt.
Lesen: 0