10 Big Data-Technologien, die Sie kennen sollten

Inhalt

Die 10 wichtigsten Big Data Trends

Daten gehören heute zu den wichtigsten Ressourcen in jedem Unternehmen. Aus ihnen lassen sich Erkenntnisse gewinnen, mit denen neue Geschäftsmodelle entwickelt, Produkte individualisiert und Strategien verbessert werden können. Am Anfang stehen die meisten Unternehmen jedoch vor der Herausforderung, ihre Use Cases zu identifizieren: denn je nach Anwendungsszenario kommen meist individuell zugeschnittene Technologiekonzepte aus dem Big Data-Umfeld zum Einsatz.

Big Data-Technologie finden

Der Markt für individualisierbare und echtzeitfähige Analyse-Tools wächst stetig: für beinahe jeden Anwendungsfall existiert mittlerweile eine spezialisierte Lösung. Vor der Einführung einer Big Data-Technologie sollten sich Unternehmen über Art und Umfang ihrer Daten klar werden.

Der folgende Fragenkatalog kann helfen, den genauen Bedarf zu identifizieren:

  • Welche Arten von Daten existieren in meinem Unternehmen? Reicht es aus, wenn sich diese Daten flexibel auswerten lassen, oder bin ich zusätzlich auf Ad-hoc-Analysen angewiesen?
  • Welche Organisationseinheiten werden mit der Technologie arbeiten, und wie sieht der konkrete Bedarf der Nutzer aus?
  • Sind alle Daten in relationalen Datenbanken hinterlegt, oder müssen auch Daten aus unstrukturierten Quellen in die Analyse einbezogen werden?
  • Verlangt mein Anwendungsfall besonders hohe Verarbeitungsgeschwindigkeiten, oder stehen eine schnelle Speicherung und einfache Abfragemöglichkeiten großer Datenmengen im Vordergrund?
  • Sollen auch Daten aus sozialen Netzwerken für fortlaufende Footprint-Analysen verfügbar gemacht werden?
Christopher Keller
Director Big Data Analytics & IoT

Gemeinsam meistern wir Ihre Big Data Herausforderungen

Big Data-Technologien für jeden Anwendungsfall

Im Folgenden haben wir eine Liste mit den wichtigsten Technologien zusammengestellt, die einen Großteil der aktuellen Anwendungsszenarien in Unternehmen abdecken:

  • Apache Hadoop – ein in Java geschriebenes Open Source-Framework zur parallelen Datenverarbeitung auf sehr hochskalierbaren Server-Clustern.
  • Apache Hive – das Data Warehouse für Hadoop, das Daten aus relationalen Datenbanken mithilfe des SQL-Dialekts HiveQL nach Hadoop verlagert.
  • Cloudera Impala – ein skalierbares und verteiltes Datenabfrage-Tool für Hadoop, mit dem Low Latency-Abfragen in Echtzeit erstellt werden können, ohne dabei Daten zu bewegen oder umwandeln zu müssen.
  • Mongo DB – die NoSQL-Datenbank ermöglicht eine dynamische Entwicklung und hohe Skalierbarkeit bei ihren Anwendungen und eignet sich damit bestens für die heutige IT-Landschaft mit ihren großen und teilweise unstrukturierten Datenmengen.
  • Pentaho – eine der weltweit führenden Plattformen für Business Intelligence. Pentaho ist modular aufgebaut, verfügt über eine offene Architektur und sich lässt sich mit einer großen Zahl von Schnittstellen einfach in bestehende IT-Landschaften implementieren.
  • Infobright – eine spaltenbasierte Datenbank mit effektiver Datenkompression, die sich insbesondere für die Verarbeitung große Datenmengen ab 500 Gigabyte aufwärts eignet.
  • Apache Spark – ein parallel arbeitendes Framework, das die schnelle Verarbeitung von großen Datenmengen auf geclusterten Computern ermöglicht. Im Vergleich zum MapReduce-Algorithmus von Hadoop kann Spark bei bestimmten Anwendungen Daten um ein Vielfaches schneller verarbeiten.
  • Splunk – ermöglicht das Monitoring und die Analyse von Clickstream-Daten sowie Kundentransaktionen, Netzwerkaktivitäten oder Gesprächsdatensätzen. Die Technologie ist insbesondere im Bereich des Digital Footprint etabliert.
  • Hadoop Yarn – ergänzt den in Hadoop genutzten MapReduce-Algorithmus um echtzeitfähige Verarbeitungsmodelle für Graphen- und Streamingdaten. Gegenüber der reinen Batch-Verarbeitung ermöglicht Yarn eine größere Skalierbarkeit, Teilbarkeit und Zuverlässigkeit des Hadoop-Clusters.
  • Apache Storm – ein fehlertolerantes, skalierbares System zur Echtzeitverarbeitung von Datenströmen. Storm arbeitet unabhängig von Programmiersprachen und erlaubt die Ausgabe von Daten, während die Berechnung im Hintergrund weiterläuft.