10 Big Data-Technologien, die Sie kennen sollten

3
Die wichtigsten zehn Big Data-Technologien

10 Technologien, die man kennen sollte, um sich nicht im Daten-Dschungel zu verirren

Daten gehören heute zu den wichtigsten Ressourcen in jedem Unternehmen. Aus ihnen lassen sich Erkenntnisse gewinnen, mit denen neue Geschäftsmodelle entwickelt, Produkte individualisiert und Strategien verbessert werden können. Am Anfang stehen die meisten Unternehmen jedoch vor der Herausforderung, ihre Use Cases zu identifizieren: denn je nach Anwendungsszenario kommen meist individuell zugeschnittene Technologiekonzepte aus dem Big Data-Umfeld zum Einsatz.

Die passende Big Data-Technologie finden
Der Markt für individualisierbare und echtzeitfähige Analyse-Tools wächst stetig: für beinahe jeden Anwendungsfall existiert mittlerweile eine spezialisierte Lösung. Vor der Einführung einer Big Data-Technologie sollten sich Unternehmen über Art und Umfang ihrer Daten klar werden.

Der folgende Fragenkatalog kann helfen, den genauen Bedarf zu identifizieren:

  • Welche Arten von Daten existieren in meinem Unternehmen? Reicht es aus, wenn sich diese Daten flexibel auswerten lassen, oder bin ich zusätzlich auf Ad-hoc-Analysen angewiesen?
  • Welche Organisationseinheiten werden mit der Technologie arbeiten, und wie sieht der konkrete Bedarf der Nutzer aus?
  • Sind alle Daten in relationalen Datenbanken hinterlegt, oder müssen auch Daten aus unstrukturierten Quellen in die Analyse einbezogen werden?
  • Verlangt mein Anwendungsfall besonders hohe Verarbeitungsgeschwindigkeiten, oder stehen eine schnelle Speicherung und einfache Abfragemöglichkeiten großer Datenmengen im Vordergrund?
  • Sollen auch Daten aus sozialen Netzwerken für fortlaufende Footprint-Analysen verfügbar gemacht werden?

Die zehn wichtigsten Big Data-Technologien für jeden Anwendungsfall
Im Folgenden haben wir eine Liste mit den wichtigsten Technologien zusammengestellt, die einen Großteil der aktuellen Anwendungsszenarien in Unternehmen abdecken:

  • Apache Hadoop – ein in Java geschriebenes Open Source-Framework zur parallelen Datenverarbeitung auf sehr hochskalierbaren Server-Clustern.
  • Apache Hive – das Data Warehouse für Hadoop, das Daten aus relationalen Datenbanken mithilfe des SQL-Dialekts HiveQL nach Hadoop verlagert.
  • Cloudera Impala – ein skalierbares und verteiltes Datenabfrage-Tool für Hadoop, mit dem Low Latency-Abfragen in Echtzeit erstellt werden können, ohne dabei Daten zu bewegen oder umwandeln zu müssen.
  • Mongo DB – die NoSQL-Datenbank ermöglicht eine dynamische Entwicklung und hohe Skalierbarkeit bei ihren Anwendungen und eignet sich damit bestens für die heutige IT-Landschaft mit ihren großen und teilweise unstrukturierten Datenmengen.
  • Pentaho – eine der weltweit führenden Plattformen für Business Intelligence. Pentaho ist modular aufgebaut, verfügt über eine offene Architektur und sich lässt sich mit einer großen Zahl von Schnittstellen einfach in bestehende IT-Landschaften implementieren.
  • Infobright – eine spaltenbasierte Datenbank mit effektiver Datenkompression, die sich insbesondere für die Verarbeitung große Datenmengen ab 500 Gigabyte aufwärts eignet.
  • Apache Spark – ein parallel arbeitendes Framework, das die schnelle Verarbeitung von großen Datenmengen auf geclusterten Computern ermöglicht. Im Vergleich zum MapReduce-Algorithmus von Hadoop kann Spark bei bestimmten Anwendungen Daten um ein Vielfaches schneller verarbeiten.
  • Splunk – ermöglicht das Monitoring und die Analyse von Clickstream-Daten sowie Kundentransaktionen, Netzwerkaktivitäten oder Gesprächsdatensätzen. Die Technologie ist insbesondere im Bereich des Digital Footprint etabliert.
  • Hadoop Yarn – ergänzt den in Hadoop genutzten MapReduce-Algorithmus um echtzeitfähige Verarbeitungsmodelle für Graphen- und Streamingdaten. Gegenüber der reinen Batch-Verarbeitung ermöglicht Yarn eine größere Skalierbarkeit, Teilbarkeit und Zuverlässigkeit des Hadoop-Clusters.
  • Apache Storm – ein fehlertolerantes, skalierbares System zur Echtzeitverarbeitung von Datenströmen. Storm arbeitet unabhängig von Programmiersprachen und erlaubt die Ausgabe von Daten, während die Berechnung im Hintergrund weiterläuft.

In unserem Blog werden wir Ihnen nach und nach die Technologien aus der angeführten Liste vorstellen. Bleiben Sie gespannt!

Diese Artikel unser Serie „Die 10 wichtigsten Big Data-Technologien“ könnten Sie auch interessieren:

Tags: , , , , , , , , ,

Stefan Müller - Director Business Intelligence & Big Data
Nach mehreren Jahren Tätigkeit im Bereich Governance & Controlling und Sourcing Management ist Stefan Müller bei it-novum gelandet, wo er den Bereich Business Intelligence aufgebaut und in Richtung Big Data weiterentwickelt hat. Stefans Herz schlägt für die Möglichkeiten, die die BI-Suiten von Pentaho und Jedox bieten, er beschäftigt sich aber auch mit anderen Open Source BI-Lösungen. Seine Begeisterung für Business Open Source im Bereich Datenintelligenz gibt Stefan regelmäßig in Fachartikeln, Statements und Vorträgen weiter.
Webprofile von Stefan: Twitter, LinkedIn, XING

3 Gedanken zu „10 Big Data-Technologien, die Sie kennen sollten

  1. Pingback: Praxis-Workshop it-novum: Wert schöpfen aus Daten

  2. Pingback: Apache Spark – Framework für Echtzeitanalysen

  3. Pingback: Big Data-Technologien: Splunk – Big Data vereinfachen

Kommentar schreiben

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.