Apache Hadoop – ein bewährtes Open Source-Framework

2
Die wichtigsten zehn Big Data-Technologien

Apache Hive hilft, den Durchblick im Datenwald zu behalten

Viele Unternehmen stehen vor dem Problem, dass ihnen einfach die Zeit fehlt, um ihre Daten zu analysieren. Ein System wie Hadoop organisiert die Verarbeitung und den Datenfluss dergestalt, dass die Verarbeitungszeit bei zunehmendem Datenvolumen sinkt. Im Big Data-Bereich spielt Hadoop mittlerweile bei vielen Lösungen eine zentrale Rolle.

Je mehr Daten, desto schneller die Bearbeitung
Apache Hadoop ist ein in Java geschriebenes Open Source-Framework zur parallelen Datenverarbeitung auf sehr hoch skalierbaren Server-Clustern. Ursprünglich für Internet-Riesen wie Facebook, Google und Yahoo entwickelt, ist Hadoop besonders für Datenauswertungen geeignet, bei denen aufwendige Analysen durchgeführt werden müssen. Dabei gehen die verschiedenen Auswertungsverfahren im Hadoop-System weit über die Möglichkeiten traditioneller Business Intelligence-Tools hinaus.

Unternehmen profitieren durch den Einsatz von Hadoop, weil:

  • große und vielfältige Datenmengen kostengünstig gespeichert werden – damit lohnt sich auch die Vorratshaltung von Rohdaten, deren Wert oft noch unklar ist;
  • es auf preiswerter Hardware ohne Bindung an einen bestimmten Hersteller läuft;
  • die Daten auf vielfältige und flexible Weise analysiert werden können;
  • die Analyseerkenntnisse zeitnah zur Verfügung stehen und damit aktuelle Unternehmensentscheidungen unterstützt werden.

Hohe Geschwindigkeiten durch dezentrale Datenverarbeitung
Hadoop nutzt eine Shared Nothing-Architektur, die dafür sorgt, dass jeder Rechner des verteilten Systems unabhängig von den anderen seine Aufgaben erfüllt. Weil die Daten nicht erst über den Prozessor wandern müssen, sondern direkt in dezentralen Storage-Systemen verarbeitet werden, erzielt Hadoop auch bei großen Datenmengen hohe Verarbeitungsgeschwindigkeiten.

Für die Aufteilung auf mehrere Recheneinheiten des Clusters sorgt MapReduce. Das Framework ist einer der wichtigsten Bestandteile von Hadoop. Es basiert auf einem Divide-and-Conquer-Ansatz, d.h. der eigentliche Job wird in mehrere Teil-Jobs unterteilt und bearbeitet, was die Berechnungszeit insgesamt deutlich reduziert.

Fehlertoleranz und Ausfallsicherheit
Für die Speicherung der riesigen Datenmengen stellt Hadoop das fehlertolerante Speichersysem HDFS (Hadoop Distributed File System) zur Verfügung. Neben der Speicherung großer Datenmengen kann HDFS seine Kapazität stufenweise erweitern und den Ausfall signifikanter Teile der Speicherinfrastruktur überdauern, ohne Daten zu verlieren. Dazu bildet HDFS Cluster und koordiniert die Arbeit, die in ihnen anfällt. Auf der Architekturseite ist HDFS als Master-Slave-System aufgebaut. Der NameNode ist die zentrale Master-Komponente. Er verwaltet die Metadaten für alle gespeicherten Daten auf allen DataNodes, die die Slave-Komponenten der Architektur bilden.

Die umfangreichste und am meisten eingesetzte Version von Hadoop ist „Cloudera’s Distribution including Apache Hadoop“ (CDH). CDH kombiniert als einzige Hadoop-Lösung individuell auswählbare Erweiterungen, eine Batch-Verarbeitung, interaktives SQL und eine interaktive Suche sowie die kontinuierliche Verfügbarkeit auf Unternehmensniveau.

Diese Artikel könnten Sie auch interessieren:

Tags: , , ,

Stefan Müller - Director Business Intelligence & Big Data
Nach mehreren Jahren Tätigkeit im Bereich Governance & Controlling und Sourcing Management ist Stefan Müller bei it-novum gelandet, wo er den Bereich Business Intelligence aufgebaut hat. Stefans Herz schlägt für die Möglichkeiten, die die BI-Suiten von Pentaho und Jedox bieten. Er beschäftigt sich aber auch mit anderen Open Source BI-Lösungen. Seine Begeisterung für Business Open Source für Datenanalyse und -aufbereitung gibt Stefan regelmäßig in Fachartikeln, Statements und Vorträgen und als Experte der Computerwoche weiter.
Webprofile von Stefan: Twitter, XING, Google+

2 Gedanken zu „Apache Hadoop – ein bewährtes Open Source-Framework

  1. Pingback: Big Data-Technologien: Splunk – Big Data vereinfachen

  2. Pingback: Data Onboarding: so befüllt man Data Lakes einfach und kostengünstig

Kommentar schreiben

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.