Apache Hive – das Data Warehouse für Hadoop

1
Die wichtigsten zehn Big Data-Technologien

Apache Hive hilft, den Durchblick im Datenwald zu behalten

Für Unternehmen ist die Verlagerung ihrer Daten nach Hadoop eine Herausforderung, weil die vorhandenen Daten üblicherweise in relationalen Datenbanken mit der Structured Query Language (SQL) gespeichert sind. In Teil 3 unserer Big Data-Serie geht es daher um Apache Hive, das auf dem MapReduce-Algorithmus beruht und den SQL-Dialekt Hive Query Language gleich mit liefert.

Hive arbeitet nach dem Schema-on-Read-Ansatz (SoR)
Relationale Datenbanken arbeiten nach dem Schema-on-Write-Ansatz (SoW). Hier wird beim Einspielen von Daten ein Schema erzwungen. Ein herkömmliches ETL bereitet die Daten so auf, dass sie zum Datenbankschema passen. Der SoW-Ansatz hat einen entscheidenden Nachteil: enthalten die Quelldaten neue Informationen, muss das gesamte Schema neu angepasst werden, bevor die neuen Daten eingespielt werden können.

Hive dagegen arbeitet nach dem Schema-on-Read-Ansatz (SoR). Dabei werden die Daten unverändert im HDFS abgelegt und erst bei Anfragen mittels „ETL on the fly“ gegen das Schema geprüft. Der Vorteil des SoR-Ansatz gegenüber dem SoW-Konzept besteht darin, dass er ein schnelles Laden von Daten ermöglicht, da diese nicht gelesen, geparst und in das datenbankinterne Format konvertiert werden müssen. Das Laden besteht lediglich aus dem Kopieren oder Verschieben von Dateien. Dies hat den positiven Nebeneffekt, dass mehrere Schemata auf denselben Daten arbeiten können.

Die Vorteile von Hive sind:

  • Daten aus relationalen Datenbanken werden automatisch in MapReduce Jobs umgewandelt;
  • Schnelles Laden der Daten durch den SoR-Ansatz;
  • SQL-Kenntnisse sind weit verbreitet, wodurch auch Nichtspezialisten mit Hive arbeiten können.

HiveQL: auf dem Weg zum SQL-Standard für Big Data
Hive hat drei Hauptfunktionen: Datenzusammenfassung, Datenabfrage und Datenanalyse. Es unterstützt Abfragen, die im SQL-Dialekt HiveQL verfasst wurden. Dieser übersetzt SQL-artige Abfragen automatisch in MapReduce-Jobs, die auf dem Hadoop-Cluster ausgeführt werden. Dadurch werden Implementierungen für Aggregationen, Filter, Joins und andere Standard-Operationen zur Verfügung gestellt, die ansonsten in Java individuell integriert werden müssten. Zusätzlich unterstützt HiveQL bei Abfragen das Einbetten individueller MapReduce-Skripte. Hive ermöglicht zudem eine Serialisierung bzw. Deserialisierung von Daten. Am besten eignet es sich für Batch-Jobs mit großen Datensets wie etwa Blogs.

Diese Artikel unser Serie „Die 10 wichtigsten Big Data-Technologien“ könnten Sie auch interessieren:

Tags: , , , ,

Stefan Müller - Director Business Intelligence & Big Data
Nach mehreren Jahren Tätigkeit im Bereich Governance & Controlling und Sourcing Management ist Stefan Müller bei it-novum gelandet, wo er den Bereich Business Intelligence aufgebaut hat. Stefans Herz schlägt für die Möglichkeiten, die die BI-Suiten von Pentaho und Jedox bieten. Er beschäftigt sich aber auch mit anderen Open Source BI-Lösungen. Seine Begeisterung für Business Open Source für Datenanalyse und -aufbereitung gibt Stefan regelmäßig in Fachartikeln, Statements und Vorträgen und als Experte der Computerwoche weiter.
Webprofile von Stefan: Twitter, XING, Google+

Ein Gedanke zu „Apache Hive – das Data Warehouse für Hadoop

  1. Pingback: Big Data-Technologien: Splunk – Big Data vereinfachen

Kommentar schreiben

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.