10 Big Data Technologien, die Sie kennen sollten

Die richtigen Technologien einführen und Wettbewerbsnachteile verhindern. Ein Kommentar von Stefan Müller, Director Business Intelligence & Big Data bei it-novum.

Big-Data-Bestände gehören zu den wichtigsten Ressourcen vieler Unternehmen, aus denen sich Erkenntnisse für die Entwicklung neuer Geschäftsmodelle, Produkte und Strategien ziehen lassen. Im Moment stehen die meisten Unternehmen jedoch vor der Herausforderung, ein geeignetes Big-Data-Konzept und die Use Cases für sich zu identifizieren. Je nach Anwendungsszenario kommen dabei verschiedene, meist individualisierte Technologiekonzepte aus dem Big-Data-Umfeld zum Einsatz. Die zehn wichtigsten stelle ich hier kurz vor, der Gesamtüberblick kann hier heruntergeladen werden.

Bald wird es normal sein, Big Data-Analysen zur Unterstützung von Entscheidungsprozessen einzusetzen. Unternehmen, welche die entsprechenden Technologien nicht einführen, riskieren Wettbewerbsnachteile. Noch ist die Anzahl der Technologien überschaubar, die auf dem Markt erhältlich sind. Das wird sich im Laufe der nächsten Jahre jedoch ändern. Das Angebot an individualisierten und Echtzeitprodukten wird stark zunehmen. Die zehn wichtigsten Big Data Technologien momentan sind:

1. Hadoop – ein bewährtes Konzept

Hadoop ist ein in Java geschriebenes Open Source-Framework zur parallelen Datenverarbeitung auf sehr hoch skalierbaren Server-Clustern. Im Big Data-Bereich spielt Hadoop mittlerweile bei vielen Lösungen eine zentrale Rolle. Besonders geeignet ist Hadoop für Datenauswertungen, bei denen aufwendige Analysen durchgeführt werden müssen.

2. Cloudera – alles aus einer Hand

Cloudera bietet eine eigene Hadoop-Distribution, die zu den mittlerweile beliebtesten gehört. Cloudera umfasst ein breites Portfolio an geprüften Open Source Big Data-Anwendungen, die über den Cloudera Cluster Manager auf einer Weboberfläche einfach verwaltet und installiert werden können. Unternehmen profitieren davon, dass sie auf bewährte Lösungen zurückgreifen und flexibel neue Big Data-Technologien in bestehende Prozesse implementieren können.

3. Apache Hive – das Data Warehouse für Hadoop

Eine Herausforderung für Unternehmen ist die Verlagerung ihrer Daten nach Hadoop, weil die vorhandenen Daten üblicherweise in relationalen Datenbanken mit der Structured Query Language (SQL) gespeichert sind. Unterstützung bietet hier das Open Source Data Warehouse-System Apache Hive. Die Hauptfunktionen von Hive sind die Datenzusammenfassung, die Datenabfrage und die Datenanalyse.

4. Cloudera Impala – die Lösung für Echtzeitabfragen

Der Hadoop-Spezialist Cloudera entwickelte mit Impala eine Technologie, mit der Echtzeitabfragen in Hadoop oder HBase durchgeführt werden können. Die Hauptfunktion von Impala besteht darin, ein skalierbares und verteiltes Datenabfrage-Tool für Hadoop bereitzustellen.

5. MongoDB – die Datenbank für alle Fälle

MongoDB ist eine der marktführenden NoSQL-Datenbanken aus dem Open Source-Bereich. Als „Allzweckdatenbank“ eignet sich MongoDB bestens für die heutige IT-Landschaft mit ihren großen und teilweise unstrukturierten Datenmengen. Die Datenbank ermöglicht eine dynamische Entwicklung und hohe Skalierbarkeit bei ihren Anwendungen.

6. Pentaho – flexible Business Intelligence Plattform

Die Strategie von Pentaho ist es, verschiedene bewährte Einzellösungen zu einem kompletten Framework zusammenzufassen und den Support dafür aus einer Hand zu liefern. So können zum Beispiel Datenentwickler und Analysten mit Pentaho Data Integration (PDI) gemeinsam an der Erstellung neuer Datensätze arbeiten, indem sie das gleiche Produkt sowohl für die Entwicklung als auch für die Visualisierung der Daten verwenden.

7. Infobright – MySQL-Engine mit effektiver Datenkompression

Das explosionsartige Datenwachstum setzt die etablierten Datenmanagementlösungen unter Druck, da ihre Flexibilität beschränkt ist. Aus diesem Grund wurden spaltenbasierte Datenbanken entwickelt. Mit der MySQL-Engine Infobright hat sich in der jüngeren Vergangenheit ein neues Open Source-System etabliert, das für Datenmengen ab 500 Gigabyte geeignet ist. Infobright kombiniert eine spaltenbasierte Datenbank mit einer sich selbst verwaltenden Knowledge Grid-Architektur.

8. Apache Spark – ein Framework zur Echtzeitanalyse

Viele Unternehmen möchten ihre Daten nutzen, um schnelle und fundierte Entscheidungen treffen zu können, zum Beispiel die Optimierung von Produkten oder das Identifizieren von Einsparmöglichkeiten. Eine Technologie, die dafür herangezogen werden kann, ist Apache Spark. Dabei handelt es sich um ein parallel arbeitendes Framework aus dem Open Source-Bereich, das die schnelle Verarbeitung von großen Datenmengen auf geclusterten Computern ermöglicht.

9. Splunk – Big Data vereinfachen

Splunk Enterprise ermöglicht das Monitoring und die Analyse von Clickstream-Daten sowie Kundentransaktionen, Netzwerkaktivitäten oder Gesprächsdatensätzen. Splunk übernimmt dabei die Integration der unterschiedlichen Daten, sodass sie sinnvoll ausgewertet werden können. Der große Vorteil von Splunk ist, dass damit fast alle Arten von Dateien indiziert, verarbeitet und ausgewertet werden können.

10. Apache Storm – Big Data-Analyse auf Echtzeitbasis

Apache Storm ist ein fehlertolerantes, skalierbares System zu Echtzeitverarbeitung von Datenströmen. Die Technologie stellt eine Komponente des Hadoop-Ökosystems dar und arbeitet unabhängig von Programmiersprachen.

Wer sich mit den beschriebenen Technologien ausführlicher auseinandersetzen möchte, dem sei das Whitepaper „Die 10 wichtigsten Big Data-Technologien“ empfohlen.