Datenverarbeitung für Analytik, KI und Machine Learning

Dienstag, 19 Dezember 2017 13:15
Written by Martin Szelgrad
font size decrease font size increase font size

„Daten als Rohstoff stehen im Zentrum der beginnenden Revolution um künstliche Intelligenz“, meint Markus Grau, Pure Storage. Foto: Pure Storage

Markus Grau, Principal Systems Engineer bei Pure Storage, über Cloud und KI-Trends in Verbindung mit Storage-Lösungen seines Unternehmens.

Report: Jedes Unternehmen steht vor der Frage, „wie viel Cloud“ es nutzen möchte. Sie haben dazu jüngst eine Studie veröffentlicht - was sind die zentralen Erkenntnisse?

Markus Grau: Grundsätzlich sehen wir, dass es in vielen Unternehmen auf die Verwendung einer hybriden Cloud hinausläuft. Dabei kombiniert Pure Storage mit seinen Datenplattformen die Vorteile der Public Cloud – Agilität, Performance, Einfachheit und Skalierbarkeit – mit den Vorteilen der privaten Cloud – Performance, Latenz und Kosten.

Konkret ergab die Studie, dass die Unternehmen im Schnitt 41 % der Anwendungen mit traditioneller lokaler IT betreiben – also mehr als in der öffentlichen Cloud (26 %) und privaten Cloud (24 %). Dennoch wird die öffentliche Cloud wird in den nächsten 18 bis 24 Monaten weiterwachsen. Über 60 % der Befragten sagen, dass die Nutzung zunehmen wird.

Trotz starker Anzeichen für das Wachstum der öffentlichen Clouds hat eine beträchtliche Anzahl von Unternehmen Workloads aus öffentlichen Cloud-Umgebungen wieder in lokale Umgebungen zurückgeholt. In der EMEA-Region gaben 65 % an, dass sie wegen Sicherheitsbedenken die Nutzung der öffentlichen Cloud in den letzten zwölf Monaten reduziert haben.

Report: Spezielle Lösungen für unstrukturierte Daten wandeln „langsame“ Big Data in schnelle Daten und ermöglichen Echtzeit-Analytik. Wie kann Storage von künstlicher Intelligenz profitieren?

Grau: Ich würden die Antwort gern aus zwei Perspektiven geben: Wie kann Storage von künstlicher Intelligenz profitieren und wie kann künstliche Intelligenz von Storage profitieren?

Pure Storage verfolgt den Ansatz von Self-Driving-Storage. Hierzu haben wir unser eigenes Sensorennetzwerk aufgebaut wobei tausende Arrays täglich unzählige Datenpunkte liefern. So werden proaktive Maintenance und die präzise Planung der Verteilung von Workloads ermöglicht. Manuelle Berechnungen und Vorhersagen entfallen und durch die proaktive Maintenance werden Uptimes von über 99,9999% erreicht.

Wir nennen diesen Dienst „Pure1 META“. Der auf der KI-Engine META basierende Analytik-Dienst liefert globale prädiktive Intelligenz durch die Erfassung und Analyse von über einer Billion Array-Telemetrie-Datenpunkten pro Tag und ermöglicht müheloses Performance-Management. Durch die von Pure1 META generierte neue Workload-DNA können Unternehmen erstmals sowohl die Kapazität als auch Performance vorhersagen – für intelligente Workload-Implementierung, -Interaktion und -Optimierung.

Der wichtigste Treiber hinter der globalen prädiktiven Intelligenz von Pure1 META ist die META AI Engine, die einen „Data Lake“ mit mehr als sieben Petabyte Daten analysiert, um sowohl Problem-Fingerprints als auch Workload-DNA zu erzeugen. META scannt die gesamte eingehende Array-Telemetrie gegen eine Bibliothek von Problem-Fingerprints, um Vorfälle in Echtzeit vorhersagen und beheben zu können, bevor sie Kundenumgebungen beeinflussen. Dabei werden Hunderte von Variablen, die sich auf die Performance beziehen, erfasst und zur Vorhersage der Leistungsbelastung verwendet.

Allerdings wird auch anders herum ein Schuh daraus: Moderne Speichertechnologie ist ebenso eine Art „Turbo“ für die Entwicklung künstlicher Intelligenz durch maschinelles Lernen.

Daten als Rohstoff stehen im Zentrum der beginnenden Revolution um künstliche Intelligenz. Immense Mengen an Daten müssen in extrem hoher Geschwindigkeit beispielsweise an GPUs (Graphics Processing Unit) übertragen werden, um Modelle schneller und akkurater trainieren zu können. Konventionelle Speicherlösungen – basierend auf herkömmlicher serieller Block-Architektur – können aber nicht genügend Daten in der benötigten Geschwindigkeit zur parallelen Berechnung liefern, die bei KI-Workloads benötigt wird.

FlashBlade von Pure Storage, ist die weltweit erste Datenplattform, die speziell für Anwendungen rund um künstliche Intelligenz und moderne Analytik konzipiert wurde. FlashBlade wurde von Grund auf mit einer hochgradig parallelen Architektur entworfen. So wird nur ein halbes Rack benötigt um 8 Petabyte an nutzbaren Daten zu speichern und diese mit 75 GB/s zu lesen und mit 25 GB/s zu schreiben. Dabei leistet das System 7,5 Millionen IOPS. Seit FlashBlade am Markt verfügbar ist, wurden die Systeme von Pure Storage von zahlreichen Unternehmen, die auf moderne Datenverarbeitung setzen, genutzt. Dazu zählen moderne Analytik, KI und Machine Learning.

Report: Tier-1-Storage neu definiert: Rich-Data-Services, native Cloud-Integration und 100 Prozent NVMeFlash - was hat es damit auf sich?

Grau: Pure Storage bietet als erster Hersteller mit dem FlashArray//X ein hundertprozentiges NVMe-All-Flash-Array, welches die Vorteile von NVMe ausspielt (Anm. d. Red. "NVM Express", kurz NVMe, ist eine Schnittstelle um SSD, also nichtflüchtigen Massenspeicher, über PCI Express zu verbinden.) Dau gehören die massive Parallelität, höchste Packungsdichten sowie höchste Performance. Zugleich bietet das NVMe-Flash-Array alle Enterprise-Funktionen wie Snapshots, Replikation, Verschlüsselung und Datenreduktion. Alle Funktionen des etablierten FlashArray//M werden hierbei gleichermaßen unterstützt, so dass es keinerlei Probleme in bestehenden Umgebungen gibt.

Beide Plattformen - FlashArray//M und FlashArray//X - bieten native Anbindung an Cloud-Anbieter wie zum Beispiel Amazon Web Services oder Microsoft Azure um eine hybride Cloud aufzubauen. Ein weiterer wichtige Schritt ist die Auswertung von großen Datenmengen nahezu in Echtzeit, um das Datenmanagement auf den Arrays zu optimieren, Engpässe und Probleme vorzeitig zu erkennen und so durch Predictive Maintenance die Ausfall- und Fehlerquote auf ein absolutes Minimum zu reduzieren.