Menu
A+ A A-

Datenmanagement mit dynamischem Index

4D-Index von Commvault: 1. grundlegenden Metadaten 2. Indexierung 3. Klassifikation 4. Advanced Insights. 4D-Index von Commvault: 1. grundlegenden Metadaten 2. Indexierung 3. Klassifikation 4. Advanced Insights.

Ein Blick in den Commvault 4D Index und wie er funktioniert. Von Olaf Dünnweller, VP Sales bei Commvault, einem Anbieter von Backup, Recovery und Archivierung in hybriden IT-Umgebungen.

Wenn es Ihrer Rolle entspricht, kennen Sie wirklich die Ihnen anvertrauten Daten Ihres Unternehmens? Wenn Sie diese Antwort mit „Ja“ beantworten, gehören Sie zu einer Minderheit: Gleich der Spitze eines Eisbergs, liegen viele Daten im Verborgenen, seien es die, die für Innovation dringend nötig wären, oder die, die Speicherplatz und Administrationszeit fressen. An irgendeinem Punkt kommt oft der Punkt, zu dem die Auseinandersetzung mit den Daten unumgänglich wird: Ob es um Datenschutzinitiativen, einen Wechsel in der Unternehmensführung, rechtliche Änderungen, unschöne Erfahrungen mit Ransomware oder einem Data Breach geht.  

Wie aber genau lassen sich Daten aus Backups, Archiven oder Live-Quellen analysieren und automatisiert Regeln auf diese Daten anwenden? Bei Commvault ist das Toolset „Commvault Activate“ mit dem so genannten 4D-Index dafür verantwortlich. Der dynamische Index greift auf künstliche Intelligenz (KI) zurück, um das Verständnis für Daten über Datenquellen und Datentypen hinweg zu optimieren. Unternehmen erhalten dadurch mehr Informationen über ihre Daten, unabhängig davon, ob sie mit Werkzeugen von Drittanbietern, Commvault-Tools oder bislang überhaupt nicht verwaltet werden. Wenn „Commvault Activate“ gemeinsam mit Commvault Complete Backup & Recovery verwendet wird, können Kunden das gewonnene Datenwissen in die indexierte Sammlung von Backup- und Archivdaten-Instanzen einbinden. Dies führt zu einer vollständig virtualisierten Datenlandschaft.

Im 4D-Index sind namentlich alle Daten zu finden, die über die Backup- und Recovery-Plattform verwaltet oder definiert werden. Er deckt vier Aspekte ab, die für ein gutes Datenmanagement essenziell sind:  

1. Grundlegende Metadaten
Bei regelmäßigen Backups und Archivierungen werden grundlegende Metadaten über die entsprechenden Daten gesammelt und in den Index geladen. Dies ist entscheidend für den Prozess selbst, aber auch für den Rückruf oder die Wiederherstellung der Daten. Die Metadaten für eine E-Mail könnten Elemente wie Betreff, von, bis, Datum des Versands, Empfangsdatum, Größe usw. sein. Bei einer Datei könnte es sich um Pfad, Speicherort, Größe, Erstellungsdatum, Erstellungsdatum, Änderungsdatum, Eigentümer, letzter Bearbeiter handeln. Diese grundlegenden Metadaten und die Indexierung sind Standard innerhalb von Commvault Complete Backup & Recovery und lassen sich durchsuchen, um eine Self-Service Wiederherstellung und andere operative Aufgaben zu unterstützen.

2. Indizierung von Inhalten
Dieser Bereich wird manchmal auch als Volltextindizierung bezeichnet, aber Daten lassen sich auch in zusätzliche Metadatenfelder innerhalb des Index laden. Diese Text können in Office-Dateien, E-Mails, PDF-Dateien und einer Vielzahl anderer unstrukturierter, halbstrukturierter und strukturierter Datenquellen enthalten sein. Sobald diese anderen Metadaten gefüllt sind, können Suchen darauf angepasst werden, so dass sich Schlüsselwörter oder Phrasen in den Dateien finden oder Archivierungsrichtlinien basierend auf dem Inhalt der Dateien anwenden lassen. Activate kann die Sammlung dieser zusätzlichen Metadaten über die direkt von Commvault verwalteten Daten hinaus erweitern und Datenquellen indizieren, die sich „live" in Produktionssystemen befinden.

3. Klassifikation
Bei der Klassifizierung von Daten kommt ein Prozess zum Einsatz, der „Entitätserkennung“ oder „Entitätsextraktion“ genannt wird und es ermöglicht, bestimmte Arten von Informationen zu identifizieren, die in den Daten gespeichert werden könnten. So können Unternehmen Kategorien/Typen von Daten (Entitäten) definieren und die Kategorien durchsuchbar machen. Beispiele hierfür sind sensible Daten, PII-Flaggen, Kreditkartennummern, Kunden-IDs, Stimmungsanalysen, Bestellnummern, allgemeine finanzielle Details. Die Idee dabei ist, dass Administratoren ein Muster für z.B. ein Führerscheinformat definieren. Bei der Durchführung der Inhaltsindexierung wird der Volltext nach Übereinstimmungen mit den Mustern durchsucht, und diese Übereinstimmungen werden in Metadatenfeldern für diese Entität gespeichert. Diese werden extrahiert, so dass sie dann nach einer bestimmten Führerscheinnummer oder nach einem Asset suchen können, das aussieht, als könnte es eine beliebige Führerscheinnummer enthalten.

Dies ist ein zentrales Element, um sensible Daten zu verwalten und das mit ihnen verbundene Risiko zu verringern, da sichtbar wird, wenn persönliche oder sensible Daten vorhanden sind oder verarbeitet werden.

4. Advanced Insights
Verschiedene intelligente Algorithmen von Technologiepartnern wie Microsoft, Google und AWS helfen dabei, den Index anzureichern. Künstliche Intelligenz gibt es in vielen Formen, und ob es sich nun um statistische, wie maschinelles Lernen (ML), semantische, wie natürliche Sprachverarbeitung (NLP) oder andere KI-Techniken handelt – das Ziel ist es, die Informationen über Daten anzureichern, um Daten besser durchsuchbar, zugänglich, nutzbar zu machen.

Wenn alle vier Bereiche gut umgesetzt und miteinander verknüpft werden, lassen sich einige leistungsstarke Szenarien verwirklichen, um Daten nicht nur intelligent zu finden und zu verwalten, sondern auch zu visualisieren und einen zusätzlichen Wert daraus abzuleiten. Beispiele könnten sein:

- Kulanz bei Schreibfehler bei der Sucheingabe oder der Asset-Benennung zeigen.
- Dokumente so klassifizieren, dass Tasks wie „Alle Verträge finden", „Alle Verträge, die eine solche Klausel enthalten" finden, einfach handhabbar sind.
- Die Bedeutung und den Kontext von Rich Media berücksichtigen, so dass Dokumente sich smart durchsuchen lassen – „Alle Bilder von Katzen finden", „Alle Bilder mit Stoppschild und rotem Auto finden", „Alle Bilder von Dokumenten finden, die wie Bestellungen aussehen", „Liste mit Videos finden, die Commvault Virtual Connections mehr als fünf Mal erwähnen".
- Bei der Ausgabe von Suchergebnissen und bei Empfehlungen berücksichtigen, ob die Dokumente tatsächlich aufgerufen werden, und so mit der Zeit erkennen, ob die Suchbegriffe mit den tatsächlich konsumierten Inhalten übereinstimmen.

Ranga Rajagopalan, VP of Products bei Commvault, fasst in 20 Minuten zusammen (siehe auch Video unten), wie der Commvault 4D-Index technische Metadaten sammeln, Text für durchsuchbare Inhalte extrahieren, Entitäten erkennen und klassifizieren und Tools von Drittanbietern mit Erkenntnissen bereichern kann: www.youtube.com/watch?v=Z071GJuK35A 

Fazit
Ein dynamischer Index kann das Wissen über die vorhandenen Datenbestände signifikant verbessern – und so aus vermeintlich dummen Daten praktischen Mehrwert ziehen. Immer neue Schnittstellen ermöglichen die Inventarisierung und Indexierung von Daten aus Quellen wie Online-Datenspeichern, aktiven Endgeräten oder neuen O365-SaaS-Cloud-Datenspeichern. Damit können Daten im Rahmen einer ganzheitlichen, unternehmensweiten Betrachtung ausgewertet werden. Diese Daten werden durch die Kombination technischer Metadaten mit dem Kontext von Benutzer- oder Geschäftsanwendungen, Klassifizierungs-/Entity-Rules und mit Rich-Content-Analysen indexiert. So gewinnen Manager ein vollständiges Bild ihrer Datenumgebung und treffen bessere Geschäftsentscheidungen.

Last modified onMontag, 30 März 2020 12:48

Media

back to top