 |
Daten-Klassifizierung - Wie und warum?
|
Ausgangssituation
Für viele Unternehmen wird die Notwendigkeit zur Klassifizierung ihrer Daten als Voraussetzung für einen sachgerechten Umgang mit diesen immer relevanter. Neben der Frage eines möglichst geringen Aufwandes gibt es hier insbesondere die Herausforderung, dass die Lösung nachhaltig angelegt sein muss.
Die Gründe für die Klassifizierung sind vielschichtig:
Externe Treiber (Business Driver)
- HGB Handelsgesetzbuch
- AO Abgabenordnung
- GoBS Grundsätze ordnungsgemäßer DV-gestützter Buchführungssysteme
- GDPdU Grundsätze zum Datenzugriff und zur Prüfbarkeit digitaler Unterlagen
- PCI DSS Payment Card Industry Data Security Standard (Sicherheitsstandard der Kreditkartenindustrie)
- EUDPD European Union Data Protection Directive (europäische Datenschutzrichtlinie)
- HIPAA Health Insurance Portability and Accountability Act (US-Gesetz zum Schutz von persönlichen Gesundheitsdaten)
- SOX Sarbanes-Oxley Act (US-Gesetz zur Veröffentlichung der Finanzdaten von Unternehmen)
- GLBA Gramm-Leach-Bliley (Gesetz zum Schutz von Kundendaten der Finanzdienstleister)
Interne Treiber (Internal Driver):
- Reduzierung der Speicherkosten
- Hierarchisches Speichermanagement (HSM) - Binäre Klassifizierungskriterien (aktive Daten vs. veraltete Daten)
- Datenschutz
- Encryption (Verschlüsselung) - Vertraulichkeit
- Entscheidungen zum Einsatz von Cloud-Storage
- eDiscovery
- Wissenserwerb/Wissenserhalt
- Rückgewinnung von freiem Speichervolumen
Unabhängig vom jeweiligen Grund für die Klassifizierung stellen unstrukturierte Daten die größte Hürde bei der Klassifizierung von Unternehmensdaten dar. Dies liegt u.a. in den nachfolgenden Punkten begründet:
- Anzahl der Dateien
- Anzahl der Dateitypen
- Heterogene Systemumgebungen/Dateisysteme
- Exponentielles Wachstum des Datenvolumens
- (häufig) uneinheitliche, historisch gewachsene Ablagestrukturen
- mangelnde Prozessvorgaben und Prozessüberwachung
- gelebte und genutzte Freiheitsgrade
Es gibt zwei gegensätzliche Trends in der heutigen Unternehmung: Zum einen gibt es ein gewaltiges und beispielloses Datenwachstum von unstrukturierten Daten. Analysten gehen davon aus, dass mehr als 80 Prozent aller unternehmensweiten Daten in unstrukturierter Form, also außerhalb einer Datenbank-Struktur vorliegen. Datenbanken haben eine Vielzahl von Werkzeugen, die den Administrator dazu befähigen, den Inhalt dieser Datenbank zu sichern und zu bewerten. Unstrukturierte Daten hingegen sind eine völlig neue und ungelöste Herausforderung. Es ist sehr schwierig, ein vollständiges Bild vom Typ, Alter und Häufigkeit der Nutzung der Daten sowie deren Nutzer zu erhalten. Doch gerade diese Eigenschaften entscheiden darüber, wie mit den Daten zu verfahren ist.
Leider ist der gegenläufige Trend der, dass die Budgets für die Speicherkapazitäten und für die Personalentwicklung in der IT dem Zuwachs der Daten nicht standhalten können, ja sogar sinken. Analysten wie IDC sagen voraus, dass sich zwischen 2008 und 2010 das Datenwachstum etwa verfünffachen wird, wohingegen Budgets und Einstellungen nur um einen Faktor von 1,1 im gleichen Zeitraum steigen werden. Daraus resultierend sind Organisationen heute überwältigt von digitalen Informationen und tendieren dazu, eine einzige einfache Aufbewahrungsregel anzuwenden: alles speichern.
Die Realität sieht jedoch so aus, dass nicht alle Daten auf die gleiche Weise erstellt werden und dass nicht alle Daten den gleichen Wert für das Unternehmen haben. Beispielsweise ist häufig eine Flut von MP3-Dateien oder JPEG Bilddateien vorhanden, die aus so banalen Dingen wie iTunes-Musikbibliotheken oder Bildern des Familienurlaubs der Mitarbeiter besteht. Diese Dateien sind ganz offensichtlich weder kritisch noch für das Unternehmen von Wert. Dennoch werden auch diese Daten auf der teuersten Speicherebene, dem Primärspeicher gelagert und sogar jeden Tag vom Unternehmen gesichert. Dann gibt es noch inaktive oder veraltete Daten. Diese Daten sind möglicherweise sechs Wochen, sechs Monate oder sogar sechs Jahre alt und werden genauso behandelt wie die aktuellen und aktiven Daten der Organisation. Zusätzlich zum Datenwachstum kommt, dass die Notwendigkeit, Daten für längere Zeiträume aufzubewahren und zu schützen, immer mehr Bedeutung gewinnt. Schließlich werden diese Daten gesichert, gespiegelt und es werden Disaster Recovery-Pläne um sie herum gebaut.
In der Folge kaufen Firmen mehr Speicher als sie benötigen, um fremde Information und die persönlichen Dateien der Mitarbeiter neben den eigenen wertvollen Unternehmensdaten unterzubringen. Es sind also nicht nur die Speichervolumen größer als notwendig, sie sind auch teurer, indem sie mehr Administration nötig machen – so explodieren auch die betrieblichen Kosten.
Ziele der Datenklassifizierung
- Verfügbarkeit, Vollständigkeit und Vertraulichkeit für alle identifizierten Werte
- ROI durch die Einführung von Kontrollmechanismen, wo sie am meisten benötigt werden
- Datenschutz-Vorgaben mit organisatorischen Bedürfnissen zusammenbringen
- Reduzierung der Bedrohungen durch unautorisierte(n) Zugriff und Offenlegung
- das Erfüllen von gesetzlichen Anforderungen
Die Schritte zur Entwicklung und Einführung des Datenklassifizierungs-Programms:
- Erfassung aller Speicherressourcen
- Definition der Schutzabstufungen für Speicherressourcen
- Definition von Klassifizierungskriterien
- Entwicklung von Policies (Regeln) für die Klassifizierung von Informationen
- Definition von Prozessen zur Behandlung von Informationen und zur deren Kennzeichnung
- Zuweisung von Verantwortlichkeit für Klassifizierung an den jeweiligen Besitzer der Information
- Zuweisung von Sicherungsklassifizierung zu allen Speicherressourcen
- Klassifizierung von Informationen nach Sensibilität und Schutzwürdigkeit
- Anwendung des Klassifizierungsystems auf Dokumente, Aufzeichnungen, Dateien und Festplatten
- Entwicklung von Prozessen zur Handhabung jeder Klasse von Informationen
- Entwicklung von Prozessen zur Abstufung jeder Klasse von Informationen
- Integration in das Sicherheitsbewusstsein und in Trainingprogrammes
Eine Vorgabe zur Datenklassifizierung sollte Folgendes einschließen:
- Informationen sind Eigentum der jeweiligen Geschäftsbereiche
- Erklärung von Bereichsleitern zu Verantwortlichen für diese Informationen
- Erklärung der IT als verantwortlich für die Daten
- Festlegen des Datenklassifizierungs-Schemas
- Definitionen für jede Klassifizierung
- Kriterien für jede Klassifizierung
- Rollen und Verantwortlichkeiten des Klassifizierungs-Teams
Die Lösung
Mit dg classification können Administratoren automatisiert den gesamten unstrukturierten Datenbestand unternehmensweit erfassen, analysieren und einheitliche Klassifizierungsregeln auf alle Ressourcen anwenden. Gleichzeitig können mit Hilfe einer individuell definierten Klassifizierungs-Matrix durchsuchbare Metadaten erstellt und verwaltet werden. Damit ist es möglich, dass Daten z.B. auf eine nachrangige Speicherebene verlagert werden und die Metadaten weiter für eine detaillierte Suche zur Verfügung stehen.
Heutige Organisationen haben heute einen Bestand von mehreren Millionen oder Milliarden an Dateien. dg classification kennt keine Begrenzung der Anzahl von Dateien, die es unterstützt, sodass es beliebig skalierbar bis hin zu einer Vielzahl von parallelen Rechenzentren ist. dg classification kommt mit dem aktuellen Datenbestand genauso zurecht wie mit den zu erwartenden Wachstumsraten.. Durch seine intelligente agentenbasierte Architektur kann dg classification Analysen mit der höchst verfügbaren Geschwindigkeit durchführen. Ein Upgrade dieser Agenten kann in kürzester Zeit vorgenommen werden. Über die Agenten können jederzeit schnelle Reports über alle unternehmensweiten Daten erstellt werden. dg classification ermöglicht es somit dem Unternehmen, tagesaktuelle Reports über die Zusammensetzung seiner Speicher und Informationen zu erhalten – ganz unabhängig von globalen Betriebszeiten. Als einziges am Markt verfügbares Produkt mit dieser Leistungsfähigkeit, ermöglicht dg classification dem Anwender eine Echtzeit-Überwachung, die das Speicher- und Informationsmanagement erheblich vereinfacht.
dg classification bietet darüber hinaus Schnittstellen zu allen relevanten Plattformen im Unternehmensumfeld und bietet auf diese Weise eine wirklich zentrale und homogene Lösung. Durch die vielfältigen Funktionen zur Analyse und zur Bewertung von Daten sowie zum direkten Auslösen von Aktionen ist keine zusätzliche Software, wie z.B. ein Policy-Manager oder ein Migrations-Programm (mit den eventuellen auftretenden Kompatibilitätsproblemen) notwendig..
dg classification ist kompatibel mit allen Arten von unstrukturierten Daten und ist mit seiner Fähigkeit, bis zu einer halben Milliarde Dateien pro Stunde zu scannen, beinahe für jede Unternehmensgröße bzw. für jedes Rechenzentrum bis hin zu einer Mehrzahl paralleler Rechenzentren, bestens geeignet. Regeln können so angepasst werden, dass sie allen Geschäftsfeldern und Branchen gerecht werden – von medizinischen Einrichtungen bis zur Versicherung. Zusätzlich können relevante Daten (z.B. für einen Rechtsstreit) lokalisiert und geschützt werden, so dass deren Veränderung oder Löschung verhindert werden kann – sogar wenn deren Löschung vorher freigegeben war.
Die nahtlos integrierte dg suite bietet die Möglichkeit, hoch automatisiert Daten zu analysieren, zu klassifizieren, zu suchen, auszulagern, zu archivieren und – nach Ablauf einer vorgegebenen Frist – zu löschen. Während des Analyse-Prozesses identifiziert dg classification die Dateien und Datentypen, die in der gesamten IT-Infrastruktur verfügbar sind Die darauf hin erfolgende Klassifizierung setzt genau auf diesen Analyseergebnissen auf, indem jeder Datei nach dateiformatabhängigen vordefinierten Regeln individuelle Metadaten hinzufügt werden. Diese Regeln definieren, ob die Dateien über die Applikation, über die Abteilung (z.B. Rechnungswesen), über den Typ, das Datum oder eine Vielzahl anderer Kategorien klassifiziert werden. Die jeweiligen Kategorisierungen hängen von den spezifischen Bedürfnissen jedes einzelnen Unternehmens ab. Die dg suite bietet die Überwachung von Aufbewahrungsfristen, kundenspezifische Aufgaben und Berichterstattung, um Aktionen auf die klassifizierten Daten anwenden zu können.

Windows FCI Support
Durch die Integration mit Microsoft Windows Server 2008 R2 File Classification Infrastructure (FCI) klassifiziert dg classification umfassender und auf einem detaillierterem Niveau als jedes andere Produkt am Markt. Mit dg classification und FCI sind Daten unternehmensweit erfassbar, deren Klassifizierungs-Eigenschaften können zentral gesammelt und Regeln können aufgrund deren gemeinsamer Klassifizierungs-Eigenschaften zentral ausgeführt werden. Beim scannen der Daten filtert der sog. File-Stream entsprechende Eigenschaften, um dann die Daten anhand geeigneter Kategorien, wie z.B. Nutzer, Abteilung, Dateigröße, -alter oder –typ zu klassifizieren. Durch die Integration mit FCI kann diese Klassifizierung detaillierter und ganzheitlicher als je zuvor durchgeführt werden, da FCI kundenspezifisches Tagging ermöglicht, das weit über die konventionellen Kategorien der OS-Metadaten hinausgeht. Kategorisierungen können individuell erstellt werden, um sich den spezifischen Bedürfnissen von Unternehmen in verschiedensten Branchen optimal anzupassen. Die Dateiklassifizierungen können dann an die Analyse-, Migrations- oder Archivmodule der dg suite übergegeben werden um direkt weitere Aktionen zu veranlassen um alle Bedürfnisse zur Sicherung der Compliance, für eDiscovery, der Rückgewinnung von Speicherkapazität oder dem Wissensmanagement abzudecken.
dg classification- und Microsoft FCI-Metadaten werden im sog. Alternativen Datenstrom (ADS) der Datei gespeichert. So wird erreicht, dass die Klassifizierung immer bei der Datei bleibt – unabhängig davon, wohin sie verschoben oder migriert wurde. Daraus resultierend muss das System keine zusätzliche Datenbank für die Klassifizierung erstellen, was die Speicherressourcen der Organisation weiter belasten würde. Suchfunktionen nutzen diese Metadaten, um Dateien – basierend auf Kriterien, die weit über konventionelle Metadaten, wie z.B. Dateinamen oder Erstellungsdatum, hinausgehen – treffsicher zu lokalisieren. So können Dateien und Dokumente geprüft werden, um kontextbezogene Entscheidungen über diese Daten treffen zu können. Diese kontextbezogenen Suchmerkmale sind besonders wichtig, wenn Daten zur Archivierung oder für Compliance-Belange klassifiziert werden.
dataglobal erschließt mit dg classification die FCI-Funktionalität auch für Windows 2000 – 2008 Plattformen, und ermöglicht es so, auch bereits vorhandene Datenbestände zu klassifizieren. Zusätzlich bietet die kombinierte Lösung von dg classification und Microsoft FCI den enormen Vorteil, dass alle Server von einem zentralen Kontrollzentrum aus verwaltet werden können – im Gegensatz zu einer jeweils dezentralen Steuerung pro Server. So kann die Datenklassifizierung unternehmensweit in physischen und virtuellen Umgebungen mit mehreren Clustern angewandt werden.
dataglobal ist für Microsoft einer der wichtigen ISV-Partner bei der Weiterentwicklung und Verbreitung der Windows FCI-Technologie.
Detaillierte Informationen präsentierte Matthias Wollnik, Senior Program Manager im Windows File Server Team, im Rahmen der Veranstaltung "build windows 2011". Die Konferenz bot erste Einblicke zu Windows 8. Die wichtigsten Kernaussagen haben wir hier für Sie zusammengefasst.
- Windows Server 8 wird ein voll enterprise-fähiges Storage-Produkt und weist eine enorme Leistungsfülle auf.
- Basis für viele neue Funktionen ist die Klassifizierung von Dateien nach Windows FCI. Klassifizierung wird damit zur Kernfunktion, weil sie der Schlüssel zu einer sehr viel intelligenteren Verwaltung von Dateien ist.
- Microsoft empfiehlt den Einsatz von dg suite zur automatisierten Klassifizierung von Dateien und insbesondere Altbeständen sowie zum unternehmensweiten Einsatz über viele Server hinweg.
Auszüge aus der Präsentation
Das gesamte Video finden Sie auf Channel 9. >> Zu Microsoft's FCI Website
Classification Cube
Die Zielsetzung der Strukturierung von Daten anhand dieses Standardmodells ist es, ein von den jeweiligen GRC-Anforderungen (Governance, Risk, Compliance) oder internen Vorgaben unabhängiges Vorgehen bei der Klassifizierung vorzugeben. Es entsteht ein Modell, das möglichst alle Anforderungen erfüllen kann.
Dazu werden alle vorhandenen Dokumente, basierend auf drei Kriterien, klassifiziert:
- Prozesse (Hauptprozess, dem dieses Dokument zugeordnet werden kann)
- Wertigkeitsstufe
- Geheimhaltungsstufe
Unten sind diese drei Kriterien grafisch dargestellt.

Ausprägungen der Achsen
Wertigkeitsstufen:
Aus der Wertigkeitsstufe lassen sich unter Berücksichtigung von z.B. länder-, unternehmens- oder auch branchenspezifischen Anforderungen die jeweiligen Aufbewahrungsfristen ableiten. Dabei müssen die Aufbewahrungsfristen mit dem jeweiligen Dokumententyp verknüpft werden.
| Ausprägung |
Beschreibung |
|
Tageswert
|
Dateien unterliegen keinerlei Aufbewahrungsfristen und können/könnten jederzeit gelöscht werden. Beispiele:
• Rundschreiben
• Allgemeine Aktenvermerke
• Kopien von Protokollen
Nach Bedarf aufzubewahren; Vernichtungsdatum intern festlegen.
|
| Prüfwert |
Dateien unterliegen keiner Aufbewahrungsfrist bzw. es ist noch nicht klar, ob es seine Aufbewahrungsfrist gibt.
Beispiele:
• Anfragen/Angebote ohne Auftragsfolge
Nach Bedarf aufzubewahren; Vernichtungsdatum intern festlegen.
|
Gesetzwert
|
Für diese Dateien gibt es eine gesetzlich vorgeschriebene Aufbewahrungsfrist.
Beispiele:
• Buchungsanweisungen
• Geschäftsberichte
• Rechnungen und Belege
• Arbeitsverträge
Aufbewahrungsfrist hängt vom Sachverhalt, nationalen Rechtsprechungen, Gesetzen und Verordnungen ab.
|
Archivwert
|
Diese Dateien müssen/werden unbegrenzt aufbewahrt.
Beispiele:
• notarielle Urkunden
• Pläne
• firmengeschichtliche Daten
|
Geheimhaltungsstufe:
| Ausprägung |
Beschreibung |
|
öffentlich
|
Datei darf das Unternehmen grundsätzlich verlassen; an einen Empfänger (z.B. Ausgangsrechnung) oder an beliebig viele Empfänger (z.B. Werbesendung) versandt werden.
|
intern
|
Auf diese Datei darf aus dem gesamten Unternehmen heraus zugegriffen werden (z.B. Telefonliste, Organigramm).
|
fachbereichsspezifisch
|
Datei darf nur innerhalb eines Fachbereichs verwendet werden (z.B. Bewerbungsunterlagen im Bereich HR). |
geheim
|
Datei unterliegt der Geheimhaltung und darf nur von einem ausgewählten Kreis von Mitarbeitern verwendet werden (z.B. „Coca Cola-Rezept“). |
Prozesse:
Die Aufteilung der Prozessachse ist unternehmens-/branchenspezifisch festzulegen. Die nachfolgenden Ausprägungen dürften jedoch in den meisten Unternehmen Anwendung finden können:
- Finanzen
- Einkauf
- Personal
- Rechtswesen
- IT
- Vertrieb
In Abhängigkeit des jeweiligen Geschäftszweckes können dann noch weitere Ausprägungen erforderlich bzw. sinnvoll sein:
- Forschung und Entwicklung
- Marketing
- Produktion
Exemplarische Zuordnung von Dokumententypen zu Containern
Beispiel 1 / Prozess: Finanzen

|
öffentlich |
intern |
fachbereichsspezifisch |
geheim |
|
Tageswert
|
• Werbung
|
|
|
• Aktenvermerke „GF“
• Protokolle „GF“
|
|
Prüfwert
|
• ausstehende Angebote
|
|
• offene, noch nicht angenommene Angebote
|
• Statistiken bzgl. Strategieumsetzung, Ausrichtung
|
|
Gesetzwert
|
• Geschäftsberichte
|
|
|
• sämtliche Unterlagen, die zur Erstellung des Jahresabschlusses geführt haben
• Verrechnungspreise (innerhalb des Konzerns)
• Steuerbescheide
|
|
Archive Value
|
• Ad-hoc-Meldungen
• firmenhistorische Daten
• Pressemeldungen
|
|
• Handelsbriefe (angenommene Angebote, Preis- und Auftragsbestätigungen, Lieferscheine, Korrespondenz zur Projektabwicklung, Rechnungen, Stornos, Kündigungen)
|
• Margenentwicklung
• Gesellschaftervertrag
• notarielle Dokumente
|
Beispiel 2 / Prozess: Personal

|
öffentlich |
intern |
fachbereichsspezifisch |
geheim |
|
Tageswert
|
|
|
|
|
|
Prüfwert
|
|
• Organigramme
|
• Arbeitszeiterfassung
|
• Lohnsteuererklärung
|
|
Gesetzwert
|
|
|
• Bewerbungsunterlagen
• Lohnabrechnungen
• Arbeitsverträge
• Zielerreichungsgespräche
|
• Lohnabrechnungen „GF“
|
|
Archivwert
|
|
|
• betriebliche Rentenzusagen
|
• betriebliche Rentenzusagen „GF“
|
Fachartikel
|