Gedanken zu Datenqualität

Premium Quality Guaranteed

Oft ist es notwendig Daten von einem bestehenden System in ein neues System zu überführen – schließlich will man mit dem neuen System ja auch auf bisherige Daten zurückgreifen können.  Dafür müssen Daten oft extrahiert, transformiert, eventuell ergänzt und bereinigt werden und obendrein muss das Ergebnis einer solchen Migration auch noch geprüft werden. Der Aufwand hierfür sollte nicht unterschätzt werden, und noch weniger sollten die Auswirkungen unterschätzt werden, wenn die Datenqualität “nicht stimmt”.

Zunächst einmal sollte der Begriff Qualität geklärt werden. Qualität beschreibt die Eigenschaften eines Objekts. Ein Objekt kann auch ein virtuelles sein, wie eben Daten. Um Qualität beschreiben und damit bemessen zu können braucht es Metriken. Um die Qualität bewerten zu können, braucht es Toleranzen.

Betrachten wir das anhand eines praktischen Beispiels: Ein Seil wird mit der Metrik der Länge (in einer passenden Einheit wie zum Beispiel Zentimeter) beschrieben. Nehmen wir an unser Ziel ist es, ein Seil mit einer Länge von fünf Metern zu bekommen. Wir können also eine Länge von 500 cm nutzen um diese Eigenschaft zu beschreiben. So weit, so klar. Doch wenn jetzt von einem langen Stück Seil unser kleines Stück abgeschnitten wird – wie lang darf oder muss es sein, damit wir es noch als “in Ordnung”, also für unsere Zwecke passend, akzeptieren? Es ist einfach unmöglich exakt 500 cm abzuschneiden. Hier kommen Toleranzen ins Spiel. In unserem Beispiel wollen wir, dass das Seil mindestens 500 cm lang ist. Dies stellt unsere untere Grenze dar – kürzer darf es nicht sein. Für unsere  Zwecke, darf es aber gerne etwas länger sein. Da wir unser Seil pro Zentimeter bezahlen, wollen wir natürlich nicht mehr bezahlen als nötig. Aber gute 5 cm mehr können wir verschmerzen. Unser Seil darf also längstens 505 cm lang sein um für unsere Zwecke passend zu sein. Das ist unsere obere Grenze.  Die beiden Längen 500 cm und 505 cm stellen nun jene Grenzen dar, zwischen denen die Länge des Seils für uns akzeptabel ist.

“Toleranz ist ein Maß für Akzeptanz der Abweichung von einem Zielwert. Akzeptanz setzt das Einhalten von Grenzen voraus. Toleranz ist nicht das Ignorieren von Grenzen. “

Mit dieser Toleranz ist nun hinreichend definiert, dass ein Seil, das mindestens 500 cm und höchstens 505 cm lang ist, für uns ein akzeptables Maß aufweist. Je enger diese Toleranz gesetzt ist, desto schwerer ist es, sie einzuhalten – also den Zielwert zu erreichen. Es ist erheblich schwerer ein Seil abzuschneiden, dass mindestens 500 cm lang ist, aber höchstens 500,5 cm…

Auch wenn dieses Beispiel relativ simpel war, zeigt es deutlich worauf man achten sollte  wenn man von Qualität spricht:

  • Nicht jeder versteht unter Qualität dasselbe,
  • Qualität beschreibt die Eigenschaften eines Objekts,
  • Toleranzen ermöglichen Akzeptanz,
  • ohne Grenzen gibt es keine Toleranz.

Auch bei Projekten, bei denen Daten migriert werden, tritt das Problem auf, dass eine bestimmte Qualität eingehalten werden muss. Es macht sich bezahlt, bereits von Anfang an die Grenzen für eine tolerierbare Qualität abzustecken. Dafür müssen geeignete Metriken und akzeptable Grenzen gewählt werden.

Geeignete Metriken können zum Beispiel einfache Prüfsummen sein. Befinden sich im Altsystem zum Beispiel 500.000 Datensätze, dann müssten auch im neuen System 500.000 Datensätze verfügbar sein. Schon mit dieser Maßnahme kann schnell geprüft werden, ob zu wenige Datensätze migriert wurden, oder gar Duplikate erzeugt wurden und damit zusätzliche (falsche) Datensätze generiert wurden. Je nachdem um welche Art von Daten es sich handelt reicht es vielleicht aus wenn mindestens 90% der Datensätze migriert werden.

Es könnte aber auch vorkommen, dass die ersten 250.000 Datensätze zweimal migriert wurden. Hier hilft eine einfache Prüfsumme nicht mehr. Auch kann die zeitliche Abfolge der Daten von Relevanz sein. Neue Daten sind vielleicht wichtiger als alte. Oder die Integrität einzelner Datensätze ist durch die Migration nicht mehr gegeben. Hier gibt es viele mögliche Fehlerquellen. Bei manchen Daten spielt die Qualität eine untergeordnete Rolle. So sind zum Beispiel für den Projekterfolg, bei der Migration der Daten eines ERP Systems, die Daten über gefahrene Kilometer der Autos eines Fuhrparks eines Unternehmens vielleicht nicht so ausschlaggebend, wie eine korrekte Übernahme der Lohnhöhen der Mitarbeiter des Unternehmens.

Je höher die Anforderungen an die Qualität sind, desto mehr macht es sich bezahlt, bereits im Vorfeld geeignete Metriken und dazu passende Grenzen zu definieren. Da hierdurch die Akzeptanz der Daten, und damit der Projekterfolg, erheblich bestimmt wird, macht es sich durchaus bezahlt bereits am Beginn des Projekts Metriken und Toleranzen als Akzeptanzkriterien für die Projektabnahme zu definieren.

Schreibe einen Kommentar