Data Engineering – 80% der Arbeit liegen hier

Daten sind der wichtigste Ausgangspunkt. Sollen KI-Methoden bei einer bestimmten Fragestellung eingesetzt werden, muss zunächst geklärt werden, für welche Daten diese Auswertung erfolgen soll, ob und in welcher Form Daten vorliegen oder woher man die Daten bezieht. Häufig wird man feststellen, dass die Daten noch nicht in einer Form vorliegen, wie man sie für den Einsatz von KI-Methoden benötigt.

Daten müssen für KI-Methoden aufbereitet werden. Oft sind Daten über mehrere Quellen verteilt. Darüber hinaus hat man es vielfach mit verschiedenen Datenformaten, Strukturen oder Systemen zu tun. Ein weiteres Problemkann eine nicht ausreichende Qualität der Daten sein, zum Beispiel fehlende oder fehlerhafte Werte in den Datensätzen.

Aus „raw data“ wird „clean data“. Es gibt verschiedene Verfahren, um Daten für den Einsatz von Analyseverfahren aufzubereiten, beispielsweise durch Transformation von Datentypen oder Strukturtransformationen, Vorhersagen von fehlenden Werten usw. Das Problem hierbei ist jedoch, dass diese Aufbereitungsmaßnahmen bei jeder neuen Anwendung manuell und immer wieder neu durchgeführt werden. In ihrer Forschung verfolgt Frau Professor Klettke das Ziel, genau diesen Vorgang effizienter zu gestalten. Das kann durch eine Nacheinanderausführung verschiedener Algorithmen erfolgen, die eine Pipeline für die Datenvorbereitung darstellen. Denn tatsächlich beinhaltet der Weg bis zu „sauberen“ Daten sehr viel mehr Aufwand als der eigentliche Einsatz von KI-Methoden.

Kompetenzen im Bereich der künstlichen Intelligenz und Data Science

  • Data Engineering for Data Science
  • Datenaufbereitung, Datenintegration, Datenkonsistenzprüfung, Vervollständigung, Datentransformation
  • Verwendung von semistrukturierten Daten
  • NoSQL-Datenbanken mit Fokus auf sich über die Zeit verändernde Daten (Evolution)

Prof. Dr.-Ing. Meike Klettke

Institut für Informatik, Universität Rostock

Ausgewählte Projekte

Darwin – NoSQL Schema Evolution and Big Data Migration at Scale

Auch Datenbestände unterliegen einer Evolution. Frau Klettke hat sich in ihrer Forschung insbesondere auf NoSQL-Datenbanken spezialisiert. NoSQL-Datenbanken erfreuen sich großer Beliebtheit, weil für sie keine starre Struktur vorgegeben werden muss, was ihren Einsatz sehr flexibel macht. Diese Flexibilität wird jedoch durch die Anwendungen, in die die Datenbank eingebunden ist, eingeschränkt, denn eine Anwendung erwartet i.d.R. eine bestimmte Struktur der Daten. In diesem Forschungsprojekt widmen Frau Klettke und ihre Mitstreiter sich NoSQL-Datenbanken und den Veränderungen von Daten über die Zeit. Änderungsoperationen, die auf der Datenbank ausgeführt wurden, führen sehr wahrscheinlich zu einer neuen Struktur der Daten. Die Anforderungen einer Anwendung an die Daten müssen allerdings auch im Zeitverlauf weiterhin erfüllt sein, so dass die Datenbank zur Anwendung kompatibel gehalten werden muss.