Reproduzierbare Forschung in Datenmanagement und Informationsextraktion

Reproduzierbarkeit und Datenmanagement. Der Sonderforschungsbereich (SFB) 1270 ELAINE untersucht den Einsatz elektrisch aktiver Implantate zur Regeneration von Knochen und Knorpel, sowie zur Tiefen Hirnstimulation. Forscher*innen aus verschiedenen Fachgebieten sammeln dabei Daten, werten diese aus und dokumentieren ihre Ergebnisse. Im Teilprojekt zur Informationsinfrastruktur werden Techniken zur Dokumentation von Forschungsdaten und zur Reproduzierbarkeit untersucht, die Forscher*innen bei der Nachvollziehbarkeit ihrer Experimente unterstützen und damit reproduzierbar machen.

Informationsextraktion und Wissensstrukturierung. Informationen liegen oft in unstrukturierter Form, z.B. beschrieben in textueller Form, vor. Prof. Dr. Frank Krüger arbeitet zusammen mit seinen Kollegen daran, Algorithmen zur automatischen Informationsextraktion zu entwickeln, um die so gewonnenen Informationen in Wissengraphen zu strukturieren. Wissengraphen erlauben die semantisch strukturierte Repräsentation von Informationen und ermöglichen so die maschinelle Lesbarkeit und Interpretierbarkeit.

Multimodale Datenanalyse. In der Praxis existierten häufig mehrere heterogene Datenquellen, die Informationen über Systeme enthalten. Die Fusion solcher Datenquellen erlaubt dabei oft genauere Rückschlüsse auf die zugrunde liegenden Prozesse. Zusammen mit seinen Kollegen vom Lehrstuhl für Signaltheorie und digitale Signalverarbeitung, entwickelt Prof. Dr. Frank Krüger Algorithmen zur multimodalen Datenanalyse, die eine solche Kombination mehrerer Datenquellen erlauben.

Daten und Workflow Provenance. Texte wie wissenschaftliche Artikel oder Laborberichte enthalten Informationen über das methodische Vorgehen der Forscher, z.B. Werkzeuge, Software oder Arbeitsschritte. Herausforderung ist es, diese Informationen in einer semantisch interpretierbaren Form abzulegen und so die Dokumentation von Forschungsdaten mit Informationen zur Provenance anzureichern.

Kompetenzen im Bereich der künstlichen Intelligenz und Data Science

  • Informationsextraktion aus Texten
  • Wissensstrukturierung mit Wissensgraphen und Ontologien
  • Multimodale Datenanalyse (Text-, Audio- und Videodaten)
  • Nachvollziehbarkeit und Reproduzierbarkeit der Datenanalysen

Prof. Dr.-Ing. Frank Krüger

Data Science and Machine Learning, Hochschule Wismar

Ausgewählte Projekte

Infrastruktur­teil­projekt für SFB Elaine

Besonderes Ziel des Teilprojektes ist die Nachvollziehbarkeit und Reproduzierbarkeit des Forschungsvorgehens von Wissenschaftlern. Eine wichtige Information ist beispielsweise, welche Software für die Datenauswertung genutzt wurde. Im Projekt ist es bereits gelungen, diese Information aus wissenschaftlichen Artikeln zu extrahieren und anschließend in einem Wissensgraphen einzuordnen. Auf Grundlage des Wissensgraphen können dann beispielsweise Aussagen dazu getroffen werden, in welchem Zeitraum eine bestimmte Software wie oft verwendet wurde oder welche Software in welchem Forschungskontext eingesetzt wird.

Die Forschenden analysieren außerdem Laborprotokolle, um genutzte Werkzeuge, Software und Arbeitsschritte zu extrahieren. Durch die Anordnung dieser Informationen in einem Wissensgraphen wird ein Vergleich von Arbeitsabläufen ermöglicht. Darüber hinaus können fehlende Schritte und andere Fehler erkannt werden.

Analyse von Audio- und Bilddaten

Am Lehrstuhl für Signaltheorie und digitale Signalverarbeitung beschäftigen sich Prof. Dr. Frank Krüger und seine Kollegen mit der Integration und multimodalen Verarbeitung von Audio- und Bilddaten. In einem Forschungsprojekt wird versucht, aus unkontrollierten Aufnahmen, die sich auf sehr kurze, zufällig gewählte Zeitintervalle bezogen, auf den Gemütszustand eines Menschen zu schließen. Die Herausforderung besteht hier darin, die relevanten Informationen in den Aufzeichnungen zu identifizieren und mögliche Neben- oder Hintergrundgeräusche zu ignorieren.