Zu Hauptinhalt springen

Aufarbeitung von Standards und Methoden im Forschungsdatenmanagement

In allen Bereichen der Forschung werden große Mengen an Daten produziert, welche verarbeitet werden müssen. Es haben sich schon einige Standards und Methoden etabliert, um diese Daten zu strukturieren, zu organisieren und somit auch für andere nutzbar zu machen. Es existieren bereits einige Initiativen, darunter NFDI, welche sich mit dem Bereich Forschungsdatenmanagement auseinandersetzen.

Ziel der Bachelorarbeit war die Analyse bestehender Forschungsdatenmanagement-Projekte und das Herausfiltern von Standards und Verfahren. Hierdurch sollten Kriterien zur Klassifikation dieser Standards und Verfahren entwickelt und auf den Bereich der Informatik angewendet werden. Zu diesem Zweck wurden die bereits existierenden NFDI-Konsortien näher betrachtet.


NFDI

Bund und alle Bundesländer haben gemeinsam am 12.10.2020 den Verein Nationale Forschungsdateninfrastruktur (NFDI) e.V. gegründet. Ziel ist es, die unterschiedlichen Wissenschaftsdisziplinen und Forschungsdatenmanagementinitiativen innerhalb Deutschlands zu strukturieren und übergreifend zu vernetzen. Hierzu soll in den Forschungsprozessen künftig das Forschungsdatenmanagement nahtlos eingebunden werden. Um dies zu erreichen, müssen bestehende Strukturen und vorhandene Forschungsdaten koordiniert werden und eine Standardisierung des Datenmanagements eingeführt werden (Quelle).


Ergebnisse der Interviewstudie

Zweck

Ziel der Interviewstudie war es, aus der Expertenperspektive die für den jeweiligen Bereich entwickelten Standards und Methoden kennen zu lernen. Aus den gewonnenen Informationen sollen Vorschläge und Best Practices für ein Forschungsdatenmanagementsystem für die Universität Regensburg entwickelt werden.

Durchführung

Um ein möglichst breites Spektrum an Meinungen zu bekommen, wurden 17 Personen aus zwölf Konsortien und eine Person des UR Data Hubs interviewt. Die Interviewteilnehmer stammen aus den Konsortien KonsortSWD, NFDI4Culture, NFDI4Memory, NFDI4DS, NFDI4Ing, NFDIxCS, GHGA, NFDI4Biodiversity, NFDI4Health, Mardi4NFDI, NFDI4Chem und PUNCH4NFDI.


Standards

Es werden nur die Standards präsentiert, welche als erster Vorschlag für die Universität Regensburg ausgewählt wurden.

Metadatenstandards

Beschreibung von Metadaten, also Daten über Daten

  • METS/MODS (Quelle):
    • Qualität der Metadaten
    • Metadata Encoding and Transmission Standard (METS)
    • Metadata Object Description Schema (MODS)
  • DataCite (Quelle):
    • Metadatenschema, für die Ausstattung von Datensätzen mit Metadaten 
  • LIDO (Quelle)
    • Bereitstellung von Metadaten
  • CodeMeta (Quelle):
    • Austausch von Software-Metadaten zw. Repositories & Organisationen   
  • CitationCFF (Quelle):
    • Speicherung von Metadaten über Softwarezitationen
  • CIDOC CRM (Quelle):
    • RDF-Schema zur Kodierung von Metadaten 
  • Dublin Core (Quelle)
    • Vokabular von fünfzehn Eigenschaften für die Beschreibung von Ressourcen
  • Darwin Core (Quelle):
    • Glossar mit Begriffen für den Austausch von Informationen über die biologische Vielfalt 
  • Pangaea (Quelle):
    • Umfassende Metadatenbeschreibung 
  • Bioschemas.org (Quelle):
    • Strukturierung & Beschreibung biologischer Daten 
  • Schema.org (Quelle):
    • Definition eines Vokabulars für die Bereitstellung von Metadaten zu Datensätzen
  • WikiData (Quelle):
    • WikiCite: Zum Import & der Erfassung von Metadaten aus verschiedenen Quellen, z.B. Wikisource

Klassifikationsstandards

Beziehen sich auf Systeme oder Strukturen zur Klassifizierung von Informationen von Daten

  • ICD-10 (Quelle):
    • Klassifikation von Krankheiten & verwandter Gesundheitsprobleme  

Datenformat- und Strukturstandards

Beziehen sich auf Struktur und Format von Forschungsdaten

  • METS/MODS (Quelle):
    • DFG-Viewer Strukturdatenset: XML-Format, zur Beschreibung hierarchischer Strukturen digitaler Dokumente
  • FIT Protocol Format (Quelle):
    • Speicherung & Austausch von Daten, die von Sport-, Fitness- &
      Gesundheitsgeräten stammen 
  • ROOT (Quelle):
    • Datenstruktur, für den schnellen Zugriff auf große Datenmengen
  • FHIR (Quelle):
    • u.a. Definition der Struktur des Kerninformationsbestandes
  • CDISC (Quelle):
    • Definition spezifischer Formate & Strukturen klinischer Studiendaten 
  • SDTM (Quelle):
    • Organisation & Formatierung von Daten 

Interoperabilitätsstandards

Ermöglichen Interoperabilität zwischen verschiedenen Datenquellen und Systemen

  • OAI-PMH (Quelle):
    • Mechanismus für die Interoperabilität von Repositorien  
  • Pangaea (Quelle​​​​​​​):
    • Interoperabilität von Daten & Metadaten 
  • FHIR (Quelle​​​​​​​):
    • Fokus: menschenlesbare Information als Basis der Interoperabilität  
  • WikiData (Quelle​​​​​​​):
    • Identifier & Statements sorgen für Interoperabilität 

Identifikationsstandards

Eindeutige Definition verschiedener Arten von Ressourcen

  • DataCite (Quelle​​​​​​​):
    • Genaue und konsistente Identifizierung einer Ressource zu Zitier- und Abrufzwecken  

Standards für die Bereitstellung und den Zugang zu Forschungsdaten 

Beziehen sich auf den Zugang zu Forschungsdaten und den Austausch zwischen Forschern

  • Zenodo (Quelle​​​​​​​​​​​​​​)​​​​​​​
    • Gemeinsame Nutzung, Archivierung & Veröffentlichung von Daten & Software

Methoden

Es werden alle in der Interviewstudie genannten Methoden päsentiert und keine Einschränkungen vorgenommen.

Datenerhebungmethoden

Für die Sammlung von Forschungsdaten

  • Vorgehensweisen & Prozesse anpassen
  • Dynamik im Setting der Datengenerierung & -bearbeitung
  • Wiederverwendung von bestehenden Lösungen, z.B. Datenbanken
  • Interoperabel denken
  • Ordentliche Beweise & Schlussfolgerungen, z.B. in der Mathematik
  • Nutzung eigener Software für Experimente
  • Triggering
  • heterogene Ressourcen nutzen

Datenbereinigung und -vorbereitung

Zur Säuberung und Vorbereitung von Rohdaten

  • Pseudonymisierung & Anonymisierung von sensiblen Daten
  • Datenselektion
  • Inhalte annotieren

Datenmanagement und -speicherung

Für die Organisation, Speicherung und Verwaltung von Forschungsdaten

  • Dateiformate aktuell halten
  • Dokumentation pflegen
  • Datenmanagementpläne aufstellen
  • Begleitende Systeme für die Langzeitarchivierung nutzen
  • Containerisierung von SW
  • Versionskontrolle mit GIT
  • Vernünftig Zitieren
  • Nutzung des Layer Model des Computing
  • Data Links
  • Nutzung von Dynamic Archiving
  • Datenbank, in der Forschungsdaten abgelegt werden, über API veröffentlichen
  • Nutzung relationaler Datenbanken

Datenanalysemethoden

Techniken der Analyse von Forschungsdaten

  • Simple Statistik bis Künstliche Intelligenz
  • Nutzung von Machine-Learning-Verfahren
  • Nutzung von Dynamic Filtering

Sicherheit und Datenschutz

Verfahren zum Schutz der Vertraulichkeit, Integrität und Verfügbarkeit von Forschungsdaten

  • Zugriffsbeschränkungen
  • Einwilligungserklärungen
  • Bereitstellung als Open Data

Reproduzierbarkeit und Wiederholbarkeit

Stellen sicher, dass Forschungsdaten und -analyse reproduzierbar und wiederholbar sind

  • Zugänglichmachung von Experimentdaten, z.B. persistente URL
  • Technisches Peer Review nutzen
  • Technologie-agnostisch arbeiten
  • Forschung transparenter machen

Metadatenmanagement

Für die Erstellung, Verwaltung und den Austausch von Metadaten

  • Sicherung von Daten & entsprechender Metadaten für Langzeitarchivierung
  • Kontrollvokabular verwenden
  • Nutzung des LinkML-Frameworks

Ontologien

Es werden nur die Ontologien päsentiert, welche als erster Vorschlag für die Universität Regensburg ausgewählt wurden.

Geistes- & Sozialwissenschaften

  • CIDOC Conceptual Reference Model (CIDOC CRM) (Quelle):
    • Basisontologie für Daten des kulturellen Erbes mit Erweiterungen für bibliographische Dokumentation oder Geoinformatik
    • Integration von Daten aus verschiedenen Quellen auf eine software- und schemaunabhängige Weise
  • European Language Social Science Thesaurus (ELSST) (Quelle):
    • (Ist ein Thesaurus, wurde jedoch bei den Ontologien genannt)
    • In 16 Sprachen verfügbarer europäischsprachiger Thesaurus der Sozialwissenschaften
    • Deckt folgende Disziplinen ab: Politik, Soziologie, Wirtschaft, Bildung, Recht, Kriminalität, Demografie, Gesundheit, Beschäftigung, Informations- & Kommunikationstechnologie & Umweltwissenschaft 

  • Functional Requirements for Bibliographic Records in OWL2 DL Ontology (FRBR in OWL2 DL Ontology) (Quelle):

    • Funktionale Anforderungen für bibliografische Datensätze

  • WikiProject Ontology (Quelle):
    • Beschäftigt sich mit der Natur des Seins, des Werdens, der Existenz und der Realität
    • Anwendung dieser Erkenntnisse bei der Pflege von Wikidata
    • Unterstützung einer breiten semantischen Interoperabilität zwischen bekannten Ontologien

Ingenieurwissenschaften

  • ACM (Quelle):
    • Polyhierarchische Ontologie für die Verwendung in semantischen Webanwendungen 
    • Semantisches Vokabular als einzige Quelle von Kategorien & Konzepten, die den Stand der Technik in der Informatik widerspiegeln

Lebenswissenschaften

  • Human Phenotype Ontology (HPO) (Quelle):
    • Bietet ein standardisiertes Vokabular für phänotypische Anomalien, die bei menschlichen Krankheiten auftreten
  • Animal Trait Ontology (ATO) (Quelle):
    • Standardisierte Merkmalsontologie für Nutztiere
  • Systematized Nomenclature of Medicine-Clinical Terms (SNOMED CT) (Quelle):
    • Medizinische Terminologie, zur Standardisierung von Speicherung, Abruf & Austausch von elektronischen Gesundheitsdaten

Naturwissenschaften

  • Algorithm Knowledge Graph Ontology (AlgoData) (Quelle):
    • Definiert, welche Arten von Objekten im Algorithmus-Wissensgraphen zulässig sind & mit welchen Eigenschaften sie in Beziehung stehen können
    • Definition von fünf Klassen, „Problem“, „Algorithmus“, „Benchmark“, „Software“, „Publikation“, sowie eine minimale, aber intuitiv verständliche Anzahl von Eigenschaften
    • Verlässt sich auf die strikte Einhaltung der Ontologie, um eine zuverlässige, maschinenlesbare Datenbank für (numerisches) Algorithmenwissen bereitzustellen
  • Chemical Methods Ontology (CHMO) (Quelle):
    • Beschreibt Methoden, die zur Datenerfassung in chemischen Experimenten verwendet werden
    • Beschreibt auch die bei diesen Experimenten verwendeten Instrumente 
  • Mondo Disease Ontology (Mondo) (Quelle):
    • Zielt darauf ab, Krankheitsdefinitionen weltweit zu harmonisieren

Herausforderungen

Es wurden etliche Herausforderungen genannt. Hier eine Zusammenfassung der Relevantesten:

Kulturelle Transformation und Akzeptanz

Herausforderungen:

  • Fehlende gemeinsame Einschätzung der Vorteile gemeinsamer Standards und des gemeinsamen Vorgehens
  • Standards müssten besser angenommen werden
  • Ein Umdenken müsste stattfinden
  • Widerstände gegen die FAIR-Principles

Bewältigungsideen:

  • Vorteile von Forschungsdatenmanagement darlegen, um Wissen zu gewinnen
  • Workshops über Requirements für FAIRes Datenmanagement
  • Mehr Wertschätzung für das Engagement der Forschenden, die Forschungsdatenmanagement betreiben und dadurch mehr Bereitschaft erzeugen, Zeit in gutes Forschungsdatenmanagement zu stecken

Technische Herausforderungen

Herausforderungen:

  • Umgebungsabhängigkeiten und Versionsabhängigkeiten bei bereitgestellter Software 
  • Architekturabhängige Container beeinflussen Performance negativ
  • Fehlende Datenqualität
  • Große Anzahl heterogener Dateitypen
  • Bestehende Datensilos
  • Schwer verständlicher Quellcode

Bewältigungsideen:

  • Bestehende Datensilos mit Hilfe von Schnittstellen und Verfahren zum Mappen zusammenführen
  • Quellcode verständlich machen, um ihn in weitere Projekte übernehmen, integrieren, erweitern und verändern zu können
  • Bereits in Nicht-Informatik-Ausbildungen Softwareengineering integrieren
  • Möglicherweise Erstellung von Code durch künstliche Intelligenz

Organisatorische Herausforderungen

Herausforderungen: 

  • Spärliche Mittel richtig einsetzen
  • Abwägen zwischen flacher Erschließung mehrerer Datensätze oder einer vollumfänglichen Datendokumentation
  • Evaluation existierender Werkzeuge und deren spezifischer Einsatz in spezifischen Umgebungen
  • Zersplitterte Disziplinen
  • Nationale Standards führen bei internationer Zusammenarbeit zu Problemen, wenn diese Standards in den anderen Ländern nicht existieren

Bewältigungsideen:

  • Mehrarbeit honorieren
  • Standards über einen Aushandlungsprozess festlegen und auf ein höheres Abstraktionsniveau bringen
  • Miteinbeziehen von europäischen bzw. internationalen Perspektiven, um international zu funktionieren

Rechtliche Herausforderungen

Herausforderungen:

  • Gesetzgebung macht es schwierig, auf Gesundheitsdaten anderer Standorte zuzugreifen, da zu großes Missbrauchspotential
  • Gesetzliche Hürden wie Genehmigungen verzögern Prozess des Zugriffs auf sensible Daten
  • Datenschutz

Bewältigungsideen:

  • Aktuelle Disskusion, ob automatischer Zugriff auf Daten ohne explizite Einwilligung des Patienten ermöglicht werden soll
  • Stärkere Festlegung von Richtlinien


Begriffe & Definitionen

Nachfolgend eine Zusammenfassung der für die Arbeit wichtigsten Begriffe. Die vollständigen Definitionen können nachgelesen werden auf Quelle:


Forschungsdaten

Alle Daten, auch digitale, die während wissenschaftlicher Tätigkeit entstehen, werden als Forschungsdaten bezeichnet. Wissenschaftliche Tätigkeiten umfassen unter anderem Messungen, Befragungen und Quellenarbeit. Diese Daten bilden die Basis für wissenschaftliche Arbeiten und dokumentieren die erzielten Ergebnisse. Das Verständnis von Forschungsdaten ist immer disziplin- und projektspezifisch. Daraus resultieren diverse Anforderungen an die Datenaufbereitung, -verarbeitung und -verwaltung. All diese Themen sind Teil des Forschungsdatenmanagements.


Metadaten

Metadaten enthalten Informationen über andere Daten bzw. Ressourcen und deren Merkmale. Sie werden entweder unabhängig oder zusammen mit den Daten, die sie näher beschreiben, gespeichert. Da eine Unterscheidung zwischen Daten und Metadaten auf Grund ihres Einsatzes in unterschiedlichen Kontexten schwer fällt, ist eine genaue Definition des Begriffs Metadaten schwierig.


Forschungsdatenmanagement

Das Forschungsdatenmanagement ist der Prozess der Transformation, Selektion und Speicherung von Forschungsdaten. Ziel ist es, einen langfristigen und vom Datenerzeuger unabhängigen Zugang zu schaffen und eine Nachnutzung sowie Überprüfbarkeit dieser Daten zu ermöglichen. Um die Erhaltung der wissenschaftlichen Aussagekraft von Forschungsdaten und die Erreichung der Ziele zu gewährleisten, sollten strukturierte Maßnahmen im Datenlebenszyklus ergriffen werden.


Datenlebenszyklus

Der Datenlebenszyklus ist ein Modell, das alle Stationen veranschaulicht, die von den Daten durchlaufen werden. Der Datenlebenszyklus startet mit der Erhebung der Daten und erstreckt sich bis zur Nachnutzung der Daten. Die Phasen können variieren, jedoch umfassen sie im Allgemeinen die folgenden Schritte:

  1. Planung des Forschungsvorhabens

  2. Datenerhebung

  3. Datenaufbereitung und -analyse,

  4. Daten teilen und publizieren,

  5. Datenarchivierung und

  6. Nachnutzung der Daten.

In der ersten Phase spielt zudem die Erstellung des Datenmanagementplans eine wichtige Rolle.


Definition Forschungsdatenmanagement basierend auf Ergebnissen der Interviewstudie

Quelle: Natalie Franz: Aufarbeitung von Standards und Methoden im Forschungsdatenmanagement, Bachelorarbeit, Universität Regensburg, 2024


Forschungsdatenmangement an der Universität Regensburg

Die Universität Regensburg engagiert sich zum Thema Forschungsdatenmanagement in folgenden Bereichen:


Weitere Leitlinien, denen sich die Universität Regensburg verpflichtet fühlt:


Initiativen

National

Es wurden nicht nur in Deutschland nationale Organisationen gegründet, die sich mit dem Thema Forschungsdatenmanagement auseinandersetzen. Weitere Beispiele für nationale Organisationen sind:

International

Beispiele für international agierende Initiativen:


Forschungsdatenmanagementinitiativen basierend auf Ergebnissen der Interviewstudie

Quelle: Natalie Franz: Aufarbeitung von Standards und Methoden im Forschungsdatenmanagement, Bachelorarbeit, Universität Regensburg, 2024



  1. Fakultät für Informatik und Data Science

Bachelorarbeit

Natalie Franz


E-Mail: natalie-sarah.franz@stud.uni-regensburg.de