Standards
Es werden nur die Standards präsentiert, welche als erster Vorschlag für die Universität Regensburg ausgewählt wurden.
Metadatenstandards
Beschreibung von Metadaten, also Daten über Daten
- METS/MODS (Quelle):
- Qualität der Metadaten
- Metadata Encoding and Transmission Standard (METS)
- Metadata Object Description Schema (MODS)
- DataCite (Quelle):
- Metadatenschema, für die Ausstattung von Datensätzen mit Metadaten
- LIDO (Quelle):
- Bereitstellung von Metadaten
- CodeMeta (Quelle):
- Austausch von Software-Metadaten zw. Repositories & Organisationen
- CitationCFF (Quelle):
- Speicherung von Metadaten über Softwarezitationen
- CIDOC CRM (Quelle):
- RDF-Schema zur Kodierung von Metadaten
- Dublin Core (Quelle):
- Vokabular von fünfzehn Eigenschaften für die Beschreibung von Ressourcen
- Darwin Core (Quelle):
- Glossar mit Begriffen für den Austausch von Informationen über die biologische Vielfalt
- Pangaea (Quelle):
- Umfassende Metadatenbeschreibung
- Bioschemas.org (Quelle):
- Strukturierung & Beschreibung biologischer Daten
- Schema.org (Quelle):
- Definition eines Vokabulars für die Bereitstellung von Metadaten zu Datensätzen
- WikiData (Quelle):
- WikiCite: Zum Import & der Erfassung von Metadaten aus verschiedenen Quellen, z.B. Wikisource
Klassifikationsstandards
Beziehen sich auf Systeme oder Strukturen zur Klassifizierung von Informationen von Daten
- ICD-10 (Quelle):
- Klassifikation von Krankheiten & verwandter Gesundheitsprobleme
Datenformat- und Strukturstandards
Beziehen sich auf Struktur und Format von Forschungsdaten
- METS/MODS (Quelle):
- DFG-Viewer Strukturdatenset: XML-Format, zur Beschreibung hierarchischer Strukturen digitaler Dokumente
- FIT Protocol Format (Quelle):
- Speicherung & Austausch von Daten, die von Sport-, Fitness- &
Gesundheitsgeräten stammen
- Speicherung & Austausch von Daten, die von Sport-, Fitness- &
- ROOT (Quelle):
- Datenstruktur, für den schnellen Zugriff auf große Datenmengen
- FHIR (Quelle):
- u.a. Definition der Struktur des Kerninformationsbestandes
- CDISC (Quelle):
- Definition spezifischer Formate & Strukturen klinischer Studiendaten
- SDTM (Quelle):
- Organisation & Formatierung von Daten
Interoperabilitätsstandards
Ermöglichen Interoperabilität zwischen verschiedenen Datenquellen und Systemen
- OAI-PMH (Quelle):
- Mechanismus für die Interoperabilität von Repositorien
- Pangaea (Quelle):
- Interoperabilität von Daten & Metadaten
- FHIR (Quelle):
- Fokus: menschenlesbare Information als Basis der Interoperabilität
- WikiData (Quelle):
- Identifier & Statements sorgen für Interoperabilität
Identifikationsstandards
Eindeutige Definition verschiedener Arten von Ressourcen
- DataCite (Quelle):
- Genaue und konsistente Identifizierung einer Ressource zu Zitier- und Abrufzwecken
Standards für die Bereitstellung und den Zugang zu Forschungsdaten
Beziehen sich auf den Zugang zu Forschungsdaten und den Austausch zwischen Forschern
- Zenodo (Quelle):
- Gemeinsame Nutzung, Archivierung & Veröffentlichung von Daten & Software
Methoden
Es werden alle in der Interviewstudie genannten Methoden päsentiert und keine Einschränkungen vorgenommen.
Datenerhebungmethoden
Für die Sammlung von Forschungsdaten
- Vorgehensweisen & Prozesse anpassen
- Dynamik im Setting der Datengenerierung & -bearbeitung
- Wiederverwendung von bestehenden Lösungen, z.B. Datenbanken
- Interoperabel denken
- Ordentliche Beweise & Schlussfolgerungen, z.B. in der Mathematik
- Nutzung eigener Software für Experimente
- Triggering
- heterogene Ressourcen nutzen
Datenbereinigung und -vorbereitung
Zur Säuberung und Vorbereitung von Rohdaten
- Pseudonymisierung & Anonymisierung von sensiblen Daten
- Datenselektion
- Inhalte annotieren
Datenmanagement und -speicherung
Für die Organisation, Speicherung und Verwaltung von Forschungsdaten
- Dateiformate aktuell halten
- Dokumentation pflegen
- Datenmanagementpläne aufstellen
- Begleitende Systeme für die Langzeitarchivierung nutzen
- Containerisierung von SW
- Versionskontrolle mit GIT
- Vernünftig Zitieren
- Nutzung des Layer Model des Computing
- Data Links
- Nutzung von Dynamic Archiving
- Datenbank, in der Forschungsdaten abgelegt werden, über API veröffentlichen
- Nutzung relationaler Datenbanken
Datenanalysemethoden
Techniken der Analyse von Forschungsdaten
- Simple Statistik bis Künstliche Intelligenz
- Nutzung von Machine-Learning-Verfahren
- Nutzung von Dynamic Filtering
Sicherheit und Datenschutz
Verfahren zum Schutz der Vertraulichkeit, Integrität und Verfügbarkeit von Forschungsdaten
- Zugriffsbeschränkungen
- Einwilligungserklärungen
- Bereitstellung als Open Data
Reproduzierbarkeit und Wiederholbarkeit
Stellen sicher, dass Forschungsdaten und -analyse reproduzierbar und wiederholbar sind
- Zugänglichmachung von Experimentdaten, z.B. persistente URL
- Technisches Peer Review nutzen
- Technologie-agnostisch arbeiten
- Forschung transparenter machen
Metadatenmanagement
Für die Erstellung, Verwaltung und den Austausch von Metadaten
- Sicherung von Daten & entsprechender Metadaten für Langzeitarchivierung
- Kontrollvokabular verwenden
- Nutzung des LinkML-Frameworks
Ontologien
Es werden nur die Ontologien päsentiert, welche als erster Vorschlag für die Universität Regensburg ausgewählt wurden.
Geistes- & Sozialwissenschaften
- CIDOC Conceptual Reference Model (CIDOC CRM) (Quelle):
- Basisontologie für Daten des kulturellen Erbes mit Erweiterungen für bibliographische Dokumentation oder Geoinformatik
- Integration von Daten aus verschiedenen Quellen auf eine software- und schemaunabhängige Weise
- European Language Social Science Thesaurus (ELSST) (Quelle):
- (Ist ein Thesaurus, wurde jedoch bei den Ontologien genannt)
- In 16 Sprachen verfügbarer europäischsprachiger Thesaurus der Sozialwissenschaften
-
Deckt folgende Disziplinen ab: Politik, Soziologie, Wirtschaft, Bildung, Recht, Kriminalität, Demografie, Gesundheit, Beschäftigung, Informations- & Kommunikationstechnologie & Umweltwissenschaft
-
Functional Requirements for Bibliographic Records in OWL2 DL Ontology (FRBR in OWL2 DL Ontology) (Quelle):
-
Funktionale Anforderungen für bibliografische Datensätze
-
- WikiProject Ontology (Quelle):
- Beschäftigt sich mit der Natur des Seins, des Werdens, der Existenz und der Realität
- Anwendung dieser Erkenntnisse bei der Pflege von Wikidata
- Unterstützung einer breiten semantischen Interoperabilität zwischen bekannten Ontologien
Ingenieurwissenschaften
- ACM (Quelle):
- Polyhierarchische Ontologie für die Verwendung in semantischen Webanwendungen
-
Semantisches Vokabular als einzige Quelle von Kategorien & Konzepten, die den Stand der Technik in der Informatik widerspiegeln
Lebenswissenschaften
- Human Phenotype Ontology (HPO) (Quelle):
- Bietet ein standardisiertes Vokabular für phänotypische Anomalien, die bei menschlichen Krankheiten auftreten
- Animal Trait Ontology (ATO) (Quelle):
- Standardisierte Merkmalsontologie für Nutztiere
- Systematized Nomenclature of Medicine-Clinical Terms (SNOMED CT) (Quelle):
- Medizinische Terminologie, zur Standardisierung von Speicherung, Abruf & Austausch von elektronischen Gesundheitsdaten
Naturwissenschaften
- Algorithm Knowledge Graph Ontology (AlgoData) (Quelle):
- Definiert, welche Arten von Objekten im Algorithmus-Wissensgraphen zulässig sind & mit welchen Eigenschaften sie in Beziehung stehen können
- Definition von fünf Klassen, „Problem“, „Algorithmus“, „Benchmark“, „Software“, „Publikation“, sowie eine minimale, aber intuitiv verständliche Anzahl von Eigenschaften
- Verlässt sich auf die strikte Einhaltung der Ontologie, um eine zuverlässige, maschinenlesbare Datenbank für (numerisches) Algorithmenwissen bereitzustellen
- Chemical Methods Ontology (CHMO) (Quelle):
- Beschreibt Methoden, die zur Datenerfassung in chemischen Experimenten verwendet werden
- Beschreibt auch die bei diesen Experimenten verwendeten Instrumente
- Mondo Disease Ontology (Mondo) (Quelle):
- Zielt darauf ab, Krankheitsdefinitionen weltweit zu harmonisieren
Herausforderungen
Es wurden etliche Herausforderungen genannt. Hier eine Zusammenfassung der Relevantesten:
Kulturelle Transformation und Akzeptanz
Herausforderungen:
- Fehlende gemeinsame Einschätzung der Vorteile gemeinsamer Standards und des gemeinsamen Vorgehens
- Standards müssten besser angenommen werden
- Ein Umdenken müsste stattfinden
- Widerstände gegen die FAIR-Principles
Bewältigungsideen:
- Vorteile von Forschungsdatenmanagement darlegen, um Wissen zu gewinnen
- Workshops über Requirements für FAIRes Datenmanagement
- Mehr Wertschätzung für das Engagement der Forschenden, die Forschungsdatenmanagement betreiben und dadurch mehr Bereitschaft erzeugen, Zeit in gutes Forschungsdatenmanagement zu stecken
Technische Herausforderungen
Herausforderungen:
- Umgebungsabhängigkeiten und Versionsabhängigkeiten bei bereitgestellter Software
- Architekturabhängige Container beeinflussen Performance negativ
- Fehlende Datenqualität
- Große Anzahl heterogener Dateitypen
- Bestehende Datensilos
- Schwer verständlicher Quellcode
Bewältigungsideen:
- Bestehende Datensilos mit Hilfe von Schnittstellen und Verfahren zum Mappen zusammenführen
- Quellcode verständlich machen, um ihn in weitere Projekte übernehmen, integrieren, erweitern und verändern zu können
- Bereits in Nicht-Informatik-Ausbildungen Softwareengineering integrieren
- Möglicherweise Erstellung von Code durch künstliche Intelligenz
Organisatorische Herausforderungen
Herausforderungen:
- Spärliche Mittel richtig einsetzen
- Abwägen zwischen flacher Erschließung mehrerer Datensätze oder einer vollumfänglichen Datendokumentation
- Evaluation existierender Werkzeuge und deren spezifischer Einsatz in spezifischen Umgebungen
- Zersplitterte Disziplinen
- Nationale Standards führen bei internationer Zusammenarbeit zu Problemen, wenn diese Standards in den anderen Ländern nicht existieren
Bewältigungsideen:
- Mehrarbeit honorieren
- Standards über einen Aushandlungsprozess festlegen und auf ein höheres Abstraktionsniveau bringen
- Miteinbeziehen von europäischen bzw. internationalen Perspektiven, um international zu funktionieren
Rechtliche Herausforderungen
Herausforderungen:
- Gesetzgebung macht es schwierig, auf Gesundheitsdaten anderer Standorte zuzugreifen, da zu großes Missbrauchspotential
- Gesetzliche Hürden wie Genehmigungen verzögern Prozess des Zugriffs auf sensible Daten
- Datenschutz
Bewältigungsideen:
- Aktuelle Disskusion, ob automatischer Zugriff auf Daten ohne explizite Einwilligung des Patienten ermöglicht werden soll
- Stärkere Festlegung von Richtlinien