Glossar


C

Codebook / Data Dictionary

Ist ein wichtiges Dokumente, das den Datennutzer*innen über die Studie, die Datendatei(en),die Variablen, Kategorien usw. informiert, aus denen sich ein vollständiger Datensatz zusammensetzt. Es umreißt die Struktur, den Inhalt und die Variablendefinitionen eines Datensatzes oder einer Datensammlung. Das Data Dictionary oder das Codebuch kann das Datensatzlayout, eine Liste der Variablennamen und -bezeichnungen, Konzepte, Kategorien, Fälle, Codes für fehlende Werte, Häufigkeitszahlen, Anmerkungen, Aussagen zur Grundgesamtheit usw. enthalten. Damit ist es ein wichtiges Instrument für die Reproduzierbarkeit, da es anderen ermöglicht, Ihre Daten zu verstehen [1], [2]. Die Begriffe Codebook und Data Dictionary werden häufig synonym verwendet.

→ Eine Vorlage für ein ausführliches Data Dictionary für Feldexperimente ist die von ICASA entwickelte Vorlage für einen Data Dictionary.

D

Datendokumentation

Bezeichnet die strukturierte und detaillierte Beschreibung von Forschungsdaten, einschließlich ihrer Entstehung, Struktur, Inhalte und des Kontexts. Sie umfasst Informationen wie Erhebungsmethoden, Zeitpunkte, verwendete Werkzeuge und die zugrunde liegenden Forschungsfragen. Eine sorgfältige Dokumentation ist entscheidend, um die Nachvollziehbarkeit, Wiederverwendbarkeit und langfristige Archivierung von Daten sicherzustellen. Sie bildet die Grundlage für die Einhaltung der FAIR-Prinzipien (Findable, Accessible, Interoperable, Reusable) und trägt zur Qualitätssicherung sowie zur Förderung offener Wissenschaft bei [3], [4].

Datenlebenszyklus

Das Modell des Datenlebenszyklus umfasst alle Phasen, die Forschungsdaten von der Planung bis zur Nachnutzung durchlaufen können. Die Struktur des Datenlebenszyklus variiert von Modell zu Modell, im Allgemeinen umfasst er folgende Phasen:

Datenmanagementplan (DMP)

Ein Datenmanagementplan (DMP) beschreibt den Umgang mit Forschungsdaten, die in einem Projekt produziert oder genutzt werden, während der Projektlaufzeit und darüber hinaus. Der DMP enthält Regelungen, die innerhalb des Projektteams vereinbart und angewendet werden. Er hilft, das Datenmanagement systematisch zu planen und transparent umzusetzen.

Der Datenmanagementplan dokumentiert die (geplante) Erhebung, Speicherung, Dokumentation, Pflege, Verarbeitung, Weitergabe, Veröffentlichung und Aufbewahrung der Daten, ebenso wie die erforderlichen Ressourcen, rechtlichen Randbedingungen und verantwortlichen Personen. Somit trägt ein DMP zur Qualität, langfristigen Nutzbarkeit und Sicherheit der Daten bei und unterstützt zum Beispiel bei der Umsetzung der FAIR-Prinzipien.

Ein DMP ist ein lebendes Dokument, das heißt, dass er während des Projektes regelmäßig aktualisiert wird. Einige Fördergeber verlangen auf Grundlage ihrer Richtlinien die Einreichung eines DMP mit dem Projektantrag, meistens ist eine erste Version jedoch erst zu oder kurz nach Projektbeginn erforderlich [5].

Digitale Feldbücher

Ein digitales Feldbuch ist ein elektronisches System oder eine Softwarelösung zur Erfassung, Verwaltung und Analyse von Felddaten. Es ersetzt klassische handschriftliche Feldbücher. Die Bandbreite an verschiedenen digitalen Lösungen variiert dabei von einfachen digitalen Formularen zur Erfassung von Daten im Feld bis hin zu umfangreichen Softwarelösungen, die von der Planung bis zur Datenerhebung beim Management von Feldexperimenten genutzt werden können.

E

Elektronisches Laborbuch (Electronic Lab Notebook - ELN)

Sind digitale Anwendungen, die traditionelle, papierbasierte Laborjournale ersetzen. Sie ermöglichen die strukturierte Dokumentation des gesamten Forschungsprozesses – von der Planung über die Durchführung bis zur Auswertung wissenschaftlicher Experimente. ELNs bieten Funktionen wie Such- und Filtermöglichkeiten, erleichtern die Zusammenarbeit durch orts- und zeitunabhängigen Zugriff und unterstützen die Einhaltung der Guten Wissenschaftlichen Praxis. Je nach Fachdisziplin variieren die Anforderungen an ELNs, weshalb unterschiedliche Systeme existieren. Sie sind ein zentraler Bestandteil des Forschungsdatenmanagements und fördern Transparenz sowie Nachvollziehbarkeit in der Forschung [6].

F

FAIR-Prinzipien

Das Akronym FAIR steht für findable (auffindbar), accessible (zugänglich), interoperable (interoperabel) und reusable (nachnutzbar).

Im Gegensatz zu anderen Initiativen, die sich auf den menschlichen Wissenschaftler konzentrieren, legen die FAIR-Prinzipien den Schwerpunkt auf die Verbesserung der Fähigkeit von Maschinen, die Daten automatisch zu finden und zu nutzen, sowie auf die Unterstützung ihrer Wiederverwendung durch Individuen.

Sie sollen denjenigen, die die Wiederverwendbarkeit ihrer Datenbestände verbessern wollen, als Leitfaden dienen [7].

Forschungsdatenpolicy

Ist eine allgemeingültige institutionelle Vorschrift an einer Einrichtung (an Hochschulen oder Forschungsinstituten häufig in Form einer Richtlinie), die sich an Forschende richtet und den Umgang mit Forschungsdaten während und nach einem Forschungsvorhaben mehr oder weniger verbindlich regelt. Der genaue Inhalt, die Rechtsverbindlichkeit sowie die Länge einer Policy können zwischen einzelnen Einrichtungen stark variieren [5].

M

Metadaten

Metadaten sind an sich unabhängige Daten, die strukturierte Informationen über andere Daten bzw. Ressourcen und deren Merkmale enthalten. Sie werden unabhängig von oder zusammen mit den Daten, die sie näher beschreiben, abgespeichert. Eine genaue Definition von Metadaten ist schwierig, weil der Begriff zum einen in unterschiedlichen Kontexten verwendet wird und zum anderen die Unterscheidung zwischen Daten und Metadaten je nach Blickwinkel unterschiedlich ausfällt.

Meist unterscheidet man zwischen fachlichen und technischen bzw. administrativen Metadaten. Während letztgenannte einen klaren Metadatenstatus haben, können fachliche Metadaten bisweilen auch als Forschungsdaten begriffen werden.

Um die Wirksamkeit von Metadaten zu erhöhen, ist eine Standardisierung der Beschreibung unbedingt erforderlich. Durch einen Metadatenstandard können Metadaten aus unterschiedlichen Quellen miteinander verknüpft und gemeinsam bearbeitet werden [5].

→ Weitere Informationen zu Metadaten finden Sie im Abschnitt zum Thema "What is metadata?" im Metadata Guide.

Metadatenschemata und -standards

Sind strukturierte Vorgaben zur Beschreibung von Forschungsdaten, die eine einheitliche und maschinenlesbare Dokumentation ermöglichen. Sie definieren, welche Informationen (z. B. Titel, Autor, Lizenz, Methoden) in welchem Format erfasst werden sollen, um die Interoperabilität zwischen verschiedenen Systemen zu gewährleisten. Durch die Anwendung von Metadatenschemata wird die Auffindbarkeit, Nachnutzbarkeit und langfristige Archivierung von Daten verbessert. Ein Metadatenschema organisiert die Struktur von Metadaten. Es legt fest, welche Elemente zur Beschreibung von analogen und digitalen Objekten wie Forschungsdaten verpflichtend sind, und welche Informationen in welchem Format angegeben werden sollen. Ein standardisiertes Datenschema vereinfacht die Dateneingabe und erhöht die Qualität der Metadaten. Vor allem aber ermöglichen strukturierte Metadaten die Maschinenlesbarkeit und den Austausch von Informationen zwischen verschiedenen Anwendungen und gewährleisten eine langfristige Nachnutzbarkeit. Beispiele für etablierte Standards sind Dublin Core und METS. Solche Standards sind essenziell für die Umsetzung der FAIR-Prinzipien im Forschungsdatenmanagement [5], [8].

Die Begriffe Metadatenschema und Metadatenstandard werden häufig synonym verwendet, wobei ein Metadatenstandard ein in der betreffenden Community weit verbreitetes oder von einer durch eine Normungsorganisation validiertes Metadatenschema beschreibt [7].

→ Weitere Informationen zu Metadatenschemata finden Sie im Abschnitt zum Thema “Metadata” im Metadata Guide.

N

Nachnutzung

Unter Nachnutzung von Daten versteht man die Verwendung von Daten für andere Zwecke als die, für die sie ursprünglich erhoben wurden. Die Nachnutzung von Daten ist besonders in der Wissenschaft wichtig, da sie es verschiedenen Forschern ermöglicht, unabhängig voneinander Ergebnisse zu analysieren und zu veröffentlichen, die auf denselben Daten basieren. Die Nachnutzbarkeit ist eine Schlüsselkomponente der FAIR-Prinzipien [9].

→ Warum Metadaten für die Nachnutzbarkeit eine Schlüsselrolle spielen, können Sie im Abschnitt “Using and reusing data” im Metadata Guide nachlesen.

R

README-Datei

README-Dateien enthalten in kompakter und strukturierter Form Informationen zu Forschungsdaten, Forschungsdatensätzen oder Forschungsdatenkollektionen und liegen häufig als einfache Textdatei oder in TEI-xml vor (.txt, .md, .xml). In diesem Sinn können README-Dateien begleitend zu Forschungsdaten publiziert werden oder der strukturierten Ablage von Forschungsdaten am Ende eines Projekts (z. B. auf einem Institutsserver oder einem Repositorium zur Archivierung) dienen. README-Dateien versammeln zentrale Metadaten zum Projekt, in dem die Daten entstanden sind (z.B. Projektname, beteiligte Personen, Förderung), geben Informationen zu verwendeten Benennungsstandards, Ordnerstrukturen, Abkürzungen und Normdaten und zeichnen Änderungen an und Versionierungen von Forschungsdaten auf [5].

Repositorium

Ein Repositorium kann als eine spezielle Form des Archivs betrachtet werden. Im digitalen Zeitalter wird unter dem Begriff Repositorium ein verwalteter Speicherort für digitale Objekte verstanden. Da Repositorien meistens öffentlich oder einem eingeschränkten Nutzerkreis zugänglich sind, ist dieser Begriff eng mit Open Access verknüpft [5].

S

Standard Operating Procedure (SOP)

Festgelegte oder vorgeschriebene Methoden, die routinemäßig bei der Durchführung bestimmter Vorgänge oder in bestimmten Situationen anzuwenden sind [10].

T

Terminologien (Kontrollierte Vokabular, Taxonomien, Thesauri und Ontologien)

Ein kontrolliertes Vokabular ist ein normierter Sprachgebrauch, in dem ein Wort oder eine Phrase genau eine Bedeutung hat. Das kontrollierte Vokabular wird zum Beispiel beim Vergeben von Schlagworten (Keywords) in Metadaten verwendet, um ein digitales Objekt zu beschreiben. Diese Schlagwortvergabe bezieht sich dann auf eine Sammlung von Wörtern bzw. Phrasen, die etwa in einer Normdatei für die Katalogisierung oder in einem Index für das Harvesting und Retrieval hinterlegt sind. Eine zentrale Aufgabe des kontrollierten Vokabulars ist die Verknüpfung von Synonymen, die zum gleichen Suchergebnis führen [5].

Zusätzlich existieren Taxonomien und Thesauri, die Über- und Unterbegriffe wie auch Synonyme zu Konzepten enthalten, bis hin zu Ontologien, die Eigenschaften und Relationen zwischen Konzepten modellieren [8].

→ Weitere Informationen zu kontrollierten Vokabularien finden Sie im Abschnitt “Content rules and controlled vocabularies” im Metadata Guide.

V

Validierungs-Tools

Es existiert eine Vielzahl online zugänglicher Tools, die Sie zur Validierung von Metadaten nutzen können. Die hier empfohlenen Tools sollen als Beispiele dienen. Bitte prüfen Sie vor der Nutzung die entsprechenden Nutzungsbedingungen: