Was sind Metadaten?

Daten im Open-Data-Portal zu veröffentlichen, ist ein wichtiger Schritt zur Umsetzung der Open-Data-Richtlinie. Wichtig zu wissen ist allerdings, dass ein vollständiger Datensatz nicht nur aus den Daten(-werten) allein besteht, sondern ebenfalls die Angaben der sogenannten Metadaten umfasst. Ohne Metadaten können die Daten eventuell nicht optimal gefunden und genutzt werden oder sind im schlimmsten Fall sogar unbrauchbar, da die Anwender*innen sie nicht in den richtigen Kontext setzen können. Doch was sind Metadaten eigentlich und warum sind sie so wichtig?

“Daten über Daten”

Metadaten be- und umschreiben die eigentlichen Daten, es sind „Daten über Daten“. Sie sind nicht nur für Open Data relevant, sondern finden sich auch in vielen anderen Bereichen. Eine Musikdatei beispielsweise, enthält nicht nur die Musik an sich, sondern auch eingebettete Informationen, wie den Interpreten, das Musikgenre oder das Erscheinungsjahr des Musikstückes. Ohne diese Angaben wäre es nicht möglich die Musik in einer entsprechenden Bibliothek oder Anwendung zu suchen oder zu sortieren. Im Falle von Verwaltungsdaten sieht das ähnlich aus. Nur durch den Datensatz ergänzende Angaben, wie dem Namen der veröffentlichenden Stelle, Kategoriezugehörigkeit und das Veröffentlichungsdatum, können die Daten von den Nutzer*innen schnell gefunden und richtig eingeordnet werden.

Metadatenqualität

So trivial es auch erst einmal klingen mag, in der Praxis zeigt sich, dass viele Datensätze keine akkuraten, anwenderfreundlichen Metadaten besitzen. Für eine Studie aus dem Jahr 2016 [1] wurden im Rahmen einer Qualitätsbewertung von Open Data deren Metadaten auf verschiedene Qualitätskriterien überprüft. Insgesamt wurden die Metadaten von über 1,1 Millionen Datensätzen auf 261 verschiedenen Open-Data-Portalen der ganzen Welt aus dem Bereich Verwaltung, aber auch aus dem privaten Sektor, analysiert. Laut den Ergebnissen konnten hierbei einige Defizite festgestellt werden. So verfügte zum Beispiel der überwiegende Anteil offener Datensätze über keine maschinenlesbare E-Mail oder URL-Adresse zu einem Ansprechpartner. Solch fehlende Informationen zur Herkunft von Daten mindern die Transparenz und nachhaltige Nutzbarkeit von Open Data ungemein.

Ein weiteres bekanntes Problem sind nicht vorhandene oder ungenaue Angaben zur zeitlichen Auflösungen und zum Aktualisierungsrhythmus. Hier wird es Nutzer*innen erschwert, zu erkennen ob sie den aktuellsten Datensatz zur Verfügung stehen haben oder mit veralteten Daten handhaben. Ein anderes Beispiel sind Defizite bei der Auffindbarkeit von Daten. Diese können sich unter anderem dann ergeben, wenn wenige oder schlechte Tags in den Metadaten festgelegt sind. Die Tags fungieren als eine Art Suchbegriff. Der Datensatz kann über seinen Titel und die festgelegten Tags durch die Suchfunktion im Open-Data-Portal gefunden werden. Dies wird besonders dann wichtig, wenn potentielle Datennutzer*innen nicht nach einem speziellen Datensatz suchen, sondern die Datenverfügbarkeit zu einem übergeordneten Thema ausloten, oder wenn ein Datensatz sehr viele verschiedene Informationen enthält. Ein Datensatz der beispielsweise das gesamte Streckennetz und die Fahrpläne des ÖPNV enthält, sollte auch durch Tags wie U-Bahn, Tram usw. auffindbar sein.

Metadatenstandards

Um die Metadaten offener Verwaltungsdaten von ganz Deutschland möglichst einheitlich zur Verfügung zu stellen, wurde vom IT-Planungsrat ein Datenstandard für Metadaten entwickelt, der sogenannte DCAT-AP.de (die deutsche Umsetzung des EU-weiten Standards DCAT-AP). Durch die Einhaltung des dort festgelegten Datenschemas kann sichergestellt werden, dass Metadaten leicht analysiert und zwischen Portalen und Anwendungen ausgetauscht werden können. Der Standard legt sowohl die notwendigen Inhalte der Metadaten fest (z.B. Angabe der Lizenz, Angabe des Veröffentlichungsdatums), als auch ein kontrolliertes Vokabular, dass verwendet werden soll, um diese Angaben zu tätigen. Wenn Sie mehr über DCAT-AP.de erfahren möchten, empfehlen wir Ihnen unsere Einführung auf der Seite der Technologiestiftung Berlin.

Metadaten im Open-Data-Portal Berlin

Bei der Veröffentlichung von Daten im Open-Data-Portal Berlin müssen die Metadaten über ein Eingabeformular eingetragen werden. Dieses orientiert sich an DCAT-AP.de und stellt sie auch für die weitere Nutzung durch das Metadaten-Portal für Deutschland govdata.de bereit. Alles worum Sie sich kümmern müssen, ist also alle geforderten Felder des Formulars möglichst akkurat auszufüllen. Die untenstehende Tabelle zeigt alle möglichen Felder zur Eintragung von Metadaten über das Datenregister des Open-Data-Portal Berlins mit den jeweiligen Erläuterungen und Beispielen.

Vorlage für das Metadaten-Formular
Die Felder zu denen auf jeden Fall Metadaten erforderlich sind, unabhängig davon um welche Art Datensatz es sich handelt, sind mit einem * markiert. Die verbleibenden Felder kommen nur bei bestimmten Datensätzen zum Einsatz. Beim Einstellen von Daten in das Open-Data-Portal mittels Imperia, tragen die einzelnen Metadaten-Felder leicht andere Bezeichnungen (z.B. heißen die Tags dort Schlüsselwörter). Der erwartete Inhalt ist aber der Gleiche.
Metadaten-Feld Erläuterung Beispiel
Titel* Kurzer, prägnanter Titel ggf. mit zeitlichem und/oder geografischem Bezug (z.B. wenn nur Daten aus einem Monat oder aus einem Bezirk enthalten sind). Gastronomien mit Liefer- oder Abholservice
Art* Angabe ob es sich um einen strukturierten Datensatz (z.B. eine CSV-Datei) oder ein Dokument (z.B. eine PDF-Datei) handelt. Datensatz
Kategorie* Zugehörigkeit zu einer Kategorie, durch ein Drop-Down-Menü auswählbar. Durch ihre Kategoriezugehörigkeit können die Daten besser im Portal gefunden werden. Wirtschaft
Beschreibung* Kurzer Fließtext, der erklärt welche Informationen im Datensatz vorhanden sind, auf welchen Ort und Zeitraum er sich bezieht und wer die Daten zur Verfügung stellt. Hier sollte auch angegeben werden, in welchem Rhythmus die Daten aktualisiert werden. Diese Beschreibung dient einem schnellen Überblick über die bereitgestellten Daten. Sie kann auch weitere Aspekte enthalten, zum Beispiel Informationen die notwendig sind, um den Datensatz zu verstehen. Standorte, Angebot, Öffnungszeiten und Kontaktinformationen der Gastronomien in Berlin, die einen Liefer- und/oder Abholdienst für ihre Speisen anbieten. Alle Daten stammen aus einer laufenden Umfrage im Auftrag von SenWEB. Die Daten werden nach Möglichkeit täglich aktualisiert.
Veröffentlichende Stelle* Name der Stelle, Behörde oder Institution die die Daten zur Verfügung stellt. Senatsverwaltung für Wirtschaft, Energie und Betriebe
Kontaktperson Name der Person, die aktuell bei der veröffentlichenden Stelle tätig ist und inhaltliche Fragen zum Datensatz beantworten kann. Max Muster
Kontakt-E-Mail* E-Mail-Adresse über die die Kontaktperson (idealerweise über ein Funktionspostfach) zu erreichen ist oder Link zu einem Kontaktformular. Auch bei Personal- oder Zuständigkeitswechsel sollten die Eintragungen zu Kontaktperson und -adresse aktuell gehalten werden. info.betriebe@senweb.berlin.de
Webadresse Falls vorhanden, Angabe einer Website auf der die Daten näher beschrieben werden oder auf der ergänzende Information, zum Beispiel zur Datenerhebung oder einem zugehörigen Projekt, vorhanden sind. https://www.berlin.de/sen/web/service/liefer-und-abholdienste/
Lizenz* Auswahl einer offenen, eindeutigen Lizenz aus einem Drop-Down-Menü. Die meisten der Datensätze im Datenportal sind mit CC-BY 3.0 lizenziert, der vom Datenportal empfohlen Lizenz. Informationen zu den verfügbaren Lizenzen finden Sie hier. Creative Commons Attribution CC BY 3.0
Text für Namensnennung Exakter Text der von Nutzer*innen angegeben werden muss, wenn sie die Daten verwenden und die gewählte Lizenz eine Namensnennung vorsieht (z.B. CC-BY 3.0). Für gewöhnlich wird der Name der veröffentlichenden Stelle genannt. Die Daten wurden von der Senatsverwaltung für Wirtschaft, Energie und Betriebe und ODIS erhoben.
Veröffentlichungsdatum* Datum der ersten Veröffentlichung der Daten Es entspricht nicht dem Veröffentlichungsdatum im Open-Data-Portal, wenn die Daten bereits vorher an anderer Stelle veröffentlicht wurden. 01.02.2020
Aktualisierungsdatum Datum der letzten Änderung am Datensatz. Wie beim Veröffentlichungsdatum entspricht dieses Datum nicht zwangsweise dem Tag der Aktualisierung im Datenportal, sondern dem Tag an dem die aktualisierten Daten zum ersten Mal veröffentlicht wurden. 01.05.2020
Zeitliche Auflösung Falls vorhanden, Zeitabschnitte auf die sich die einzelnen Daten beziehen. Das können zum Beispiel Jahre, Monate, Tage oder Stunden sein. -
Zeitperiode Anfangs- und Enddatum des Zeitraums auf den sich der gesamte Datensatz bezieht. Beziehen sich die Daten auf einen Stichtag, wird ein identisches Anfangs- und Enddatum angegeben. 01.05.2020 - 01.05.2020
Geographische Auflösung Angabe zum geografischen Bezug der Daten. Die Daten können sich z.B. auf ganz Berlin, Bezirke, Hausadressen oder GPS-Koordinaten beziehen. Hausadressen
Geographische Abdeckung Angabe welcher Raum vom gesamten Datensatz abgedeckt wird. Das kann z.B. ganz Berlin sein oder ein bestimmter Bezirk. Berlin
Tags Aufzählung von den Datensatz beschreibenden Schlüsselwörtern, die nicht bereits durch den Titel, die Kategorie oder die Beschreibung abgedeckt sind. Der Datensatz kann anhand der Tags durch die Suchfunktion im Open-Data-Portal gefunden werden. Eine hohe Anzahl relevanter Tags erhöht somit die Auffindbarkeit des Datensatzes. Covid-19, Lieferung, Abholung, Essen, Restaurants, Kontaktbeschränkung, Kontaktlos, lunch, takeaway, takeout, delivery
Sichtbarkeit* Wahl zwischen privat (noch nicht für die Öffentlichkeit sichtbar) oder öffentlich (Eintragung erscheint auf dem Open-Data-Portal). öffentlich

Noch mehr Informationen zum Thema Metadaten im Berliner Open-Data-Portal finden Sie auch im Open-Data-Handbuch.


Download

Sie können diese Tabelle als Excel- oder Word-Dokument herunterladen, um Metadaten für die Veröffentlichung vorzubereiten, weiterzureichen oder als Vorlage für eine spätere Veröffentlichung abzuspeichern.

Download der Metadaten-Vorlage als .xlsx

Download der Metadaten-Vorlage als .docx


[1] Neumaier, S.; Umbrich, J.; Pollers, A.: Automated Quality Assessment of Metadata across Open Data Portals, ACM Journal of Data and Information quality V, N., Article A, January 2016.