Open-Data-ABC: Leichtes Harvesting, große Ernte

Open-Data-ABC-Leichtes-Harvesting-große-Ernte

Wenn man über Open Data spricht, kommt früher oder später ein Begriff auf, der die Augen der meisten Neulinge im Datenbereitstellen mit Fragezeichen füllt: Harvesting – oder zu Deutsch: Ernten. Doch was haben Offene Daten mit „Ernten” zu tun? Wer erntet was? Gibt es Open-Data-Erntedankfeste und muss ich als Datenbereitsteller Kürbisse aufstellen?

Wir versuchen, ein wenig Licht ins Dunkel zu bringen und zeigen Ihnen darüber hinaus ein Tool, mit dem Sie ruckzuck ein ganzes Datenportal abernten können.

Die direkte Übersetzung aus dem Englischen mit „Ernten” stiftet auf dem ersten Blick für Neulinge in dem Feld wenig Sinn. Grob umschrieben handelt es sich beim „Harvesting” oder eingedeutscht „Harvesten” um das Abgreifen von Metadaten oder Datensätzen von einem Open-Data-Portal A, um diese auf einem Open-Data-Portal B ebenfalls bereitzustellen oder zu referenzieren – quasi eine Kopie, die idealerweise regelmäßig automatisch aktualisiert wird.

Man unterscheidet also zwischen:

  • „geharvestet werden”: Daten oder Metadaten einem anderen Portal verfügbar machen; und
  • selbst „harvesten”: Seinen eigenen (internen) Datenbestand durch andere offen verfügbare Daten erweitern.

Das offizielle Harvesting-Modell in Deutschland: Wer harvestet wen?

Die erste Sorge eines öffentlichen Open-Data-Portaladministrators ist die Frage rund um das „geharvestet werden”. Wie in anderen Ländern auch wird in Deutschland eine hierarchische Open-Data-Struktur etabliert, bei welcher ein kommunales Portal durch das Open-Data-Portal des Landes geharvestet wird. Schließlich harvestet dieses das nationale Portal, auf welches wiederum das europäische Portal zugreift. In einem solchen Modell wird das Harvesten also vom hierarchisch höheren Portal vorgenommen. Um es einem anderen Portal zu ermöglichen, Datensätze zu harvesten, kann der Datensatzbereitsteller lediglich sicherstellen, dass er es auf seinem Portal technisch so einfach wie möglich macht, diesen Prozess zu unterstützen.

Ob ein Portalbetreiber tatsächlich die bereitgestellten Daten abgreift, liegt außerhalb der Kontrolle des Datenbereitstellers (ähnlich wie die Entscheidung eines Webseitenbetreibers, auf bestimmte Seiten zu verlinken). Insbesondere in Deutschland spielen in dieser Hinsicht auch politische Faktoren eine Rolle. So harvestet zum aktuellen Zeitpunkt (Stand: August 2017) das nationale Open-Data-Portal GovData lediglich die Metadaten von Verwaltungsinstitutionen aus den sich beteiligenden Ländern – Bayern oder Hessen befinden sich bislang nicht in der Liste.

Power to The People: Warum das Harvesten von Daten für Jeden von Interesse ist

Fast schon spannender kann es für einen Portalbetreiber sein, selbst zu harvesten. Das oben beschriebene hierarchische Modell ist zwar durchaus logisch nachvollziehbar, doch fasst es zu kurz, strebt man ein Datennetzwerk an. Ein entscheidender Erfolgsfaktor für die Verbreitung des Internets war die Verlinkung von Webseiten untereinander – unabhängig von geltenden Hierarchien. Der gleiche Ansatz spielt auch bei Open Data eine Rolle: Beispielsweise können für eine Kommune bestimmte Datensätze aus dem Nachbarort ebenfalls von Interesse sein. Oder ein Energieversorger erweitert seinen Datenbestand um Open Data aus der Region – diese können mitunter lediglich auch völlig intern verwaltet werden. Um offene Daten auf diese Weise weiternutzen zu können, bedarf es eines einfach zu verwendenden Werkzeugs, das es auch nicht-technischen Nutzern ermöglicht, andere Datenportale zu harvesten (ja, das Föderieren von Datensätzen wäre idealer (wie innerhalb des OpenDataSoft-Netzwerks bereits möglich). Und ja, irgendwann kommen wir auch zu Linked Data, um ein tatsächliches Datennetz zu erschaffen).

Nebeneffekt: Geharvestete Daten durch Karten, Diagramme und APIs aufwerten

Wie kann man also auf unkomplizierte Weise seinen Datenpool erweitern? Unsere Plattform bietet eine Funktion, mit der man u.a. CKAN- oder ArcGIS-Portale harvesten kann. Ein besonders schöner Nebeneffekt: harvestet eine OpenDataSoft-Plattform ein Portal, generiert sie automatisch die Funktionen, welche unsere Plattform standardmäßig für alle maschinenlesbare Daten anbietet. So kann es sein, dass ein Datensatz auf seinem ursprünglichen CKAN-Portal keinerlei Visualisierungen bietet, aber als geharvesteter Datensatz auf einer OpenDataSoft-Plattfom in Karten und Diagrammen erforschbar wird – und darüber hinaus neben anderen Formaten nun als eine JSON RESTful API zur Verfügung steht (Entwickler werden sich freuen).

Ein Beispiel aus der Praxis: Schritt für Schritt ein ganzes Portal harvesten

Genug der Theorie – lassen Sie uns das Ganze in die Praxis umsetzen: In wenigen Schritten können wir so zum Beispiel den gesamten Inhalt des Münchner Open-Data-Portals harvesten. Dazu klickt man im OpenDataSoft-Backoffice auf den CKAN-Harvester, gibt diesem einen Namen und fügt in einem Formular die Katalog-API des Münchner Portals ein. Optional kann man noch weitere Parameter definieren wie z.B. die Anzahl der zu harvestenden Datensätze (falls man nicht am Inhalt des gesamten Portals interessiert ist), ob lediglich Metadaten abgegriffen werden sollen oder ob der Datensatz selbst geharvestet wird – und ob dabei ein Link erstellt werden soll, der es ermöglicht, den Datensatz in regelmäßigen Intervallen automatisch zu aktualisieren.

Auf „Start” geklickt und voilà: wenige Sekunden später stehen alle derzeit 107 offene Datensätze der Stadt München auf der eigenen OpenDataSoft-Domain bereit. So lässt sich nun beispielsweise der Datensatz „Oktoberfest” interaktiv in Diagrammen visualisieren. Ein schönes Beispiel: Mit wenigen Klicks die Anzahl der Besucher und den entsprechenden Bierkonsum über die Jahre hinweg analysieren.

Ergreift einen nun das Harvesting-Fieber kann man sich auch auf das nationale Open-Data-Portal GovData stürzen. Bei diesem handelt es sich zwar lediglich um einen Metadatenkatalog, welcher auf verlinkte Datensätze verweist, doch die OpenDataSoft-Plattform ist in der Lage, für den Großteil der Datensätze die Ressource selbst in das Portal zu ziehen – solange es sich dabei um tatsächlich maschinenlesbare, strukturierte Daten handelt (in Deutschland immer noch ein anderes Thema).

Auf diese Weise kann ein Datenportalbetreiber seinen bestehenden Datenpool mit externen Datensätzen auf einfache Weise ergänzen. Diese Ergänzung kann auch völlig intern erfolgen, ohne dass die geharvesten Datensätze selbst noch einmal veröffentlicht werden müssten. Im echten Leben sehen wir eine steigende Anzahl an Unternehmen, die genau an dieser Funktion stark interessiert sind. Und hier schließt sich der Kreis: je leichter das Harvesting, desto größer die Ernte.




New Call-to-action

hbspt.cta.load(2041226, ‘beb947e3-238f-48c5-9f32-1d064a91ae78’, {});

Related Posts

banner was ist data governance opendatasoft

Was ist Data Governance?

Kommt Ihnen das bekannt vor? Ihr Unternehmen hat eine Menge in Analysen investiert. Und jetzt, wo Ihre Datenexperten alle verfügbaren Daten…