LinDA

Linked Data für KMUs anwendbar machen

01. Dez. 2013 bis 30. Nov. 2015

Das Projekt LinDA widmet sich einer der wichtigsten Herausforderungen bei der Nutzung und Veröffentlichung von Linked Data: dem Umbau bestehender Datenformate in Strukturen, welche die semantische Anreicherung und Verknüpfung von Daten unterstützen. Die von LinDA bereitgestellten Werkzeuge werden Unternehmen bei der effizienten Entwicklung neuartiger Datenanalysedienste helfen, welche mit den verfügbaren öffentlichen Daten verknüpft werden können. So können diese Daten einen Beitrag zur Verbesserung der Wettbewerbsfähigkeit leisten und die Entwicklung innovativer Geschäftsmodelle fördern. Das Angebot richtet sich vor allem an kleine und mittlere Unternehmen (KMUs), welche sich die Entwicklung und Wartung von dedizierten Datenanalyse- und Managementabteilungen oft nicht leisten können.

Das LinDA-Projekt greift den Status quo von Linked Data auf und strebt an, den gegenwärtigen Stand der Forschung zu konsolidieren und die Verwendung von Linked Data potentiellen Nutzern zugänglich zu machen. Anwendern soll ein einfaches Framework zur Verfügung gestellt werden, in welchem die wesentlichen Datentransformations- und Auswertungsvorgänge vorgenommen werden können. Dabei sollen vorgefertigte Workflows der Orientierung dienen. Als Modellanwender im Projekt wurden KMUs ausgewählt. Denn diese sind Experten auf ihren jeweiligen Domänen und besitzen dadurch Datenbestände, die sie weitergehend nutzen möchten. Dafür fehlt KMUs jedoch meist die Expertise auf dem Gebiet von RDF, Linked Data und Semantik.

Aus diesem Grund stellen acht Partner aus vier europäischen Ländern im Projekt LinDA integrierte auf Nicht-Experten zugeschnittene Linked-Data-Anwendungen und -Arbeitsabläufe zur Verfügung. LinDA wird vom 7. EU-Rahmenprogramm (FP7) gefördert.

Im Januar 2015 hat das LinDA-Projekt seinen ersten Review durch die EU erfolgreich hinter sich gebracht. Es steht eine integrierte Workbench mit ersten Versionen von im Projekt entwickelten Werkzeugen zur Verfügung:

  • Zum einen sind dies Werkzeuge zur Datenbereitstellung („data provision“), nämlich zur Datentransformation von diversen Formaten nach Linked Data/RDF. Die aktuell verfügbaren Ausgangsformate sind (i) relationale Daten, also herkömmliche Datenbanken, und (ii) Tabellendaten, wie z.B. CSV-Dateien. Zur Unterstützung der semantischen Anreicherung wurde ein Repositorium mit gängigen Vokabularien eingerichtet. Dieses Repositorium ist vom Transformationswerkzeug aus ansprechbar; es wird mit Schüsselwörtern aus den Ausgangsdaten befragt wie ein „Orakel“ und stellt i.d.R. mehrere Antworten zur Auswahl.
  • Zum anderen stehen Werkzeuge zur Datennutzung („data consumption“) zur Verfügung. Hierunter fallen Werkzeuge zur Visualisierung, zum Data Mining und zur Datenanalyse; vor allem solche, die von der Struktur von Linked Data besonders profitieren.
  • Zusätzlich stellt das LinDa Projekt SPARQL Query-Tools bereit, die Anfänger beim Auffinden von gesuchten Informationen unterstützen.

Zur modellhaften Nutzung dieser Werkzeuge wurden Pilot-Anwendungen konzipiert, die dafür erforderlichen Datenquellen ermittelt und die Vorschläge für Analysevorgänge ausgearbeitet.

Hintergrund

Das „Semantische Web“ ist eine seit längerem proklamierte nächste Stufe des World Wide Webs. Es ergänzt dieses um semantischen Gehalt, Maschinenlesbarkeit und Interoperabilität von Informationen. Dadurch erhält das Web die Fähigkeit, automatisiert Schlussfolgerungen aus weltweit verteilten Daten zu generieren.

Das Semantische Web kommt allerdings nur langsam in die Gänge. Die massenhaft vorhandenen Informationen im Web müssen einheitlich formalisiert werden, um sie nutzbar zu machen. Bei der Formalisierung stellen Dynamik, inhaltliche und strukturelle Vielfalt sowie Zugriffsbeschränkungen der Informationen eine Herausforderung dar.

Vor diesem Hintergrund wurde von Tim Berners-Lee, dem Erfinder des WWWs, der Begriff Linked Data geschaffen. Linked Data beschreibt die wesentlichen Punkte, die zur Umsetzung des Semantischen Webs nötig sind:

  • die „semantische Anreicherung“ von Daten durch Metadaten, insbesondere Daten- und Link-Typisierungen sowie Herkunftsdaten
  • die einheitliche Darstellung von Daten und Metadaten in RDF (Resource Description Framework).