Vorbemerkung:

Seit ihrem Aufkommen vor wenigen Jahren werden die FAIR-Kriterien im wissenschaftlichen Umfeld intensiv diskutiert, denn die in diesem Akronym zusammengefassten Begriffe sind zwar intuitiv eingängig, allerdings nicht trennscharf, weil in funktionaler Hinsicht untereinander verschränkt. Auch innerhalb von VerbaAlpina hat die eingehende Auseinandersetzung mit FAIR bisweilen dazu geführt, dass nicht alle von den einzelnen VerbaAlpina-Mitgliedern zu diesem Thema verfassten Texte inhaltlich vollkommen kongruent ausgefallen sind. Unabhängig von diesen individuell divergenten Interpretationen definiert VerbaAlpina jedoch die Kriterien, die von FORCE11 formuliert worden sind (https://www.force11.org/group/fairgroup/fairprinciples), als Maßstab der FAIR-Compliance. Deren Einhaltung ist aus methodischer Sicht durchdacht. Im Hinblick auf die praktische Umsetzung besteht aktuell noch insofern eine Einschränkung, als die Anreicherung mit generischen Metadaten (gemäß dem Metadatenschema von DataCite) derzeit noch nicht geleistet ist. Diese erfolgt jedoch im Zuge der Übertragung der VA-Daten in das Open-Data-Repositorium der LMU, an deren Operationalisierung momentan gearbeitet wird.
--
Im Jahr 2016 veröffentlichte eine große Anzahl von Wissenschaftlern aus einer ganzen Reihe von Ländern im Wissenschaftsmagazin Nature einen Artikel, in dem es darum ging, Richtlinien für den Umgang mit Forschungsdaten zu formulieren (Wilkinson, M. D. et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci. Data 3:160018 doi: 10.1038/sdata.2016.18 (2016). 🔗). Letztlich gehen die in dieser Publikation vorgetragenen Ideen auf einen Workshop zurück, der im Januar 2014 am Lorentz Center an der Universität Leiden in den Niederlanden stattgefunden hatte. Der Titel des Workshops hatte gelautet: Jointly designing a data FAIRPORT

Zwischenzeitlich haben sich diese Ideen, die im Akronym FAIR fokussiert sind, als ein Orientierungspunkt in der aktuellen Debatte über den richtigen Umgang mit Forschungsdaten etabliert (dies wurde u.a. auf dem Netzwerktreffen des GeRDI-Projekts im Oktober 2018 deutlich; vgl. auch die FAIRGROUP der FORCE11-Community).

Das Akronoym FAIR steht für die folgenden zentralen, sich z.T. wechselseitig bedingenden, Postulate, an denen sich der Umgang mit Forschungsdaten orientieren sollte (🔗):


Diese Schlagwörter bedingen implizit eine ganze Reihe von Konsequenzen für den Umgang mit digitalen Forschungsdaten.

Damit Daten auffindbar sind, sollte es mindestens ein zentrales Portal geben, über das Suchanfragen gestartet werden können. Es bietet sich an, den Nachweis der Forschungsdaten – gemeint sind im Wesentlichen ihr Inhalt sowie ihr Bewahrungsort – in die seit langem etablierten Bibliothekskataloge zu inkorporieren. Zu vermeiden wären alle Konzepte, die einen Suchvorgang an unterschiedlichen Stellen verlangen würden.

Um gefunden werden können, müssen Daten selbstverständlich auch physisch existent sein. Hierbei geht es weniger um die Frage der technischen Realisierung, die z.B. durch die flächendeckend bestehenden Rechenzentren geleistet werden kann, sondern vielmehr um die Frage nach der institutionellen Zuständigkeit. Auch unter diesem Aspekt bieten sich wiederum die Bibliotheken an, die aufgrund ihrer Geschichte, ihrer genuinen Aufgabe als Wissensbewahrer sowie ihrer langfristigen Bestandsperspektive eigentlich als konkurrenzlose Kandidaten für diese Aufgabe angesehen werden können. Sie sollten die Verantwortung für die nachhaltige Bewahrung der digitalen Daten übernehmen. In welcher Form dies schließlich geschieht, ob die Bibliotheken eigene Repositorien aufbauen und verwalten oder auf Rechenzentren als Dienstleister zurückgreifen, ist von nachrangiger Bedeutung und kann von Fall zu Fall unterschiedlich gehandhabt werden.

Große Bedeutung besitzt die Konzeption und Vergabe von Metadaten, über die die eigentlichen Forschungsdaten auffindbar gemacht werden müssen. Unverzichtbar erscheint die Verwendung mindestens eines verbindlichen, hierarchisch aufgebauten Metadatenschemas, das unter Einbindung ebenfalls verbindlicher kontrollierter Vokabulare eine inhaltliche Kategorisierung der abgelegten Forschungsdaten erlaubt. VerbaAlpina hat sich vorläufig für das weit verbreitete und auch von der UB der LMU gewählte DataciteSchema entschieden. Der Einsatz mehrerer konkurrierender Metadatenschemata wäre möglich, jedoch nur sinnvoll, wenn sie jeweils konsequent für alle erfassten Forschungsdaten angelegt werden. Untergeordnete fachspezifische Metadatenschemata können eine sinnvolle Ergänzung der übergeordneten Metadatenschemata darstellen.

Mit "accessible" ist vor allem die nicht durch rechtliche Schranken wie etwa das Urheberrecht eingeschränkte Zugänglichkeit von Daten gemeint. Dieser Punkt ist am wenigsten von den Denjenigen zu beeinflussen, die Daten sammeln oder produzieren. Neben dem Urheberrecht ist bei Datensammlungen häufig der Schutz von Persönlichkeitsrechten zu beachten. Die Forderung nach Zugänglichkeit zielt demnach vor allem darauf ab, dass sämtliche Daten, die keiner rechtlichen Beschränkung unterliegen, von den Produzenten dieser Daten nicht eigens mit rechtlichen Zugangsbeschränkungen belegt werden. Konkret bedeutet das in erster Linie den Verzicht auf das Copyright und die Anwendung eines Lizenzmodells, das konform ist mit den Bedingungen des Open Access. Weit verbreitet im wissenschaftlichen Umfeld ist die Verwendung der Creativecommons-Lizenzen (CC), von denen allerdings nicht alle die Kriterien für Open Access erfüllen. Insbesondere verstößt das Verbot kommerzieller Nutzung, das Teil einer CC-Lizenz sein kann, gegen das Konzept von Open Access. Der Grund besteht darin, dass nahezu jede Verwendung von Daten unter Umständen als "kommerzielle Nutzung" angesehen werden kann und eine klare Grenzziehung diesbezüglich aus juristischer Sicht so gut wie unmöglich ist (s. auch dazu den Methodologie-Beitrag "Lizenzierung").

Ebenso wie auch die Auffindbarkeit von Daten besitzt die Interoperabilität zwei, nämlich eine technische und eine theoretisch-organisatorische, Seiten. Um Datenbestände fruchtbringend miteinander zu verknüpfen und sich aufeinander beziehen zu lassen, bedarf es in vielen Fällen zunächst einer logischen Feingranulierung der Daten, die sich überdies an, zumeist fachspezifischen, Regeln orientiert. Eine ganz zentrale Rolle spielen in diesem Zusammenhang die sog. Normdaten, bei denen es sich um definierte und, im Idealfall standardisierte, Konzeptkategorien handelt, deren einzelne Instanzen (digitale Objekte) bezogen auf eine klar definierte Art und Anzahl von Eigenschaften "distinct", also singulär sind. Die Belegung der einzelnen Objekte einer Konzeptkategorie mit numerischen oder alphanumerischen Identifikatoren ("ID"s), erlaubt die unzweideutige Referenzierung von Objekten. Die Granulierung von Datenbeständen entlang den Grenzen von Kategorien und deren einzelnen Instanzen/Objekten in Verbindung mit der Verwendung der spezifischen Identifikatoren erlaubt sodann die Verknüpfung von getrennten Datenbeständen mit kongruenten Inhalten. Echter Mehrwert entsteht allerdings erst dann, wenn es auch technisch möglich ist, auf einzelne Objekte direkt zu referenzieren und so mit nur einem Klick von einem Datenbestand zu einem Objekt eines anderen Datenbestands zu gelangen. Dies erscheint nur dann möglich, wenn tatsächlich jedem einzelnen Datenobjekt ("Granum") eine eigene URL zugewiesen wird. Im Sinne der Nachhaltigkeit muss schließlich jeder einzelnen URL auch noch eine DOI zugewiesen werden.

Die Wiederverwendbarkeit von Datenbeständen ergibt sich schließlich aus der sorgfältigen Beachtung und Umsetzung der drei vorangegangenen Postulate. Die Technologie von VerbaAlpina wurde u.a. nachgenutzt vom Projekt APPI der Universität Lille. Eine entsprechende Dokumentation ist unter dem folgenden Link zu finden: https://github.com/anr-appi/verba-picardia-doc/wiki/Documentation-du-syst%C3%A8me-Verba.
Die Zusammenarbeit zwischen VerbaAlpina und dem Projekt T-Migrants ist ein weiteres Beispiel für die Umsetzung des FAIR-Prinzips der Wiederverwendbarkeit (Reusable). Die WebGL-Kartentechnologie, die ursprünglich für VerbaAlpina entwickelt wurde und es erlaubt, großen Datenmengen zu visualisieren, wurde erfolgreich an das T-Migrants-Projekt exportiert.
Zur Übernahme der WebGL-Kartentechnologie musste diese jedoch partiell an die spezifischen Anforderungen des T-Migrants-Projekts angepasst werden. Diese Anpassungen erforderten einige Änderungen in der Implementierung beispielsweise das Unterstützen dauerhafter Animation, um die speziellen Bedürfnisse und Ziele von T-Migrants optimal zu erfüllen. Durch die Berücksichtigung der Wiederverwendbarkeit der WebGL-Kartentechnologie konnte das T-Migrants-Projekt von der bereits bestehenden Technologie profitieren, ohne die Notwendigkeit, eigene Ressourcen für die Entwicklung einer ähnlichen Technologie aufzuwenden. Dies spart Zeit und Ressourcen und fördert die Effizienz der Forschung, auch wenn einige Anpassungen für die spezifischen Anforderungen des neuen Projekts erforderlich waren. Die erfolgreiche Anwendung der Wiederverwendbarkeit in diesem Fall zeigt, wie wichtig es ist, wissenschaftliche Daten und Technologien in einer dokumentierten, strukturierten und lizenzierten Form bereitzustellen, die es anderen Projekten ermöglicht, sie in neuen Kontexten zu nutzen und weiterzuentwickeln. Ebenfalls wurde dieses Thema auf dem Workshop "Herausforderungen linguistischer Datenvisualisierung/LDDB 2022" vorgestellt und diskutiert.

VerbaAlpina ist bemüht, sämtliche datenbezogenen Verfahren und Regelungen an den FAIR-Prinzipien auszurichten. Thomas Krefeld sieht darin grundsätzlich die Basis einer DH-Forschungsethik (Thomas Krefeld [2018]: Linguistische Theorien im Rahmen der digital humanities. Korpus im Text. Version 2 (05.11.2018, 11:35). Absatz 4. url: http://www.kit.gwi.uni-muenchen.de/?p=28010&v=2#p:4). Der Auffindbarkeit der Daten dient die Kooperation mit der UB der LMU sowie dem DFG-Projekt GeRDI, die derzeit im Rahmen des Projekts e-humanities – interdisziplinär erfolgt. Vor allem der zentrale Datenbestand im Modul VA_DB wird im Zuge dessen versionsweise mit Metadaten versehen und in mehrerlei Gestalt an die UB der LMU übergeben, wo er in jedem Fall im Open-Data-Repositorium abgelegt wird. Wenigstens die Metadaten werden anschließend zusätzlich in den Index inkorporiert, der aktuell im Rahmen des Projekts GeRDI aufgebaut wird. Ziel ist es, die von VerbaAlpina gesammelten und aufbereiteten Daten zentral über den Bibliothekskatalog der UB und darüberhinaus auch über das noch in Entwicklung befindliche Suchportal des GeRDI-Projekts auffindbar zu machen. Sämtliche von VerbaAlpina verwalteten Daten werden, soweit möglich, unter eine Open-Access-konforme Creativecommons-Lizenz gestellt (bis Version 18/1 CC BY SA 3.0 de, ab 18/2 CC BY SA 4.0). Die Interoperabilität wird u.a. durch eine feine Granulierung des Datenbestands erreicht, die sich auch am Konzept der Normdaten orientiert, indem bereits bestehende Normdaten mit dem Datenmaterial von VerbaAlpina verbunden werden. Dies ist z.B. möglich mit geographischen Daten, etwa den politischen Gemeinden, die das zentrale geographische Bezugssystem von VerbaAlpina darstellen. Für die für VerbaAlpina zentralen Datenkategorien "morpho-lexikalischer Typ" und "Konzept" existieren wenigstens teilweise bislang noch keine Normdaten, auf die die VerbaAlpina-Daten bezogen werden könnten. In diesen Fällen ist VerbaAlpina bemüht, in Kooperation mit prädestinierten Institutionen wie etwa der Deutschen Nationalbibliothek (DNB) entsprechende Normdaten bzw. Normdatenkategorien einzurichten. Zur Bedienung der technischen Erfordernisse für eine effiziente Interoperabilität wird das zentrale lexikalische Datenmaterial datensatzweise in einer Vielzahl kleiner Dateien abgelegt, die schließlich über individuelle DOIs auf Open Data LMU angesprungen werden können. Jeder einzelnen Datei wird außerdem eine Metadaten-Datei im Datacite-Format beigegeben. Die Gesamtheit der Metadaten ermöglicht schließlich das gezielte Auffinden einzelner Dateien über den Bibliothekskatalog.


Im Rahmen des vom Bayerischen Wissenschaftsministerium geförderten Projekts "eHumanities – interdisziplinär" werden die von VerbaAlpina gesammelten Kerndaten (Einzelbelege, morpholexikalische Typen, Konzepte, Georeferenz) exemplarisch auf das sog. CIDOC CRM Schema abgebildet. Bei CIDOC CRM handelt es sich um eine (informatische) Ontologie, die spätestens seit Anfang der 1990er Jahre entwickelt wurde und deren Wurzeln im Umfeld der Museumswelt liegen. Die Entwicklung des Conceptual Reference Model (CRM) geht zurück auf eine Arbeitsgruppe des Comité International pour la Documentation (CIDOC), das seinerseits eine Gliederung des International Council of Museums (ICOM) darstellt. Die dahinter stehende Absicht ist gewesen, Daten unabhängig von variablen Kategoriebezeichnungen auffindbar zu machen. So kann anstelle von "Autor" auch "author", "Verfasser", "auteur" zur Bezeichnung der Kategorie des Verfassers eines Textes verwendet werden. CIDOC CRM sieht für die Bezeichnung des Autors eines Textes das Kürzel E39 vor, so dass die entsprechende Information vollkommen unabhängig von individuellen Bezeichnungen aufgefunden werden kann. Die ICOM/CRM Special Interest Group entwickelt das CRM kontinuierlich weiter. Die jeweils aktuelle Version des Standards (es handelt sich sogar um eine ISO Norm: ISO 21127:2014, was zusätzlich für die Verwendung spricht) kann auf der Seite http://cidoc-crm.org/versions-of-the-cidoc-crm heruntergeladen werden. Derzeit (Juni 2020) umfasst der Standard insgesamt 99 Entitäten, die um insgesamt 197 "Eigenschaften" ("Properties") ergänzt werden. Letztere dienen hauptsächlich der Beschreibung der Beziehungen zwischen verschiedenen Entitäten des Models (Beispiele: P1: "is identified by", P15: "was influenced by" etc.). Das nachfolgende, von Julian Schulz generierte und vorläufige, Diagramm zeigt den Versuch der Zuordnung der VerbaAlpina-Entitäten zu den CRM-Kategorien (E- und P-Nummern) (PDF-Version: https://www.verba-alpina.gwi.uni-muenchen.de/wp-content/uploads/cidoc-verbaalpina_v2.pdf):


CIDOC-CRM-Schema der VerbaAlpina-Kerndaten


Mittelfristiges Ziel ist, den Kerndatenbestand von VerbaAlpina feingranuliert mit den standardisierten Metadaten des CIDOC CRM versehen in das Forschungsdatenrepositorium der UB der LMU zu übertragen. Dort soll dann ein mit der Ruby-on-Rails-Engine Blacklight realisiertes und auf einem Apache Solr-Index aufsetzendes Suchportal den Zugriff auf die Daten ermöglichen.