Dieser Vortrag wurde für den Workshop Datensicherung im Forschungsprozess
geschrieben, der vom FID Romanistik in Verbindung mit der AG Digitale Romanistik organisiert und online durchgeführt  wurde (Bonn, 26./27.11.2020)


Eine Perspektive mit Horizonterweiterung

Unser Beitrag zielt auf sehr grundsätzliche Fragen; er ist jedoch aus der ganz konkreten Arbeit am geolinguistischen Projekt VerbaAlpina entstanden, genauer gesagt: aus der kontinuierlichen methodologischen Reflexion, oder:  aus der notwendigen theoretischen Selbstvergewisserung der mit dem Projekt befassten sieben Wissenschaftler, deren Arbeitskraft je zur Hälfte in die Informatik und in die Sprachwissenschaft investiert wird. Das Langzeitvorhaben der DFG, das seit 2014 gefördert wird, hat jedoch eine mehrjährige Vorgeschichte in Gestalt kleiner Projekte, von den zwei genannt werden sollen, nämlich: Das zuerst genannte Projekt markiert den für uns ebenso grundlegenden wie radikalen Übergang von traditioneller, auf Printpublikation zielender Arbeit zum systematischen und kategorischen Einsatz von Webtechnologie; denn der ursprünglich für den Druck entworfene AsiCa wurde im Verlauf seiner Durchführung methodologisch rekonzipiert und vom dialektologischen Kopf auf die informationstechnischen Füße gestellt. – Seitdem läuft er übrigens, auch noch in der ursprünglichen, von Stephan Lücke entwickelten Version, unermüdlich im Web.

Es waren also bereits vor dem Projektantrag Erfahrungen entstanden, und es wurde eine klare Perspektive fixiert, die bis heute gilt: Anvisiert wird die systematische Umstellung dieser linguistischen Subsdisziplin auf Webtechnologie – von Digital Humanities war zu der Zeit noch nicht die Rede und das Web 2.0 nahm just in diesen Jahren Gestalt an. So war es unvermeidlich, dass sich der Horizont von Projekt zu Projekt substantiell erweiterte und dass mit VerbaAlpina eine umfassende virtuelle Forschungsumgebung mit komplementären Funktionalitäten eingerichtet werden konnte. Im Rückblick ist man erstaunt, mit welcher Selbstverständlichkeit sich die mediale Horizonterweiterung in unserem Forschungsprozess abbildet, denn eigentlich war diese Entwicklung alles andere als ‘selbstverständlich’ und ohne die institutionellen Rahmenbedingungen an der LMU wäre es nicht dazugekommen. So ist man geneigt sich die Augen zu reiben und schlicht festzuhalten:  "Yes, we could".

Die methodologisch wichtigste Erfahrung war – und ist – wohl die permanente Herausforderung mit den ständig neuen Optionen der äußerst dynamischen Digital Humanities umzugehen. Es wurde daher das Prinzip festgeschrieben, alle konzeptionellen Grundbegriffe und ihre Entwicklung nicht nur umzusetzen, sondern auch in diskursiver Gestalt festzuhalten und zugänglich zu machen; diese oft sehr prägnanten und nicht sehr ausführlichen Texte finden sich unter dem Reiter Methodologie. Die Projektarbeit verfestigt sich also nicht nur in einem technischen und maschinenlesbaren Speicher sondern auch in einem menschlichen und menschenlesbaren Gedächtnis.
VerbaAlpina untersucht die romanischen, germanischen und slawischen Dialekte des Alpenraums; in ausgewählten Gegenstandsbereichen wird: Die Visualisierung erfolgt kartographisch. Es müssen also zahlreiche Quellen zusammengefügt werden, wie diese Auswahl zeigt. Die Quellen sind ganz verschiedenartig; den größten Teil bilden Sprachatlanten, wie z.B. der AIS, aber teils sehr umfangreiche Wörterbücher, wie z.B. der DRG kommen hinzu und ergänzen sich in der Dokumentation (vgl. diesen Ausschnitt). Bereichert werden diese wissenschaftlichen Quellen durch Crowd-Daten (vgl. die aktuelle Statistik). Unterschiedlich sind jedoch nicht nur die Quellengattungen, sondern auch ihre medialen Repräsentationen, denn manche liegen in gedruckter Form, andere in digitalen Formaten, wie z.B. der ALD-I und dritte in (noch) nicht publizierter, handschriftlicher Dokumentation vor, wie teilweise der SAO. Im übrigen wurden ganz unterschiedliche Transkriptions- und Schreibweisen verwandt. Es mussten also von Anfang an Prozeduren entwickelt werden, um die Daten in transparenter Weise in ein gemeinsames Format zu bringen.
Die lexikographische Typisierung, d.h. die Zusammenfassung von dialektalen Varianten unter gemeinsamen Nennformen (Lemmata), erfolgt von Hand; sie wird jedoch durch den systematischen Einbezug von – wenn irgend möglich – online verfügbaren  Referenzwörterbüchern abgesichert, deren Lemmata einzeln angesprochen werden können, wie dieses Beispiel zeigt.
Eine Implementierung der technischen Prozeduren zur Verknüpfung und Aggregation von Daten aus unterschiedlichen Beständen setzt jedoch das Einverständnis der Wissenschaftler*innen voraus, die für die eingebundenen Daten zuständig sind; auch das ist keineswegs selbstverständlich, so dass Strategien gefordert sind, um diejenigen, die über relevante Daten verfügen von geeigneten Lizenzierungsbedingungen (hier: CC BY SA)  zu überzeugen und durch formale Vereinbarungen (vgl. Kooperation) zu Partnern zu  machen (vgl. die Liste VA-Partner); diese Bemühungen sind uns nicht immer, aber doch meistens  gelungen. Daraus ist ein dichtes Netz kollaborativer Routinen hervorgegangen, das auch von außen als solches wahrgenommen wird, denn mittlerweile kommen bislang nicht teilnehmende Projekte mit Kooperationsanfragen auf uns zu, zuletzt das Dialektologische Informationssystem für Bayerisch-Schwaben (DIBS)
Man kann festhalten, dass die inhaltlichen Anforderungen der Geolinguistik eine grundsätzlich offene – das heißt potentiell über das initiale Projekt hinausweisende – Forschungsumgebung nahelegen, so bald man sich vom Druck als Medium der Publikation verabschiedet.

Digitale Medien im Forschungsprozess

Es wird in den geisteswissenschaftlichen Disziplinen zu wenig reflektiert, dass sich der methodologische Status der Medien im Forschungsprozess von Grund auf ändert, sobald man die Perspektive der Digital Humanities einnimmt: Traditionelle Forschungspraxis zielt auf den Druck, und die gedruckte Publikation schließt den vorhergehenden Forschungsprozess definitiv ab; das Medium des Druck ist gewissermaßen der Tod des Projekts, denn alle Daten (wenn man davon sprechen darf), die für die Produktion des Buchs gebraucht wurden, sind dem direkten Zugriff nach dem Druck entzogen; sie können keinerlei Produktivität in anderen Projekten erlangen und im Nachhinein allenfalls häppchenweise zitiert werden.

In webbasierter Forschungsarbeit ist das Medium – die mediale Zugänglichkeit – dagegen das Lebenselixir der Daten: Sie leben solange, wie menschliche oder maschinelle Nutzer auf sie zurückgreifen; Phasen ohne Zugriff versetzen sie nur in Schlaf, aus dem sie jederzeit wieder geweckt werden können. Die Medien sind so zu einer fundamentalen Komponente des Forschungsprozesses geworden; Forschungsarbeit ist jenseits der Medien gar nicht mehr möglich. Im Fall von VerbaAlpina wurden die Konzeption und Implementierung einer entsprechenden webbasierten Forschungsumgebung seit Arbeitsbeginn aus dem Projekt selbst heraus systematisch und erfolgreich umgesetzt. De facto kam VerbaAlpina damit bereits den erfüllbaren Forderungen nach, die erst im Laufe der Projektarbeit durch eine wichtige Initiative unter dem praktischen, aber unscharfen Akronym FAIR auf einen gemeinsamen Nenner gebracht wurden. Einschränkend muss man allerdings sofort hinzusetzen, dass diejenigen, die auf FAIRness verpflichtet werden, die Projektverantwortlichen, damit auch heillos – und unheilbar – überfordert sind, denn unausgesprochene Voraussetzungen dieser Forderungen können sie gar nicht erfüllen: Ihrem eigentlichen, das heißt medial angemessenen Zweck kann eine solche Umgebung nämlich erst dann gerecht werden, wenn sie auch noch durch Forscher ‘begangen’ und weiterentwickelt werden kann, die mit uns, d.h. mit den Wissenschaftlern, die ihre ursprüngliche Konzeption und Einrichtung in Werk gesetzt haben, gar nichts mehr zu tun haben. Es braucht ja keine visionäre Begabung, um den großen Mehrwert zu sehen, der sich ergibt, wenn über die Alpen hinaus die zahlreichen Sprachatlanten und Dialektwörterbücher des zusammenhängenden europäischen Sprachraums aus ihrer Datenfriedhofsruhe geweckt und in einem einzigen organischen Datenverbund belebt werden könnten – so wie der riesige Ficus an der Piazza Marina in Palermo aus einer Vielzahl von tragenden Stämmen besteht, die unter der Erde wie im Geäst an unterschiedlichsten Stellen zusammengewachsen sind, weil die Zellstruktur der Pflanze überall dieselbe ist.  

Es erübrigt sich darauf hinzuweisen, dass die hier am Beispiel der Geolinguistik skizzierten Erfahrungen, mutatis mutandis, von Forscher*innen aller linguistischen Subdisziplinen und vermutlich aller geisteswissenschaftlichen Disziplinen überhaupt gemacht werden, sobald sie die Perspektive der Digital Humanities einnehmen: Die technischen Bedingungen zur Einrichtung und zum Betrieb umfassender, offener Forschungsumgebungen sind gegeben und erprobt; ihre Gewährleistung liegt indes jenseits der Möglichkeiten von Projektverantwortlichen: Infrastrukturen verdienen ihren Namen erst dann, wenn sie Persistenz erlangen, auf die sich die ebenso unübersichtliche wie produktive Forschungspraxis verlassen kann. Forschungspraxis sollte FAIR sein, aber nachhaltig im strengen Sinn sind nur Strukturen und niemals Projekte (auch dann nicht, wenn sie den suggestiven Ausdruck Struktur in ihrem irreführenden Namen tragen). 


Grundlegende Fakten, Thesen und Positionen

VerbaAlpina versteht sich als rein digitales Forschungsprojekt und setzt sich seit seinem Start mit den unterschiedlichen Konsequenzen und Herausforderungen dieser Ausrichtung auseinander.

Vorab einige Feststellungen grundsätzlicher Natur. Anschließend stellen wir eine Reihe von Maßnahmen vor, die VerbaAlpina konkret umsetzt, um seine Projektergebnisse nachhaltig zu bewahren.

Infrastruktur

ab ovo          —            in vita          —           post mortem


Daten

VerbaAlpina

Unsere Infrastruktur

Unsere Daten

FAIR-Compliance von VerbaAlpina

VerbaAlpina hat die Frage der Nachhaltigkeit und die Erfüllung der FAIR-Kriterien stets im Blick. Wir begegnen der Herausforderung mit einer ganzen Reihe von Maßnahmen. Deren Zuordnung zu den Teilbereichen des FAIR-Komplexes ist intuitiv und im Einzelfall diskutabel (s. die roten Anmerkungen von Thomas Krefeld); sie ist in Klammern hinter den einzelnen Punkten angegeben. Auch die Reihung der Maßnahmen ist intuitiv, folgt aber grosso modo dem Gedanken der abnehmenden Bedeutung.

Resumée

VerbaAlpina bemüht sich durch eine Vielzahl von Maßnahmen um Nachhaltigkeit seiner Projektergebnisse. Bislang ungelöste Probleme sind die folgenden:
Aktuell befindet sich noch vieles im Umbruch. Die Herausforderungen der tiefgreifenden Digitalisierung der gesamten Forschungslandschaft sind noch relativ neu. Es wird derzeit noch nach geeigneten Lösungen gesucht. In diesem Kontext steht u. a. oder auch v. a. die NFDI-Initiative. Wir vertreten die Auffassung, dass möglichst stabile institutionelle Lösungen geschaffen oder genutzt werden müssen, die über eine möglichst langfristige, im Idealfall unbefristete Existenzperspektive verfügen. Vor diesem Hintergrund erscheinen uns projektgebundene Ansätze mit von vornherein festgelegtem Ablaufdatum ungeeignet, um die unbefristete Verfügbarkeit von Forschungsdaten zu gewährleisten. Solange sich noch keine stabilen Lösungen etabliert haben, können Projektverantwortliche nur die laufenden Entwicklungen verfolgen und – soweit dies personell und zeitlich möglich ist – ggf. mehrgleisig fahren, sprich: die eigenen Daten in verschiedenen Formaten bei unterschiedlichen Partnern oder Dienstleistern unterzubringen versuchen. Die permanente Überprüfung der eigenen Nachhaltigkeits-Strategie ist unerlässlich.