"What is matter? – Never mind. What is mind? – No matter". Dieses Bonmot, aus der britischen Zeitschrift Punch vom 14. Juli 1855, ironisiert grundlegende Fragen einer Teildisziplin der Philosophie, die als Ontologie bezeichnet wird, nämlich die Fragen nach den Kategorien, in die das Sein (gr. τὸ ὄν 'die Wirklichkeit') eingeteilt werden kann. Der Ausdruck steht also in einer ehrwürdigen philosophischen Tradition. Seit gut 20 Jahren ist er im Zusammenhang mit der Entwicklung des semantic web zu neuem und energischem Leben erweckt worden (vgl. den entsprechenden Wikipedia-Eintrag Ontologie). Mittlerweile werden die Initiativen als 'ontologisch' bezeichnet, die den Ausschnitten der Welt eindeutige digitale Repräsentationen zuweisen, um sie virtuell identifizierbar und verknüpfbar zu machen. Allerdings sind diese beiden Funktionen unterschiedlich gut entwickelt. Während die Identifikation durch den kontinuierlichen Ausbau unterschiedlicher Arten von Normdaten gut voranschreitet, ist die wesentlich anspruchsvollere Verknüpfung der identifizierten Einheiten in der Geolinguistik wie in der Sprachwissenschaft überhaupt allenfalls in Ansätzen zu beobachten.
Wie in Normdaten ausgeführt, unterscheidet VA eigene Identifikatoren für die Datenkategorien (Entitäten) 'Gemeinde' (1), 'Konzept' (2) und 'morpho-lexikalischer Typ' (3). Zwei der drei Kategorien, nämlich die Gemeinden und die Konzepte, wurden mit weithin akzeptierten, projektexternen Identifikatoren verknüpft und sind daher geeignet, unmittelbar einen weiten interoperablen Horizont zu eröffnen.

(1) Gemeinden

Im Fall der Gemeinden wurde der Dienst geonames integriert, der Basisinformationen zu den einzelnen Gemeinden sowie einen Link zu den jeweiligen Wikipedia-Artikeln vermittelt, wie die folgende Karte am Beispiel von Soglio (VA-ID: A60173) zeigt:


(2) Konzepte

Im Fall der Konzepte werden die Identifikatoren von VA mit den entsprechenden Identifikatoren des Wikidata-Projekts (QIDs) verknüpft. Jede Wikidata-ID ist in Gestalt von Tripeln, sogenannten Statements, über 'properties' mit anderen IDs des Wikidata-Projekts verknüpft. So existiert in VA das Konzept SÜSSMOLKE (VA-ID = C237), das in Wikidata mit der QID Q185009 geführt wird und über die folgenden Statements mit anderen Konzepten verknüpft ist:
Wikidata Statements zum Konzept MOLKE (eng. whey)
item property item
whey Q185009 instance of P:31 chemical substance Q79529
food ingredient Q25403900
part of P527 milk Q8495
has part or parts P527 whey protein Q424430
In formalisierter Gestalt (mittels rdf und OWL) finden diese Tripel und mit ihnen die VA-Konzepte Eingang in das semantic web. Allerdings muss VA darauf verzichten, diese projektexternen Wikidata-Statements systematisch zu kontrollieren und zu vervollständigen.

(3) Morpho-lexikalische Typen

Weniger selbstverständlich ist es auch, die dokumentierten sprachlichen Daten mit Normdaten zu verbinden. Grundsätzlich ist vorgesehen, sie in die lexikographischen Daten des Wikidata-Projekts zu integrieren; dadurch erhalten sie zusätzlich zum VA internen Identifikator eine Wikidata-LID und werden auch projektextern als lexikographisches Objekt, oder: Lexem referenzier- und verknüpfbar. Das Datenmodell der Wikidata-Lexeme enthält auch Informationen über die jeweilige Wortart, sowie Listen der zugehörigen Formen und Bedeutungen. Eine Schwierigkeit besteht jedoch in der Zuweisung angemessener Sprachnamen. Zwar existieren allgemein etablierte Sprachcodes, wie vor allem ISO-639-2, ISO_639-1, ISO_639-5 oder ISO_639-3, die exhaustiv angelegt sind und auch die Dialekte – oder besser gesagt: Sprachen, die herkömmlicherweise als Dialekte gelten, erfasst:

"Whereas ISO 639-1 and ISO 639-2 are intended to focus on the major languages of the world that are most frequently represented in the total body of the world's literature, ISO 639-3:2007 attempts to provide as complete an enumeration of languages as possible, including living, extinct, ancient and constructed languages, whether major or minor, written or unwritten. As a result, ISO 639-3:2007 deals with a very large number of lesser-known languages." (Quelle)

Nun handelt es sich im Fall von VA ausnahmslos um dialektale Daten, die zwar einerseits exakt in den Gemeinden des Untersuchungsgebiets georeferenziert und insofern lokalen Ortsdialekten eindeutig zugeordnet sind, die sich jedoch andererseits einer eindeutigen, trennscharfen Kategorisierung im Sinne ortsübergreifender, regionaler Dialekte ('Piemontesisch', 'Lombardisch' usw.) entziehen. Dergleichen Klassifikationen sind grundsätzlich als mehr oder weniger diskutable Resultate der akademischen Dialektologie anzusehen und finden häufig kein Korrelat im Wissen der Sprecher selbst; selbst die Wissenschaft spricht seit Ascoli 1873 in vielen Gegenden von 'Übergangsgebieten' bzw. auf ita. von anfizone (vgl. Petracco Sicardi/Anzaretti 1989). Vor diesem Hintergrund hat sich VA für einen anderen Weg entschieden, der sich ganz schlüssig aus der Organisation der Sprachdaten, insbesondere aus der Typisierung ergibt. Ein 'morpho-lexikalischer Typ' ist etymologisch und morphologisch, aber nicht phonetisch definiert; er umfasst also eine variable Menge mehr oder weniger verschiedener phonetischer (und graphischer) Varianten. Alle Varianten werden auf der interaktiven Karte von VA dokumentiert. So sind z.B.
ausgewählte Varianten für die Bezeichnungen des Konzeptes WASSER, die auf lat. aqua(m) zurückgehen. Die Varianten lassen sich jedoch in den Suchfiltern der interaktiven Karte nicht einzeln aufrufen, sondern jeder Typ, d.h. jede Gruppe von zusammengehörigen Varianten, wird im Filter durch eine einzige Variante repräsentiert; diese repräsentativen Varianten, sozusagen die Nennformen oder Leitformen der morpho-lexikalischen Typen, entsprechen – wenn möglich – den 'großen' Standardsprachen Französisch und Italienisch. Im genannten Beispiel sind dies fra. eau und ita. acqua 'Wasser'; diese Leitformen sind mit Referenzwörterbüchern verlinkt. Falls weder das Standardfranzösische noch das Standarditalienische dergleichen Leitformen liefern, übernimmt eine andere Variante diese Funktion, die – wenn möglich – ebenfalls mit einem großen Referenzwörterbuch verlinkt wird (z.B. mit dem DRG, dem GPSR, dem VSI u.a.). Nur im seltenen Fall, wo auch dies nicht möglich ist, wählt VA eine Leitform, die nicht über ein Referenzwörterbuch lexikographisch abgesichert ist. Die Leitformen werden mit einem Sprachcode verknüpft, der sich sehr oft explizit aus dem Titel des Referenzwörterbuchs ergibt, wie z.B. im Fall des Trésor de la langue française (TLFi), wo ausdrücklich die französische Sprache als Inhalt des Thesaurus (fra. trésor) genannt wird.

Alle lokalen Varianten können der jeweiligen Leitform dann mittels einer geeigneten Property, wie z.B. alternative form (P8530) zugeordnet und über die Property located in the administrative territorial entity (P131) georeferenziert werden.
Die Leitform entspricht in der Wikidata-Welt einem Lexem, während alle lokalen Varianten diesem dann als Formen zugeordnet werden können. Die Formen werden mit der Property variety of form (P7481) lokalisiert und mit der Qualifier-Property subject sense (P6072) einer oder mehreren Bedeutungen des Lexems zugeordnet, sodass die grundlegende Information vollständig abgebildet wird. Dabei stellt variety of form eher eine Notlösung dar, da diese eigentlich zur Zuordnung eines regionalen Dialektnamens (z.B. 'Bairisch') gedacht ist (vgl. hier) und nicht zur exakten, georeferenzierten Lokalisierung. Eine geographische Zuordnung einer Form wird zwar in der Konzeption des Lexemdatenmodells unter dem Namen used in region genannt, zum aktuellen Zeitpunkt ist eine solche Property allerdings nicht vorhanden. Die bestehende Property located in the administrative territorial entity (P131) kann nur für Wikidata Items und nicht für Lexeme verwendet werden.
Unabhängig von spezifischen Sprach- oder Dialektnamen liefert Glottolog 4.5 außerdem Kodierungen für rein geographisch bestimmte Dialekträume, die by default den alpinen Dialektformen zugeordnet werden:
Zwischen morpho-lexikalischen Typen können zwei unterschiedliche historische Relationen bestehen: Vererbung aus älteren auf jüngere Sprachstufen innerhalb einer Sprachfamilie (z.B. Latein → Romanisch) und Entlehnung zwischen den drei Sprachfamilien (Romanisch ↔ Germanisch, Romanisch ↔ Slawisch, Germanisch ↔ Slawisch).
Diese beiden Relationen werden ebenfalls über Wikidata properties ontologisiert. Dafür steht die Property derived from lexeme (P5191) zur Verfügung, deren Typ durch mode of derivation (P5886) entweder mit inheritance (Q56611986) oder linguistic borrowing (Q31094516) genauer spezifiziert werden kann.