"What is matter? – Never mind. What is mind? – No matter". Questa battuta, tratta dalla rivista britannica Punch dal 14. luglio 1855, ironizza su questioni fondamentali di una sottodisciplina della filosofia chiamata ontologia, cioè le domande sulle categorie in cui l'essere (gr. τὸ ὄν "la realtà') può essere suddiviso. L'espressione fa quindi parte di una tradizione filosofica venerabile. Da più di 20 anni, l'espressione è stato riportato in una nuova ed energica vita in relazione allo sviluppo del web semantico (cfr. la voce corrispondente su Wikipedia Ontologie). Nel frattempo, le iniziative vengono definite "ontologiche", assegnando rappresentazioni digitali uniche a sezioni del mondo per renderle virtualmente identificabili e collegabili. Tuttavia, queste due funzioni sono diversamente sviluppate riguardando la loro qualità. Mentre l'identificazione procede bene grazie alla continua espansione di diversi tipi di dati normativi, il collegamento molto più impegnativo delle unità identificate nella geolinguistica, come nella linguistica in generale, è al massimo agli inizi. Come spiegato in Controllo di autorità, VA distingue i propri identificatori per le categorie di dati (entità) "comuni" (1), "concetto" (2) e "tipo morfo-lessicale" (3). Due delle tre categorie, ossia i comuni ed i concetti, sono state collegate a identificatori esterni al progetto ampiamente accettati e sono quindi adatte ad aprire immediatamente un ampio orizzonte di interoperabilità.

(1) Comuni

Nel caso dei comuni, è stato integrato il servizio geonames che fornisce informazioni di base sui singoli comuni e un link ai rispettivi articoli di Wikipedia, come mostra la seguente mappa con l'esempio di Soglio (VA-ID: A60173):


(2) Concetti

Nel caso dei concetti, gli identificatori di VA sono collegati ai corrispondenti identificatori del progetto Wikidata (QIDs). Ogni ID di Wikidata è collegato ad altri ID del progetto Wikidata sotto forma di triple, le cosiddette dichiarazioni, tramite "proprietà". Così, in VA esiste il concetto SÜSSMOLKE (VA-ID = C237), che è elencato in Wikidata con il QID Q185009 ed è collegato ad altri concetti tramite le seguenti affermazioni:
Wikidata Statements zum Konzept MOLKE (eng. whey)
item property item
whey Q185009 instance of P:31 chemical substance Q79529
food ingredient Q25403900
part of P527 milk Q8495
has part or parts P527 whey protein Q424430
In maniera formalizzata (tramite rdf e OWL), queste triple e con esse i concetti di VA trovano spazio nel web semantico. Tuttavia, VA deve astenersi da controllare e completare sistematicamente queste dichiarazioni Wikidata esterne al progetto.

(3) Tipi morfo-lessicali

È anche meno ovvio collegare i dati linguistici documentati con i dati standard. In linea di principio, si prevede di integrarli nei dati lessicografici del progetto Wikidata; Questo conferisce loro un LID di Wikidata oltre all'identificatore interno di VA e li rende sia referenziabili che collegabili come oggetto lessicografico, o lessema, al di fuori del progetto. Il modello di dati dei lessemi Wikidata contiene anche informazioni sul rispettivo tipo di parola, nonché elenchi delle forme e dei significati associati. Una difficoltà, tuttavia, rappresenta l'assegnazione di nomi linguistici appropriati. In genere esistono codici linguistici consolidati, come soprattutto ISO-639-2, ISO_639-1, ISO_639-5 oppure ISO_639-3, che sono esaustivi e coprono anche i dialetti, o meglio le lingue che convenzionalmente vengono considerate dialetti:

"Whereas ISO 639-1 and ISO 639-2 are intended to focus on the major languages of the world that are most frequently represented in the total body of the world's literature, ISO 639-3:2007 attempts to provide as complete an enumeration of languages as possible, including living, extinct, ancient and constructed languages, whether major or minor, written or unwritten. As a result, ISO 639-3:2007 deals with a very large number of lesser-known languages."
(Fonte)

Nel caso di VA, si tratta senza eccezioni di dati dialettali che, da un lato, sono precisamente georeferenziati nei comuni dell'area di studio e quindi chiaramente assegnati ai dialetti locali, ma che, dall'altro, sfuggono a una categorizzazione univoca e selettiva nel senso di dialetti regionali inter-locali ("piemontese", "lombardo", ecc.). Tali classificazioni sono fondamentalmente da considerarsi come risultati più o meno discutibili della dialettologia accademica e spesso non trovano alcun correlato nelle conoscenze dei parlanti stessi; anche la scienza, a partire dalla Ascoli 1873, parla in molte aree di "aree di transizione" o in ita. di anfizone (cfr. Petracco Sicardi/Anzaretti 1989). In questo contesto, VA ha optato per una strada diversa, che deriva in modo abbastanza evidente dall'organizzazione dei dati linguistici, in particolare dalla tipizzazione. Un "tipo morfo-lessicale" è definito etimologicamente e morfologicamente, ma non foneticamente; comprende quindi un insieme variabile di varianti fonetiche (e grafiche) più o meno diverse. Tutte le varianti sono documentate nella mappa interattiva di VA. Per esempio,
sono arianti selezionate per le denominazioni del concetto ACQUA, che risalgono al latino aqua(m). Tuttavia, le varianti non possono essere richiamate singolarmente nei filtri di ricerca della mappa interattiva, ma ogni tipo, cioè ogni gruppo di varianti correlate, è rappresentato nel filtro da una singola variante; Queste varianti rappresentative, le forme nominali o le forme guida dei tipi morfo-lessicali, per così dire, corrispondono – se possibile – alle "grandi" lingue standard francese e italiano. Nell'esempio riportato, si tratta del francese eau e dell'italiano acqua; queste forme principali sono collegate ai dizionari di riferimento. Se né il francese standard né l'italiano standard forniscono tali forme di conduzione, questa funzione viene assunta da un'altra variante che, se possibile, è anche collegata ad un importante dizionario di riferimento (p. es. con il DRG, il GPSR, il VSI ed altri). Solo nel raro caso che anche questo non è possibile, VA sceglie una forma principale che non è assicurata lessicograficamente tramite un dizionario di riferimento. Le forme principali sono legate a un codice linguistico che molto spesso è esplicitato dal titolo del dizionario di riferimento, come nel caso delTrésor de la langue française (TLFi), dove la lingua francese è esplicitamente indicata come contenuto del tesoro (fra. trésor).

Tutte le varianti locali possono quindi essere assegnate alla rispettiva forma principale tramite una proprietà adeguata, come p. es. alternative form (P8530), e georeferenziate tramite la proprietà located in the administrative territorial entity (P131).
La forma principale corrisponde a un lessema nel mondo Wikidata, mentre tutte le varianti locali possono essere assegnate ad esso come forme. Le forme sono localizzate con la proprietà variety of form (P7481) e assegnate a uno o più significati del lessema con la proprietà qualificatore Qualifier-Property subject sense (P6072), in modo che l'informazione di base sia completamente mappata. Pertanto, la varietà di forma è piuttosto una soluzione di ripiego, in quanto si intende assegnare un nome dialettale regionale (p. es. "bavarese") (cfr. hier) e non a una localizzazione esatta e georeferenziata. L'assegnazione geografica di una forma è menzionata nel concetto del modello di dati del lessema con il nome di used in region, ma al momento tale proprietà non esiste. La proprietà esistente located in the administrative territorial entity (P131) può essere usata solo per le voci di Wikidata e non per i lessemi.
Indipendentemente da nomi specifici di lingue o dialetti, Glottolog 4.5 fornisce anche codifiche per spazi dialettali puramente geografici che sono assegnati by default alle forme dialettali alpine:
Tra i tipi morfo-lessicali possono esistere due diverse relazioni storiche: L'ereditarietà dai livelli linguistici più antichi a quelli più giovani all'interno di una famiglia linguistica (ad esempio, latino → romancio) e il prestito tra le tre famiglie linguistiche (romancio ↔ germanico, romancio ↔ slavo, germanico ↔ slavo).
Queste due relazioni sono anche ontologizzate tramite le proprietà di Wikidata. A questo scopo, è disponibile la proprietà derived from lexeme (P5191), il cui tipo può essere specificato più precisamente in base al mode of derivation (P5886) o con inheritance (Q56611986) o con linguistic borrowing (Q31094516).