"What is matter ? – Never mind. What is mind ? – No matter.”, ce mot d’esprit tiré du magazine britannique Punch du 14 juillet 1855 ironise des questions fondamentales d’une sous-discipline de la philosophie qui se nomme l'ontologie, notamment les questions sur les catégories dans lesquelles l’être (gr. τὸ ὄν 'la vérité') peut être classé. Le terme fait donc partie d’une vénérable tradition de la philosophie. Depuis bien 20 ans, il revit une seconde jeunesse énergique avec le développement du semantic web (cf. vers l’article correspondant de Wikipedia Ontologie). Désormais, sont qualifiées d’”onthologiques” les initiatives qui attribuent des représentations digitales claires à des échantillons du monde pour les rendre identifiables et connectables virtuellement. Cependant, ces deux fonctions n’ont pas le même grade de développement. Tandis que l’identification, de par le développement continu de notices d'autorité avance bien, la connexion, bien plus exigeante, des unités identifiées dans la géolinguistique, tout comme dans la linguistique en est à ses balbutiements.
Comme expliqué dans l’article sur les notices d'autorité, VA différencie entre ses propres identificateurs pour les catégories de données (entités) “commune” (1), “concept” (2) et “type morpho-lexical”(3). Deux des trois catégories, à savoir les communes et les concepts ont été connectés à des identificateurs largement admis et externes au projet et sont ainsi adaptés pour aussitôt ouvrir un large horizon interopérable.

(1) Les communes

Dans le cas des communes, le service geonames qui donne des informations basiques sur chaque commune, ainsi qu’un lien vers l’article Wikipédia correspondant, a été intégré, comme le montre la carte suivant à l’aide de l’exemple de Soglio (VA-ID: A60173):


(2) Les concepts

Dans le cas des concepts, les identificateurs de VA sont connectés aux indentificateurs correspondants du projet Wikidata (QIDs). Chaque identificateur de Wikidata Wikidata est associé sous forme de triples, d’ainsi-nommés statements, avec les autres identificateurs du projet Wikidata via les ‘properties’. Ainsi, il existe dans VA le concept SÜSSMOLKE (VA-ID = C237), dirigé par le QID Q185009 Wikidata et qui est associé à d’autres concepts à travers les statements suivants :
Statements du Wikidata pour le concept PETIT-LAIT (eng. whey)
item property item
whey Q185009 instance of P:31 chemical substance Q79529
food ingredient Q25403900
part of P527 milk Q8495
has part or parts P527 whey protein Q424430
Dans leur forme formalisée (à l'aide de rdf et OWL), fces triples et avec eux les concepts de VA entrent dans le semantic web. Cependant, VA doit renoncer à systématiquement contrôler et compléter ces statements Wikidata externes.

(3) Les types morpho-lexicaux

Il est encore moins évident d’associer les données linguistiques documentées avec les notices d’autorité. De manière générale, il est prévu de les intégrer dans les données lexicographiques du projet Wikidata. Ainsi, elles obtiennent en plus de l’identificateur interne de VA un LID Wikidata et deviennent également référençables et connectables à l’extérieur du projet en tant qu’objet lexicographique ou lexème. Le modèle de données des lexèmes Wikidata contient également des informations sur le type de mot respectif, ainsi que des listes des formes et significations connexes. Une difficulté consiste toutefois à attribuer des noms de langue appropriés. Certes, il existe des codes de langues désormais bien établis, en particulier ISO-639-2, ISO_639-1, ISO_639-5 ou ISO_639-3, qui ont été créés de manière exhaustive et qui collecte aussi les dialectes, ou plus précisément les langues, qui étaient traditionnellement considérées comme des dialectes :

"Whereas ISO 639-1 and ISO 639-2 are intended to focus on the major languages of the world that are most frequently represented in the total body of the world's literature, ISO 639-3:2007 attempts to provide as complete an enumeration of languages as possible, including living, extinct, ancient and constructed languages, whether major or minor, written or unwritten. As a result, ISO 639-3:2007 deals with a very large number of lesser-known languages." (Source)


Dans le cas de VA, il s’agit sans exception de données dialectales, qui sont d’une part géoréférencées de manière exacte dans les communes de la zone d’étude et à cet égard clairement associées aux dialectes locaux, mais qui d’autre part échappent à une catégorisation claire et radicale dans le sens de dialectes qui dépassent les communes, de dialectes régionaux (‘piémontais’, ‘lombard’). Pareilles classifications doivent plus ou moins être considérées comme le résultat discutable de la dialectologie académique et ne trouvent souvent aucun corrélat avec les connaissances de la langue même. Même le monde académique parle depuis Ascoli 1873 dans beaucoup de territoires de “zones de transition’, ou en ita. de anfizone (cf. Petracco Sicardi/Anzaretti 1989). A cet égard VA s’est décidée pour un autre chemin qui découle de manière concluante de l’organisation des données linguistiques, en particulier de la réduction à types. Un ‘type morpho-lexical’ est défini sur le plan étymologique et morphologique, mais pas phonétique ; il couvre donc une quantité variable de variantes phonétiques (et graphiques) plus ou moins différentes. Toutes les variantes sont documentées par VA sur la carte interactive. Par exemple,
sont des variantes sélectionnées pour le concept EAU, dont l’origine remonte au lat. aqua(m). Les variantes ne peuvent cependant pas être individuellement consultées dans les filtres de recherche de la carte interactive, mais c’est plutôt chaque type, c’est-à-dire chaque groupe de variantes apparentées, qui est représenté dans le filtre par une seule variante. Ces variantes représentatives, pour ainsi dire les formes nominales ou directrices des types morpho-lexicaux, correspondent, quand c’est possible, aux “grosses” langues standards, le français et l’italien. Dans l’exemple ci-dessus, ce sont les formes fra. eau et ita. acqua 'eau', qui sont liées aux dictionnaires de référence. Dans le cas où le français ou l’italien ne fourniraient pas de pareilles formes directrices, cette fonction est assurée par une autre variante, qui – lorsque c’est possible – est également liée à un gros dictionnaire de référence (par exemple au DRG, au GPSR, ou au VSI entre autres). Seulement dans le rare cas où ce n’est pas non plus possible, VA choisit une forme directrice qui n’est pas soutenue de manière lexicographique dans un dictionnaire de référence. Les formes directrices sont associées à un code langagier, qui résulte souvent du titre du dictionnaire de référence : comme par exemple dans le cas du Trésor de la langue française (TLFi), où la langue française est explicitement nommée comme contenu du thésaurus (fra. trésor).

Toutes les variantes locales peuvent être associées à leur forme directrice grâce à une property appropriée, comme par exemple en étant associée à alternative form (P8530) zet géoréférencée via la property located in the administrative territorial entity (P131).
La forme directrice correspond, dans le monde du Wikidata, à un lexème, tandis que toutes les variantes locales sont classées comme des formes e celle-ci. Ces formes sont localisées à l’aide de la property variety of form (P7481) et sont assignées à une ou plusieurs significations du lexème avec la Qualifier-Property subject sense (P6072), afin que les informations principales soient complètes. A ce titre, variety of form constitue plutôt une solution d’urgence, puisque celle-ci a en réalité été conçue pour pour classer un nom de dialecte régional (par exemple ‘bavarois’) (cf.ici) et non pas pour faire des localisations géoréférencées exactes. Certes, une classification géographique d’une forme est mentionnée sous le nom de used in region dans la conception du modèle de données de lexèmes, mais une telle Property n’est actuellement pas disponible. La property existante located in the administrative territorial entity (P131) ne peut être utilisée que pour des éléments Wikidata et non pas pour des lexèmes.
Indépendamment de noms de langues ou dialectes spécifiques, Glottolog 4.5 offre des encodages pour des zones dialectales purement géographiques, qui sont classifiées en tant que des formes de dialectes alpins par défaut :

Parmi les types morpho-lexicaux, il peut y avoir deux relations historiques différentes : l’héritage de niveaux linguistiques plus anciens vers des niveaux plus récents au sein d'une famille linguistique (par exemple latin → roman)et les emprunts entre les trois familles linguistiques (roman ↔ germanique, roman ↔ slave, germanique ↔ slave).
Ces deux relations sont également ontologisées via les properties Wikidata. Pour cela, la property derived from lexeme (P5191) est disponible, et son type peut être défini plus précisément via mode of derivation (P5886) avec soit inheritance (Q56611986) ou linguistic borrowing (Q31094516).