"What is matter? – Never mind. What is mind? – No matter". Ta bonmot iz britanske revije Punch od 14. julija 1855ironizira temeljna vprašanja poddiscipline filozofije, ki se imenuje ontologija, in sicer vprašanja o kategorijah, na katere je mogoče razdeliti bivanje (gr. τὸ ὄν 'resničnost'). Ta izraz je torej del častitljive filozofske tradicije. Že dobrih 20 let dobiva nov in energičen zagon v povezavi z razvojem od semantic web (prim. ustrezen članek v Wikipediji Ontologija). Medtem se pobude označujejo kot 'ontološke', saj delim sveta dodeljujejo edinstvene digitalne predstavitve, da bi jih bilo mogoče praktično identificirati in povezati. Vendar sta ti dve funkciji različno dobro razviti. Medtem ko identifikacija z nenehnim širjenjem različnih vrst standardni podatki dobro napreduje, je veliko zahtevnejše povezovanje identificiranih enot v geolingvistiki, kot tudi v jezikoslovju nasploh, v najboljšem primeru na začetku. Kot je pojasnjeno v standardni podatki, VA razlikuje lastne identifikatorje za podatkovne kategorije (entitete) 'občina' (1), 'koncept' (2) in 'morfoleksikalni tip' (3). Dve od teh treh kategorij, in sicer občine in koncepti, sta bili povezani s splošno sprejetimi zunanjimi identifikatorji projekta in sta zato primerni za takojšnje odprtje širokega interoperabilnega obzorja.
(1) Občine
V primeru občin je bila vključena storitev geonames, ki zagotavlja osnovne informacije o posameznih občinah in povezavo do ustreznih člankov v Wikipediji, kot je prikazano na naslednjem zemljevidu na primeru občine Soglio (VA-ID: A60173):
(2) Koncepti
V primeru konceptov so identifikatorji VA povezani z ustreznimi identifikatorji projekta Wikidata (QID). Vsak Wikidata ID je prek 'properties' povezan z drugimi identifikatorji projekta Wikidata v obliki trojic, tako imenovanih statementov. Tako v VA obstaja koncept SÜSSMOLKE (VA-ID = C237), ki je v Wikidata vpisan z QID Q185009 in je povezan z drugimi koncepti prek sledečih statementov:
V formalizirani obliki (s pomočjo rdf in OWL) najdejo te trojice in z njimi pojmi VA pot v semantic web. Vendar se mora VA odpovedati sistematičnemu preverjanju in dopolnjevanju teh eksternih Wikidata statementov.
(3) Morfoleksikalni tipi
Manj samoumevna je tudi povezava dokumentiranih jezikovnih podatkov s standardnimi podatki. Načeloma se načrtuje njihova vključitev v leksikografske podatke projekta Wikidata; s tem dobijo poleg notranjega identifikatorja VA tudi LID Wikidata in postanejo tudi zunaj projekta referenčni in povezljivi kot leksikografski objekt ali leksem. Podatkovni model leksemov Wikidata vsebuje tudi informacije o posamezni besedni vrsti ter sezname ustreznih oblik in pomenov. Težava pa se pojavlja pri določanju ustreznih jezikovnih imen. Obstajajo sicer splošno uveljavljene jezikovne kode, kot so predvsem ISO-639-2, ISO_639-1, ISO_639-5 ali ISO_639-3, ki so obsežne narave in zajemajo tudi narečja – ali natančneje: jezike, ki so običajno obravnavani kot narečja:
"Whereas ISO 639-1 and ISO 639-2 are intended to focus on the major languages of the world that are most frequently represented in the total body of the world's literature, ISO 639-3:2007 attempts to provide as complete an enumeration of languages as possible, including living, extinct, ancient and constructed languages, whether major or minor, written or unwritten. As a result, ISO 639-3:2007 deals with a very large number of lesser-known languages.
(vir)
V primeru VA gre brez izjeme za dialektalne podatke, ki so po eni strani natančno georeferencirani po občinah na raziskovalnem območju in tako jasno pripisani lokalnim narečjem, po drugi strani pa se izmikajo enoznačni, selektivni kategorizaciji v smislu medlokalnih, regionalnih narečij ('piemontski', 'lombardski' itd.). Tovrstne klasifikacije je v osnovi treba obravnavati kot bolj ali manj dvomljive rezultate akademske dialektologije in pogosto ne najdejo ustreznika v znanju samih govorcev; celo stroka od Ascoli 1873 na mnogih področjih govori o 'prehodnih območjih' oz. v ita.anfizone (prim. Petracco Sicardi/Anzaretti 1989). Na podlagi tega se je projekt VA odločil za drugačno pot, ki je precej prepričljivo razvidna iz organizacije jezikovnih podatkov, zlasti iz tipizacija. 'Morfoleksikalni tip' je etimološko in morfološko opredeljen, ne pa tudi fonetično; tako obsega spremenljivo množico bolj ali manj različnih fonetičnih (in grafičnih) variant. Vse različice so dokumentirane na interaktivnem zemljevidu VA.
Tako so npr.
izbrane različice za poimenovanja koncepta VODA, ki izvirajo iz latinskega aqua(m). Teh različic pa ni mogoče priklicati posamično v iskalnih filtrih interaktivnega zemljevida, temveč je vsaka vrsta, tj. vsaka skupina med seboj povezanih različic, v filtru predstavljena z eno samo varianto; te reprezentativne variante, nominalne oblike ali vodilne oblike morfoleksikalnih tipov, tako rekoč ustrezajo – če je mogoče – 'velikima' standardnima jezikoma francoščini in italijanščini. V navedenem primeru sta to fra.eau in ita.acqua 'voda'; ti vodilni obliki sta povezani z referenčnimi slovarji. Če niti standardna francoščina ne standardna italijanščina ne zagotavljata takšnih vodilnih oblik, to funkcijo prevzame druga različica, ki je – če je mogoče – povezana tudi z velikim referenčnim slovarjem (npr. z DRG, GPSR, VSI i. dr.). Le v redkih primerih, ko tudi to ni mogoče, VA izbere vodilno obliko, ki ni leksikografsko zavarovana z referenčnim slovarjem. Vodilne oblike so povezane z jezikovno kodo, ki zelo pogosto izrecno izhaja iz naslova referenčnega slovarja, kot v primeru Trésor de la langue française (TLFi), kjer je francoski jezik izrecno naveden kot vsebina tezaurusa (fra.trésor).
Vse lokalne različice se lahko nato dodelijo ustrezni vodilni obliki s pomočjo ustrezne property, kot je alternative form(P8530), in geografsko določijo s pomočjo property located in the administrative territorial entity (P131). Vodilna oblika v svetu Wikidata ustreza leksemu, medtem ko ji lahko vse lokalne različice pripišemo kot oblike. Oblike so lokalizirane z property variety of form (P7481) in z Qualifier-Propertysubject sense (P6072) dodeljene enemu ali več pomenom leksema s kvalifikatorsko lastnostjo predmetni pomen, tako da so osnovne informacije v celoti prikazane. Pri tem je variety of form bolj začasna rešitev, saj je dejansko namenjena dodeljevanju regionalnega narečnega imena (npr. 'bavarsko') (prim. tukaj) in ne natančni georeferencirani lokalizaciji. Geografska dodelitev oblike je v koncepciji podatkovnega modela leksema omenjena pod imenom used in region, toda trenutno takšne property ne obstaja. Obstoječa lastnost located in the administrative territorial entity (P131) se lahko uporablja samo za itemse od Wikidata in ne za lekseme. Neodvisno od specifičnih jezikovnih ali narečnih imen zagotavlja Glottolog 4.5 tudi kodiranja za izključno geografsko določene dialektalne prostore, ki so by default dodeljeni alpskim narečnim oblikam:
Med morfoleksikalnimi tipi lahko obstajata dve različni zgodovinski relaciji: Med morfoleksikalnimi tipi lahko obstajata dve različni zgodovinski relaciji: Dedovanje od starejše k mlajši jezikovni stopnji znotraj jezikovne družine (npr. latinščina → romanščina) in izposojanje med tremi jezikovnimi družinami (romanščina ↔ germanščina, romanščina ↔ slovanščina, germanščina ↔ slovanščina). Te dve relaciji sta ontologizirani tudi prek Wikidata properties. Zato je na razpolago property derived from lexeme (P5191), od katere tip je s pomočjo mode of derivation (P5886) ali z inheritance (Q56611986) ali pa z linguistic borrowing (Q31094516) natančnjeje določljiv.
Hammarström, Harald & Forkel, Robert & Haspelmath, Martin & Bank, Sebastian. (2021): Glottolog 4.5, Leipzig, Max Planck Institute for Evolutionary Anthropology