Čeprav so na razpolago mnogi relevantni jezikovni podatki za stvarna področja VerbeAlpine (predvsem v atlasih in slovarjih), je predvideno zbiranje novih podatkov. Tako naj bi se (1) izravnale nekonsistentnosti med viri, ki so že na razpolago, (2) odpravile vrzeli oz. nenatančnosti, (3) tradicionalna poimenovanja oz. naprave pa naj bi se označili kot taki. Vendar se nove ankete ne izvajajo s klasičnimi postopki terenskih raziskav, ampak s sredstvi, ki nam jih v tem času dajejo na razpolago družbeni mediji. Ustrezni postopki so pogosto poimenovani crowdsourcing.
"Crowdsourcing je interaktivna oblika zagotavljanja storitev, ki je organizirana sodelovalno ali tekmovalno in vključuje veliko število zunanje ali notranje motiviranih akterjev različnih stopenj znanja, ki uporabljajo sodobne sisteme IKT na podlagi spleta 2.0." (Martin/Lessmann/Voß 2008).
Referenca na crowd je v mnogih pogledih nejasna, ne nazadnje zato, ker jo mnogi povezujejo s poljubnostjo, amaterskostjo in pomanjkljivo zanesljivostjo; pomisleki niso brez osnove, ker ustrezni postopki v resnici posvečajo pozornost nedoločni in anonimni množici morebitnih interesentov. Osnovne težave se kažejo tako na strani znanstvenega projektnega ponudnika kot na strani projektnega naslovnika (ki je lahko laik, ni pa nujno): ponudba mora biti v zadostni meri »vidna« in atraktivna in naslovnik mora biti v zadostni meri kompetenten tako jezikovno kot glede poznavanja predmetnosti. V tem primeru so na razpolago različne strategije. Tako se da poskusiti zasidrati privlačnost ponudbe v zabavnosti in razviti igrive načine, kot poskušajo v projektnem združenju play4science; po tamkajšnjih izkušnjah pa se zdi informatorjem, to je v tukajšnjem primeru govorcem, obetavneje sporočiti, da še naprej čisto naravnost pomagajo s svojim jezikovnim znanjem in poznavanjem predmetnosti (prim. seznam projektov citizen science). Kompetenco se da preveriti s ciljanimi preizkusi vednosti, nedvomno pa je bolj zanesljivo dobljene podatke potrditi in preveriti z drugimi govorci iz istih krajev. Uspešen pilotni projekt o geolingvistični uporabi crowdsourcinga je Atlas nemškega vsakdanjega jezika (AdA) Stephana Elspaßa in Roberta Möllerja; predstavlja pomemben mejnik na poti k digitalni geolingvistiki.

VerbaAlpina se ukvarja predvsem s transkribiranjem podatkov iz tiskanih virov, kot so predvsem jezikovni atlasi in slovarji, in njihovim strukturiranim zapisovanjem v podatkovno zbirko, preverjanjem pravilnosti obstoječih transkripcij ali celo tipiziranjem že transkribiranega gradiva in pripisovanjem leksikalnim lemam. Dobrodošli so tudi komentarji, npr. o izvoru in razširjenosti besed ali besednih tipov. Zelo zanimivo je tudi aktualno jezikovno gradivo, ki ni dokumentirano v objavljenih virih, kot so zgoraj omenjeni jezikovni atlasi in slovarji. Kdor torej pozna narečje, ki se govori na območju Alp, je vabljen, da v podatkovno zbirko VerbaAlpina vnese posebne izraze tega narečja. Na ta način je mogoče v tiskanih virih najprej obogatiti zalogo podatkov, nato pa na primer prepoznati in opazovati dinamične procese jezikovnih sprememb. To deluje še bolje, če pri projektu na ta način sodeluje več ljudi. – Poleg tega so dobrodošle fotografije predmetov, značilnih za Alpe, pa tudi alpskih pašnikov, koč, flore, favne, gora in krajinskih oblik z njihovimi oznakami. Lahko se jih shrani v medijsko knjižnico.

Vzporedno z usmerjenim sodelovanjem z VerbaAlpino ima vsak uporabnik možnost, da v našem sistemu vzpostavi lastno raziskovalno okolje, ki se lahko uporablja za zbiranje predvsem jezikovnih podatkov, vsekakor pa tudi drugih podatkov. Edini pogoj je, da jih je mogoče georeferencirati. Te podatke lahko hrani pod zaklepom, tako rekoč izključno za osebno uporabo, ali pa omogoči dostop drugim uporabnikom, da jih lahko objavijo za razprave in komentarje. Možnosti podatkovnih zbirk in omrežnih tehnologij se lahko v celoti razvijejo le, če je čim več podatkov na voljo širši javnosti.

VerbaAlpina dokumentira vitalnost orodja crowdsourcing na posebni pregledni strani. Izkušnje z orodjem za množično zbiranje podatkov VerbaAlpina, ki se uporablja že več kot dve leti, so pokazale, da je uspešna uporaba takega orodja na splošno in ključno odvisna od spremljajočih ukrepov za obveščanje javnosti. Aktivnost množice se poveča vsakič, ko je javnost seznanjena z crowdsourcingom VA.

Poleg modula crowdsourcing, ki je bil razvit v VerbaAlpininem okolju WordPress, VerbaAlpina uporablja tudi platformo Zooniverse, t. i. portal za državljansko znanost, ki vključuje prostovoljce na spletu, da opravijo določene naloge za VerbaAlpino. Orodje Zooniverse, ki ga je razvil projekt VerbaAlpina, je na voljo na https://www.zooniverse.org/projects/filip-hr/verbaalpina/classify. Prvotna ideja je bila, da bi za razvoj orodja za množično financiranje uporabili programsko opremo, ki jo je brezplačno ponudila organizacija Zooniverse, in tako prihranili na delu in času, ki bi ga zahteval lasten razvoj. Dodatna motivacija je bilo upanje, da bi izkoristili obstoječo veliko skupnost prostovoljcev na portalu Zooniverse, da bi dosegli čim več " crowderjev" in tako dosegli kvantitativno velik učinek.

Na začetku je bilo načrtovano, da bodo crowderji v prvi fazi AIS prepisovali zapise na zemljevidih v jezikovnih atlasih. V procesu razvoja, ki ga je večinoma opravil Filip Hristov, pa se je izkazalo, da prvotna pričakovanja v zvezi z Zooniverse niso bila izpolnjena v več pogledih. Samo uporaba konstrukcijskega kompleta programske opreme Zooniverse se je izkazala za veliko bolj zapleteno, kot je bilo pričakovano. Poleg tega so pri projektu sodelovali tudi moderatorji Zooniverse, ki so večkrat zahtevali spremembe koncepta in izvedbe, preden je bilo orodje 31. marca 2021 končno predstavljeno kot uradni projekt Zooniverse.

Že v razvojni fazi so se pojavili pomisleki, ali bi transkripcijo, ki je precej zapletena, lahko opravili laiki, predvsem pri vnosih v AIS, ki so precej zapleteni. To je privedlo do odločitve, da spremenimo nalogo "crowderjev". Prepisovanje podatkov iz atlasa je bilo zmanjšano na neobvezno storitev. V ospredju je bilo ročno enostavno pripisovanje pisnih jezikovnih podatkov na zemljevidih atlasa številkam raziskovalnih točk, ki so bile prav tako vnesene na zemljevid in ki v vsakem primeru pomenijo informatorja, od katerega izvira ustrezen izrek. "Crowderji" morajo besedilo na spletnem zemljevidu obkrožiti s pravokotnikom in ga nato povezati s pravilno številko informatorja. Koordinate pravokotnikov se na koncu prenesejo v podatkovno zbirko VerbaAlpine. Omogočajo samodejno izrezovanje ustrezne slikovne vsebine iz slike zemljevida in njen prenos v program OCR.



Zooniverse: Orodje za množično zbiranje podatkov VerbaAlpine. Uporabniki naj vnose na zemljevidu atlasa obkrožijo s pravokotnikom in besedilo dodelijo ustrezni številki informatorja.

Dejanski problem pri uporabi OCR za branje zemljevidov iz jezikovnih atlasov je v bistvu to, kako natančno dodeliti zapise številkam informatorjev na zemljevidu, saj je mreža številk včasih zelo ozka, besedilo pa je lahko na nepredvidljivem mestu (desno, levo, zgoraj, spodaj itd.) poleg številke.



Del zemljevida AIS 1218 ("il siero del formaggio; il siero della ricotta")

V preteklosti je bila rešitev tega problema že iskana v okviru magistrske naloge na Inštitutu za informatiko na LMU (vodja: prof. Kranzlmüller), med drugim z uporabo metod umetne inteligence (Nguyen). Čeprav je bilo mogoče pridobiti precejšen vpogled v podrobnosti, na koncu prizadevanja niso pripeljala do orodja, ki bi se lahko uporabljalo v praksi.

Za postopek OCR dejanskege transkripcije besedila se lahko na primer uporabi program Abbyy FineReader. V ITG so že pred približno desetimi leti uspešno preizkusili postopke s programom FineReader, ki omogočajo prepisovanje "eksotičnih" pisalnih sistemov v čiste nize znakov ASCII. Ta postopek je podrobno dokumentiran v Lücke/Riepl/Trautmann 2017, str. 125-129.



Dialoško okno programa OCR Abbyy FineReader. Grški črki theta (θ; https://www.fileformat.info/info/unicode/char/03b8/index.htm) je dodeljeno znakovno zaporedje ASCII θ v skladu s standardom HTML. Postopek se lahko 1:1 prenese na kateri koli pisalni sistem, kot je sistem Böhmer-Ascoli, ki se uporablja v AIS. (Slika: Lücke/Riepl/Trautmann 2017, str. 126, slika 39)



Dialoško okno programa OCR Abbyy FineReader. Prenos grškega besedila v entitete HTML (slika: Lücke/Riepl/Trautmann 2017, str. 128, slika 42)

Uporaba opisanega postopka OCR je prav tako povezana s težavami. K temu spada poleg prekrivanja besedila, ki se večkrat pojavi na posebej gosto opisanih zemljevidih (glej zgornji primer), predvsem v AIS ohranjena praksa nadomeščanja ponavljajočih se delov besed s tildami (~) ali pomišljaji (-). Ustrezen primer je prikazan na zgornji sliki orodja: Množina e(r s?u:/me(z?e( je zapisana kot e(r -z?e(. V takih primerih je potrebna ročna naknadna obdelava. Vendar pa obstaja upanje, da bo avtomatizirani postopek OCR na splošno zmanjšal količino dela, potrebnega za pripravo transkripcij.

Po uvedbi modula VerbaAlpina Zooniverse konec marca 2021 se je končno izkazalo, da so se tudi prostovoljci na internetu v presenetljivem obsegu lotili transkripcije gesel iz atlasa – čeprav je ta naloga jasno označena kot neobvezna. S tem je VerbaAlpina dobila precejšnje število vprašanj o težavah pri transkripciji. To pa je povzročilo delovno obremenitev na projektni strani, ki ni bila pričakovana v tolikšni meri, zaradi česar je bilo treba ponovno prilagoditi naloge za crowderje.