Même si beaucoup de données linguistiques concernant les domaines d'enquête de VerbaAlpina sont déjà disponibles (en particulier dans les atlas et les dictionnaires), il est prévu de relever de nouvelles données. Ainsi il sera possible de (1) niveler les inconsistances entre les sources déjà existantes, (2) écarter lacunes et imprécisions et (3) signaler les dénominations ou les ustensiles transmis de génération en génération. Les nouvelles enquêtes ne seront pas faites en utilisant la méthode classique de l'analyse scientifique sur place, mais avec les moyens qui nous sont offerts par les médias sociaux. De telles procédures sont souvent regroupées sous l'expression crowdsourcing.
"Le crowdsourcing est une forme interactive de prestation de services, organisée de manière collaborative ou compétitive, qui implique un grand nombre d'acteurs motivés de manière extrinsèque ou intrinsèque possédant des niveaux de connaissances différents, en utilisant des systèmes TIC modernes basés sur le Web 2.0." (Martin/Lessmann/Voß 2008).
Le renvoi à la crowd est ambigu sous beaucoup d'aspects, la crowd étant associée par beaucoup de gens au choix arbitraire, à l'absence de professionnalisme et à la fiabilité insuffisante; cette méfiance n'est pas complètement injustifiée, de telles méthodes s'adressent effectivement à une foule indéfinie et anonyme de personnes potentiellement intéressées. Des problèmes notables apparaissent non seulement pour les responsables du projet scientifique, mais aussi pour les destinataires (profanes ou non) : l'offre doit être suffisamment 'visible' et intéressante, et le destinataire doit avoir une compétence pratique et linguistique suffisante. Il y a des stratégies différentes pour gérer ces défis. On peut essayer de rendre l'offre attrayante via des aspects ludiques, en concevant une interface web qui ressemble à un jeu. Le groupement de projet play4science a expérimenté de pareilles offres. Après ces expériences, pourtant, il semble plus prometteur de faire comprendre à l'informateur, dans le cas de VerbaAlpina au locuteur, qu'il peut contribuer essentiellement et directement à la recherche par son savoir spécifique et linguistique personnel (cf. la liste des projets citizen science). La compétence des informateurs peut être évaluée par des questions de savoir spécifiques, mais il est sans doute plus digne de foi de se faire confirmer et valider les données fournies par d'autres locuteurs des mêmes localités. Un exemple de projet pilote fructueux sur l'utilisation géopolitique du crowdsourcing est l'atlas de la langue quotidienne allemande (Atlas zur deutschen Alltagssprache) (AdA) de Stephan Elspaß et de Robert Möller. Il marque une étape importante sur le chemin de la géolinguistique numérique.

Dans VerbaAlpina, il s'agit concrètement de transcrire des données issues de sources imprimées, comme principalement des atlas linguistiques et des dictionnaires, et de les saisir de manière structurée dans une base de données, de vérifier l'exactitude des transcriptions existantes ou encore de réduire le matériel déjà transcrit en types et de lui attribuer des lemmes lexicaux. Les commentaires sont également les bienvenus, par exemple sur l'origine et la diffusion des mots ou des types de mots. VerbaAlpina est en outre très intéressé par le matériel linguistique actuel qui n'est pas documenté dans des sources publiées telles que les atlas linguistiques et les dictionnaires mentionnés. Toute personne ayant des connaissances dans un dialecte parlé dans l'espace alpin est donc invitée à saisir des expressions spécifiques de ce dialecte dans la base de données de VerbaAlpina. De cette manière, il est possible dans un premier temps d'enrichir la base de données transmise par les sources imprimées et, par la suite, de reconnaître et d'observer par exemple des processus dynamiques de changement linguistique. Cela fonctionne d'autant mieux que le nombre de personnes qui participent au projet de cette manière est élevé. – En outre, les images d'objets typiques des Alpes, mais aussi d'alpages, de cabanes, de flore, de faune, de montagnes et de formes de paysages, avec leurs dénominations, sont les bienvenues. Elles peuvent être enregistrées dans la médiathèque.

Parallèlement à la collaboration ciblée avec VerbaAlpina, chaque utilisateur a la possibilité de créer son propre environnement de recherche dans notre système, qui peut être utilisé pour la collecte de données principalement linguistiques, mais également pour d'autres données. La seule condition est que ces données soient géoréférençables. Il a la possibilité de garder ces données sous clé, pour ainsi dire exclusivement pour son usage personnel, ou d'en autoriser l'accès à d'autres utilisateurs afin de les soumettre à discussion et de les faire commenter. Ce n'est que si le plus grand nombre possible de données est mis à la disposition du grand public que le potentiel des technologies basées sur les bases de données et les réseaux pourra se développer pleinement.
VerbaAlpina documente la vitalité de l'outil Crowdsourcing sur une page de vue d'ensemble. L'expérience de l'utilisation de l'outil de crowdsourcing de VerbaAlpina, qui dure maintenant depuis plus de deux ans, a montré que le succès de l'utilisation d'un tel outil dépend généralement et de manière décisive des mesures de publicité qui l'accompagnent. L'activité de la plateforme augmente à chaque fois que le crowdsourcing de VA est évoqué en public.

Outre le module de crowdsourcing développé dans l'environnement WordPress de VerbaAlpina, VerbaAlpina utilise également la plateforme de Zooniverse, un portail dit de science citoyenne, pour faire appel à des volontaires sur Internet afin qu'ils effectuent certaines tâches pour VerbaAlpina. L'outil Zooniverse développé par VerbaAlpina est accessible à l'adresse https://www.zooniverse.org/projects/filip-hr/verbaalpina/classify. L'idée initiale était d'utiliser le "kit" logiciel mis gratuitement à disposition par Zooniverse pour développer un outil de crowdsourcing et de faire ainsi l'économie d'un développement interne nécessitant beaucoup de travail et de temps. Une motivation supplémentaire était l'espoir de pouvoir profiter de la grande communauté de volontaires de Zooniverse pour atteindre le plus grand nombre possible de "crowders" et obtenir ainsi un effet quantitatif important.

Dans un premier temps, il avait été prévu de faire réaliser par les crowders des transcriptions d'inscriptions sur des cartes d'atlas linguistiques, dans une première phase du AIS. Au cours du travail de développement, principalement effectué par Filip Hristov, il s'est toutefois avéré que les attentes initiales envers Zooniverse n'ont pas été satisfaites à plusieurs égards. L'utilisation de la boîte à outils de Zooniverse s'est avérée beaucoup plus compliquée que prévu. De plus, les modérateurs de Zooniverse ont exigé à plusieurs reprises des modifications du concept et de la réalisation avant que l'outil ne puisse être officiellement lancé le 31 mars 2021.

Dès la phase de développement, des doutes sont apparus quant à la possibilité pour des non-spécialistes d'effectuer la transcription détaillée, relativement compliquée, des inscriptions, en particulier celles du AIS. Cela a conduit à la décision de modifier la tâche des "crowders". La transcription des données de l'atlas a été reléguée au rang de prestation facultative. En revanche, l'accent a été mis sur l'attribution manuelle facile des preuves linguistiques écrites sur les cartes de l'atlas aux numéros des points d'enquête, également inscrits sur la carte, qui représentent respectivement l'informateur dont provient l'énoncé correspondant. Les "crowders" sont invités à entourer le texte sur la carte en ligne d'un rectangle et à associer ce rectangle au numéro d'informateur correct. Les coordonnées des rectangles sont ensuite intégrées dans la base de données de VerbaAlpina. Grâce à elles, il est possible de découper automatiquement les contenus d'image correspondants de l'image de la carte et de les transmettre ensuite à un programme OCR.



Zooniverse: outil de Crowdsourcing de VerbaAlpina. Les Crowders doivent entourer les entrées sur la carte de l'atlas d'un rectangle et attribuer le texte au numéro d'informateur correct.

En effet, le véritable problème de l'utilisation de l'OCR pour la lecture de cartes issues d'atlas linguistiques réside pour l'essentiel précisément dans la correspondance entre les inscriptions et les numéros d'informateurs sur la carte, car le réseau des numéros est parfois très dense, et le texte peut être positionné à n'importe quel endroit imprévisible (à droite, à gauche, en haut, en bas, etc.) à côté du numéro.



Section de la carte AIS 1218 ("il siero del formaggio; il siero della ricotta")

Dans le passé, une solution à ce problème avait déjà été recherchée dans le cadre d'un travail de master à l'Institut d'informatique de la LMU (directeur : Prof. Kranzlmüller), entre autres en utilisant des méthodes d'IA (Nguyen). Même si des connaissances détaillées tout à fait remarquables ont pu être acquises, ces efforts n'ont finalement pas abouti à un outil utilisable dans la pratique.

Pour la procédure OCR de la transcription de texte proprement dite, on pourrait par exemple utiliser le programme Abbyy FineReader. Il y a une dizaine d'années déjà, l'ITG a testé avec succès des procédures avec FineReader, qui permettent de transcrire des systèmes d'écriture "exotiques" en chaînes de caractères ASCII pures. Le procédé correspondant est documenté en détail dans Lücke/Riepl/Trautmann 2017, p. 125-129.



Boîte de dialogue du programme OCR Abbyy FineReader. Au Theta grec (θ; https://www.fileformat.info/info/unicode/char/03b8/index.htm) est attribué la séquence de signes ASCII conforme HTML θ. La méthode est transposable 1:1 à n'importe quel système d'écriture, comme celui de Böhmer-Ascoli utilisé dans le AIS. (Fig.: Lücke/Riepl/Trautmann 2017, p. 126 fig. 39)



Boîte de dialogue du programme OCR Abbyy FineReader. Transfert d'un texte grec en entités HTML (Fig.: Lücke/Riepl/Trautmann 2017, p. 128 fig. 42)

L'utilisation de la méthode OCR décrite ci-dessus pose également des problèmes. Outre les superpositions de texte, qui se produisent régulièrement sur des cartes particulièrement denses (voir l'exemple ci-dessus), il faut mentionner la pratique de l'AIS consistant à remplacer les parties de mots répétitives par des tildes (~) ou des tirets (-). Un exemple correspondant est présenté dans l'illustration ci-dessus de l'outil : Le pluriel e(r s?u:/me(z?e( est rendu par e(r -z?e(. Dans de tels cas, un post-traitement manuel est nécessaire. On peut toutefois espérer qu'au total, la procédure OCR automatisée permettra de réduire la charge de travail liée à la réalisation des transcriptions.

Après le lancement du module Zooniverse de VerbaAlpina fin mars 2021, il s'est finalement avéré que les volontaires sur Internet se sont également lancés dans la transcription d'entrées d'atlas dans une proportion surprenante – bien que cette tâche soit clairement indiquée comme optionnelle. Il en a résulté un nombre considérable de demandes adressées à VerbaAlpina concernant des problèmes de transcription. Cela a généré une charge de travail inattendue du côté du projet, qui a finalement obligé à réajuster les tâches pour les crowders.