La réduction à types des données géoréférenciées fait partie des exigences fondamentales de VerbaAlpina. Là où c'est possible parmi les données d'entrées étant déjà passées par la retranscription, une première étape de la réduction à types sera l'extraction de tokens ('mots individuels'), ils sont alors inscrits dans la case de base de données du même nom.
Le point de mire de VerbaAlpina est la réduction à types morphologiques des matériaux linguistiques rassemblés. Un type morphologique est défini par la concordance des propriétés suivantes: famille linguistique – partie du discours – mot simple versus mot affixé – genre – type de base lexical. La forme indiquée du type morphologique s'oriente aux lemmes correspondants de certains dictionnaires sélectionnés (voir ci-dessous).
Par l'attribution à un type de base lexical commun, l'union de tous les types morpho-lexicaux associés devient claire – même au delà des frontières linguistiques. Ainsi les noms et verbes suivants (qui ne sont pas décrits en détail ici) peuvent être attribués à un seul type de base malga (ALPAGE, TROUPEAU), malgaro (VACHER), malghese (BERGER), immalgare (ENALPER), dismalgare (DÉSALPER). Toutefois, le type de base lexical en dit peu rien sur l'histoire de parole d'un seul type morpho-lexical: on doit faire ressortir chaque fois séparément si un type avec étymon latin-roman aujourd'hui attesté dans la région linguistique germanique ou slave (par exemple slovène baita 'maison simple') remonte à un substrat local ancien ou bien à un contact linguistique roman plus récent. Pour cette raison, la désignation "étymon", faisant référence au stade historique immédiatement préliminaire d'un mot, est évitée dans ce contexte, même si le type de base lexical correspond en beaucoup de cas à l'étymon d'un type morpho-lexical.
Les types morpho-lexicaux forment la catégorie directrice dans la gestion des données linguistiques; ils sont comparables aux lemmes de la lexicographie. Au moyen des critères susnommés, résistants et bien mesurables, on peut réduire par ex. les quatre types phonétiques barga, bark, margun, bargun avec le sens CHALET DE MONTAGNE, ÉTABLE D'ALPAGE à trois types morphologiques.

L'appartenance des types morpho-lexicaux à des familles linguistiques (gem., roa., sla.) dépend de la source correspondante; dans le cas des données d'enquêtes traditionnelles d'atlas ou de dictionnaires, elle résulte automatiquement des informateurs correspondants et sera notée corrélativement dans la banque de données. Dans le cas des données que VerbaAlpina relève par crowdsourcing, l'appartenance linguistique ou bien dialectale est affirmée par les informateurs et sera confirmée quantitativement dans le meilleur des cas. Le nombre d'informateurs concordants devient ainsi un instrument de la validation de données.
Les types morpho-lexicaux sont limités à une famille linguistique. La question qui se pose alors est la suivante : sous quelle forme un type morpho-lexical devrait être représenté dans la zone de recherche de la carte interactive? Eu égard à la famille linguistique germanique et slave la réponse est plutôt facile parce que les deux sont représentées chacune par une seule langue standardisée ('Deutsch' [deu] et 'Slowenisch' [slo]). Les types morpho-lexicaux peuvent être rendus sous la forme de leur variante standard, évidemment à condition que des correspondances de ce type existent dans la langue standard. Ainsi, par exemple, tous les types phonétiques correspondants de l'alémanique et du bavarois étant des variantes de la forme standard
Dans le cas de la famille linguistique romane, la situation est beaucoup plus complexe à cause des nombreuses plus petites langues qui ne sont parfois pas suffisamment standardisées. Par des raisons pragmatiques, la solution suivante a été choisie : tous les types morpho-lexicaux sont représentés par les formes standard françaises et italiennes, si existantes. Ainsi tous les types phonétiques variantes de par ex. beurre/burro peuvent être appelées par ces deux formes. Les dictionnaires TLF et Treccani font office de dictionnaires de référence. Si seulement une de ces deux langues standard présente une variante convenable, c'est celle-ci qui apparaît, comme dans le cas de ricotta (l'appartenance à l'italien est signalée par la convention de notation -/ricotta). S'il n'y a aucune variante du type dans les deux langues de références romanes, on recourt à l'entrée d'un dictionnaire de références dialectal, comme par ex. le LSI. Au cas où il n'existe aucune entrée dans les dictionnaires dialectaux, VerbaAlpina propose un type de base qui est représenté graphiquement par le sigle 'VA'.
La réduction à types phonétiques des matériaux linguistiques est aussi prévue; cette étape de travail est pourtant secondaire est n'est pas faite de façon cohérente. La catégorie correspondante est indispensable surtout à cause des atlas linguistiques et des dictionnaires qui documentent parfois exclusivement (par ex. SDS, VALTS) des types phonétiques. Lors de la réduction à types phonétiques faite par VerbaAlpina, les tokens sont classés selon les critères de la phonétique historique dans des types phonétiques (case de base de données 'phon_typ'); une automatisation de la réduction à types phonétiques sur la base d'algorithme Levenshtein et soundex sera examinée et, si possible, appliquée.
Par la réduction à types (constitution de classes) la diversité des données devient plus claire; en règle générale: nombre des tokens > nombre des types phonétiques > nombre des types morpho-lexicaux > type de base. On note le cas extrême d'une seule attestation (hapax): l'attestation correspond à un token, un type phonétique et un type morpho-lexical comme seul représentant d'un type de base. Il peut éventuellement être raisonnable de filtrer ces formes d’hapax de la représentation.