Depuis l'essor des méthodes numériques, la question du traitement de ce qu'on appelle des «données de recherche» s'impose de plus en plus. Il semble que les idées courantes à ce sujet se sont fondées en fonction des pratiques en sciences naturelles où l'on a souvent affaire à de gros volumes de données de mesure qui, après être soulevées, s'évaluent par le biais de textes interprétatifs. Cette démarche implique une bipartition apparemment nette, ne considèrant comme «données de recherche» que les résultats de mesure bruts. Quoique dans le passé, et sans doute aussi dans le présent, le fait de considérer les donnés brutes comme éphémères et peu dignes d'une conservation durable est assez courant, la gestion des données de recherche s'est fixé comme objectif la représentation ainsi que le stockage et la mise à disposition durables non seulement des textes interprétatifs, mais aussi des données dits «de recherche» formant la base de ces interprétations.

En Allemagne, le domaine de la «gestion des données de recherche» (allem. Forschungsdatenmanagement (FDM)) se voit actuellemnt doter des moyens importants au niveau national ainsi qu'au niveau des länder, quelques projets étant déjà en cours. Les activités en question se poursuivent dans le souci de créer un nuage informatique à l'échelle européenne (European Open Science , EOSC). Des contributions allemandes à citer dans ce contexte au niveau suprarégional et national sont les recommandations relatives à la mise en place d'une infrastructure nationale pour les données de recherche (allem. "Nationale Forschungsdateninfrastruktur" (NFDI)), formulées par le Conseil pour les infrastructures informatiques (deu. "Rat für Informationsinfrastrukturen" (RfII)), le groupe de recherche de l'Union des académies des sciences allemandes NFDI-Arbeitsgruppe der Akademienunion s'y référant (représentant surtout les sciences humaines) ainsi que le projet interdisciplinaire "Generic Research Data Infrastructure" (GeRDI) pris en charge par la Fondation allemande pour la recherche depuis 2016.

Dans le champ des sciences humaines, la séparation nette en apparence entre données de recherche d'un côté et données – ou textes respectivement – interprétatifs de l'autre à l'instar des sciences naturelles (qui en gardent sans doute une certaine utilité) s'avère problématique voire intenable. Pour sa part, VerbaAlpina renonce par principe à une telle distinction, favorisant plutôt la notion d'un ensemble indivisible formé par toutes les données répertoriées au sein du projet dont les unités sont entrelacées pour former un tissage aux relations multiples. En suivant ces principes relatifs au concept de la «gestion des données de recherche», VerbaAlpina déclare l'intégralité des ses données numériques (c'est-à-dire données linguistiques, commentaires, entrées de glossaire, codes numériques, données médiatiques etc.), réparties sur les modules VA_DB, VA_WEB et VA_MT, comme une donnée de recherche à conserver conformément aux principes FAIR et en observant les conseils pertinents du RfII (RfII 2016, annexe A, p. A-13). VerbaAlpina est associé à titre pilote aux projets GeRDI et «eHumanities – interdisziplinär», cités ci-dessus.

L'un des aspects principaux de la gestion des données de recherche constiste à assurer leur interopérabilité par le biais de liens persistants entre les sous-ensembles de données appartenant à des projets ou ensembles de données divers. À cet égard, les DOI («Digital Object Identifier») sont un prérequis technique indispensable assurant que les «objets numériques» soient adressables durablement et indépendamment des URL. On peut générer des DOI pour tout contenu électronique tant qu'il est accesible par URL. Dans les systèmes de gestion des bibliothèques, on s'est servi des DOI dans un premier temps pour créer des identifiants persisants de publications électroniques (p.ex.https://doi.org/10.5282/ubm/epub.25627) ou bien de sites web entiers (p.ex. http://dx.doi.org.emedien.ub.uni-muenchen.de/10.5282/asica). Contrairement à cette pratique, l'interopérabilité d'ensembles de données établis et gérés individuellement exige une granulation beaucoup plus fine. À cet effet, VA génère une série de documents accessibles sur Internet par URL contenant le matériel linguistique collectionné et regroupé selon les catégories suivantes: type morpho-lexical, concept, commune d'origine et attestation. Chacun de ces documents est nommé selon l'ID attribué par VA à la catégorie de données correspondante: les documents appartenant à la catégorie «communauté» portent un «A» comme lettre initiale, «C» marquant les concepts et «L» les types morpho-lexicaux; le chiffre qui suit cette initiale correspond à l'ID attribué par VA (cf. Identificateurs). L'accès à ces données est possible via l'API. Ces données sont accessibles par l'adresse https://doi.org/10.5282/verba-alpina?urlappend=%2Fexport%3Fdb%3D232. Les DOI sont d'abord attribués par la bibliothèque universitaire de la LMU dans le cadre du projet «eHumanities – interdisziplinär» et ensuite intégrés dans sa propre structure de stockage où leur contenu sera exploité en profondeur grâce à des procédés encore à développer utilisant des schémas de métadonnées. Outre la mise à disposition des données de recherche dans ce dépôt, il s'agit d'assurer l'intégration et la repérabilité des données finement granulées de VA dans les catalogues de bibliothèques. De plus, les données de VA sont extraites de l'entrepôt de l'UB de la LMU par le projet GeRDI, pris en charge par le DFG, qui les inclut dans son index pour permettre l'exploitation postérieure dans une visée interdisciplinaire.

Depuis mai 2021 les données de VerbaAlpina des versions 19/1 et 19/2 sont également accessibles dans une granulation très fine via le portail de données de recherche "Discover" de la BU de la LMU.
v. aussi Notices d'autorité