Remarque préliminaire :

Depuis leur émergence il y a quelques années, les critères FAIR sont largement discutés dans le contexte scientifique, car les termes regroupés sous cet acronyme sont intuitivement compréhensibles, mais ne sont pas nettement définis, car ils sont fonctionnellement imbriqués les uns dans les autres. Au sein de VerbaAlpina également, l'examen approfondi de FAIR a parfois conduit à ce que tous les textes rédigés par les membres individuels de VerbaAlpina sur ce sujet ne soient pas entièrement congruents sur le plan du contenu. Indépendamment de ces interprétations individuelles divergentes, VerbaAlpina définit toutefois les critères formulés par FORCE11 (https://www.force11.org/group/fairgroup/fairprinciples) comme la norme de conformité FAIR. Le respect de ces critères est réfléchi du point de vue méthodologique. En ce qui concerne la mise en œuvre pratique, il existe actuellement une restriction en ce sens que l'enrichissement avec des métadonnées génériques (conformément au schéma de métadonnées de DataCite) n'a pas encore été réalisé. Cependant, cela sera fait lors du transfert des données VA dans le référentiel Open Data de la LMU, dont l'opérationnalisation est en cours.
--
En 2016, un article rédigé par de nombreux chercheurs de diverses nationalités parut dans la revue scientifique Nature dans le souci de formuler des recommandations pour la gestion des données de la recherche (Wilkinson, M. D. et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci. Data 3:160018 doi: 10.1038/sdata.2016.18 (2016). 🔗). Les idées avancées dans cette publication remontent, en effet, à un workshop tenu au Centre Lorentz de l'université de Leyde aux Pays Bas en janvier 2014 ayant eu comme sujet Jointly designing a data FAIRPORT.

Entretemps l'ensemble de ces idées, condensées dans l'acronyme FAIR, s'est établi comme point de repère dans le débat actuel concernant la gestion des données de recherche (ce qui s'est affirmé p.ex. lors de la rencontre réseaux du projet GeRDI en octobre 2018; cf. aussi FAIRGROUP der FORCE11-Community).

Voici les postulats clés, partiellement corrélatifs, qui se cachent derrière l'acronyme FAIR:


Ces derniers impliquent toute une série de conséquences quand il s'agit de gérer des données de recherche numériques.

Pour assurer la repérabilité (F) des données il faut, en principe, au moins un portail central capable de traiter des demandes de recherche. Pour référencier les données de recherche – avant tout leur contenu ainsi que leur lieu de conservation – il est indiqué d'adopter le système des catalogues de bibliothèques, établies depuis longtemps. À éviter serait toute démarche impliquant des recherches réparties sur plusieurs sites.

Bien évidemment, les données doivent exister physiquement pour être trouvées. Dans ce contexte, c'est moins la question des solutions techniques qui pose problème, grâce, par exemple, à la généralisation des centres de calcul, mais plutôt celle des responsablilités institutionnelles. Ici encore, les bibliothèques s'imposent vu leur histoire, leur mission fondamentale de conserver le savoir et leur perspective de longévité; ce sont elles, il faut le dire, qui devraient a priori prendre en charge la conservation durable des données numériques. Dans la réalisation concrète, le choix du lieu d'emmagasinage ne joue qu'un rôle secondaire: soit les bibliothèques mettent en place et gèrent leurs propres bases de données, soit elles ont recours au service des centres de calcul.

L'un des points cruciaux concerne la conception et l'attribution des métadonnées assurant la repérabilité des données de recherche en question. Il semble incontournable d'employer au moins un schéma de métadonnées contraignant et hiérarchisé permettant la catégorisation des données de recherche selon leurs contenus en intégrant des vocabulaires également contraignants et contrôlés. VerbaAlpina a opté, pour l'instant, pour le schéma de Datacite-Schema, largement pratiqué y compris par la bibliothèque universitaire de la LMU. L'emploi de plusieurs schémas de métadonnées serait possible mais seulement judicieux en les appliquant de façon conséquente à la totalité des données de recherche saisies. Des schémas de métadonnées subordonnés concernant des champs de recherche spécifiques peuvent s'avérer utiles en tant que compléments des schémas supérieurs.

Le terme (anglais) «accessible» se réfère avant tout à la libre accessiblilité des données, notamment sans restrictions légales comme p.ex. par le droit d'auteur. L'accessibilité constitue le facteur le moins contrôlable par ceux qui produisent et rassemblent des données. Dans beaucoup de cas les recueils de données ne sont pas seulement sujets au droit d'auteur mais à ceux de la personnalité. Pour cette raison, l'exigence d'accessibilité vise surtout à une pratique du côté des producteurs de données évitant la mise en place de restricitions individuelles quand il s'agit de données autrement libres de droits. Concrètement, il s'agit surtout de renoncer au copyright et d'appliquer un modèle de licence qui répond aux conditions du libre accès (open acccess). Dans le contexte scientifique on utilise souvent des licences Creative Commons (CC), cependant, toutes ne sont pas conformes aux critères de libre accès, l'interdiction d'exploitation commerciale, notamment, pouvant faire partie d'une licence CC contrevient au concept du libre accès. Cela s'explique par le fait qu'en principe, presque toute utilisation de données peut être interprétée comme une «exploitation commerciale», d'autant plus qu'il est quasiment impossible d'un point de vue juridique de tracer des délimitatons nettes (v. aussi l'article de méthodologie «Concession d'une licence»).

Tout comme la repérabilité des données, leur interopérabilité se présente sous deux aspects différents, l'un technique, l'autre théorique et organisationnel. Pour réussir des connexions relationnelles satisfaisantes entre données il est le plus souvent nécessaire de choisir une granulation logique, suffisamment fine et conforme à des règles, normalement définies au sein d'un champ de recherche donné. Dans ce contexte, les données normalisées jouent un rôle primordial: il s'agit de catégories conceptuelles prédéfinies et, idéalement, standardisées dont les instances (objets numériques) se distinguent grâce à des critères qualitativement et quantitativement bien définies, comme quoi elles sont singulières ou (angl.) «distinct». Dotées d'identifiants («IDs») numériques ou alphanumériques, les différentes instances d'une catégorie conceptuelle sont référencées sans ambiguïté. Le fait de granuler des ensembles de données en suivant les délimitations de certaines catégories et de leurs instances en combinaison avec l'application d'identifiants spécifiques permet finalement d'interconnecter ensembles de données isolés et contenus concordants. En revanche, pour en profiter pleinement il faut qu'il soit techniquement possible de faire référence à des objets de façon directe, afin de permettre de bouger entre des objets de deux ensembles de données différents avec un seul clic, ce qui ne semble réalisable qu'en attribuant son propre URL à tout et chacun de ces objets (cf. «granum»). De plus, pour satisfaire au postulat de durablilité, l'attribution d'un DOI pour chaque URL est indispensable.

La réutilisabilité d'ensembles de données, enfin, résulte du respect et de la mise en œuvre des postulats cités ci-dessus. La technologie de VerbaAlpina a été réutilisée, entre autres, par le projet APPI de l'Université de Lille. Une documentation correspondante est disponible via le lien suivant : https://github.com/anr-appi/verba-picardia-doc/wiki/Documentation-du-syst%C3%A8me-Verba.
La collaboration entre VerbaAlpina et le projet T-Migrants est un autre exemple de la mise en œuvre du principe FAIR de réutilisabilité (Reusable). La technologie de cartographie WebGL, initialement développée pour VerbaAlpina et permettant de visualiser de grandes quantités de données, a été avec succès exportée vers le projet T-Migrants.
Cependant, pour intégrer la technologie de cartographie WebGL dans le projet T-Migrants, elle a dû être partiellement adaptée aux besoins spécifiques de ce dernier. Ces adaptations ont nécessité quelques modifications dans la mise en œuvre, telles que le support de l'animation permanente, afin de répondre de manière optimale aux besoins et objectifs spécifiques de T-Migrants. En tenant compte de la réutilisabilité de la technologie de cartographie WebGL, le projet T-Migrants a pu bénéficier de la technologie existante sans avoir à mobiliser ses propres ressources pour développer une technologie similaire. Cela a permis d'économiser du temps et des ressources tout en favorisant l'efficacité de la recherche, même si certaines adaptations étaient nécessaires pour les besoins spécifiques du nouveau projet. L'application réussie de la réutilisabilité dans ce cas montre l'importance de fournir des données et des technologies scientifiques de manière documentée, structurée et sous licence, ce qui permet à d'autres projets de les utiliser et de les développer dans de nouveaux contextes. Ce sujet a également été présenté et discuté lors de l'atelier "Les défis de la visualisation des données linguistiques" ("Herausforderungen linguistischer Datenvisualisierung/LDDB 2022").

L'application réussie de la réutilisabilité dans ce cas montre l'importance de fournir des données et des technologies scientifiques de manière documentée, structurée et sous licence, ce qui permet à d'autres projets de les utiliser et de les développer dans de nouveaux contextes. Ce sujet a également été présenté et discuté lors de l'atelier "Herausforderungen linguistischer Datenvisualisierung/LDDB 2022".

Chez VerbaAlpina on cherche à modeler tous les procédés et conventions relatifs au traitement de données en accord avec les principes FAIR. Thomas Krefeld voit dans cette démarche le fondement principal d'une éthique de recherche en humanités numériques (Thomas Krefeld [2018]: Linguistische Theorien im Rahmen der
digital humanities. Korpus im Text. Version 2 (05.11.2018, 11:35). Absatz 4. url: http://www.kit.gwi.uni-muenchen.de/?p=28010&v=2#p:4.). La repérabilité des données est assurée grâce aux collaborations engagées dans le cadre du projet e-humanities – interdisziplinär avec la bibliothèque universitaire de la LMU et le projet GeRDI qui est pris en charge par la Fondation allemande pour la recherche (DFG). De façon prioritaire, on attribue des métadonnées propres à chaque version de l'ensemble de données central du module VA_DB pour les transmettre sous diverses formes à la BU de la LMU qui assure a minima l'archivage dans la base de données Open Data. Par la suite, les métadonnées, tout au moins, sont incorporées dans l'index qui est actuellement mis en place dans le cadre du projet GeRDI. Le but est d'assurer la repérabilité centralisée des données rassemblées et traitées par VerbaAlpina par le biais du catalogue de la bibliothèque universitaire ainsi que du portail de recherche du projet GeRDI qui est encore en cours de développement. L'intégralité des données gérées par VerbaAlpina sont placées, dans la mesure du possible, sous une licence Creative Commons comprenant le libre accès (jusqu'à la version 18/1 CC BY SA 3.0 de, ab 18/2 CC BY SA 4.0). Quant à l'interopérabilité des données, on y parvient en choisissant un degré de granulation suffisamment fin et conforme au concept des données normalisées grâce au fait que des données normalisées existantes sont reliées aux données fournies par VerbaAlpina, ce qui se réalise par exemple dans le cas des données geógraphiques, se référant entre autres aux communes, ces dernières constituant le système de référence central du travail de VerbaAlpina. Dans le cas des catégories de données «type morpho-lexical» ainsi que «concept», primordiales pour VerbaAlpina, il n'existe pas encore de données normalisées auxquelles les données de VerbaAlpina pourraient se référer. VerbaAlpina essaie de créer des (catégories de) données normalisées en collaboration avec des institutions appropriées comme p.ex. la Bibliothèque nationale allemande (DNB). Pour maîtriser les exigences techniques d'une interopérabilité efficace, l'ensemble des données lexicales, qui est d'importance cruciale, est archivé sous forme de paquets de données dans de nombreux fichiers de petite taille pouvant être ciblés par DOI sur Open Data LMU. En plus, chacun de ces fichiers est accompagné d'un fichier contenant des métadonnées en format Datacite ce qui permet de trouver les fichiers individuels par le biais du catalogue de la bibliothèque.

Dans le cadre du projet "eHumanities – interdisciplinaire" financé par le ministère bavarois des sciences, les données de base collectées par VerbaAlpina (attestations linguistiques, types morpho-lexicaux, concepts, géoréférences) sont cartographiées de manière exemplaire sur le schéma appelé CIDOC CRM. Le CIDOC CRM est une ontologie (une structure informatique) qui a été développée depuis le début des années 1990, ayant ses racines dans le monde des musées. Le développement du Conceptual Reference Model (CRM) remonte à un groupe de travail du Comité International pour la Documentation (CIDOC), qui à son tour est une branche du Conseil International des Musées (ICOM). L'objectif sous-jacent était de rendre les données repérables indépendamment des catégories variables de désignation. Ainsi, au lieu de "Auteur", on peut également utiliser "author", "écrivain", "auteure" pour désigner la catégorie de l'auteur d'un texte. Le CIDOC CRM prévoit le code E39 pour la désignation de l'auteur d'un texte, de sorte que l'information correspondante puisse être trouvée indépendamment des désignations individuelles. Le groupe d'intérêt spécial ICOM/CRM développe continuellement le CRM. La version actuelle du standard (qui est également une norme ISO : ISO 21127:2014, ce qui plaide en faveur de son utilisation) peut être téléchargée sur le site http://cidoc-crm.org/versions-of-the-cidoc-crm. À l'heure actuelle (juin 2020), le standard comprend un total de 99 entités, complétées par un total de 197 "propriétés" ("Properties"). Ces dernières servent principalement à décrire les relations entre différentes entités du modèle (exemples : P1 : "is identified by", P15 : "was influenced by", etc.). Le diagramme provisoire ci-dessous, généré par Julian Schulz, tente d'attribuer les entités de VerbaAlpina aux catégories CRM (numéros E et P) (version PDF : https://www.verba-alpina.gwi.uni-muenchen.de/wp-content/uploads/cidoc-verbaalpina_v2.pdf) :


CIDOC-CRM shéma des données de base de VerbaAlpina


L'objectif à moyen terme est de transférer les données de base de VerbaAlpina, enrichies de métadonnées normalisées très détaillées provenant du CIDOC CRM, dans le référentiel de données de recherche de la Bibliothèque universitaire de l'Université de Munich (LMU). Ensuite, un portail d'accès, mis en œuvre avec le moteur Ruby-on-Rails Blacklight, basé sur un index Apache Solr, permettra d'accéder aux données.