Un gran numero di scienziati provenienti da diversi Paesi ha pubblicato nel 2016 sulla rivista Nature un articolo sulla formulazione di linee guida per la gestione dei dati di ricerca (Wilkinson, M. D. et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci. Data 3:160018 doi: 10.1038/dati.2016.18 (2016). 🔗). Le idee presentate in questa pubblicazione si riferiscono ad un workshop dal titolo Jointly designing a data FAIRPORT, svoltosi nel gennaio del 2014 presso il Lorentz Center dell'Università di Leiden, nei Paesi Bassi.
Nel frattempo, le idee riassunte nell'acronimo FAIR si sono affermate come punto di orientamento nell'attuale dibattito sul corretto trattamento dei dati di ricerca. Questa tendenza è emersa chiaramente durante l'incontro del progetto GeRDI, avvenuto nell'ottobre 2018; cfr. anche FAIRGROUP della Community FORCE11).
L'acronimo FAIR riassume quattro postulati centrali, in parte interdipendenti, su cui dovrebbero basarsi il trattamento dei dati di ricerca (🔗):
- F — Findable
- A — Accessible
- I — Interoperable
- R — Reusable
Questi quattro termini centrali comportano implicitamente una serie di conseguenze per la gestione dei dati digitali di ricerca.
Affinché i dati siano reperibili, dovrebbe esistere almeno un portale centrale attraverso il quale sia possibile avviare la ricerca. Sarebbe utile incorporare la documentazione dei dati di ricerca all'interno dei cataloghi delle biblioteche già creati da diverso tempo (si tratta essenzialmente del loro contenuto e del loro luogo di conservazione). I concetti che implicherebbero una ricerca in luoghi diversi sarebbero, invece, da evitare.
Per essere trovati, e, dunque, reperibili, i dati devono essere fisicamente esistenti. Non si tratta tanto di una questione di realizzazione tecnica, che può essere, ad esempio, operata da centri informatici già esistenti, quanto, piuttosto, di una responsabilità istituzionale. Le biblioteche sono da considerarsi gli enti adeguati all'adempimento di questo compito, in quanto, per la loro storia, svolgono il ruolo di ''custodi del sapere'', oltre che per la loro prospettiva di conservazione dei dati a lungo termine. Esse dovrebbero, dunque, assumersi la responsabilità della conservazione sostenibile dei dati digitali. In che modo ciò avvenga – sia che le biblioteche costituiscano propri repositori o che amministrino quelli forniti dai centri informativi – non è di vitale importanza e può essere gestito singolarmente, caso per caso.
Un ruolo di grande importanza ricoprono, invece, l'ideazione e l'assegnazione dei metadati, attraverso i quali devono essere resi disponibili i dati della ricerca vera e propria. Risulta indispensabile utilizzare almeno uno schema di metadati gerarchicamente strutturato e vincolante che permetta una categorizzazione dei contenuti dei dati di ricerca memorizzati con l'integrazione di vocabolari controllati. Per il momento, VerbaAlpina ha deciso di orientarsi verso il Datacite-Schema, un sistema ampiamente utilizzato e scelto anche dalla biblioteca universitaria della LMU. L'utilizzo di diversi schemi di metadati concorrenti sarebbe possibile, ma risulterebbe sensato solo nel momento in cui essi venissero creati in modo coerente per tutti i dati di ricerca raccolti. Gli schemi di metadati specifici subordinati possono rappresentare un'integrazione significativa per gli schemi di metadati di livello superiore.
Il termine "accessible" indica la possibilità di accedere ai dati senza limitazioni di tipo legale, come invece accade con il Copyright. Questo punto è meno influenzato da coloro che raccolgono o producono i dati. Oltre al diritto d'autore, durante la raccolta dei dati deve essere spesso osservata la protezione dei diritti personali. La domanda di accessibilità punta a garantire che tutti i dati generalmente non soggetti a restrizioni legali non siano resi protetti da tali restrizioni da parte degli stessi produttori dei dati. Concretamente, ciò significa innanzitutto rinunciare al diritto d'autore e utilizzare un modello di licenza conforme alle condizioni del libero accesso. L'utilizzo delle licenze Creative Commons (CC) è molto diffuso in ambito scientifico, sebbene non tutte soddisfino i criteri per il libero accesso. In particolare, il divieto di uso per scopi commerciali, che può far parte di una licenza CC, viola il concetto di libero accesso. Il motivo è che quasi tutti gli usi dei dati possono essere considerati come "uso commerciale" in determinate circostanze, e, dal punto di vista giuridico, è praticamente impossibile tracciare una linea di demarcazione chiara a riguardo (si veda anche l'articolo "Concessione di licenze").
Così come la reperibilità dei dati, anche l'interoperabilità consiste in due aspetti, uno tecnico e uno teorico-organizzativo. Spesso è necessaria una granulazione logica e libera dei dati, al fine di poter collegare con successo tra loro gli stock dei dati e per consentire le relazioni tra gli stessi. In tale contesto, i cosiddetti "Controllo di autorità ]" ricoprono un ruolo centrale: essi rappresentano categorie concettuali ben definite e idealmente standardizzate, le cui singole istanze (oggetti digitali) sono distinte in relazione a un tipo e a un numero di proprietà chiaramente definiti. L'assegnazione di identificatori numerici o alfanumerici ("ID"s) ai singoli oggetti di una categoria concettuale consente il riferimento univoco agli oggetti. La granulazione degli stock di dati lungo i confini delle categorie e delle loro singole istanze/dei loro singoli oggetti, in combinazione con l'uso di identificatori specifici, consente, quindi, di collegare insiemi di dati separati con contenuto congruente. Tuttavia, un vero valore aggiunto si ottiene solo quando è anche tecnicamente possibile fare riferimento diretto ai singoli oggetti e, dunque, spostarsi da un database all'altro in un solo click. Ciò è possibile solo tramite l'assegnazione di un proprio URL ad ogni singolo dato ("Granum"). Ai fini della sostenibilità , ad ogni URL deve, inoltre, essere assegnato anche un [[DOI.
Il riutilizzo degli stock di dati è il risultato finale di un'attenta osservazione ed una conseguente attuazione dei tre postulati precedenti.
VerbaAlpina si impegna a conformare tutte le procedure e i regolamenti relativi ai dati con i principi FAIR. Thomas Krefeld considera questo impegno come la base fondamentale dell'etica nella ricerca all'interno dell'informatica umanistica (Thomas Krefeld [2018]: Linguistische Theorien im Rahmen der digital humanities. Korpus im Text. Version 2 (05.11.2018, 11:35). Absatz 4. url: http://www.kit.gwi.uni-muenchen.de/?p=28010&v=2#p:4.). La cooperazione con la biblioteca universitaria della LMU e con il progetto finanziato dal DFG GeRDI, attualmente realizzato nell'ambito del progetto e-humanities – interdisziplinär, permette la reperibilità dei dati. In particolare, il database centrale del Modulo VA_DB è dotato dei metadati di quella versione e trasferito alla biblioteca universitaria della LMU in varie forme, dove è memorizzato nell'Open-Data-Repositorium. I metadati, per lo meno, sono poi incorporati nell'indice attualmente in fase di creazione nell'ambito del progetto GeRDI. L'obiettivo è quello di rendere accessibili i dati raccolti ed elaborati da VerbaAlpina attraverso il catalogo della biblioteca universitaria e anche attraverso il portale di ricerca del progetto GeRDI, ancora in fase di sviluppo. Tutti i dati gestiti da VerbaAlpina saranno, per quanto possibile, inseriti in una licenza Creative Commons in libero accesso (fino alla versione 18/1 CC BY SA 3.0, dalla versione 18/2 CC BY SA 4.0). L'interoperabilità si ottiene da un lato attraverso la granulazione dello stock di dati, che si basa anche sul concetto di controllo di autorità , collegando i dati standard esistenti con il materiale di VerbaAlpina. Questo è possibile, ad esempio, con dati geografici come le unità politiche, che rappresentano il sistema di riferimento geografico centrale di VerbaAlpina. Per le categorie di dati "Tipi morfolessicali" e "concetto", centrali per VerbaAlina, sono esistenti, solo in parte, dati standard ai quali i dati VerbaAlpina potrebbero essere correlati. In questi casi, il progetto si sforza di creare, in collaborazione con istituzioni predestinate come la Biblioteca Nazionale Tedesca (DNB), dei dati standard o delle categorie di dati standard corrispondenti. Al fine di soddisfare i requisiti tecnici per un'efficiente interoperabilità , il materiale centrale dei dati lessicali viene memorizzato in un gran numero di piccoli file, ai quali è possibile accedere tramite DOI individuali su Open Data LMU. Inoltre, ad ogni singolo file è allegato un file di metadati in formato Datacite, che nella sua interezza permette di trovare i singoli file attraverso il catalogo della biblioteca.
und andere
Ludwig-Maximilians-Universität München
Identifikationsnummer
Uniform Resource Locator
Digital Object Identifier
VerbaAlpina
Datenbank
Deutsche Nationalbibliothek