Uvodna pribomba:

Načela FAIR so bila od svojega nastanka pred nekaj leti predmet intenzivne razprave v znanstveni skupnosti, saj izrazov, ki jih povzema ta kratica, čeprav so intuitivno vpadljivi, ni mogoče jasno razlikovati, ker so funkcionalno medsebojno povezani. Tudi znotraj projekta VerbaAlpina je poglobljena razprava o načelih FAIR včasih povzročila, da se niso vsa besedila, ki so jih o tej temi napisali posamezni člani VerbaAlpine, vsebinsko popolnoma ujemala. Ne glede na te individualno različne razlage pa projekt VerbaAlpina opredeljuje merila, ki jih je oblikoval FORCE11(https://www.force11.org/group/fairgroup/fairprinciples), kot merilo za skladnost s pravili FAIR. Njihovo upoštevanje je z metodološkega vidika dobro premišljeno. Kar se tiče praktičnega izvajanja, je trenutno še vedno omejitev, saj obogatitev z generičnimi metapodatki (v skladu z metapodatkovno shemo DataCite) še ni bila izvedena. Vendar bo to storjeno med prenosom podatkov VA v repozitorij odprtih podatkov od LMU, ki je trenutno v fazi vzpostavljanja.

--
Leta 2016 je veliko število znanstvenikov iz različnih držav v znanstveni reviji Nature objavilo članek, v katerem so poskušali oblikovati navodila za ravnanje z raziskovalnimi podatki. (Wilkinson, M. D. et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci. Data 3:160018 doi: 10.1038/sdata.2016.18 (2016). 🔗). Nazadnje so ideje, ki so predstavljene v tej publikaciji, nastale na delavnici, ki je januarja 2014 potekala v Lorentzevem centru na Univerzi v Leidnu na Nizozemskem. Naslov delavnice je bil: Jointly designing a data FAIRPORT

Medtem so se te ideje, ki so združene v kratici FAIR, uveljavile kot referenčna točka v trenutni razpravi o pravilnem ravnanju z raziskovalnimi podatki (to je bilo med drugim jasno na srečanju mreže projekta GeRDI oktobra 2018; prim. tudi FAIRGROUP skupnosti FORCE11).

Kratica FAIR označuje naslednje glavne, delno medsebojno odvisne postulate, ki bi morali usmerjati ravnanje z raziskovalnimi podatki (🔗):


Te besede implicirajo vrsto posledic za ravnanje z digitalnimi raziskovalnimi podatki.

Da se zagotovi najdljivost podatkov, mora obstajati najmanj en centralni portal, preko katerega se lahko sprožijo iskalne zahteve. Podatke o raziskavah – predvsem njihovo vsebino in lokacijo – je smiselno vključiti v že uveljavljene knjižnične kataloge. Izogibati se je treba vsem konceptom, ki bi zahtevali postopek iskanja na različnih mestih.

Da bi podatke lahko našli, morajo seveda tudi fizično obstajati. Pri tem ne gre toliko za vprašanje tehnične izvedbe, ki jo lahko na primer izvedejo računalniški centri, ki so na voljo po vsej državi, temveč bolj za vprašanje institucionalne odgovornosti. Tudi s tega vidika se knjižnice zaradi svoje zgodovine, resnične naloge hranitelja znanja in dolgoročne perspektive zalog ponujajo kot neprekosljivi kandidati za to nalogo. Prevzeti morajo odgovornost za trajnostno ohranjanje digitalnih podatkov. V kakšni obliki bo to na koncu izvedeno, ali bodo knjižnice zgradile in upravljale lastne repozitorije ali se bodo zanašale na podatkovne centre kot ponudnike storitev, je sekundarnega pomena in se lahko od primera do primera obravnava različno.

Zelo pomembna je zasnova in dodelitev metapodatkov, ki jih je treba uporabiti, da je mogoče najti dejanske raziskovalne podatke. Nepogrešljiva se zdi uporaba vsaj ene zavezujoče, hierarhično strukturirane metapodatkovne sheme, ki z vključitvijo podobno zavezujočih nadzorovanih slovarjev omogoča kategorizacijo vsebine shranjenih raziskovalnih podatkov. VerbaAlpina se je doslej odločila za široko uporabljeno shemo Datacite, ki jo je izbrala tudi Univerzitetna knjižnica LMU. Uporaba več konkurenčnih metapodatkovnih shem bi bila mogoča, vendar bi bila smiselna le, če bi bile te sheme dosledno oblikovane za vse zbrane raziskovalne podatke. Podrejene predmetno-specifične metapodatkovne sheme lahko koristno dopolnjujejo metapodatkovne sheme višje stopnje.

Pojem "accessible" se nanaša predvsem na dostopnost podatkov, ki ni omejena s pravnimi ovirami, kot so avtorske pravice. Na to točko najmanj vplivajo tisti, ki zbirajo ali pridobivajo podatke. Poleg avtorskih pravic je treba pri zbiranju podatkov pogosto upoštevati tudi varstvo osebnih pravic. Zahteva po dostopnosti je tako namenjena predvsem zagotavljanju, da za vse podatke, za katere ne veljajo zakonske omejitve, proizvajalci teh podatkov ne bi posebej pravno omejevali dostopa. Konkretno to pomeni predvsem opustitev avtorskih pravic in uporabo licenčnega modela, ki je v skladu s pogoji odprtega dostopa. Uporaba licenc Creative Commons (CC) je v akademskem okolju zelo razširjena, čeprav ne izpolnjujejo vseh meril za Open Access. Predvsem prepoved komercialne uporabe, ki je lahko del licence CC, krši koncept odprtega dostopa. Razlog za to je, da se lahko skoraj vsaka uporaba podatkov pod določenimi pogoji šteje za "komercialno uporabo", jasna razmejitev pa je s pravnega vidika praktično nemogoča (gl. tudi metodološki članek "Licenciranje").

Tako kot najdljivost podatkov ima tudi interoperabilnost dve plati, in sicer tehnično in teoretično-organizacijsko. Da bi lahko plodno povezali zaloge podatkov med seboj in jim omogočili medsebojno povezovanje, je v številnih primerih potrebna logična drobna granulacija podatkov, ki je prav tako usmerjena k pravilom, večinoma specifičnim za posamezen predmet. Glavno vlogo pri tem imajo tako imenovani standardni podatki, ki so opredeljeni in v idealnem primeru standardizirane kategorije pojmov, katerih posamezni primerki (digitalni objekti) so "distinct", tj. enkratni, glede na jasno opredeljeno vrsto in število lastnosti. Dodelitev numeričnih ali alfanumeričnih identifikatorjev ("ID") posameznim predmetom kategorije pojmov omogoča nedvoumno referenciranje predmetov. Granulacija podatkovnih nizov po mejah kategorij in njihovih posameznih primerov/objektov v povezavi z uporabo specifičnih identifikatorjev nato omogoča povezovanje ločenih podatkovnih nizov z enako vsebino. Prava dodana vrednost pa nastane šele takrat, ko je tehnično mogoče neposredno referencirati posamezne predmete in tako z enim klikom preiti iz enega podatkovnega niza na predmet v drugem podatkovnem nizu. To se zdi mogoče le, če je vsakemu posameznemu podatkovnemu objektu ("Granum") dejansko dodeljen lasten naslov URL. Zaradi trajnosti je treba vsakemu posameznemu naslovu URL dodeliti tudi DOI.

Ponovna uporabnost podatkovnih zbirk je posledica skrbnega upoštevanja in izvajanja prejšnjih treh postulatov. VerbaAlpinina tehnologija je bila med drugim uporabljena v projektu APPI Univerze v Lillu. Ustrezna dokumentacija je na voljo na naslednji povezavi: https://github.com/anr-appi/verba-picardia-doc/wiki/Documentation-du-syst%C3%A8me-Verba.

VerbaAlpina se trudi vse postopke in predpise, povezane s podatki, uskladiti z načeli FAIR. Thomas Krefeld v tem vidi temeljno podlago raziskovalne etike DH (Thomas Krefeld [2018]: Linguistische Theorien im Rahmen der digital humanities. Korpus v besedilu. Verzija 2 (05.11.2018, 11:35). Odstavek 4. url: http://www.kit.gwi.uni-muenchen.de/?p=28010&v=2#p:4.). Najdljivost podatkov omogoča sodelovanje z Univerzitetno knjižnico LMU in projektom DFG GeRDI, ki se trenutno izvaja v okviru projekta e-humanities – interdisziplinär. Predvsem osrednja podatkovna zbirka v modulu VA_DB bo opremljen z metapodatki po posameznih različicah in v več oblikah prenesen na UB od LMU, kjer bo v vsakem primeru shranjen v Open-Data-repozitoriju. Najmanj metapodatki bodo nato vključeni tudi v indeks, ki se trenutno razvija v okviru projekta GeRDI. Cilj je, da se podatki, ki jih zbira in ureja VerbaAlpina, centralno iščejo preko knjižničnega kataloga UB in tudi preko iskalnega portala projekta GeRDI, ki je še v razvoju. Vsi podatki, ki jih upravlja VerbaAlpina, bodo, kolikor bo mogoče, objavljeni pod licenco Creativecommons v skladu z odprtim dostopom (do verzije 18/1 CC BY SA 3.0 de, od 18/2 CC BY SA 4.0). Interoperabilnost je med drugim dosežena z natančno granulacijo podatkov, ki je usmerjena tudi v koncept standardnih podatkov s povezovanjem že obstoječih standardnih podatkov s podatkovnim gradivom VerbaAlpine. To je mogoče na primer z geografskimi podatki, kot so politične občine, ki predstavljajo centralni geografski referenčni sistem projekta VerbaAlpina. Za podatkovni kategoriji "morfoleksikalni tip" in "koncept", ki sta ključni za VerbaAlpino, še ne obstajajo standardni podatki, na katere bi se lahko vsaj delno navezovali podatki VerbaAlpine. V teh primerih se projekt VerbaAlpina trudi vzpostaviti ustrezne standardne podatke ali standardne kategorije podatkov v sodelovanju z vnaprej določenimi institucijami, kot je Nemška narodna knjižnica (DNB). Da bi izpolnili tehnične zahteve za učinkovito interoperabilnost, je osrednje leksikalno podatkovno gradivo zapis za zapisom shranjeno v velikem številu majhnih datotek, do katerih je na koncu mogoče dostopati prek posameznih DOI na Open Data LMU. Vsaki posamezni datoteki je priložena tudi datoteka z metapodatki v formatu Datacite. Celota metapodatkov končno omogoča ciljno iskanje posameznih datotek prek knjižničnega kataloga.

V okviru projekta "eHumanities – interdisziplinär", ki ga financira bavarsko ministrstvo za znanost, so osnovni podatki, ki jih zbira VerbaAlpina (posamezni dokumenti, morfoleksikalni tipi, koncepti, georeferenca), na primer prikazani v tako imenovani shemi CIDOC CRM. CIDOC CRM je (informacijska) ontologija, ki se je razvijala najpozneje od začetka devetdesetih let prejšnjega stoletja in katere korenine segajo v okolje muzejskega sveta. Razvoj konceptualnega referenčnega modela (CRM) izhaja iz delovne skupine Comité International pour la Documentation (CIDOC), ki je podružnica International Council of Museums (ICOM). Namen tega je bil omogočiti iskanje podatkov neodvisno od poimenovanja kategorij spremenljivk. Tako lahko namesto "avtor" "author", "Verfasser", "auteur" tudi uporabljamo kategorijo avtorja besedila. CIDOC CRM določa okrajšavo E39 za oznako avtorja besedila, tako da je mogoče ustrezne informacije najti povsem neodvisno od posameznih oznak. Special Interest Group ICOM/CRM nenehno razvija CRM. Trenutna verzija standarda (je celo norma ISO: ISO 21127:2014, ki dodatno podpira njegovo uporabo) je na voljo na spletni strani http://cidoc-crm.org/versions-of-the-cidoc-crm. Trenutno (junij 2020) standard vključuje skupno 99 entitet, ki jih dopolnjuje skupno 197 "lastnosti" ("Properties"). Slednji se uporabljajo predvsem za opis odnosov med različnimi entitetami modela (primeri: P1: "is identified by", P15: "was influenced by" itd.). Naslednji diagram, ki ga je pripravil in predhodno oblikoval Julian Schulz, prikazuje poskus dodelitve entitet VerbaAlpina kategorijam CRM (številke E in številke P) (različica PDF: https://www.verba-alpina.gwi.uni-muenchen.de/wp-content/uploads/cidoc-verbaalpina_v2.pdf):


CIDOC-CRM-Schema der VerbaAlpina-Kerndaten



Srednjeročni cilj je prenesti osnovno podatkovno zalogo VerbaAlpina, ki je natančno obdelana s standardiziranimi metapodatki CIDOC CRM, v repozitorij raziskovalnih podatkov Univerzitetne knjižnice LMU. Tam bo dostop do podatkov omogočal iskalni portal, ki je bil realiziran s Ruby-on-Rails-Engine Blacklight in temelji na Apache Solr-Index.