Généralités sur le GND
Le catalogage dans le domaine bibliothécaire se base essentiellement sur deux piliers :
- Grâce aux classifications, peut être réalisée une classification (approximative) (DDC) de contenu et par exemple aussi l’organisation de l’installation de littérature en libre-accès (RVK).
- L'attribution de mots-clés ou de chaînes de mots-clés (qui ne sont plus en vogue) permet de décrire le contenu d'une œuvre de manière plus détaillée (GND).
En 2012, les anciens notices d’autorité PND (Personennamendatei – fichiers nom de personne), GKD (Gemeinsame Körperschaftsdatei – fichiers communs de l’organisme), SWD (Schlagwortnormdatei – fichiers mots-clés) et EST (Einheitssachtitel des Deutschen Musikarchivs – article détaillé de l’archive de musique allemande) ont été réunis dans le GND. L'ancienne différenciation entre les notices d’autorité pour le catalogage descriptif et les notices d’autorité pour la description matérielle a ainsi été abandonnée. Aujourd'hui, il existe un jeu de données par entité qui peut être utilisé dans les deux contextes.
Sur la pratique du catalogage et de l'attribution
- Les catalogueurs formels, c'est-à-dire les bibliothécaires qui saisissent les métadonnées formelles d'une ressource, comme l'auteur, le titre, l'année de publication, etc., sont tenus d'associer au moins les personnes liées à la ressource (par exemple l'auteur, l'éditeur, la personne célébrée, etc.) à une entrée dans le GND. De cette manière, la personne est clairement identifiée. Si une personne n'est pas encore enregistrée dans le GND, une nouvelle entité de personne est créée. Pour ce faire, un ensemble prédéfini d'informations d'identification (par ex. CV, profession, institution attribuée, etc.) est saisi, si possible à partir de la ressource existante. Mais une source d'information pertinente est par exemple aussi le CV de la personne publié sur la page d'un institut.
- Les catalogueurs matières sont des bibliothécaires qui indexent le contenu d'une ressource. Pour ce faire, ils se basent sur le titre de la ressource, mais pas exclusivement. Il n'est pas rare que les ressources aient des titres très élaborés qui ne permettent pas de déduire le contenu réel. Les catalogueurs matières procèdent donc généralement de la manière suivante : ils se font une idée du contenu à partir du titre, du texte du rabat, de la table des matières, de la préface, de l'introduction, de la conclusion, etc. Ensuite, ils le résument en une poignée de mots-clés. Pour la recherche de mots-clés appropriés convient par exemple l'OGND.
La DNB teste en parallèle des procédures permettant d'attribuer des mots-clés de manière automatisée.
Sur le GND dans le contexte de la normalisation et de l'échange de données
Les bibliothèques ont commencé assez tôt à échanger entre elles leurs données de catalogage. Pour ce faire, il faut un format (d'échange) uniforme (MARC) et un vocabulaire (GND) qui uniformise les désignations et résout en même temps le problème des synonymes, homonymes, etc.
Depuis quelques années, les données ne sont plus seulement échangées entre bibliothèques, mais aussi entre différentes institutions culturelles et de connaissances. Dans le cadre de cette évolution, le GND, en tant que source de notices d’autorité, est de plus en plus utilisé par les archives, les musées, etc.; et est ainsi devenu fondamentalement pertinent pour les digital humanities. (Voir à ce sujet le projet GND4C : https://www.dnb.de/DE/Professionell/ProjekteKooperationen/Projekte/GND4C/gnd4c.html)
L'utilisation de notices d’autorité, en particulier du GND, permet à des agrégateurs de données tels que la Deutsche Digitale Bibliothek (bibliothèque numérique allemande) ou bavarikon de relier entre eux des objets de différents domaines et d'en améliorer ainsi la visibilité et l’accessibilité.
Un exemple (fictif) permet d'illustrer l'avantage qu'offre la GND dans ce contexte :
Dans bavarikon, il y a par exemple un portrait de Martin Luther et en même temps une pièce de monnaie avec le portrait de Martin Luther. Les deux objets ont Martin Luther comme "sujet" ; ils ne peuvent toutefois être mis en relation (de manière simple) par le système que si, dans les deux cas, le champ dc:subject ne contient pas seulement une chaîne de caractères, mais un identificateur univoque, comme par exemple l'ID GND (118575449). Si des chaînes de caractères sont utilisées au lieu d'un identifiant, il est fort possible qu'elles diffèrent les unes des autres. C'est-à-dire que dans ce cas, il s'agirait certes de la même personne, mais que ses identifiants seraient différents. Un coup d'œil à la colonne "Andere Namen" (fr. autres noms) du jeu de données GND montre que cela n'est pas si improbable :
http://d-nb.info/gnd/118575449. Pour un être humain, il n'est pas difficile de réunir des chaînes (légèrement) différentes, mais pour une machine, c'est un obstacle plus important.
Sur le GND dans le contexte du Linked Data
Bien que la GND soit désormais de plus en plus utilisée en dehors des bibliothèques, le format des enregistrements GND, MARC, reste très spécifique aux domaines concernés et n’est pas utilisé en dehors des bibliothèques. L’ ontologie GND eprésente une tentative de combler cette lacune pour rendre la GND également opérationnelle pour son emploi dans le Web sémantique, puisque :
„The need for name disambiguation and entries having an authoritative character is an issue that concerns a lot more communities than the library world. In a growing information society the unique identification and linking of persons, places and other authorities becomes more and more important. The GND Ontology aims to transfer the made experience from libraries to the web community by providing a vocabulary for the description of conferences or events, corporate bodies, places or geographic names, differentiated persons, undifferentiated persons (name of undifferentiated persons), subject headings, and works.“
Une ontologie est composée des éléments suivants :
- Les concepts / classes regroupent des instances qui existent réellement et des propriétés communes, comme par exemple un “mot-clé” ;
- Des instances / termes qui représentent les objets réels, comme par exemple Butter (fr. beurre), identifié par son URI global http://d-nb.info/gnd/4009236-7;
- Des relations relient des concepts et des instances entre eux. Le concept suivant permet par exemple d’identifier Butter comme un objet de la classe SubjectHeadingSensoStricto“ (une sous-classe de la classe mot-clé) :<rdf:Description rdf:about="http://d-nb.info/gnd/4009236-7"><rdf:type rdf:resource="http://d-nb.info/standards/elementset/gnd#SubjectHeadingSensoStricto"/ß> (voir http://d-nb.info/gnd/4009236-7/about/rdf).
L’un des avantages des données liées (linked data) est que les données codées sont indépendantes de la langue. Dans l’exemple ci-dessus, l’objet représenté par le terme Butter, ou autrement dit le real world object BUTTER, est décrit en détail par des properties (propriétés). La chaîne Butter apparaît certes également dans le fichier RDF, mais seulement comme propriété de la ressource Butter :
<gndo:preferredNameForTheSubjectHeading rdf:datatype="http://www.w3.org/2001/XMLSchema#string">Butter</gndo:preferredNameForTheSubjectHeading>
Dans un cas d’application dans lequel on aurait besoin en plus du terme allemand Butter son équivalent italien, on pourrait simplement former un triple supplémentaire (le RDF est basé sur des triples), composé par exemple de la ressource http://d-nb.info/gnd/4009236-7 comme sujet, rdfs:label xml:lang=“it“ comme prédicat et du Literal (String) burro.
En partant du principe que la biblioteca nazionale Firenze procéderait de manière similaire avec son Nuovo Soggetario Thesaurus que la Deutsche Nationalbibliothek avec le GND, on pourrait mettre en relation la ressource Butter du GND avec la ressource burro idans le Nuovo Soggetario Thesaurus grâce à la propriété owl:sameAs par exemple, afin de montrer que dans les deux cas, il s’agit du même real world object BUTTER qui est décrit.
Avec la propriété <skos:broadMatch rdf:resource="http://zbw.eu/stw/descriptor/14957-0"/>, la ressource GND Butter par exemple est mise en relation avec la ressource ZWB Streichfett (fr. matières grasses à tartiner).Deutsche Nationalbibliothek
Identifikationsnummer