Datensatz zur Dissertation "Deutsche Entlehnungen im Russischen - auf Basis eines digital erstellten Korpus" Beschreibung der Dateien zur Datenbank: tgoll, Version 1 (19.12.2024) Kontaktdaten der Autorin: Dr. des Tamara Goll ORCID: https://orcid.org/0009-0004-8694-7162 Ludwig-Maximilians-Universitaet Muenchen Institut fuer Deutsche Philologie Schellingstraße 3 / RG 80799 München Die vorliegenden Daten bilden die Grundlage der Dissertation "Deutsche Entlehnungen im Russischen - auf Basis eines digital erstellten Korpus", die sich mit deutschen Entlehnungen befasst, die in Folge von interkulturellem Austausch Eingang in die russische Sprache gefunden haben. Wenngleich die bisherige Forschung zahlreiche Arbeiten zu deutschen Entlehnungen ins Russische zu verzeichnen hat, ließen sich weder quantitative noch qualitative Aussagen über die Verwendung der deutschen Lehnwörter in der aktuellen russischen Sprache treffen. Ausgehend davon wurde in dieser Untersuchung mithilfe moderner korpuslinguistischer Methoden eine repräsentative Materialgrundlage geschaffen. Dies beinhaltete sowohl die Arbeit mit dem russischen Nationalkorpus als auch die Erstellung einer möglichst vollständigen Auflistung deutscher Lehnwörter. Insgesamt wurden 6 Tabellen erstellt: rus_listen, rus_listen_distinct, rus_entlehnungen, rus_tokens, rus_meta, rus_kontext. rus_listen: Diese Tabelle enthält alle 24 Wörterlisten mit insgesamt 18.211 Wörtern und enthält neben den vielen Varianten auch einige Wiederholungen. rus_listen_distinct: Diese Tabelle weist 10.780 Wörter auf und besteht nur aus der Spalte Russisch. In dieser Spalte sind alle Suchwörter in kyrillischer Schrift verzeichnet. rus_entlehnungen: Diese Tabelle beinhaltet alle ursprünglich deutschen Entlehnungen, insgesamt 306 Lemmata. rus_tokens*: Diese Tabelle enthält das Teilkorpus des Russischen Nationalkorpus, eine Offline-Version. Insgesamt fasst das Korpus 1.001.460 Wörter. rus_meta*: Diese Tabelle enthält die Metadaten zum Teilkorpus. rus_kontext*: Diese Tabelle ermöglicht es KeyWords in Context (KWIC) zu betrachten. *Aus lizenzrechtlichen Gründen kann von den Tabellen rus_tokens, rus_meta und rus_kontext jeweils nur die Struktur exportiert werden, nicht die Daten. Die Daten liegen sowohl im sql- als auch im csv-Format vor. Fuer die Nutzung und Weiterverarbeitung der Daten ist das Einverstaendnis der Autorin einzuholen. Die Daten werden unter der Lizenz CC-BY-SA veroeffentlicht. Das Datenpaket tgoll.zip enthaelt die Version 1 der Datenbank tgoll vom 19.12.2024: SQL-Format: rus_listen.sql (Struktur und Daten) rus_listen_distinct.sql (Struktur und Daten) rus_entlehnungen.sql (Struktur und Daten) rus_tokens.sql (Strktur) rus_meta.sql (Struktur) rus_kontext.sql (Struktur) CSV-Format (Separator = TAB = "\t"): rus_listen.csv rus_listen_distinct.csv rus_entlehnungen.csv Datenbank-Struktur: Die Datenbank tgoll besteht aus 6 Tabellen "rus_listen", "rus_listen_distinct", "rus_kontext", "rus_tokens", "rus_entlehnungen", "rus_meta" mit jeweils folgenden Spalten: rus_listen ( ID 'ID des Wortbeispiels', Primaerschluessel Quelle 'Quelle aus der das Wortbeispiel stammte (Nachname des Autors_Entstehungsjahr des Werkes)' Russisch 'Wortbeispiel in kyrillischer Schrift; enthält alle in den Schriften erwähnten Varianten' TranslitDIN 'Wissenschaftliche Transliteration des Wortbeispiels nach der DIN 1460' Original 'Originalschreibweise des Wortbeispiels' Homonym 'Wortbeispiel hat laut Quelle mehrere Bedeutungen (I-V)' Anmerkung 'K=Kalkierung; G=germanische Entlehnungen' ) Primärschlüssel: ID Fremdschlüssel: Russisch rus_listen_distinct ( Russisch 'Alle Wortbeispiele kommen nur einmal vor und sind in kyrillischer Schrift verzeichnet. Die Ausnahme bilden sechs Beispiele in latinisierter Form' ) Fremdschlüssel: Russisch rus_entlehnungen ( ID 'ID des Lemmas, Primaerschluessel' Lemma 'Lemma' Translit DIN 'Wissenschaftliche Transliteration des Wortbeispiels' Uebersetzung 'Deutsche Übersetzung' Anzahl 'Häufigkeit des Wortbeispiels in rus_tokens' Kategorisierung 'Deutsch=deutscher Ursprung; ●Deutsch=Lehnprägungen; ◊Deutsch=deutscher Ursprung nicht ganz gesichert; □Deutsch=hybride Bildung' Quelle_Listen 'Quellen, in denen das Wortbeispiel behandelt worden ist' Thematik 'Thematische Einteilung' ) Primärschlüssel: ID Fremdschlüssel: Lemma rus_tokens ( ID 'ID des Tokens' Titel 'Titel des Quelltextes' Kategorie 'Funktionsbereich aus welchem das Wortbeispiel stammt' Datei 'Originalbenennung der Datei aus dem Russischen Nationalkorpus' Satznr 'Satznummer' Tokennr 'Tokennummer' Token 'Token' Lemma 'Lemma' GrammAnn 'Grammatische Annotation gemäß Russischem Nationalkorpus' Wortart 'Wortart' ) Primärschlüssel: ID Fremdschlüssel: Datei, Satznr, Token, Lemma rus_meta ( ) ID 'ID der Datei, Primaerschluessel' Datei 'Originalbenennung der Datei aus dem Russischen Nationalkorpus' author 'Autor des Textes' sex 'Geschlecht des Autors' birthday 'Geburtsjahr des Autors' header 'Titel des Quelltextes' created 'Erscheinungsjahr' sphere 'Funktionsbereich' genre-fi 'Genre' type 'Texttyp' topic 'Themenbereich' chronotop 'Ort und Zeit der beschriebenen Ereignisse' style 'Stil' audience_age 'Alter der Zielgruppe' audience_level 'Bildungsniveau der Zielgruppe' audience_size 'Größe der Zielgruppe' source 'Quelle' publication 'Publikation' publisher 'Herausgeber' publ_year 'Datum der Veröffentlichung' medium 'Medium' subcorpus 'Subkorpus' tagging 'Tagging' comments 'Kommentare' editor_id 'Redakteur-ID' ) Primärschlüssel: ID Fremdschlüssel: Datei rus_kontext ( ID 'ID des Satzes, Primaerschluessel' Kategorie 'Funktionsbereich aus welchem das Wortbeispiel stammt' Datei 'Originalbenennung der Datei aus dem Russischen Nationalkorpus' Satznummer 'Satznummer' Text 'vollständiger Satz' ) Primärschlüssel: ID Fremdschlüssel: Datei, Satznr