Bibliotheksdienst 2018; 52(3-4): 266–277
Kai Eckert, Rachel Heuberger und Marko Knepper
JudaicaLink und der FID Jüdische Studien
JudaicaLink and the specialist information
service (FID) Jewish studies
http://doi.org/10.1515/bd-2018-0032
Zusammenfassung: In der Forschungslandschaft Deutschlands fehlte es bislang
an adäquaten fachspezifischen wissenschaftlichen Informationsdienstleistun
gen zu Jüdischen Studien und IsraelStudien. Der Fachinformationsdienst (FID)
Jüdische Studien soll dazu beitragen, diese Lücke zu schließen. Im Vordergrund
steht das FIDPortal als zentrale Anlaufstelle und einzigartiges Nachweis und
RechercheTool, das die Fachinformationen der Jüdischen Studien in ihrer
gesamten Reichweite bündelt und durch die Aufbereitung und Anreicherung der
Metadaten sowie der Verknüpfung externer Ressourcen durch JudaicaLink den
Wert der zur Verfügung gestellten Informationen vervielfacht.
Schlüsselwörter: Fachinformationsdienst, Jüdische Studien, JudaicaLink
Abstract: Up to now, there were no adequate specialist information services for
scientists concerning Jewish studies and Israel studies in Germany’s research
scene. The specialist information service (Fachinformationsdienst (FID)) Jewish
studies is a contribution to close this gap. Most important is the FID portal as
central platform and unique tool for research and prooffinding which unites spe
cialist information of Jewish studies in their entire range. It greatly increases the
worth of the information available by adapting and accumulating metadata as
well as interlinking external resources via JudaicaLink.
Keywords: specialist information service, Jewish studies, JudaicaLink
Kai Eckert:
[email protected]
Rachel Heuberger:
[email protected]
Marko Knepper:
[email protected]
Unauthenticated
Download Date | 3/3/20 8:02 PM
JudaicaLink und der FID Jüdische Studien
267
1 Einleitung
Der Fachinformationsdienst fokussiert ganz darauf, ein Recherchewerkzeug
zum Nachweis fachspezifischer Informationen bereitzustellen. Der Grundge
danke beim Entwurf des Fachinformationsdienstes bestand darin, sich auch in
technischer Hinsicht den spezifischen Problemstellungen des Fachgebietes zu
stellen. Es sollte ein Werkzeug entstehen, das über die Aggregation relevanter
Datenbestände in Kombination mit der Verwendung zeitgemäßer Nachweis und
Recherchetechniken hinaus technische Lösungen in Angriff nimmt, die für die
Jüdischen Studien von besonderem Interesse sind.
Unter diesem Aspekt wurden zwei spezifische Anforderungsfelder identifi
ziert: Zum einen ist der Umgang mit transliterierten Metadaten aus dem Hebrä
ischen problematisch. Eine technische Lösung für die Rückführung transliteriert
vorliegender hebräischer Metadaten in die Originalschrift würde nicht nur im
vorliegenden Projekt neue Optionen für die Recherche in den Jüdischen Studien
bieten.
Zum anderen sind die Nachweise für Literatur und andere Informationsquel
len zu den Jüdischen Studien ausgeprägt über den Globus verteilt, so dass eine
Vernetzung über technische und räumliche Grenzen hinweg einen besonderen
Mehrwert für die Beschaffung von Informationen zu bestimmten Fragestellungen
darstellt. Die Verknüpfung der Daten als Linked Open Data (LOD) mit externen
Ressourcen kann hier einen spezifischen Nutzen für das ganze Fachgebiet stiften
und dient gleichzeitig als Use Case für die stetige Entwicklung offener Datenbe
stände hin zu global verknüpften Ressourcen.
Die Arbeiten zur Gewinnung der notwendigen Daten umfassen vor dem Hin
tergrund dieser Überlegungen im Wesentlichen drei Arbeitspakete, deren Resul
tate sich zum FIDPortal ergänzen. In den drei Arbeitspaketen kann jedoch weit
gehend unabhängig vom Fortschritt der jeweils anderen beiden Arbeitspakete
gearbeitet werden.
Unauthenticated
Download Date | 3/3/20 8:02 PM
268
Kai Eckert, Rachel Heuberger und Marko Knepper
Abb. 1: Übersicht über die Datenflüsse der drei Arbeitspakete im Projekt.
Die drei Arbeitspakete werden nachfolgend im Einzelnen erläutert:
2 Entwicklung eines automatisierten Retro
konversionsverfahrens für transliterierte
hebräische Titelinformationen der hebräischen
und jiddischen Literatur in die hebräische
Originalschrift
Im europäischen und angloamerikanischen Sprachraum erfolgt die Katalogisie
rung von Werken in hebräischen Schriftzeichen – so wie generell von Werken
in anderen Schriftzeichen – auf der Grundlage der Konversion dieser Schrift in
die lateinische als dominante Schrift zum Nachweis der Materialien in einem
zentralen Katalogsystem. Im deutschen Bibliothekswesen handelte es sich bis
zum Jahr 2006 um eine spezifische, für den deutschen Sprachraum eigens ent
wickelte Umschrift, die auf den Transkriptionstabellen der 1899 erschienenen
„Instruktionen für die Alphabetischen Kataloge der Preußischen Bibliotheken“
basierte. Diese ursprünglich nur für die Preußischen Bibliotheken einschließlich
Unauthenticated
Download Date | 3/3/20 8:02 PM
JudaicaLink und der FID Jüdische Studien
269
der Frankfurter UB verbindlichen Regeln wurden von anderen Bibliotheken über
nommen und behielten bis zur Ablösung durch die Regeln für die Alphabetische
Katalogisierung (RAK) im Jahre 1977 bzw. die Einführung der Regeln für die Alpha
betische Katalogisierung in wissenschaftlichen Bibliotheken (RAKWB) 1983 ihre
Gültigkeit. Die mit den Preußischen Instruktionen entwickelten Transkriptions
regeln waren unter Berücksichtigung des Neuhebräischen die Grundlage der
im April 1982 erlassenen Norm DIN 31636 Umschrift des hebräischen Alphabets,
auf die in den RAKWB verwiesen wird. Mit Einführung der DIN 31636 wird die
hebräische Sprache in den Bibliothekskatalogen des deutschen Sprachbereichs
(Deutschland, Österreich, deutschsprachige Schweiz) verbindlich umschrieben.
Die hebräische Sprache stellt eine Konsonantensprache dar, deren Vokalisie
rung mit Hilfe von Vokalzeichen unter den Konsonanten oder mit Konsonanten
in der Funktion von Vokalen erfolgt. Deshalb bedarf es der genauen Kenntnis
der hebräischen Grammatik, der Lexik und Phonetik sowie der Kenntnis der DIN
sowohl zur Erstellung einer der Aussprache korrekten Umschrift bei der Erfas
sung der Daten als auch für den Nutzer zum Auffinden der Titel im Katalog. Da
die DIN die Möglichkeit der eineindeutigen Rückführung, der Retransliteration in
die Ursprungssprache Hebräisch beabsichtigt, ergeben sich ungewohnte Buch
stabenkombinationen in der lateinischen Schrift, die Folge komplizierter gram
matikalischer Regeln sind und in der heutigen Praxis in Israel den meisten nicht
geläufig sind. Während die rabbinischen und religionsgesetzlichen Texte in der
Regel punktiert und damit klar vokalisiert sind, ist die Schreibweise des moder
nen Hebräisch, in der die gesamte wissenschaftliche Literatur im 20 Jahrhundert
gedruckt ist, unpunktiert und zu großen Teilen auch in einer defektiven, d. h. die
als Vokale fungierenden Konsonanten weglassenden Schreibweise. In der Regel
ist ein Abgleich des Wortes in einem hebräischen Wörterbuch erforderlich, um
die genaue transkribierte Schreibweise zu eruieren.1
Der seit den Institutsgründungen zur Judaistik und Jüdischen Studien in den
80er und 90er Jahren in Deutschland stetig angestiegene Literaturbestand in neu
hebräischer Sprache machte eine Überarbeitung der DIN 31636 erforderlich und
führte zu einer Neuversion im Jahre 2006. Diese ist sowohl in der Wiedergabe der
Grundbuchstaben des lateinischen Alphabets als auch in den Transliterationsre
geln identisch mit den Regeln der American Library Association/Library of Con
gress (ALA/LoC Romanization Rules for Hebrew) aus dem Jahre 1987 und trägt
1 Zusammenfassung in: Marquardt, Susanne: Transliteration und Retrieval. Zur Problematik
des Auffindens hebräischsprachiger Medien in OnlineKatalogen. Berlin 2005 (Berliner Handrei
chungen zur Bibliothekswissenschaft, Heft 157).
Unauthenticated
Download Date | 3/3/20 8:02 PM
270
Kai Eckert, Rachel Heuberger und Marko Knepper
den Entwicklungen des modernen Hebräisch Rechnung.2 Seit 2010 wird an Uni
versitätsbibliotheken und in den Verbünden zusätzlich in bestimmten Feldern
eine Titelaufnahme in der Originalschrift erstellt, so dass auch eine Recherche in
der Originalschrift möglich ist.
In einem Zeitraum von über 100 Jahren, seit der Einführung der Translite
rationsregeln im Jahre 1899 bis zur Revision in der DIN 31636 von 2006, wurden
die hebräischen Bestände kontinuierlich nach den damals gültigen, d. h. „alten“
Umschriftregeln erfasst, so dass eine beträchtliche Anzahl hebräischer Titel in
dieser mittlerweile schwer zugänglichen Form in den Katalogen nachgewiesen
und auf Grund der wachsenden Unkenntnis der spezifischen Transliterations
regeln nicht auffindbar ist. Zahlenmäßig handelt es sich um rund 22.000 Titel
mit dem Sprachcode Hebräisch in der Universitätsbibliothek Frankfurt aus den
Jahren 1901–2006. Aus Personal und Kostengründen ist eine intellektuelle Umar
beitung der Titel von der alten in die neue Transliterationsversion nicht realis
tisch.
Zur automatisierten Umarbeitung wurde im ersten Schritt eine Software ent
wickelt, die zunächst im analytischen Verfahren unter umgekehrter Anwendung
der oben beschriebenen Regeln für die transliterierten hebräischen Worte des
Hauptsachtitels die hebräische Originalschrift ableitet.
Die Umsetzung der nicht geschriebenen Vokale des Hebräischen führt in der
Praxis häufig zu mehrdeutigen Ergebnissen, deren Plausibilität – beruhend auf
der Wahrscheinlichkeit von Buchstabenfolgen – in einem mehrstufigen Verfah
ren festgelegt wird. Hierbei dienen punktierte, d. h. durch Diakritika vokalisierte
hebräische Worte, wie sie in den hebräischen Bibeltexten geschrieben werden,
als Richtschnur. Zur Festlegung des Rankings der korrekten Schreibweise inner
halb der möglichen Varianten wird auch auf „Hspell“, eine OpenSourceDaten
bank für die hebräische Schreibweise und Wortbildungslehre, zurückgegriffen.
Die erfolgten Ergebnisse werden mit Unterstützung der FIDBibliothekarin über
prüft und die Korrekturen vom Programm übernommen. Die bislang erzielten
Ergebnisse sehen wie folgt aus:
– Überprüfte Worte = 1.344, davon richtig = 1.233, korrekte Trefferquote = 91,7%,
– Überprüfte Titel = 269, davon richtig = 189, korrekte Trefferquote = 70,4%.
2 Maher, Paul: Hebraica Cataloging. Washington D.C. 1987.
Unauthenticated
Download Date | 3/3/20 8:02 PM
JudaicaLink und der FID Jüdische Studien
271
Berücksichtigt man hierbei, dass 51 Worte der Ausgangstexte nicht entsprechend
der DIN korrekt transliteriert wurden, dann erhöht sich die korrekte Trefferquote
bei den Worten auf 95,5% und bei den Titeln auf 84,1%.3
Die Ergebnisse werden schließlich mit den Katalogdaten der Nationalbibli
othek Israels (NLI) abgeglichen, welche die hebräischen Titel stets in der Origi
nalschrift katalogisiert. Hierfür wurde der Datenabzug der relevanten Katalog
daten mit der NLI vereinbart. Anhand der positiven Treffer wird das Feld für den
Eintrag „Verfasser“ überprüft und ergänzt. In weiteren Abfragen mit normiertem
Vokabular werden die Verfasser mit der Normdatenbank VIAF4 abgeglichen.
Die gewonnen originalschriftlichen Daten werden in den Katalogbestand ein
gespielt und stehen so im FIDPortal zur Verfügung. Neben dem authentischen
Nachweis steht in diesem Arbeitspaket als Ziel vor allem die Recherchierbarkeit
im Vordergrund. Die Indexierung in Originalschrift als klar definiertem Standard
macht eine Recherche in den nach unterschiedlichen Regeln transliterierten
Titeln erst möglich.
3 Aggregation der fachspezifischen bibliogra
fischen Nachweise aus den Katalogen der
beiden Bibliotheken mit relevanten Sammel
schwerpunkten UB Frankfurt und ULB Sachsen
Anhalt in Bezug auf IsraelStudien und Jüdische
Studien, sowie die Einbindung der bibliogra
phischen Datenbank zur Literatur der Jüdischen
Aufklärung (Library of the Haskala)
Ein umfassender Bestand an gedruckten und elektronischen Veröffentlichungen
aus dem Frankfurter Sammelschwerpunkt zum Staat Israel ist unter besonderer
Berücksichtigung der hebräischen Sprache im Katalog der UB Frankfurt nach
3 Diese Abweichungen beruhen zum Teil auf durchaus zulässigen subjektiven Interpretationen
der hebräischen Worte sowie auf einer von der Akademie der Hebräischen Sprache abwei
chenden Praxis der Autoren und Verleger. Die Open Source Datenbank HSpell richtet sich jedoch
strikt nach den Regeln der Sprachakademie.
4 https://viaf.org/ [Zugriff: 14.01.2018].
Unauthenticated
Download Date | 3/3/20 8:02 PM
272
Kai Eckert, Rachel Heuberger und Marko Knepper
gewiesen. In der Virtuellen Fachbibliothek Vorderer Orient MENALIB der ULB
Sachsen Anhalt in Halle5 sind die Publikationsnachweise mehrerer Bibliotheken
für das dort früher angesiedelte Sondersammelgebiet (SSG) „Vorderer Orient ein
schließlich Nordafrika“ enthalten. Der Katalog hat sich auf Publikationen auf
Arabisch (sowie Türkisch und Persisch) spezialisiert. Bei den Beständen beider
Bibliotheken sowie den Nachweisen in der MENALIB handelt es sich um unter
schiedliche Sammlungen, die sich gegenseitig ergänzen. Zudem wurde 2006 eine
bereits bestehende Absprache zwischen der UB Frankfurt und der ULB Halle
bezüglich der Erwerbung der wissenschaftlichen Literatur zum Thema Israel und
der Nahostregion konkretisiert. Dabei wurde festgelegt, die wissenschaftliche
Literatur nach sprachlichen Gesichtspunkten zu erwerben, so dass aus Gründen
der Effizienz und Kompetenz die Erwerbung hebräischer Literatur in Frankfurt
und arabischer Literatur in Halle erfolgt.
Aus den Metadaten der ULB Halle und dem Frankfurter Katalog wird ein
gemeinsamer Index erstellt, der unter einer Weboberfläche mit Suchfunktionen
die unterschiedlichen Sammlungen insbesondere auf Arabisch und Hebräisch
zusammenführt und komfortabel nutzbar macht. Durch den Aufbau integrierter
Indizierung, die auf den entsprechend ausgewiesenen Identifizierungsmerkma
len in Halle und Frankfurt beruhen, werden Resultate auch für ganz spezifische
Anfragen generiert.
Somit wird ein Recherche und Nachweisportal errichtet, das den Fachwis
senschaftlern einen umfassenden Überblick über die Spezialliteratur zu Israel
ohne Unterschied der Sprache und Anbieterbibliothek bietet.
Da der Datenbestand im Kern aus Verbunddatensätzen von HeBIS und GBV
bestehen soll, die beide mit dem System PICA von OCLC arbeiten, ist eine Nor
malisierung des Datenbestandes außerhalb dieser Systeme für das Projekt nicht
notwendig. Die Daten werden vielmehr im HeBISSystem aggregiert, d. h. der
entsprechende Abzug der der ULB HalleDaten wird in die HeBISVerbunddaten
bank eingespielt, die dann als „Backend“ des Recherchetools dient. Als Recher
cheoberfläche wird eine Instanz des gemeinschaftlich unter Beteiligung der
UB Frankfurt auf VuFindBasis entwickelten DiscoverySystems des Verbundes
(HeBIS Discovery System)6 genutzt. Datenbasis der individuellen Sichten der
Verbundbibliotheken ist ein gemeinsamer Gesamtindex, in dem dann auch die
ULB HalleDaten enthalten sein werden. Die Rechercheoberfläche für den FID
Jüdische Studien ist als weitere Sicht realisiert, die um fachspezifische Funkti
5 https://www.menalib.de/ [Zugriff: 14.1.2018].
6 Sunckel, Bettina; Reh, Uwe und Nienerza, Heike: Das HeBIS Discovery System. In: Bibliotheks
dienst 48 (2014), S. 784–794.
Unauthenticated
Download Date | 3/3/20 8:02 PM
JudaicaLink und der FID Jüdische Studien
273
onen (SachFacetten, Berücksichtigung der Schreibweise von rechts nach links in
der Anzeige) erweitert wird.
Unter Verwendung von AnkerDatensätzen im Verbundkatalog wird weiter
hin die Spezialbibliographie Library of the Haskala (Bibliothek der Jüdischen
Aufklärung)7 der Werke der Jüdischen Aufklärung des 17. und 18. Jahrhunderts in
hebräischer und Deutscher Sprache eingebunden.
4 Kontextualisierung der Metadaten der Digitalen
Sammlungen Judaica zur Verknüpfung von
unterschiedlichen JudaicaRessourcen und
Optimierung der Recherchemöglichkeiten
Bei der Kontextualisierung geht es zunächst darum, Entitäten in den Metadaten
zu identifizieren und persistente Identifier zu vergeben. Dabei wird auf die Daten
und Identifier externer Datenquellen zurückgegriffen, was einerseits für eine
semantische Eindeutigkeit sorgt und gleichzeitig erste Links zu weiteren Infor
mationen liefert. Entitäten sind dabei vor allem Personen, Orte, Ereignisse und
thematische Begriffe.
Die Quellen lassen sich grob in die folgenden Kategorien einteilen:
1. Bibliothekarische Normdaten: Im deutschsprachigen Raum ist das vor allem
die Gemeinsame Normdatei der Deutschen Nationalbibliothek (GND), die
unter anderem Personen und Sachschlagworte enthält. Die Personendaten
sind eingebunden in das Virtual International Authority File (VIAF), worüber
sich Links zu vielen weiteren Normdatensätzen von Nationalbibliotheken
weltweit finden lassen. Auf der thematischen Ebene sind international vor
allem die Library of Congress Subject Headings (LCSH) interessant, für die
teilweise auch eine Konkordanz zur GND besteht.
2. Offene Daten aus dem LinkedOpenDataWeb (LOD)8: Die LODQuellen
eignen sich sehr gut, um einen wesentlich breiteren und reichhaltigeren
Kontext herzustellen. Viele Datenquellen werden hier von mehr oder weniger
großen Communities gepflegt, bzw. leiten sich aus CommunityProjekten ab,
7 http://www.haskalalibrary.net/ [Zugriff: 14.01.2018].
8 Natürlich sind auch die bibliothekarischen Normdaten Teil des LODWebs, hier sind also die
weiteren Quellen gemeint.
Unauthenticated
Download Date | 3/3/20 8:02 PM
274
3.
Kai Eckert, Rachel Heuberger und Marko Knepper
allen voran die auf Wikipedia basierende DBpedia9, das auf OpenStreetMap
basierende LinkedGeodataProjekt10, sowie Geonames11, eine umfangreiche
Datenbasis zu (historischen und multilingualen) Ortsnamen inklusive Geo
daten.
Fachspezifische Datenquellen: Hierzu zählen OnlineEnzyklopädien mit
einem thematischen Fokus, aber auch spezielle Datenbanken, wie z. B.
Namenslisten von Grabinschriften. Diese Quellen zeichnen sich vor allem
dadurch aus, dass sie noch nicht in einer Form vorliegen, die für die Kon
textualisierung geeignet ist, insbesondere fehlt es an persistenten Identifiern
und einer Aufbereitung der Daten zur maschinellen Verarbeitung. Aufgrund
des thematischen Bezugs und der hohen Qualität sind sie allerdings gerade
für Fachwissenschaftler sehr interessant.
Die erste prototypische Kontextualisierung beschränkte sich auf Titel aus der
ZeitschriftenDatenbank „Compact Memory“ mit der GND und DBpedia als
Datenquellen zur Verlinkung. Der Fokus lag vor allem auf dem Gesamtprozess
innerhalb des FID Jüdische Studien; vom Zugriff auf die Daten über die Daten
bereitstellung für das Portal bis hin zur Nutzung und Anzeige der Ergebnisse im
Portal selbst.
Ein Beispiel soll das Problem der Kontextualisierung verdeutlichen. In
Compact Memory sind viele Zeitschriften mit rudimentären Metadaten beschrie
ben, oft kommt jedoch eine textuelle Beschreibung hinzu, wie etwa die folgende:
Bar Kochba: Blätter für die heranwachsende jüdische Jugend
Herausgeber: Cheskel Zwi Klötzel
Die Jugendzeitschrift Bar Kochba erschien vierzehntägig seit Frühjahr 1919. Das Blatt wurde
im Juni 1921 aus wirtschaftlichen Gründen eingestellt.
Die kurzlebige Jugendzeitschrift Bar Kochba, die der zionistische Journalist Cheskel Zwi Klötzel
(1891–1951) im renommierten Berliner Welt-Verlag herausgab, veröffentlichte hauptsächlich
Erzählungen, Märchen und Sagen; Rätsel sowie Berichte zur Lage der jüdischen Jugend bildeten weitere Schwerpunkte des Blattes.
Hier ginge es zum Beispiel darum, die Person Cheskel Zwi Klötzel zu identifizie
ren, die im Text als Herausgeber genannt wird und für die im weiteren Verlauf
auch Lebensdaten zu finden sind. Weiteren Kontext liefert z. B. der WikipediaAr
9 Lehmann, Jens; Isele, Robert; Jakob, Max et al.: DBpedia – A largescale, multilingual know
ledge base extracted from Wikipedia. In: Semantic Web 6 (2015), S. 167–195.
10 Stadler, Claus; Lehmann, Jens; Höffner, Konrad; Auer, Sören: LinkedGeoData: A core for a
web of spatial open data. In: Semantic Web 3 (2012), S. 333–354.
11 http://www.geonames.org/ [Zugriff: 14.01.2018].
Unauthenticated
Download Date | 3/3/20 8:02 PM
JudaicaLink und der FID Jüdische Studien
275
tikel zu C. Z. Klötzel12, in dem wiederum Bar Kochba erwähnt wird, so dass ein
Link sehr sicher korrekt wäre. Über den Artikel findet man auch die GNDNum
mer 11623234X13, in allen drei Quellen stimmen die Lebensdaten überein.
Bei der Kontextualisierung von Compact Memory wurden zwei wesentliche
Herausforderungen identifiziert:
1. Die Kontextualisierung profitiert von der Ausnutzung von Querbeziehungen
zwischen den zu verlinkenden Datenquellen. Das macht es allerdings erfor
derlich, diese Datenquellen zur lokalen Verarbeitung zu laden und die Quer
beziehungen entweder vollständig oder explorativ während der Kontextua
lisierung herzustellen. Bei der Vielzahl und Größe der Datenquellen ist das
nicht trivial, alleine das Laden der GND erfordert einen performanten Server
mit ausreichend Hauptspeicher und einen optimierten Ladeprozess, die
DBpedia ist nochmal deutlich größer.
2. Die Anzeige aller gefundenen Links im Portal ist unübersichtlich, zumal viele
der Datenquellen Seiten präsentieren, die nicht sehr benutzerfreundlich
sind.
Beide Problematiken sind aus anderen Projekten bekannt. Den Ansatz zur
Lösung liefert JudaicaLink14, ein RDFbasierter Knowledge Graph, der eine verein
heitlichte Sicht auf die einzelnen Quellen enthält und diese durch Querverweise
bündelt. Dabei entsteht schon durch diese Bündelung eine wesentlich reichere
Datenquelle, die die Kontextualisierung der Metadaten verbessert gegenüber
der Nutzung der einzelnen Quellen. Gleichzeitig fungiert JudaicaLink als Hub, so
dass ausgehend von einer JudaicaLinkURL, die als Identifier zur Anreicherung
genutzt wird, alle weiteren Datenquellen erreicht und zur Kontextbildung heran
gezogen werden können.
Im FID Portal werden Links zu JudaicaLink hinterlegt, so dass auf die Prä
sentation der Kontextualisierungsdaten auch Einfluss genommen werden kann.
Zur Erzeugung der Daten in JudaicaLink werden zwei Strategien verfolgt:
1. Aus jeder Datenquelle werden die für die Domäne der jüdischen Studien
relevanten Daten extrahiert. Dazu kommen verschiedene SeedListen zum
Einsatz sowie Techniken aus dem Focused Crawling, um weitere Daten zu
finden und auf Relevanz zu prüfen. Für diese domänenspezifischen Unter
mengen der Daten werden anschließend Querbezüge hergestellt, um den
Kontextualisierungsprozess zu unterstützen. Ein Beispiel zur Verdeutlichung:
12 https://de.wikipedia.org/wiki/C._Z._Kl%C3%B6tzel [Zugriff: 14.01.2018].
13 http://dnb.info/gnd/11623234X [Zugriff: 14.01.2018.]
14 http://www.judaicalink.org/ [Zugriff: 14.01.2018].
Unauthenticated
Download Date | 3/3/20 8:02 PM
276
2.
Kai Eckert, Rachel Heuberger und Marko Knepper
Basierend auf einer Liste von Rabbinern werden Kategorien in DBpedia iden
tifiziert, mit denen diese Rabbiner beschrieben werden. Über die Kategorien
lassen sich dann weitere Rabbiner finden, die potentiell zu weiteren Katego
rien führen. Die Herausforderung besteht darin, das Ergebnis nicht zu breit
werden zu lassen, also z. B. eine Kategorie „Bürger von Hamburg“ nicht mit
aufzunehmen, nur, weil ein Rabbiner auch in diese Kategorie fällt.
Zusätzlich werden weiterhin Links direkt in den Datenquellen gesucht
(z. B. Ortsnamen, die nicht per se als domänenrelevant angesehen werden
können). Zu verlinkende Datensätze werden dann in JudaicaLink übernom
men und analog zu den Datensätzen aus Strategie 1 verarbeitet.
Dieses Vorgehen hat den großen Vorteil, dass mit JudaicaLink eine – im Vergleich
zur Größe aller Datenquellen – handhabbare Datenquelle für die Domäne der
Jüdischen Studien entsteht, die in anderen Projekten direkt nachgenutzt werden
kann, insbesondere in solchen, für die das direkte Arbeiten mit den Datenquellen
und die Herstellung der Querbezüge ein prohibitiver Aufwand wäre.
Die zur Entwicklung des Verfahrens genutzte Sammlung enthält mehr
als 5.500 Titel, von denen etwa 2.800 keine GNDIdentifier hatten. Von diesen
konnten bislang 1.200 Autoren automatisch kontextualisiert werden, bei einer
Präzision von 78% (evaluiert über eine Stichprobe).
An Datenquellen stehen über JudaicaLink derzeit zur Verfügung:
1. Die gemeinsame Normdatei (GND) der Deutschen Nationalbibliothek,
2. DBpedia,
3. die Yivo Encyclopedia of Jews in Eastern Europe,
4. die Encyclopedia of Russian Jewry,
5. die Enzyklopädie „Das Jüdische Hamburg“.
Zur Einbindung der Daten in das FID Portal und zur Weiternutzung der Links
auch außerhalb des Portals für andere Nutzer der GND wird mit der Deutschen
Nationalbibliothek zusammengearbeitet und das dortige Projekt „Entity Facts“15
genutzt.
Die nächsten Schritte gemäß Projektplan sind der Ausbau von JudaicaLink
durch das Hinzufügen weiterer Quellen (z. B. die Jewish Encyclopedia, eine
gemeinfreie Enzyklopädie in zwölf Bänden, die Library of Congress Subject Hea
dings und Geonames). Die interne Querverlinkung, sowie die Kontextualisie
15 Beck, Julia; Büchner, Michael; Bartholmei, Stephan; Knepper, Marko: Performing Entity
Facts. In: DatenbankSpektrum 17 (2017), S. 47–52.
Unauthenticated
Download Date | 3/3/20 8:02 PM
JudaicaLink und der FID Jüdische Studien
277
rungsverfahren sollen weiter verbessert und damit schließlich die Kontextuali
sierung auf den gesamten Datenbestand ausgeweitet werden.
Kai Eckert
Hochschule der Medien Stuttgart
Nobelstr. 10
70569 Stuttgart
Deutschland
E-Mail: eckert@hdmstuttgart.de
ORCID: orcid.org/0000-0002-5423-561X
Rachel Heuberger
Universitätsbibliothek Frankfurt am Main
Bockenheimer Landstr. 134–138
60325 Frankfurt am Main
Deutschland
E-Mail:
[email protected]frankfurt.de
Marko Knepper
Universitätsbibliothek Mainz
Jakob-Welder-Weg 12
55128 Mainz
Deutschland
E-Mail:
[email protected]mainz.de
ORCID: orcid.org/0000-0003-3905-0403
Unauthenticated
Download Date | 3/3/20 8:02 PM