Textmodellierung und Analyse von quasi-hierarchischen und varianten Liturgika des Mittelalters

Christian Steiner; Robert Klugseder

doi:10.1515/mial-2019-0014

Open Access Published by Akademie Verlag August 9, 2019

Textmodellierung und Analyse von quasi-hierarchischen und varianten Liturgika des Mittelalters

Christian Steiner and Robert Klugseder

From the journal Das Mittelalter

https://doi.org/10.1515/mial-2019-0014

Abstract

The Digital Humanities project ‘CANTUS NETWORK. Libri ordinarii of the Salzburg metropolitan province’ undertakes research around the liturgy and music of the churches and monasteries of the medieval ecclesiastical province of Salzburg. Key sources are the liturgical ‘prompt books’, called libri ordinarii, which include a short form of more or less the entire rite of a diocese or a monastery. The workflow of the project is set in an environment called GAMS, a humanities research data repository built for long-term storage and presentation of data coming from the humanities. Digital editions of the libri ordinarii of the province were generated with the aim of enabling a comparative analysis of the various different traditions.

As a first step, the books were transcribed with strict rule-based tags in Microsoft Word and transformed to TEI using the community’s XSLT stylesheets and a Java-based script. Subsequently, Semantic Web technologies were deployed to foster graph-based search and analysis of the structured data. Possible future work on the topic is facilitated by the dissemination of content levels as Linked Open Data. Further analysis is conducted with the help of Natural Language Processing methods in order to find text similarities and differences between the libri ordinarii.

Keywords: libri ordinarii; liturgy; digital edition; Semantic Web; NLP

Einleitung

Das Forschungsprojekt ‚CANTUS NETWORK. Libri ordinarii der Kirchenprovinz Salzburg‘^[1] beschäftigt sich mit Liturgie und Musik in Kirchen und Klöstern der mittelalterlichen Metropolregion. Die Libri Ordinarii (liturgische Regeltexte) wurden transkribiert und digital kodiert. Eine vorrangig graphenbasierte Analyse wird in der abschließenden Projektphase Detailstudien zum Repertoire ermöglichen und Beziehungen unter den verschiedenen liturgischen Traditionen deutlich machen.

Die Kirchenprovinz Salzburg mit ihren Suffragan- und Eigenbistümern war über viele Jahrhunderte hinweg maßgeblich an der kulturgeschichtlichen Entwicklung Österreichs und Bayerns beteiligt. Umso wichtiger ist es, die zahlreich erhaltenen liturgisch-musikalischen Quellen, die ein wichtiger Bestandteil dieses kulturgeschichtlichen Erbes sind, in digitaler Form zu erschließen und wissenschaftlich auszuwerten. Bei der Auseinandersetzung mit Libri Ordinarii muss der kritischen Übertragung der lateinischen Texte eine fundierte Analyse der Ursprünge der Liturgie und der Kommentare folgen. Die größte Herausforderung für das Projekt war, die Libri Ordinarii der (Erz-)Diözesen Brixen, Freising, Passau, Regensburg (inklusive jenem des Benediktinerklosters St. Emmeram) und Salzburg sowie die der Chorherrenklöster Klosterneuburg, Moosburg, Passau-St. Nikola und Seckau zu transkribieren und in digitale Dokumente im Format XML/TEI^[2] zu transformieren. Als Referenzquelle für einen möglichen (aber bisher nicht gesicherten) Einfluss der benediktinischen Reform von Hirsau auf die nicht-monastischen süddeutschen Traditionen wurde zudem eine digitale Rekonstruktion des Hirsauer Liber Ordinarius erstellt. Insgesamt wurden also zwölf verschiedene Traditionen inklusive ihrer Varianten transkribiert und im Projekt bearbeitet. In der abschließenden Projektphase folgen die vergleichenden Analysen am Gesamtkorpus, die, wie weiter unten gezeigt wird, auf Semantic Web-Technologien (RDF, SPARQL) und NLP (Natural Language Processing) basieren. Die formale Erschließung ermöglicht es, die Zeugen der Liturgie automatisch zu vergleichen und so Hinweise auf Gemeinsamkeiten und Eigenständigkeit der Teiltraditionen zu gewinnen.

In einem zweiten Schwerpunkt werden die Sekundärquellen, also die liturgischen und liturgisch-musikalischen Quellen wie Graduale, Missale, Sequentiare, Antiphonare und Breviere digitalisiert, inventarisiert und für die Implementation in die Webplattform nach den Standards des International Image Interoperability Frameworks (IIIF)^[3] aufbereitet, um hinter den Incipits der Libri Ordinarii auch die konkreten Gestalten eines Gesanges in vollständiger Form und mit musikalischer Notation vor sich zu haben. Es befinden sich zum Zeitpunkt der Verfassung dieses Artikels bereits 38 vollständig digitalisierte und inventarisierte Sekundärquellen auf der Webseite.

Ein Liber Ordinarius enthält in der Regel alle für den Gottesdienst notwendigen Informationen einer einzelnen Institution (Kirche, Kloster) oder einer Gruppe (Diözese, Klosterverband). Das sind zum einen Incipits von Gesängen, Lesungen und Gebeten für das Stundengebet, die Messe und für Prozessionen, zum anderen Rubriken, in denen Anweisungen gegeben werden, wie und wann bestimmte liturgische Handlungen auszuführen sind. Drittens können Libri Ordinarii Liturgiekommentare aus zeitgenössischen Standardwerken enthalten, die zusätzliche Hinweise für einen bestimmten Festtag oder eine besondere liturgische Handlung zur Verfügung stellen. Eine vierte Säule stellt, wenn vorhanden, die linienlose Neumennotation der Gesangsincipits dar, was bisher kaum studiert worden ist. Im Falle von Ordinariums-Teilen sind die Neumen der einzige Nachweis, um welches Musikstück es sich wirklich handelt. Das „Lokalkolorit“ bildet die Kombination aus den drei bzw. vier Säulen, also der Gesangs- und Vortragstexttradition, den Rubriken und den Liturgieerklärungen. Die Rubriken beinhalten häufig Angaben zur Art und Weise der Gesangsausführung, können also wichtige Hinweise zur Aufführungspraxis des Chorals liefern. Die Libri Ordinarii sind jedoch auch für Historiker und Kunsthistoriker von großem Interesse, wenn Angaben zu Personen, liturgischen Funktionsträgern, Orten, Gebäuden oder zur Ausstattung von Sakralräumen enthalten sind. Diese Informationen können aber nicht ohne ein vertieftes Studium der Libri Ordinarii verwertet werden. Lokalspezifische Angaben, die sich für gewöhnlich auf eine Dom- oder Ordenskirche beziehen, sind selbstverständlich nicht eins zu eins auf andere Institutionen übertragbar.

Ein Liber Ordinarius besteht in erster Linie aus Incipits von Gesangs-, Lesungs- und Gebetstexten. Als Mittel der Auszeichnung in den Originalquellen sind diesen Incipits, quasi als Start-Tags, Gattungsbezeichnungen vorangestellt. Die End-Tags sind implizit in der Art der Formatierung enthalten, z. B. in der Schreibfarbe (rubriziert) oder einem Wechsel der Schriftart.

Abbildung 1

Ausschnitt aus dem Salzburger Liber Ordinarius, Salzburg, Universitätsbibliothek M II 6 (um 1190)

Was nun auf den ersten Blick als ideale Voraussetzung für eine hierarchische, auf XML basierende Modellierung erscheinen mag, bringt jedoch auch Probleme mit sich. Eine große Herausforderung stellt die nachträgliche Herstellung der ‚Validität‘ und ‚Wohlgeformtheit‘ der Regeltexte dar. Die mittelalterlichen Kompilatoren der Libri Ordinarii hatten keine Tools wie XML-Editoren zur Verfügung, die ihnen Fehler beim Umsetzen des Liturgiemodells in eine konkrete Ausprägung, also in eine lokal überformte römische Liturgie, angezeigt hätten. Die Liturgieausführenden im Mittelalter hatten kein Problem mit diesen invaliden und nicht wohlgeformten Texten, TEI hingegen schon.

Die Geisteswissenschaften im digitalen Wandel

Im Zeitalter des digitalen Wandels verändert sich auch die Methodologie in den Geisteswissenschaften, was wiederum direkten Einfluss auf die Theoriebildung hat. Was für manche wie ein bedrohliches Szenario wirkt, sollte in Wirklichkeit als große Chance gesehen werden, die unterschiedlichsten methodischen Ansätze durch die Anwendung von digitalen Methoden zusammenzuhalten und zu verbinden. Die Digital Humanities sind ein nativ interdisziplinäres Fach und fungieren seit ihren Anfangstagen als verbindendes Element und Mittler diversester Disziplinen. So ist es nicht verwunderlich, dass auch die mediävistischen Liturgie- und Musikwissenschaften schon seit längerem auf digitale Methoden zurückgreifen und ihre Forschungsdaten digital anreichern wollen. Gerade dieses Digital Enrichment steht im Fokus der Digital Humanities wie wir sie verstehen. Aus Digital Enrichment wird eigentlich Semantic Enrichment, indem die in den Daten enthaltenen semantischen Strukturen expliziert und kontextualisiert werden. Dies gilt im besonderen Ausmaß für Libri Ordinarii, welche durch ihre hohe Strukturiertheit und große Anzahl an bedeutungstragenden Textelementen schon in ihrer ursprünglichen Natur XML-Dokumenten sehr nahekommen. Die semantische Anreicherung entsteht dabei hauptsächlich, aber nicht nur, im gesamten Prozess der Digitalisierung. Dabei entsteht neben der Explikation von logischen Textstrukturen, narrativen, sowie interpretativen Ebenen auch Nachhaltigkeit.^[4] In einer solchen Weise semantisch angereicherte digitalisierte Quellen bieten der Nachwelt bei entsprechender Archivierung (siehe Abschnitt: Infrastruktur) einen Informationsschatz, wie er durch eine rein analoge Archivierung an einem nur physisch verfügbaren Ort niemals zustande kommen könnte.

Durch Digital Enrichment können digitale Editionen im Sinne von Sahle und Vogeler überhaupt erst entstehen:

‚Digitale Editionen‘ werden nicht nur in digitaler Form publiziert, sondern folgen in ihrer Methodologie einem digitalen Paradigma – so wie traditionelle gedruckte Editionen eine Methodologie verfolgten, die dem Paradigma der Druckkultur entspricht.^[5]

Somit werden digitale Editionen sozusagen zu einer empirischen Datenbank, die die Forschung in den Geisteswissenschaften prägt und vorantreibt. Es ergeben sich dadurch verschiedene Möglichkeiten der Repräsentation und Analyse der so entstandenen semantisch angereicherten Daten.^[6]

Infrastruktur

Der Workflow für die Erstellung der digitalen Editionen im Projekt ‚CANTUS NETWORK‘ ist in GAMS (Geisteswissenschaftliches Asset Management System)^[7] eingebettet. GAMS ist eine OAIS-konforme^[8] Infrastruktur zur Verwaltung, Publikation und Langzeitarchivierung digitaler Ressourcen aus allen geisteswissenschaftlichen Disziplinen. Das Asset Management System und Repositorium basiert auf dem Open-Source-Softwareprojekt FEDORA (Flexible Extensible Digital Object Repository Architecture) und wird am Zentrum für Informationsmodellierung der Universität Graz laufend weiterentwickelt. Alle Datenobjekte im System erhalten einen ‚permanenten Identifikator‘ (PID) auf Basis des Handle-Systems^[9] und sind so dauerhaft zitierbar. Es existieren derzeit etwa 80.000 unterschiedliche digitale Objekte in 50 verschiedenen Projekten im Repositorium, die zumeist tiefenerschlossen sind.^[10] Ein digitales Objekt in GAMS ist eine Sammlung von mehreren digitalen Ressourcen. Die digitale Repräsentation eines Liber Ordinarius umfasst etwa deskriptive Metadaten, Faksimiles, eine TEI-basierte Transkription des gesamten Buches, daraus abgeleitete Datenrepräsentationen in RDF, Informationen für die Darstellung (‚Manifest‘) in einem IIIF-konformen Imageviewer (z. B. ‚Mirador‘^[11]), Metadaten der Sekundärquellen, Transformationsszenarien und weitere Datenströme. Ein digitales Objekt im Sinne von GAMS ist also hochkomplex, wobei die einzelnen Datenströme als Attribute der jeweiligen Objekte in Analogie zu objektorientierter Programmierung gesehen werden können. GAMS umfasst weitere Open-Source-Komponenten wie Apache Lucene und Solr für Volltextsuche, den ‚Triplestore Blazegraph‘ als Datenbank für RDF-Daten, ‚PostgreSQL‘ als relationale Datenbank, ‚Apache Cocoon‘ als Hauptplattform für XML verarbeitende Webservices und ‚Loris IIIF Image Server‘ für die Auslieferung der Faksimiles über die IIIF Image API.

Word als ‚Datenerfassungsinstrument‘

Der allererste Schritt der Erstellung unserer digitalen Editionen im Projekt ‚CANTUS NETWORK‘ ist der einzige außerhalb der Infrastruktur GAMS. Der von uns gewählte Weg, diesen ersten Schritt der Digitalisierung mit der proprietären Software Microsoft Word zu gehen, entgegen den sonst in den Digital Humanities bevorzugten Open-Source-Tools, hat zuallererst einen rein pragmatischen Hintergrund.

Wir haben uns im Projekt dafür entschieden, die lateinischen Texte in Microsoft Word vorzukodieren und die so ausgezeichneten Word-Dokumente in weiteren Schritten nach TEI zu transformieren. Vor einer derartigen Entscheidung stehen am Beginn viele Projekte, die mit der Erstellung von digitalen Editionen befasst sind. Die Datenerfassung in den Digital Humanities ist ein breites Feld, in dem es (noch) keine Standardlösungen gibt. Es herrscht weitgehend Konsens darüber, dass am Ende des Prozesses auf Datenebene ein TEI-Dokument stehen sollte, zumindest wenn es um die Erfassung von Text geht.^[12] Der Weg dorthin ist aber von sehr viel weniger Konsens geprägt. Die Möglichkeiten reichen von der händischen Erstellung der TEI Dokumente über die Nutzung von Frameworks in XML-Editoren (wie z. B. ‚Ediarum‘ der Berlin-Brandenburgischen Akademie der Wissenschaften)^[13], Handschriftenerkennungssoftware wie ‚Transkribus‘^[14] und virtuellen Forschungsumgebungen wie TextGrid^[15] bis hin zu einer Transkription in Textverarbeitungsprogrammen mit erweiterten Auszeichnungsmethoden. Letzteres ist für FachwissenschaftlerInnen in den Geisteswissenschaften die mit großer Mehrheit bevorzugte (weil gewohnte) Methode, ihre Daten zu erfassen, wie aus einer Studie zur „Softwarenutzung in der geisteswissenschaftlichen Forschungspraxis“^[16] hervorgeht. Diesem Faktum ist auch die Entscheidung geschuldet, Microsoft Word im CANTUS NETWORK-Projekt als primäres Datenerfassungstool einzusetzen.

Diesem durchaus nicht zu unterschätzenden Vorteil der Vertrautheit mit dem Tool unter den fachwissenschaftlichen MitarbeiterInnen müssen jedoch etliche Nachteile entgegengestellt werden. Die Möglichkeiten der Auszeichnung eines Textes in Word sind begrenzt. Neben Formatvorlagen können eindeutige Zeichenfolgen für Textphänomene wie auch unterschiedliche Überlieferungen verwendet werden. Dies birgt aber ein großes Potential für (Tipp-) Fehler, die in Word nur schwer auffindbar sind. Die streng hierarchische Struktur eines XML-Dokumentes muss in Word ebenfalls eingehalten werden, kann aber nicht wie in jedem XML-Editor einfach kontrolliert werden. Die Suche nach Fehlern gestaltet sich in Word generell ungleich schwieriger als in XML-Editoren. Für eine erfolgreiche Transformation der Word-Dokumente nach TEI müssen die Ausgangsdokumente aber praktisch fehlerfrei sein. Ein iterativer Prozess von Fehlerkorrekturen und Transformationsversuchen ist die Folge.

Es muss außerdem der technische Mehraufwand berücksichtigt werden, der bei der Transformation von Word nach TEI entsteht. Zwar werden von der TEI-Community^[17] XSLT-Stylesheets für eine Konversion von Word-Dateien nach TEI P5 bereitgestellt, jedoch müssen diese auf die jeweilige Anwendung stark angepasst werden, um ein zufriedenstellendes Ergebnis zu bekommen. In unserem Fall übernimmt eine in Java geschriebene Applikation die notwendigen Zwischenschritte. Von der Ursprungsdatei ausgehend wird zuerst ein Zwischencode generiert, der zwar wohlgeformtes XML darstellt, jedoch noch kein valides TEI-Dokument. Eindeutige Zeichenfolgen, die von den Editoren in Word kodiert wurden, werden mit Hilfe von regulären Ausdrücken mit den entsprechenden TEI-Konstrukten ersetzt. Auch dieser Prozess ist komplex, und es ist einiges an Programmierarbeit im Vorfeld nötig, um diesen Weg beschreiten zu können. Ohne die entsprechende Infrastruktur ist ein Workflow, wie wir ihn gewählt haben, nicht möglich.

Zusammenfassend kann gesagt werden, dass der Umfang und vor allem die Komplexität der gewünschten Auszeichnungen sowie der Wissensstand und die Compliance der FachforscherInnen ausschlaggebend sein sollten bei der Entscheidung für oder gegen einen Workflow von Microsoft Word nach XML. Die Erfahrungen im Projekt ‚CANTUS NETWORK‘ haben gezeigt, dass wir trotz der notwendigen technischen Infrastruktur an die Grenzen dieser Vorgehensweise gestoßen sind. Die in diesem Kontext auch oft geforderte technische Weiterbildung der FachwissenschaftlerInnen und damit der automatische Wandel der eingesetzten Technologien und Methoden sei hier in den Raum gestellt. Komplexe Sachverhalte fordern komplexe Vorgehensweisen – aber eben auch, wie oben bereits erwähnt, pragmatische Lösungen.

Ordinals Encoding Initiative?

Das Level an Komplexität spiegelt sich auch in der Modellierung der Libri Ordinarii in TEI wider. Obwohl TEI als Standard für die Repräsentation von Texten unzählige Möglichkeiten für sehr heterogenes Ausgangsmaterial bietet, muss man, um Libri Ordinarii in ihrer Gesamtheit erfassen zu können, kreativ werden. In der Vergangenheit gab es bereits Vorschläge, eine eigene Ordinals Encoding Initiative zu entwickeln, um der besonderen Natur von Libri Ordinarii gerecht zu werden.^[18]

Durch die Erfahrungen im Projekt konnten wir jedoch feststellen, dass eine Modellierungsstrategie im Rahmen der TEI durchaus sinnvoll ist. Es muss weiterhin in Betracht gezogen werden, dass Libri Ordinarii als Ressource die verschiedensten wissenschaftlichen Interessen bedienen können und es stark von diesen Interessen abhängt, welche Form von Modellierung eine befriedigende Bearbeitung der Materie erlaubt. Eine Edition, die ihren Fokus auf die Erfassung der in den Libri Ordinarii enthaltenen Neumen legt, wird vermutlich völlig anders konzipiert werden, als eine Edition, wie sie im Projekt ‚CANTUS NETWORK‘ entsteht, welche eindeutig die textuellen Elemente der Ressourcen in den Mittelpunkt stellt. Eine wiederum andere Betrachtungsweise könnte beispielsweise jene auf die in den Libri Ordinarii vorhandenen Akteure (Priester, Diakon, Subdiakon, Schüler etc.) und ihre Handlungen (Lesen, Singen, Tragen, Verbeugen etc.) sein. Eine solche Denkart würde eventuell sogar den Einsatz des Moduls Performance Texts der TEI nahelegen, „intended for use when encoding printed dramatic texts, screen plays or radio scripts, and written transcriptions of any other form of performance.“^[19] Es wird also deutlich, dass es selbst für eine fiktive Ordinals Encoding Initiative (die sich ‚nur‘ mit Libri Ordinarii und nicht wie die TEI mit allen Textformen auseinander setzen muss) schwierig wäre, all diese Denkweisen und Möglichkeiten in ein Schema zu bringen. Die TEI bietet gerade vor dem Hintergrund der Heterogenität von Texten die Möglichkeit, sogenannte Customizations zu erstellen und auch mehrere Standards miteinander interagieren zu lassen. So geschehen zum Beispiel in der ‚Music Special Interest Group‘ (SIG), die eine ‚Customization‘ für die Integration der ‚Music Encoding Initiative‘ (MEI) in der TEI erstellt hat.^[20] So wäre es also möglich, innerhalb des Kosmos der TEI zu bleiben und ein seinen Bedürfnissen entsprechendes Modell mit Fokus auf der Erfassung der in den Libri Ordinarii verzeichneten Neumen zu erstellen.

Von TEI zu Linked Data

Unser Modell zielt auf mehreren Ebenen auf die semantische Anreicherung der Daten ab. So mussten wir besonderen Wert darauf legen, die im TEI vorhandenen Konzepte nach RDF (Resource Description Framework)^[21] übertragen zu können. Eine Überführung der Daten von TEI nach RDF bietet einige Vorteile. RDF stellt einen Graphen dar, somit können Beziehungen verschiedener Konzepte der textuellen Ressource untereinander einfacher modelliert werden. Ein weiterer Vorteil ist die Möglichkeit, formale Beschreibungen des Datenmodells erstellen zu können. Dadurch wird es möglich, der Datenstruktur eine Hierarchie zu geben und Eigenschaften zu definieren, die jeweils zwei Ressourcen miteinander verlinken. Außerdem können menschenverständliche Beschreibungen für die jeweiligen Ressourcen erstellt werden. Die Formalisierung von Libri Ordinarii mit Semantic-Web-Technologien bietet daher Möglichkeiten der effizienten Suche und Analyse der Daten.

Dazu wird die Abfragesprache SPARQL^[22] verwendet. Die gesamte Suche im Projekt ‚CANTUS NETWORK‘, sowohl Volltextsuche als auch Expertensuchen, basiert auf sogenannten ‚SPARQL Queries‘. Diese werden auf das oben erwähnte Datenmodell angewandt. Die RDF-Daten selbst sind in einem ‚Triple Store‘ (in unserem konkreten Fall ist das ‚Blazegraph‘^[23]) gespeichert und können über dessen Interface abgefragt werden. Die Ergebnisse kommen in unserem System (siehe Abschnitt: Infrastruktur) wiederum als XML an und werden danach wieder für die Webpräsentation transformiert.

Der größte Vorteil bei der Verwendung von Semantic-Web-Technologien könnte aber in der Zukunft liegen. Diese Technologien wurden vorrangig dafür entwickelt, um den Austausch von strukturierten Daten über das WWW zu forcieren. Wenn wir den Fokus von digitalen Editionen wie jenen im Projekt ‚CANTUS NETWORK‘ auf die Erzeugung von strukturierten und damit auswertbaren Daten legen, sollten wir ebenso an die Vernetzung dieser Daten denken. Die Nachnutzung von so generierten Forschungsdaten kann mit RDF erheblich verbessert werden, da es damit möglich wird, auch für verschiedene Forschungsinteressen am gleichen Objekt (siehe oben), auf ein gemeinsames Abstraktionslevel zurückzugreifen. In diesem Kontext gibt es das Phänomen der ‚Linked Open Data Cloud‘,^[24] die kontinuierlich größer wird und genau diesen Anspruch der Vernetzung von strukturierten Daten widerspiegelt. Gemeinsam benutzte Vokabularien in speziellen Bereichen ermöglichen eine weitaus vernetztere Arbeit, als dies bisher möglich war. Würden etwa Folgeprojekte ihre Erkenntnisse aus der Liber Ordinarius-Forschung ebenso in RDF und mit bereits vorhandenen Vokabularien beschreiben, könnten diese mit jenen Daten von ‚CANTUS NETWORK‘ verknüpft werden und womöglich weitere Erkenntnisse liefern.^[25] Auch bereits vorhandene Ressourcen wie etwa die Cantus Manuscript Database^[26] sollten ihre Daten zukünftig als RDF bereithalten, um eine Vernetzung zu ermöglichen. Die Idee geht dahin, das im Web vorhandene Wissen zu strukturieren und damit nutzbar zu machen:

Hilfreiches Hintergrundwissen findet man häufig im Web. Jedoch ist eine automatische Verknüpfung mit lokalen Daten schwierig, da Daten im Web häufig unstrukturiert und für Maschinen schwer zu interpretieren sind. Linked Open Data kann hier Abhilfe schaffen, da dort Wissen aus verschiedensten Domänen in einer Form vorliegt, die von Maschinen interpretiert werden kann. Dieses kann mit automatischen Methoden mit den vorliegenden Daten verknüpft werden, so dass es für das Auffinden von Mustern zur Verfügung steht. So kann eine intelligente Datenanalyse durchgeführt werden, ohne dass Hintergrundwissen lokal vorgehalten und gepflegt werden muss.^[27]

Ein Beispiel für eine solche Vorgehensweise in digitalen Editionen beschreiben Pollin und Vogeler und demonstrieren in ihrem Artikel

that creating XML/TEI transcription of a text prepared to be used as semantic web data offers new approaches for scholarly edition, fits to the graph-like understanding of historical data, and the data becomes more expressive and self-describing.^[28]

Am Zentrum für Informationsmodellierung wird derzeit an der vollständigen RDF-Repräsentation von Hermann Grotefends Standardwerk „Zeitrechnung des deutschen Mittelalters und der Neuzeit“^[29] gearbeitet. Festkalenderangaben aus unterschiedlichen Kontexten wie auch aus den Libri Ordinarii des ‚CANTUS NETWORK‘ sollen eindeutig referenzierbar werden, indem sie mit den RDF-Daten des ‚Grotefend’ zusammen verarbeitet werden. Ein erster Schritt zur Entstehung von gemeinsamen Vokabularien wird dadurch gesetzt.

Analyse und korpusbasierte Methoden

Die Analyse und Expertensuche mit Hilfe von RDF und SPARQL wird um eine weitere Analyseebene ergänzt. Mit Hilfe von Natural Language Processing (NLP) sollen unter anderem Frequenz- und Kookkurrenzanalysen durchgeführt werden, um Vergleiche der verschiedenen Traditionen auf sprachlicher Ebene durchführen zu können. Mit Kookkurrenzanalyse ist das Auffinden von Begriffen innerhalb eines bestimmten Textabschnittes (Incipit, Satz, Absatz, Dokument etc.) gemeint, die überdurchschnittlich häufig mit einem bestimmen anderen Begriff auftreten. Damit kann der typische Gebrauchskontext von bestimmten Wortformen untersucht werden. Dies ist im Kontext von Libri Ordinarii besonders an den von den Autoren frei gestalteten Textstellen von Interesse.

Weitere Ansätze, die im Projekt jedoch nur experimentell getestet werden sollen, liefert das Gebiet der sogenannten ‚Text Similarity‘. Über ‚feature learning‘-Techniken in NLP wie word embeddings können Wörter oder Phrasen in Vektoren verwandelt und somit vergleichbar gemacht werden. Es gibt mittlerweile Python-Bibliotheken,^[30] die die Anwendung von ‚Text Similarity‘-Methoden auch auf historische Sprachstufen unterstützen.^[31] Auch mit fortgeschrittenen NLP-Bibliotheken wie ‚spaCy‘^[32] lässt sich durch Anpassungen und die Konvertierung vorhandener Wortvektoren auch klassisches Latein analysieren.^[33] Die Analysemethoden dieser und weiterer Toolkits für NLP (z. B. NLTK^[34]) wie ‚Text Classification‘ oder ‚Stilometrie‘ eignen sich vor allem für eine Annäherung auf experimenteller Ebene, um Erkenntnisse über die Nutzbarkeit solcher Szenarien in der Liber Ordinarius-Forschung zu gewinnen. Hier muss natürlich die hochstrukturierte Form der Libri Ordinarii mitgedacht werden. Von großem Interesse für diese Methoden wären aber diejenigen Bereiche der Bücher, die frei gestaltet wurden, wie etwa Kommentare oder Freitext vor Incipits.

Gemeinsame Wurzeln, Traditionslinien und Trennendes

Abschließend wollen wir auf Erkenntnisse eingehen, die uns bereits vor Abschluss des Projektes zu den jeweiligen Libri Ordinarii vorliegen.

Der Passauer Bischof Altmann (um 1015–1091),^[35] überzeugter Anhänger des Papsttums während des Investiturstreits, war Initiator und Wegbereiter einer liturgischen Erneuerung in seiner Diözese. Mit dem Chorherrenkloster St. Nikola vor Passau begründete er eine zentrale Ausbildungsstätte für den Diözesanklerus. Später übernahm Erzbischof Konrad von Salzburg (um 1075–1147) die Initiative. Er schrieb für das Salzburger Domkapitel die Regel des Hl. Augustinus verbindlich vor und schloss Klöster der Salzburger und der Passauer (Erz-) Diözesen zu einem Augustinerchorherrenverband zusammen. Erstes Zeugnis für eine Reglementierung der Liturgie bei den Chorherren ist der sogenannte ‚Liber Ordinarius‘ des Mengotus (A-Wn Cod. 1482), der um 1150 für St. Nikola (Passau) kompiliert wurde.^[36] Dieses Regelbuch war Vorbild für weitere Libri Ordinarii der (Erz-) Diözesen Salzburg und Passau. Als direkter Nachfolger kann der um 1190 entstandene Codex 208 der Grazer Universitätsbibliothek gesehen werden.^[37] In seiner ursprünglichen Form handelt es sich um einen Chorherren-‚Ordo‘ für den Gebrauch in der Diözese Passau. Überraschenderweise wurde dieser Codex jedoch für das Augustinerchorherrenstift Seckau in der Erzdiözese Salzburg hergestellt und nach der Erhebung Seckaus zum Salzburger Eigenbistum (1218) teilweise an den Salzburger Usus angepasst. Von weiteren zeitgenössischen Abschriften dieses Passauer Chorherren-‚Ordo‘ existieren zudem Fragmente in St. Florian (ursprünglich aus dem Chorherrenkloster St. Hippolyt [St. Pölten])^[38] und in der Österreichischen Nationalbibliothek Wien (Provenienz unbekannt).

Wie Franz Praßl^[39] schon vor dem aktuellen ‚CANTUS NETWORK‘-Projekt zeigen konnte, wurde der Salzburger ‚Liber Ordinarius‘, das ‚Flaggschiff‘ unter den Ordinarii, um 1198 kompiliert,^[40] dem Jahr, in dem der neue ‚Konradinische‘ Dom geweiht worden war. Dieser ‚Liber‘ weist wieder deutliche Parallelen zum älteren ‚Mengotus‘ auf. Er nimmt bezüglich Gesamtumfang, Komplexität und Anzahl an Zitaten aus zeitgenössischen liturgischen Summen^[41] unter allen uns bekannten Ordinarii eine herausragende Rolle ein. Der Schreiber gibt sich selbst als Priester mit dem Namen Rudiger zu erkennen. Robert Klugseder konnte nachweisen, dass der Passauer Diözesan-‚Liber Ordinarius‘ in den 1230er Jahren zusammengestellt wurde.^[42] Zu dieser Zeit, genauer von 1233 bis 1250, leitete Bischof Rudiger die Diözese. Rudiger stammt aus Bergheim im Norden von Salzburg. Seit 1198 war er Kanoniker am Salzburger Dom. Einiges spricht dafür, den Schreiber des Salzburger ‚Ordinarius‘ mit dem späteren Passauer Bischof mit demselben Namen identifizieren. Entstehung und Entwicklung der Ordinarii aus Salzburg und Passau müssen somit als zusammenhängend betrachtet werden.

Bemerkenswert ist die bei verschiedenen Festen beobachtbare Nähe Salzburgs und Passaus zu den liturgischen Traditionen des deutschen Südwestens (Bodenseeraum). Zwei Szenarien sind denkbar, wie es dazu gekommen sein könnte: Der Liturgiker Bernold von Konstanz (um 1050–1100) und Bischof Altmann von Passau waren Gesinnungsgenossen und Anhänger der Gregorianischen Reform. In allen genannten Ordinarii sind, neben zahlreichen für den Bodenseeraum typischen Gesängen, umfangreiche Zitate aus Bernolds liturgischen Summen anzutreffen. Man kann vermuten, dass Altmann Bernold kannte und schätzte. Möglich ist jedoch auch, dass die ebenfalls im Bodenseeraum beheimatete benediktinische Liturgietradition von Hirsau die säkularen Traditionen des deutschen Südostens direkt oder indirekt beeinflusste. Am wahrscheinlichsten erscheint ein Zusammenspiel beider Überlieferungswege. Die oben genannten Korpusanalysen werden hier zu einer Klärung dieser Frage beitragen können.^[43] Aus diesem Grund wurde der monastische Hirsauer ‚Ordo‘ als zusätzliche Quelle in das Projekt aufgenommen.

Neben den bereits erwähnten Libri Ordinarii aus den Zuständigkeitsbereichen der (Erz-) Diözesen Salzburg und Passau wurden auch die Regeltexte aus den Augustinerchorherrenklöstern Klosterneuburg und der jüngste aus Seckau übertragen.^[44] Hier werden die Analysen zeigen, in wie weit sich die Chorherrentraditionen, die sich grundsätzlich am jeweiligen Diözesanritus orientieren sollten, von diesen unterscheiden.

Die Diözesan-Ordinarii aus Brixen, Freising und Regensburg^[45] stellen jeweils eigene Traditionen dar. Abgesehen von einem gemeinsamen ‚süddeutschen Basisproprium‘ zeigen diese Regelbücher ein mehr oder weniger ausgeprägtes Eigengut. Das betrifft sowohl das Repertoire wie auch die Qualität und Quantität der Rubriken bzw. das Fehlen von Zitaten aus liturgischen Summen.^[46] Um die Genese der erst im 14. Jahrhundert kompilierten Ordinarii aus Regensburg und Freising besser zu verstehen, wurden zusätzlich die Regelbücher aus dem Benediktinerkloster St. Emmeram Regensburg^[47] und dem Kollegiatstift St. Kastulus Moosburg^[48] in das Projekt aufgenommen. Der Abt des Benediktinerklosters St. Emmeram war bis 975 in Personalunion auch Regensburger Bischof. Es ist daher zu untersuchen, inwieweit die liturgische Tradition St. Emmerams die Domliturgie bzw. die liturgische Praxis der Domkanoniker beeinflusste.^[49]

Der ‚Liber Ordinarius‘ aus Moosburg stellt grundsätzlich eine Adaption des Freisinger Diözesan-‚Ordo‘ für die Moosburger Kanoniker dar. An einigen Stellen enthält der etwa 50 Jahre ältere Moosburger ‚Ordo‘ jedoch Passagen, die auf eine ältere Diözesanvorlage schließen lassen. Das Projekt soll helfen, Fragestellungen wie diese zu beantworten und in Zukunft einfachere Möglichkeiten als das Close Reading jedes einzelnen Texts aufzeigen, um an diese Erkenntnisse zu gelangen.

Zusammenfassung und Ausblick

Im Forschungsprojekt ‚CANTUS NETWORK. Libri ordinarii der Kirchenprovinz Salzburg‘ werden Liturgie und Musik in Kirchen und Klöstern der mittelalterlichen Metropolregion Salzburg mit Hilfe von Methoden der Digital Humanities beforscht. Die Libri Ordinarii dieser Region wurden transkribiert und über mehrere Transformationsebenen von Microsoft Word nach TEI transformiert. Folgend wurden automatisiert RDF-Repräsentationen der Content-Ebenen der digitalen Editionen für das Semantic Web erstellt. Die so formalisierten Daten werden für eine graphenbasierte Suche und Analyse genutzt. Weitere Analysetools aus dem Bereich des Natural Language Processing werden in der abschließenden Projektphase Detailstudien zum Repertoire ermöglichen und Beziehungen unter den verschiedenen liturgischen Traditionen deutlich machen. In Zukunft könnte durch eine vermehrte Zurverfügungstellung von für die Libri Ordinarii-Forschung relevanten Daten in strukturierten Formaten wie RDF und XML und der gemeinsamen Nutzung von verfügbaren Vokabularien im Sinne von Linked Open Data, eine weitergehende Zusammenarbeit in ähnlich angesiedelten Projekten forciert werden. Die Anwendung von NLP-Techniken in der textuellen Analyse historischer Daten muss weiter intensiviert werden, um in diesem Bereich noch weitgehend fehlende Best-Practice-Taktiken zu etablieren.

Online erschienen: 2019-08-09

Erschienen im Druck: 2019-07-11

This work is licensed under the Creative Commons Attribution 4.0 Public License.

Textmodellierung und Analyse von quasi-hierarchischen und varianten Liturgika des Mittelalters

Abstract

Einleitung

Die Geisteswissenschaften im digitalen Wandel

Infrastruktur

Word als ‚Datenerfassungsinstrument‘

Ordinals Encoding Initiative?

Von TEI zu Linked Data

Analyse und korpusbasierte Methoden

Gemeinsame Wurzeln, Traditionslinien und Trennendes

Zusammenfassung und Ausblick

Journal and Issue

Articles in the same Issue