Bibeldigitalisierung

Copyright

Copyright (C) 2011-2013  Stephan Kreutzer, Claas-Fridtjof Lisowski

This file is part of Freie Bibel.

Freie Bibel is free software: you can redistribute it and/or modify
it under the terms of the GNU General Public License version 3 or any later version,
as published by the Free Software Foundation.

Freie Bibel is distributed in the hope that it will be useful,
but WITHOUT ANY WARRANTY; without even the implied warranty of
MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
GNU General Public License 3 for more details.

You should have received a copy of the GNU General Public License
along with Freie Bibel. If not, see <http://www.gnu.org/licenses/>.

The complete source code of this file is available at <http://www.freie-bibel.de>.

Einführung

Gottes Wort hat mit Erfindung des Buchdrucks eine rasante Verbreitung gefunden. Die Anzahl der angefertigten Übersetzungen und deren Überarbeitungen (auch „Revisionen“ genannt) hat seitdem stark zugenommen. Noch dazu sind die jeweiligen Textfassungen dann im Laufe der Jahre in vielfältigen Ausgaben erschienen. Ein großer Teil dieser Bibeln ist heute leider nur noch schwer zugänglich, sodass ein intensives und vergleichendes Studium mit erheblichem Aufwand verbunden ist. Entsprechende Materialien müssen oft mit viel Mühe zusammengetragen und ausgewertet werden, manchmal sogar ein unmögliches Unterfangen. Selbstständiger Nachdruck und neue Einsatzmöglichkeiten sind darüber hinaus rechtlich so gut wie nie gestattet oder wenigstens zahlreichen widernatürlichen Einschränkungen unterworfen. Die Bibeldigitalisierung hat deshalb das erklärte Ziel, Bibeltexte zunächst ausfindig zu machen, zu klassifizieren, sodann für die Nachwelt zu erhalten und ferner Analyse sowie Studium derselben (mithilfe von Reproduktionen in diverser Form inkl. erneuter Herausgabe) allgemein zu fördern.

Grundlagen

Da Gott sein Wort immer direkt an Menschen gerichtet hat, ist es nicht verwunderlich, dass es zwangsläufig in einer jener Sprachen erstmalig festgehalten wurde, derer der jeweilige Schreiber mächtig war. Weil die frohe Botschaft aber allen Menschen gilt und nicht nur einem exklusiven Kreis von Sprachwissenschaftlern, welcher mit den altertümlichen Varianten von Hebräisch, Aramäisch und Griechisch vertraut ist, wurde seit jeher die verantwortungsvolle Aufgabe der Bibelübersetzung in Angriff genommen. Aufgrund neuerer Entdeckungen, Veränderungen innerhalb der Zielsprache, versehentlichen Übersetzungsfehlern oder begrüßenswerter Präzisierung wurden Übersetzungen des Öfteren „revidiert“ mit dem Ergebnis einer Bibelüberarbeitung. Wenn dabei Teile des Textes erneut aus dem Grundtext übersetzt wurden, handelt es sich quasi um eine eigenständige Übersetzung derselben Übersetzungsgruppe, anderenfalls bei kleineren Anpassungen und Korrekturen lediglich um eine Überarbeitung¹. Die reine Textfassung einer Übersetzung bestehend aus einer Ansammlung von Wörtern, Sätzen und Satzzeichen wird für den Druck einer Bibelausgabe vorbereitet: Layout, Einbindung, Lesezeichen, Vers- und Kapitel-Einteilung, Parallelstellen, Absätze, Überschriften, Silbentrennung, Kommentare, Vorwort, Tafeln, Verzeichnisse, Karten und Bilder kommen hinzu; also alles, was im Urtext nicht enthalten und somit auch nicht Gegenstand der Übersetzungsarbeit gewesen war². Eine auf diese Weise zusammengestellte Ausgabe kann dann in verschiedenen Auflagen immer wieder nachgedruckt werden, bis schließlich der freudige Leser sein persönliches Exemplar in Händen halten darf. Aber selbst einzelne Exemplare derselben Auflage können Unterschiede aufweisen – nicht etwa wegen Eintragungen, Beschädigungen oder Abnutzung, sondern weil sie evtl. bereits bei der Herstellung mit Knicken, Schnitten oder mit temporär verursachten Druckfehlern versehen wurden.

Über Jahre und Jahrhunderte wurden unüberschaubar viele Übersetzungen, Überarbeitungen, Ausgaben und Auflagen angestrengt, von denen die weitaus meisten unbekannt oder schwer zugänglich geblieben sind. Bei der Bibeldigitalisierung werden Übersetzungen/Überarbeitungen untersucht und aufbereitet, während die Analyse von einzelnen Ausgaben, Auflagen und Exemplaren als „Hilfswissenschaft“ Beachtung findet. Es geht in erster Linie nicht darum, Exemplare zu sammeln, sondern den eigentlichen Bibeltext daraus zu entnehmen und folglich das Original-Exemplar ersetzbar zu machen. Besitz des Originals sollte niemals eine zwingende Voraussetzung sein dürfen, um einen Text lesen zu können. Kinderbibeln werden nicht, Auswahlbibeln vorerst nicht mit einbezogen.

Vorgehensweise

Die erste Aufgabe besteht darin, ein Bibel-Exemplar zu beschaffen. Für manche Exemplare kann das sehr einfach sein (vor allem, wenn sie sich derzeit noch im Druck befinden oder es sich um relativ weit verbreitete Bibeln handelt), für andere sogar unmöglich (bei seltenen oder kostbaren Drucken). Jedoch sind bereits jetzt ausreichend Bibel-Originale vorrätig und harren ihrer Bearbeitung:

Vorrätige Original-Exemplare zur Bibeldigitalisierung im Regal 1.

Vorrätige Original-Exemplare zur Bibeldigitalisierung im Regal 2.

Die nächste Aufgabe ist, ein vorliegendes Exemplar eindeutig zu identifizieren. Manchmal ist dies schon mithilfe der bibliographischen Angaben im Innern der Bibel möglich, die Übersetzungsgruppe kann ebenfalls recht schnell ermittelt werden. Weit schwieriger stellt sich die Untersuchung hinsichtlich der zutreffenden Übersetzung/Überarbeitung/Ausgabe dar, weswegen das entgültige Ergebnis häufig erst zu einem späteren Zeitpunkt festgelegt werden kann – hierfür müsste nämlich vorher der gesamte Text bereitgestellt, analysiert und verglichen worden sein. Nur die Ausgabe kann übergangsweise ohne weiteres „bestimmt“ werden, entweder durch eigene Vermutung³ (um dann bestätigt oder korrigiert zu werden) oder auf Basis der Daten von Bibel-Archiven, Sammlungen etc. Dabei genügt in der Regel ein optischer Vergleich, weil beispielsweise der Einband ein Erkennungsmerkmal der Ausgabe ist, ebenso jede einzelne Seite (identische Position von Wörtern und Sätzen über das gesamte Buch hinweg). Auflage und Differenzen zwischen zwei Exemplaren werden für gewöhnlich schwer feststellbar sein und spielen daher eine untergeordnete Rolle, solange deren Berücksichtigung keinen Beitrag zur Kategorisierung leistet oder keine signifikanten Abweichungen/Besonderheiten auffallen. Die Identifizierung einer Bibelausgabe ist mit einer solchen Erfassungsseite vorgenommen worden:

Datenblatt der Erfassung eines Original-Exemplars zur Bibeldigitalisierung.

Wenn die jeweils zutreffende Übersetzung/Überarbeitung nach der Textdigitalisierung und -analyse in die Erfassungsseite eingetragen werden kann, gelten die Angaben als vervollständigt.

Die eigentliche Kernaufgabe des Verfahrens ist das Digitalisieren der Bibelexemplare. Um aus diesem Vorgang den größtmöglichen Nutzen ziehen zu können, wird jede Seite der Bibel abfotografiert oder eingescannt, während das Original dabei nicht beschädigt werden sollte. Alle weiteren Arbeitsschritte müssen anschließend nicht mehr am Original vorgenommen werden, sondern können auf die digitale Kopie als Grundlage zurückgreifen. Ferner kann die digitale Kopie bei Bedarf sofort veröffentlicht werden. Der Scan dient außerdem als Kontrollreferenz für den Fall, dass bei den noch anstehenden Digitalisierungsmaßnahmen ein Fehler unterlaufen sollte. Hier einer der vielen Seiten-Scans, von welchem der Text später gut abgelesen werden kann:

Die Scans können ruhig auch Titelblätter, Vorwort, Inhaltsverzeichnis, Glossar oder sonstige Beigaben umfassen, die auf den Seiten des Original-Exemplars abgedruckt sind oder bei der Herstellung eingelegt wurden. Wurde ein Scan angefertigt, muss er in seine digitale Endform überführt werden – und zwar in die Haggai XML Bible Markup Language. Ob dies mittels OCR oder durch Abtippen geschieht, letztendlich müssen die Verse semantisch⁴ derart ausgezeichnet werden, dass sie fortan automatisiert reproduziert werden können. Es geht nicht darum, eine digital identische Kopie der Ausgabe oder des Exemplars zu erstellen (was bereits mit dem Scan geschehen ist), sondern der reine Textgehalt soll originalgetreu wiedergegeben werden. Exemplarisch sei auf den folgenden Bibeltext verwiesen:


            <?xml version="1.0" encoding="UTF-8"?>
            <XMLBIBLE xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="haggai_3_0_0_9_1.xsd" biblename="Elberfelder 1871" status="v" version="haggai_3.0.0.9.1" revision="0">
              <INFORMATION>
                <title>Elberfelder 1871</title>
                <creator>Stephan Kreutzer</creator>
                <description>Elberfelder-Bibel von 1871</description>
                <publisher>http://www.freie-bibel.de</publisher>
                <contributor>John Nelson Darby</contributor>
                <contributor>Julius Anton Eugen von Poseck</contributor>
                <contributor>Carl Friedrich Wilhelm Brockhaus</contributor>
                <contributor>Hermanus Cornelis Voorhoeve</contributor>
                <date>2012-04-07</date>
                <type>Text</type>
                <format>Haggai XML Bible Markup Language</format>
                <identifier>elberfelder_1871</identifier>
                <source>Elberfelder 1871, 3. durchgesehene Ausgabe NT</source>
                <language>GER</language>
                <coverage>Johannes 1,1-5</coverage>
                <rights>
                  Gemeinfrei seit 1972-01-01.
                </rights>
              </INFORMATION>
              <BIBLEBOOK bnumber="43" bname="Johannes">
                <CAPTION>Evangelium nach Johannes.</CAPTION>
                <CHAPTER cnumber="1">
                  <PARAGRAPH>
                    <VERSE vnumber="1">Im Anfang war das Wort, und das Wort war bei Gott, und das Wort war Gott.</VERSE>
                    <VERSE vnumber="2">Dieses<NOTE>O. Er.</NOTE> war im Anfang bei Gott.</VERSE>
                    <VERSE vnumber="3">Alles ward durch dasselbe<NOTE>O. ihn.</NOTE>, und ohne dasselbe ward nicht eins, das geworden ist.</VERSE>
                    <VERSE vnumber="4">In ihm war <STYLE fs="super">das</STYLE> Leben, und das Leben war das Licht der Menschen.</VERSE>
                    <VERSE vnumber="5">Und das Licht scheinet in der Finsterniß, und die Finsterniß hat es nicht erfaßt<NOTE>O. begriffen.</NOTE>.</VERSE>
                  </PARAGRAPH>
                </CHAPTER>
              </BIBLEBOOK>
            </XMLBIBLE>

Jeder Vers (<VERSE>), jedes Kapitel (<CHAPTER>), jedes Bibelbuch (<BIBLEBOOK>), jede Fußnote (<NOTE>) und jede Worteinfügung (<STYLE fs="super"> für „hochgestellt“) wird in sogenannten „Tags“ eingeschlossen, die jeweils den Beginn (<TAG>) und das Ende (</TAG>) ihres Inhalts markieren. Die Tags sind dementsprechend ineinander „verschachtelbar“: <TAG1>Inh<TAG2>Inhalt2</TAG2>alt1</TAG1>. Eine XML-Datei mit vergleichbarem Aufbau kann dadurch von Computerprogrammen ausgelesen werden, welche daraufhin Verse, Kapitel, Bibelbücher usw. wiederum erkennen und transformieren können. Weil es sich bei XML um schlichtes Nur-Text-Format handelt, kann sich prinzipiell jedermann ohne besondere Vorbedingungen an der Digitalisierungsarbeit beteiligen. Zudem können die XML-Bibeldateien ohne Einschränkung gelesen, modifiziert oder verarbeitet werden. Es müssen lediglich einheitliche Regeln eingehalten werden, welche die Details der Erfassung vorgeben⁵, damit die Ergebnisse hinterher nicht strukturell voneinander abweichen, sondern kompatibel sind. Darüber hinaus muss die Texterfassung mit außergewöhnlicher Sorgfalt durchgeführt werden, um nicht mit dem digitalen Duplikat eine neue Textvariante zu verursachen. Einerseits müssen Übersetzungs- und generelle Druckfehler unbedingt direkt übernommen werden, damit auch diesem Bereich der Erforschung Rechnung getragen werden kann (es sollen im Rahmen der Bibeldigitalisierung Listen und Unterlagen angefertigt werden, in denen jedes Auftreten solcher Merkmale bei Bekanntwerden verzeichnet wird). Andererseits sind jedoch eigene „Abtipp“- oder „Texterkennungs“-Fehler dringend zu vermeiden, zumal letztere bei Vervielfältigung im Druck nachträglich nicht mehr korrigiert werden können. Eine mehrmalige Kontrolle sowie Überprüfung durch andere, unabhängige und/oder unbeteiligte Personen bei gleichzeitiger ständiger Fehlerbereinigung ist unerlässlich.

Wenn ein Bibeltext erst einmal in Haggai XML übertragen worden ist, kann er anschließend mit Leichtigkeit und beinahe uneingeschränkt reproduziert, studiert und verglichen werden. Die Ausgestaltung der Möglichkeiten steht von da an einem breiten Publikum offen, wird aber auch in eigener Initiative vorangetrieben mit dem Zweck, Wünschen und Anforderungen von Außen gerecht zu werden und darüber hinaus sogar einen größeren Kreis von nur bedingt verwandten Projekten⁶ zu bedienen. Gegenwärtig sind bereits realisiert worden:

textvergleicher: In Java geschriebener XML-Prozessor unter GNU GPL 3, der aus mehreren Haggai-Bibel-Dateien pro Vers eine Webseite mit einer vergleichenden Tabelle über die angegebenen Übersetzungen erzeugt.

Allein die Indexierung der Verse muss manuell vorgenommen werden. Darüber hinaus können aus einem Quellordner pro Vers globale Anmerkungen einbezogen werden, die unter der Tabelle platziert werden.
hag2html: XSLT-Stylesheet-Gruppe unter GNU GPL 3, die aus einer Haggai-Bibel-Datei eine entsprechende HTML-Ausgabe erzeugt. Die Meta-Informationen eines Bibelmoduls werden zu Anfang des Dokuments tabellarisch ausgegeben. hag2html.xsl generiert fortlaufenden Fließtext:

hag2html2.xsl dagegen gibt die einzelnen Verse in Form von geordneten Listen wieder:
hag2fo: XSLT/FO-Stylesheet-Gruppe unter GNU GPL 3, die aus einer Haggai-Bibel-Datei eine entsprechende PDF-Ausgabe erzeugt. hag2fo.xsl generiert eine Schreibrand-Ausgabe für DIN A4-Duplexdruck:
hag2latex: XSLT-Stylesheet-Gruppe zur Ausgabe als LaTeX unter GNU GPL 3. hag2latex1.xsl generiert eine simple Variante basierend auf LaTeX-Standardelementen:

hag2latex2.xsl erzeugt eine Schreibrand-Variante:

hag2latex3.xsl bringt den Bibeltext in eine zweispaltige Form:

hag2latex4.xsl für einen offenen Rahmen und lebende Kolumnentitel:

hag2latex5.xsl für einen geschlossenen Rahmen:

hag2latex6.xsl mit offenem Rahmen, aber ohne Vers- und Kapitel-Kennzeichnung:

hag2latex7 ist ein in Java geschriebener XML-Prozessor unter GNU GPL 3, der aus zwei Haggai-XML-Eingabedateien eine LaTeX-Ausgabe für eine Parallelbibel erzeugt, was sowohl zum Textvergleich zweier Bibelübersetzungen im Print-Bereich als auch mit zwei unterschiedlichen Sprachen der Wahl genutzt werden kann:

hag2latex8.xsl als großzügige DIN A5-Heftchen-Version:

hag2latex9.xsl generiert eine zweispaltige Ausgabe basierend auf twocolumn (mit geringerem manuellen Aufwand als hag2latex[3-6]):

hag2latex10.xsl ermöglicht eine einspaltige DIN A6-Ausgabe:

hag2latex11.xsl basiert auf eledmac, bietet ein zweiseitiges Layout mit ausgerückten Versnummern, mehreren Fußnoten-Apparaten und Rückverweisen auf die Fußnotenposition im Text:
hag2epub: XSLT-Stylesheet-Gruppe mit Steuerung via Shell-Script unter GNU GPL 3 zur Ausgabe als EPUB zwecks Darstellung auf Mobilgeräten. hag2epub.sh generiert eine simple Variante, angelehnt an hag2html.xsl gemäß EPUB2-Spezifikation:

hag2epub2.sh führt im Vergleich zu hag2epub.sh im Inhaltsverzeichnis keine einzelnen Kapitel mehr auf, sondern nur noch Bibelbücher. Außerdem wird pro Bibelbuch eine separate XHTML-Datei erzeugt, um die Performance beim Laden des E-Books und bei Sprüngen infolge von Verlinkungen zu verbessern. Links finden sich zu Beginn eines Bibelbuchs auf die einzelnen Kapitel, am Ende jedes Kapitels wieder zurück zum Beginn des Bibelbuchs, und dort sowie am Ende eines Bibelbuches zur Übersicht der Bibelbücher, womit eine zügige Navigation auch ohne Inhaltsverzeichnis möglich ist. Weiterhin sind Fußnoten verlinkt zum Fußnotenapparat am Ende eines Bibelbuches mit Rücksprungmöglichkeit zu der Position, wo die jeweilige Fußnote im Text referenziert wurde. Versnummern im Text sind nun grau, die Einfügungen in kleinerer Schrift:

hag2epub3.sh ist optisch identisch mit hag2epub.sh, erzeugt allerdings stattdessen eine EPUB3-Ausgabe. Wie bei hag2epub2.sh wird nicht mehr eine große XHTML-Datei für den gesamten Bibeltext erstellt, sondern für jedes Bibelbuch eine separate XHTML-Datei:
interleave.sh kann ein PDF mit Leerseiten durchschießen, dabei stehen drei Modi zur Verfügung: alle linken Seiten leer, alle rechten Seiten leer (vorteilhaft für rechtshändige Schreiber) und klassisch (per Papierbogen, links/rechts abwechselnd). Statt leeren Seiten könnten auch gut linierte Seiten eingefügt werden.

Die oben aufgeführten Reproduktionen einer ehemals „verschollenen“ Bibelübersetzung sind allerdings nur ein geringer Anfang für eine vielseitige Nutzung der erarbeiteten Ressourcen. Alle dargestellten Arbeitsschritte können mit geringem Aufwand von Interessierten nachvollzogen und eigenverantwortlich durchgeführt werden.

Fußnoten

Die Übergänge sind fließend, sodass „Übersetzung“ und „Überarbeitung“ auch synonyme Anwendung findet. 1.
Obwohl viele der Urtext-Abschriften in ihrer Funktion als konkrete Schriftstücke sehr wohl z.B. Absätze oder Kommentare enthalten, zählen diese nicht zum ursprünglichen, eigentlichen Gotteswort und sind deshalb oft nur für die Textforschung (insbesondere in den wissenschaftlichen Ausgaben oder bei den Original-Handschriften) von Bedeutung. Bibelausgaben lassen solche Elemente aus der großen Summe der Überlieferungen recht unterschiedlich ins Endergebnis einfließen, während bei der Übersetzungsarbeit Hervorhebungen, Abgrenzungen und Randnotizen sogar kleinster Schrift-Fragmente sorgsam berücksichtigt werden müssen. 1.
Die Benennung erfolgt dann anhand eigener Schemata, während alle erdenklichen Informationen und auffindbaren Hinweise in den Identifizierungsprozess einfließen sollten. 1.
Semantische Auszeichnungen definieren grundsätzlich immer die Bedeutung eines Textteils und niemals dessen Darstellung. Hierdurch kann ein und dieselbe Quelle frei nach gestalterischen Wünschen zu den unterschiedlichsten Erscheinungsformen weiterverarbeitet werden. 1.
Textelemente sollen in die heute üblichen Notationen umgewandelt werden, wenn es sich ausschließlich um – vom Text her – bedeutungsidentische (weil z.B. rein typografische) Unterschiede handelt, während alle anderen Elemente originalgetreu nachgebildet werden müssen. So dürfen z.B. doppelte Leerzeichen des Originals entfernt, jedoch ein Zahlwort (dreihundert) unter keinen Umständen numerisch (300) wiedergegeben werden. 1.
Gemeint sind u.a. solche, die hauptsächlich Ergebnisse der Bibeldigitalisierung verwerten, aber nicht an deren Schaffung beteiligt sind. 1.

Weiterführende Links

Kurzes Beschreibungsvideo des Projekts auf youtube.com.