Bilde, Künstler! Rede nicht!
Nur ein Hauch sei dein Gedicht.
Volltextdigitalisierung
Um in Digitalisaten – wie von Internet-Suchmaschinen gewohnt – nach Worten und Wortgruppen suchen zu können, ist eine VolltextdigitalisierungDigitalisierung von Textvorlagen als Text, z.B. durch OCR oder Abschreiben, im Unterschied zur Imagedigitalisierung. notwendig. Auch für viele weiterführende redaktionelle Arbeiten, etwa Stichwortlisten oder wortgenaue Verlinkungen, sind Volltexte Voraussetzung. Die Texterfassung erfolgt, je nach Vorlage, entweder manuell oder mittels OCROCR (Optical Character Recognition) ist die automatische Umwandlung von Bilddaten in Volltext. Da die rein optische Zeichenerkennung relativ fehlerträchtig ist, wird sie in der Regel durch verschiedene statistische und linguistische Verfahren zur Fehlerkorrektur ergänzt, z.B. ICR (Intelligent Character Recognition). (Optical Character Recognition). In beiden Fällen werden die Texte von uns intensiv korrekturgelesen und Zeichen für Zeichen mit der Vorlage verglichen. So gewährleisten wir eine Fehlerfreiheit von bis zu 99,995 %.
Für die intelligente Weiternutzung der Daten ist eine Strukturierung notwendig. Dabei werden sowohl Formatierungen wie fett oder kursiv als auch inhaltliche Merkmale wie Textgattungen oder Zuordnungen zu Datenbankfeldern ausgezeichnet. Abbildungen werden über Referenzen auf Bilddateien eingebunden. In der Praxis haben sich dafür verschiedene programm- und plattformunabhängige XMLXML (Extensible Markup Language) ist ein Standard zur Strukturierung von Daten in lesbaren Textdateien.-Standards durchgesetzt, etwa EADEAD (Encoded Archival Description) ist ein standardisiertes XML-Format zur Beschreibung von archivarischen Findmitteln. Es ist international weit verbreitet und hat deshalb eine große Bedeutung für den Datenaustausch mit Webportalen und archivischen Suchmaschinen. für elektronische Findmittel oder TEITEI (Text Encoding Initiative) ist ein sehr weit verbreitetes XML-Format für digitale Volltexte. Es zeichnet sich durch starke semantische Differenzierung, hohe Anpassungsfähigkeit an das konkrete Projekt und eine sehr gute Dokumentation aus. für retrodigitalisierte Texte.
1. Vorlage (Buchseite)

2. Texterfassung
Giebelspitze, höchster Teil eines Giebelfeldes. Der bei reicher Ausbildung eines Holzgiebels über das Gespärre hinausragende Giebelspieß setzt seinen Fuß auf eine querlaufende Zange (s. die Figur) auf und trägt so das Ende der Firstpfette. Weinbrenner.
3. strukturiertes XML
<article> <p><lemma ebene="2" werk="Giebelspitze">Giebelspitze</lemma> <REG reg="Giebelspitze"/>, höchster Teil eines Giebelfeldes. Der bei reicher Ausbildung eines Holzgiebels über das Gespärre hinausragende <emph rend="spaced">Giebelspieß</emph> setzt seinen Fuß auf eine querlaufende Zange (s. die Figur) auf und trägt so das Ende der Firstpfette.</p> <author>Weinbrenner.</author> <image datei="TL040981.png">Giebelspitze.</image> </article>
4. Artikel Giebelspitze bei Zeno.org

