Digitalisierung von Zeitschriften

2010/2011 haben wir aus Beständen der Vereinsbibliothek des ADAC die Zeitschrift »ADAC Motorwelt« (1903–2001) und weitere Periodika mit insgesamt ca. 340.000 Seiten digitalisiert. Die Images wurden mittels automatischer Texter­kennung (OCROCR (Optical Character Recognition) ist die automatische Umwandlung von Bilddaten in Volltext. Da die rein optische Zeichenerkennung relativ fehlerträchtig ist, wird sie in der Regel durch verschiedene statistische und linguistische Verfahren zur Fehlerkorrektur ergänzt, z.B. ICR (Intelligent Character Recognition).) im Volltext erschlossen. Ausgabeformate waren TIFFTIFF (Tagged Image File Format) ist ein weit verbreitetes und sehr flexibles Dateiformat für Bilddaten. Bei Digitalisierungsprojekten wird es oft für unkomprimierte oder verlustfrei komprimierte Master-Dateien benutzt. und PDF mit hinterlegtem Volltext.