XML

Extensible Markup Language: eine Auszeichnungssprache für strukturierte Daten

Mit XMLXML (Extensible Markup Language) ist ein Standard zur Strukturierung von Daten in lesbaren Textdateien. können komplexe inhaltliche und formale Strukturen einfach abgebildet werden. Immer mehr Software unterstützt den direkten Umgang mit XML. So ist der Import in Datenbanken ebenso wie die Erstellung von PDF-Dateien möglich. Auch im Internet setzt sich XML (in Form von XHTML für Webseiten und diverser Austauschformate für Web-Services) als universeller Standard durch.

Die strukturbildenden Elemente von XML-Dokumenten (Tags) werden in sogenannten Document Type Definitions (DTDEine DTD (Document Type Definition) ist eine Möglichkeit, die technische Struktur von XML-Dokumenten zu definieren. Zu vielen Standards wie DocBook oder EAC gibt es DTDs, allerdings werden DTDs zunehmend durch andere Definitionen ersetzt, wie z.B. XML Schema.) und heute immer häufiger als XML SchemaEin XML Schema ist eine Möglichkeit, die technische Struktur von XML-Dokumenten und den Inhalt einzelner Elemente zu definieren. Zu vielen Standards wie EAD oder MODS gibt es XML Schemata, da diese leistungsfähiger als DTDs sind. oder Relax NGRelax NG (Regular Language Description for XML New Generation) ist eine Möglichkeit, die technische Struktur von XML-Dokumenten und den Inhalt einzelner Elemente zu definieren. Zu manchen Standards wie DocBook oder TEI gibt es Relax NG Schemata. Schema beschrieben. XML-Strukturen sind sehr flexibel und anpassungsfähig, allerdings müssen die gängigen Standards (wie EADEAD (Encoded Archival Description) ist ein standardisiertes XML-Format zur Beschreibung von archivarischen Findmitteln. Es ist international weit verbreitet und hat deshalb eine große Bedeutung für den Datenaustausch mit Webportalen und archivischen Suchmaschinen., MODSMODS (Metadata Object Description Schema) ist ein XML-Format für bibliografische Angaben., TEITEI (Text Encoding Initiative) ist ein sehr weit verbreitetes XML-Format für digitale Volltexte. Es zeichnet sich durch starke semantische Differenzierung, hohe Anpassungsfähigkeit an das konkrete Projekt und eine sehr gute Dokumentation aus. oder ALTOALTO (Analyzed Layout and Text Object) ist ein standardisiertes Speicherformat für Layoutinformationen, die aus OCR-Software gewonnen werden. Das Format ist als Ergänzung zu METS (Metadata Encoding and Transmission Standard) konzipiert, wobei METS Metadaten und Strukturinformationen bereithält, während die eigentlichen Inhalte in ALTO gespeichert werden.) in der Regel an das jeweilige Projekt angepasst werden (application profile). Während die automatisierte Umsetzung formaler Kriterien (Schriftart, Auszeichnung) in XML-Tags weitgehend problemlos möglich ist, erfordert die inhaltliche Erschließung von Daten (Kategorien, Verweise) den Einsatz menschlicher Intelligenz. Hier ist oft eine umfangreiche Redaktion oder auch wissenschaftliche Bearbeitung notwendig.