> > > LIBREAS. Library Ideas # 15

Download PDF @ edoc HU Berlin
urn:nbn:de:kobv:11-100102877

Zur Neubestimmung des Dokumentenbegriffs im rein Digitalen


Zitiervorschlag
Jakob Voß, "Zur Neubestimmung des Dokumentenbegriffs im rein Digitalen". LIBREAS. Library Ideas, 15 ().


Obgleich der Wandel vom gedrucktem zum digitalen Wort noch immer nicht abgeschlossen ist und viele Medien weiterhin gedruckt erscheinen, vertrieben und gesammelt werden, ist absehbar, dass in Zukunft alle wesentliche Publikation und Kommunikation digital stattfinden wird. Dieser Wandel, dessen Bedeutung noch am ehesten mit der Einführung des Buchdrucks mit beweglichen Lettern verglichen werden kann, erfordert eine Neubestimmung mehrerer Grundbegriffe der Bibliotheks- und Informationswissenschaft. Eine zentrale Rolle spielen dabei die Begriffe der Information, der Publikation und des Dokumentes.

Publikation im Wandel

Allgemein kann eine Publikation als ein öffentlich zugängliches Werk verstanden werden. Riehm, Bohle und Wingert (2004) definieren publizieren als einen

„Kommunikationsvorgang, der über ein Artefakt, die Publikation vermittelt wird. Nicht jedes Dokument, das erstellt, und nicht jede Information, die verbreitet wird, ist eine Publikation. Eine Publikation ist für die Öffentlichkeit, für ein mehr oder weniger anonymes Publikum bestimmt.“

Bei näherer Betrachtung kann zum einen auf das Publizieren als Vorgang und zum anderen auf die dabei veröffentlichte Publikation als Artefakt eingegangen werden. Dieser Artikel beschränkt sich auf die Frage nach der Publikation als Artefakt und fasst das Publizieren vereinfacht als allgemeinen, über ein digitales Objekt vermittelten, Kommunikationsvorgang auf. Die ebenso wichtige Frage, wann ein Objekt in einer rein digitalen Umgebung als veröffentlicht angesehen werden kann, dass heißt wo die Grenzen zwischen Publizieren und anderen Formen der Kommunikation liegen, ist nicht Gegenstand dieser Untersuchung.

Erforderlich wird die Neubestimmung des Publikationsbegriffs vor allem durch die völlige Loslösung der Publikation von einem konkreten Trägermedium. Sofern nicht als zusätzliche Dimension die Zeit hinzugenommen wird, ist im Digitalen eine Unterscheidung zwischen Original und Kopie bedeutungslos. Ebenso ist die konkrete Infrastruktur zum Abruf und zur Speicherung für die Publikation als Artefakt nebensächlich. Zwar macht es durchaus einen Unterschied, ob zum Beispiel ein Film auf einem hochauflösenden Monitor oder über ein mobiles Endgerät konsumiert wird; von diesen Unterschieden muss jedoch zur Bestimmung des Films als digitalem Objekt abstrahiert werden oder alle Versuche zur Langzeitarchivierung sind von vornherein zum Scheitern verurteilt. Im Gegensatz zu physischen Medien ist bei digitalen Medien die Grenze zwischen Artefakt und Benutzungskontext zwar schwieriger zu ziehen, aber dennoch zwangsläufig vorhanden. Beispielsweise könnten die hochauflösende und die mobile Version des Films als unterschiedliche Objekte aufgefasst werden, während davon abstrahiert wird, unter welchem Betriebssystem der Film abgespielt wird.

Forschungsfragen

Statt von digitalen Objekten wird im Folgenden von Dokumenten gesprochen, wobei beide Begriffe synonym verwendet werden können. In der digitalen Welt ist eine Publikation immer ein Dokument und tritt in Form von Daten auf, die verlustfrei kopiert und einfach modifiziert werden können. Die Daten selber sind dabei während der Übertragung, Speicherung und Darstellung vielfältigen technischen Umwandlungen unterworfen, während das eigentliche Dokument gleich bleibt oder lediglich in identische Repräsentationen umgewandelt wird. Diese Unterscheidung wirft einige Fragen auf. Digitale Dokumente lassen sich zudem viel einfacher als physische Objekte aufteilen, abändern und neu kombinieren – bis hin zur Zerstückelung in die atomaren, einzeln adressierbaren Bestandteile eines Dokumentes wie Sätzen, Wörter, Relationen und Werten (umgesetzt auf der technischen Ebene, beispielsweise als XML-Elemente, Datenfelder oder RDF-Tripel). Motiviert durch diesen Hintergrund können folgende Forschungsfragen formuliert werden:

I.Wann kann eine Sammlung von Daten sinnvoll als Dokument betrachtet werden?
II.Wann sind zwei Dokumente identisch?
III.Worin unterscheiden sich zwei nicht-identische Dokumente?

Die Fragen können auf syntaktischer, semantischer und pragmatischer Ebene beantwortet werden. Syntaktisch kann jede beliebige Datensammlung als Dokument zusammengefasst werden und zwei Dokumente unterscheiden sich, sobald auch nur ein Datum ihrer Bestandteile unterschiedlich ist. Aus Sicht der Pragmatik sind zwei Dokumente identisch, wenn sie als gleichwertig betrachtet werden können, d.h. wenn sie den gleichen Zweck erfüllen und ein Dokument eine Sammlung von Daten ist, die überhaupt irgendeinen Zweck erfüllt. Auf semantischer Ebene hängen die Antworten schließlich davon ab, auf welcher Abstraktionsstufe ein Dokument betrachtet wird. Im Folgenden soll ein erweitertes Informationsmodell skizziert werden, dass unter Beibehaltung der Möglichkeit syntaktischer Vergleiche Zwecke und Abstraktionsstufen integriert und so den gesamten semiotischen Rahmen einbezieht.

Information

Information gehört in einer Vielzahl von Fächern zu den Grundbegriffen, was eine allgemein gültige Definition nahezu unmöglich macht. Bereits Shannon (1953) bemerkte „it is hardly to be expected that a single concept of information would satisfactorily account for the numerous possible applications of this general field“, um darauf seinen Informationsbegriff auf eine spezielle Art von Kommunikationsproblemen einzuschränken: „the present note outlines a new approach to information theory which is aimed specifically at the analysis of certain communication problems”. Der kommunikationstheoretische Ansatz von Shannon und Weaver (1949) gehört inzwischen zu den Grundlagen der Informationstheorie. Er beinhaltet eine Definition des Bits als Basiseinheit zur Messung von Information und basiert auf einem einfachen Sender-Empfänger-Modell: Information in Form einer Nachricht wird vom Sender als Signal kodiert, über einen Kanal übertragen und dabei ggf. gestört, vom Empfänger dekodiert und wieder in eine Nachricht umgewandelt (Abbildung 1).

Abb. 1:Modell eines Kommunikationssystems nach Shannon und Weaver (1949)

Abb. 1:Modell eines Kommunikationssystems nach Shannon und Weaver (1949)

Wie Shannon (1949) explizit anmerkt, beschränkt sich dieser Ansatz auf die syntaktische Ebene von Information:

„frequently the messages have meaning; that is they refer to or are correlated according to some system with certain physical or conceptual entities. These semantic aspects of communication are irrelevant to the engineering problem“.

Welche Bedeutung eine Information (Semantik) hat und ob sie zweckdienlich eingesetzt werden kann (Pragmatik), wird in der Informationstheorie ausgeklammert. Um diese Lücke zu schließen, sind von der Informationsphilosophie verschiedene Modelle vorgeschlagen worden. Wie Floridi (2005) darlegt, lässt sich der inzwischen übliche Informationsbegriff, die Standard Definition of Information (SDI), auf die Gleichung Information = Daten + Bedeutung bringen (die in der deutschsprachigen Informationswissenschaft bekannte Definition Rainer Kuhlens von „Information als Wissen in Aktion“ hat im internationalen Diskurs wenig Rezeption erfahren, kann allerdings als Variante der SDI aufgefasst werden). Floridi vertritt dabei den philosophischen Standpunkt, dass zusätzlich ein positiver Wahrheitsgehalt der Information angenommen werden muss, um von „semantischer Information“ sprechen zu können; dieser erkenntnistheoretische Aspekt von Information soll zunächst ausgeklammert bleiben.

Daten und Dokumente

Die Vorstellung von Informationen als bedeutungstragende Daten (SDI) lässt sich mit dem Shannonschen Kommunikationsmodell vereinbaren, indem Signale Daten entsprechen. Die Nachrichten, welche Informationen zusammenfassen, können als identische Dokumente aufgefasst werden. Während Daten direkt messbar sind und letztendlich als eine eindeutige Folge von Bits ausgedrückt werden können, kann der Inhalt eines Dokumentes auf verschiedene Weise aus Daten zusammengesetzt sein. Fragen nach der Identität von Dokumenten (Forschungsfragen II und III) können deshalb nur mit Bezug auf die (semantischen) Informationen beantwortet werden, welche in den jeweiligen Dokumenten kodiert sind. Mit zunehmender Digitalisierung sollte weniger die konkrete physische Publikationsform, wie zum Beispiel das Buch, sondern das publizierte Dokument als Materialisierung von Information, Gegenstand der Bibliothekswissenschaft sein. Damit wird die Bibliotheks- und Informationswissenschaft wie Floridi (2002) beschreibt zur angewandten Informationsphilosophie. Aktuelle Forschungsbeispiele für eine solche Auseinander­setzung mit Dokumenten bieten unter anderem die Functional Requirements for Bibliographic Records (FRBR), das OAI Object Exchange and Reuse Modell (OAI-ORE), sowie das Problem der Migration von Dokumenten im Rahmen der Langzeitarchivierung.

Formate und Standards

Welche Daten in der Praxis jeweils als ein Dokument zusammengefasst werden (Forschungsfrage I), hängt von konkreten Vereinbarungen ab, die in Form von Standard und Formaten ausgedrückt sind. Diese Vereinbarungen können von informellen Traditionen über detaillierte Erschließungsrichtlinien bis hin zu rein formalen Formatvorgaben reichen. In jedem Fall impliziert die Vereinbarung eine gemeinsame Vorstellung (d.h. ein Modell), was im jeweiligen Kontext als ein Dokument anzusehen ist und welche Informationen ein gültiges Dokument enthalten kann. Ein nüchterner Blick auf bibliothekarische Datenformate und Standards und deren Anwendung in der Praxis zeigt allerdings, dass beide Begriff eher dehnbar verwendet werden: viele Daten genügen nicht einmal den syntaktischen Regeln ihrer Formate und die Daten verschiedener Bibliotheken und verschiedener Bibliothekssysteme weisen trotz gemeinsamer Regelwerke oft deutliche Unterschiede auf. Die Auseinandersetzung mit den Daten geschieht fast ausschließlich auf Ebene der Eingabe und Anzeige, während die eigentliche Datenverarbeitung in geschlossene Systeme verbannt wird. Für den bibliothekarischen Umgang mit Daten symptomatisch ist, dass das letzte deutschsprachige Standardwerk von Eversberg (1999) bereits zehn Jahre alt ist.

Die Ursachen des oberflächlichen Umgangs mit Datenformaten sind nicht nur in mangelhafter informatischer Ausbildung, sondern auch darin zu suchen, dass bibliothekarische Regelwerke von der semantischen Ebene, Datenformate (d.h. formale Sprachen) dagegen von der syntaktischen Ebene ausgehen und beide häufig nicht richtig zueinander finden. Da die technische Umsetzung immer an syntaktische Datenverarbeitung gebunden ist, reicht es nicht aus, auf der Bedeutungsebene stehen zu bleiben. Stattdessen müssen konkrete Formate und Regeln gemeinsam analysiert, adaptiert und geschaffen werden. Die Grundlagen hierfür werden häufig von außerhalb des Bibliotheks- und Informationswesens durch andere Standards vorgegeben (z. B. die Web-Standards des W3C). Ein Beispiel für die mangelnde praktische Umsetzung der semantischen Ebene liefern die FRBR: nachdem sie bereits 1998 publiziert wurden, gab es zwar theoretische Diskussionen und Vorschläge in der Fachwelt; konkrete Umsetzungen in Software und Formaten blieben jedoch weitgehend aus (vgl. Gradmann, 2005 für einen Vorschlag eines RDF-Formates der FRBR).

Da Dokumente und Informationen letztendlich immer nach Maßgaben bestimmter Formate und Standards auftreten, reicht es nicht aus, die Struktur von Informationen semantisch zu beschreiben, sondern es muss die syntaktische Umsetzung in Form von Formaten mit gedacht und umgesetzt werden. Die Informatik stellt hierzu das Handwerkszeug und die Theorie der formalen Sprachen und Grammatiken bereit. Zur Definition von Formaten gibt es eine Vielzahl von Schemasprachen wie zum Beispiel XML Schema und DTD für XML sowie RDFS und OWL für RDF. Die Bezeichnung einzelner Formate als „semantisch“ oder als „Ontologie“ ist dabei irreführend, weil eine so genannte Ontologie – sei sie in OWL, Prädikatenlogik oder einer beliebigen anderen Ontologiesprache verfasst – immer auf der syntaktischen Ebene verbleibt, sofern sie nicht gleichzeitig mit einem Modell verbunden ist. Modelle bilden also das Bindeglied zwischen syntaktischer und semantischer Ebene.

Modelle

Viele Formatbeschreibungen konzentrieren sich auf syntaktische Regeln, so dass der Zweck (Pragmatik) und die Bedeutung (Semantik) der im Format kodierten Informationen in den Hintergrund geraten. Dabei sollte jedem Format implizit oder besser explizit ein Modell zugrunde liegen. So sind beispielsweise MARCXML und RDF/XML zwei verschiedene Formate, die beide auf der Extensible Markup Language (XML) und dem zugrunde liegenden XML Information Set Modell basieren. Die in MARCXML bzw. RDF/XML formulierten Informationen können jedoch auch in anderen Formaten, zum Beispiel MARC 21 bzw. Notation3, kodiert werden. Wesentlich ist also nicht das konkrete Format, sondern das dahinter stehende Daten- bzw. Informationsmodell.

Typische Verfahren und Sprachen zur Formulierung von Modellen sind das Entity Relationship Modell (ERM), Object Role Modeling (ORM) sowie die Unified Modeling Language (UML). Diese Modellierungssprachen abstrahieren von konkreten syntaktischen Regeln und beschreiben stattdessen, welche Entitäten existieren können beziehungsweise müssen und wie diese Entitäten durch Relationen miteinander verknüpft sind. Datenmodelle können wiederum durch Metamodellierung beispielsweise als Hypergraph beschrieben werden (vgl. Boyd und McBrien, 2005); wesentlich ist jedoch, dass eine Verbindung zwischen Entitäten und Relationen des Modells mit Bedeutungen der realen bzw. zu modellierenden Welt ausgedrückt werden. Während Formate Mengen von Daten beschreiben, beschreiben Datenmodelle Mengen von Informationen (vertikale Linien in Abbildung 2).

Die übliche Vorgehensweise bei der Datenmodellierung besteht darin, dass ausgehend von einer zu modellierenden Diskurswelt, dem „Universe of Discourse“, ein Datenmodell formuliert wird, das anschließend in Formaten ausgedrückt werden kann. Das Datenmodell wird auch als semantisches oder konzeptionelles Schema und das Format als logisches Schema bezeichnet. Aus semiotischer Sicht kann die Diskurswelt mit der semantischen, und das logische Schema mit der syntaktischen Ebene identifiziert werden, während das Modell eine vermittelnde Stellung einnimmt. Die bis hier vorgestellten Begriffe lassen sich abschließend in einem gemeinsamen Informationsmodell zusammenbringen:

Abb. 2: Erweitertes Informationsmodell

Abb. 2: Erweitertes Informationsmodell

Der Begriff von Information als bedeutungstragende Daten (SDI) steht dabei im Mittelpunkt. Er ist in das semiotische Dreieck aus Daten (Signifikanten oder Zeichen), Modellen (Signifikaten oder Begriffen) und Bedeutungen (bezeichneten Objekten) eingebettet und stellt eine Verbindung zwischen Zeichen und Objekten her. Um Bedeutung zu besitzen, müssen Informationen dabei einem Modell entsprechen. Entsprechend müssen die Daten, in denen Informationen kodiert sind, einem Format entsprechen, welches das Modell in konkrete syntaktische Regeln umsetzt. Prinzipiell kann jede Menge von informationstragenden Daten als Dokument aufgefasst werden. Aus Sicht der Pragmatik müssen die Informationen, die durch das Dokument ausgedrückt sind, jedoch eine sinnvolle Bedeutung besitzen; erst dann kann auch von semantischer Information gesprochen werden. Die erste der eingangs gestellten Forschungsfragen kann also folgendermaßen beantwortet werden:

I. Eine Sammlung von Daten kann genau dann sinnvoll als Dokument betrachtet werden, wenn sie in einem Format vorliegt, dem ein sinnvolles Modell zugrunde liegt.

Es sei darauf hingewiesen, dass es sich bei den hier skizzierten Zusammenhängen zwischen Daten, Informationen, Formaten, Modellen und Bedeutungen weniger um ein vollständiges Ergebnis, sondern eher um einen ersten Entwurf im Rahmen eines größeren Forschungsvorhabens handelt. Eine genauere Ausarbeitung muss zum einen die einzelnen Beziehungen zwischen den Entitäten des erweiterten Informationsmodells genauer analysieren (z. B. die zwischen Formaten und Modellen), und zum anderen zeigen, wie sich das Modell in der Praxis gewinnbringend auf tatsächliche Daten, Informationen, Formate, Modelle und Bedeutungen anwenden lässt.


Literatur

Bernhard Eversberg (1999). Was sind und was sollen Bibliothekarische Datenformate. 3. Aufl.
http://www.allegro-c.de/formate/formate.htm.

Michael Boyd und Peter McBrien (2005): Comparing and Transforming Between Data Models Via an Intermediate Hypergraph Data Model. In: Journal of Data Semantics, Band 4, S. 69-109.

Luciano Floridi (2009). Trends in the Philosophy of Information. In: Handbook of Philosophy of Information. Amsterdam [u.A.]: Elsevier. S. 113-132.

Luciano Floridi (2005). Is Information Meaningful Data? In: Philosophy and Phenomenological Research, Band 70, Nummer 2, S. 351-370.

Luciano Floridi (2002). On defining library and information science as applied philosophy of information. In: Epistemology, Band 16, Nummer 1, S. 37-49.

Stefan Gradmann (2005). rdfs:frbr: Towards an Implementation Model for Library Catalogs Using Semantic Web Technology. In: Cataloging & Classification Quarterly, Band 39, Nummer 3/4.

Ulrich Riehm, Knud Bohle und Bernd Wingert (2004): Elektronisches Publizieren. In: Kuhlen, Seeger, Strauch (Hrsg.): Grundlagen der praktischen Information und Dokumentation. 5. Aufl. München: Saur. S. 549-560.

Claude E. Shannon, Warren Weaver (1949). The Mathematical Theory of Communication. Urbana: University of Illinois Press.

Claude E. Shannon (1953) The Lattice Theory of Information. In: Transactions of the IRE Professional Group on Information Theory. Band 1, Nummer 1, S. 105-107.

IFLA Study Group on the Functional Requirements for Bibliographic Records (1998). Functional requirements for bibliographic records: Final report. München: Saur. http://www.ifla.org/en/publications/functional-requirements-for-bibliographic-records