Korpusgestützte Textanalyse. Manfred StedeЧитать онлайн книгу.
im Modell von Grosz u. Sidner (1986) ist von drei verschiedenen Strukturen die Rede (die allerdings nicht gleichermaßen ausgearbeitet wurden): einer intentionalen, einer aufmerksamkeitssteuernden (attentional) und einer linguistischen Struktur. Ähnlich unterscheidet Nussbaumer (1991) eine funktional-illokutive Ebene (Handlungsstruktur), eine inhaltlich-propositionale Ebene, sowie eine sprachlich-ausdrucksseitige Ebene. Sehr reichhaltig ist das Programm der Untersuchung dieser Vielfalt in dem Band Ebenen der Textstruktur (Motsch, 1996) artikuliert. Auch Brinker (2005) betont, dass künftige Forschung die einzelnen Ebenen zunächst isolieren und dann systematisch miteinander verbinden müsse. Allein fehlt bis heute eine Theorie, die auf der Grundlage sorgfältig ausgearbeiteter Einzelebenen dann genau das Zusammenwirken dieser Ebenen erklären könnte. Dieses Ziel wurde vor einiger Zeit bereits sehr eingängig von Brandt u. Rosengren (1992, S. 9, Hervorh. durch MS) formuliert:
Einigkeit besteht heute darüber, dass Texte multidimensionale Gebilde sind (…) In (Motsch 1990a) liegt ein Versuch vor, die einzelnen Ebenen zu identifizieren. Diese kurze Übersicht zeigt, dass die vielen theoretischen Ansätze, die oft neben- und unabhängig voneinander konzipiert wurden und häufig auch nur einen Aspekt des Textes beleuchten, in einem generellen Modell zueinander in Bezug gesetzt und an authentischem Material überprüft werden müssen. Ein solches Modell kann nicht auf Anhieb ausgearbeitet werden.
Auch heute ist dieses Modell noch nicht in Sicht; bei der Feststellung, dass es „nicht auf Anhieb“ entwickelt werden kann, dürfte es sich mithin um eine milde Formulierung handeln. Eine andere Untersuchung, die sich ebenfalls diesem Ziel verschreibt, ist die von Schröder (2003), der formuliert (S. 1, Hervorh. im Original):
Entscheidend ist, dass die multidimensionale Textstruktur als ein Zusammenspiel aus verschiedenartigen Ebenen begriffen wird. Daraus folgt, dass die unterschiedlichen Ebenen der Textstrukturierung nicht nur getrennt und sozusagen ‚nebeneinander‘ existieren, sondern dass sie sich gegenseitig auch beeinflussen und untereinander in einem Verhältnis wechselseitiger Abhängigkeiten stehen.
Für Schröder steht dann speziell die Handlungsstruktur im Mittelpunkt der Betrachtung, während es uns hier darum geht, nicht eine bestimmte Ebene vertieft zu behandeln, sondern mehrere Ebenen gleichermaßen zur Sprache zu bringen, und die Aufmerksamkeit auf die besagten wechselseitigen Abhängigkeiten zu richten. Um einen Beitrag zu dem eher langfristigen Ziel der Modellierung des Zusammenwirkens zu leisten, schlagen wir zwei, ihrerseits miteinander verwobene, Wege ein:
Wir versuchen, für eine Reihe interessanter Beschreibungsebenen den jeweiligen „Stand der Kunst“ darzustellen, also Material zusammen zu tragen, das für die Ebene grundlegend ist und auf dessen Basis die Entwicklung präziserer Modelle möglich sein sollte.
Wir betonen die wichtige Rolle von Daten als Grundlage der Erkenntnissuche und der Theoriebildung. Für die Untersuchung des linguistischen Objekts Satz sind Korpora und insbesondere mit syntaktischer Information angereicherte (sog. ‚annotierte‘) Daten in Gestalt von ‚Baumbanken‘ heute bereits zu einer sehr wichtigen Informationsquelle für viele Syntaktiker geworden. Für den Text ist dieser Perspektivenwechsel bisher – zumindest was die Arbeit mit annotierten Daten betrifft – noch weniger vorangeschritten.
So wie bestimmte Satz-Baumbanken für Computerlinguisten, aber auch für weniger Computer-orientierte Syntaktiker, die gemeinsame Datenbasis darstellen, anhand derer Hypothesen geprüft, weiterentwickelt und miteinander verglichen werden können, kann auch die Untersuchung von Texten erheblich von annotierten Korpora profitieren, anhand derer sich Phänomene aufzeigen lassen, die dann eben auch von Dritten nachvollzogen und weiter intepretiert werden können. Voraussetzung dafür ist freilich, dass die Annotationen einerseits nachvollziehbar und andererseits nützlich sind. Für die Textanalyse bedeutet das – und damit schließt sich unser Kreis – gut motivierte, voneinander getrennte Analyse-Ebenen, die einerseits in sich selbst schlüssig begründet sein müssen und andererseits dann das Auffinden von Korrelationen zwischen diesen Ebenen ermöglichen. Wenn, wie von den oben zitierten (und weiteren) Autoren richtigerweise betont, das Wechselspiel zwischen verschiedenen Ebenen letztlich die TextualitätTextualität hervorbringt, dann setzt eine systematische Untersuchung dieser Phänomene eine geeignete Datengrundlage voraus: Texte, die gleichzeitig auf unterschiedlichen Ebenen annotiert sind. Dass die Arbeit mit solchen Text-Daten heute möglich ist, verdanken wir den korpus- und computerlinguistischen Entwicklungen der letzten Jahre. Die technische Seite wird in diesem Buch öfters zur Sprache kommen, sie ist aber auch kein zwingender Bestandteil der Lektüre: Die zentrale Diskussion der einzelnen Beschreibungsebenen wird rein inhaltlicher Natur sein.
Unser Untersuchungsgegenstand sind allein geschriebene Texte, und wir treffen hier auch die oft übliche Einschränkung auf sog. Gebrauchstexte. Um dem komplexen „Funktionieren“ von Texten auf die Spur zu kommen, sollte man einerseits mit „richtigen“ Texten arbeiten und nicht allein mit handgefertigten Beispielen, andererseits aber die Komplexität auch begrenzen: Wie etwa Dichtung oder spielerische Werbetexte funktionieren, werden wir hier nicht untersuchen. Sämtliche multimedialen Aspekte bleiben ebenfalls von der Betrachtung ausgeschlossen. Bedingt durch das unseren eigenen Untersuchungen meist zugrunde liegende Korpus, das Potsdamer KommentarkorpusPotsdamer Kommentarkorpus, gibt es darüber hinaus einen gewissen Schwerpunkt auf Phänomenen in argumentativen Texten; doch die meisten Kapitel und Abschnitte sind unabhängig von dieser Wahl und gleichermaßen für andere Texttypen gültig.
1.2 Arbeit mit Textkorpora: Software-Werkzeuge für Annotation und Recherche
Im Folgenden gehen wir kurz auf die technische Seite einer korpusgestützen Textanalyse ein. Eine Reihe der Übungsaufgaben in den folgenden Kapiteln basieren auf den hier besprochenen Software-Werkzeugen. Es sei aber noch einmal betont, dass das Buch ggf. auch vollständig ohne die Komponente der Korpus-Recherche gelesen und bearbeitet werden kann.
Die Arbeit mit Textkorpora kann im Prinzip beginnen, sobald eine Sammlung von Textmaterial, das nach bestimmten Kriterien ausgewählt wurde, zusammengestellt ist.1 Mit geeigneten Software-Werkzeugen lassen sich dann Untersuchungen der Wortfrequenz, von Kollokationen etc. durchführen (Hinweise auf solche Werkzeuge finden sich auf der Homepage zum Buch).
Für viele Zwecke entsteht allerdings ein eherblicher Mehrwert, wenn die Texte nicht nur „roh“ vorliegen, sonden mit linguistischer Information annotiert sind. Unter Annotation verstehen wir die Anreicherung von „Primärdaten“ (in unserem Fall: Texten) mit Informationen, die aus linguistischer Interpretation hervorgehen. Dabei kann es sich um ganz unterschiedliche Arten von Information handeln: part-of-speech tags, Syntax-Bäume, Sprechakte uvm. Der eigentliche Annotationsvorgang geschieht für manche Informationsarten vollautomatisch, wie üblicherweise bei der morphologischen Analyse und dem part-of-speech tagging (der Annotation mit Wortart-Information). Diese automatische Bearbeitung ermöglicht es den großen deutschsprachigen online-Korpussammlungen cosmas2 (IDS Mannheim) und DWDS3 (BBAW), Abfragemöglichkeiten anzubieten, die verschiedene Flexionsformen zum eingegebenen Wort finden, typische Wortkookkurrenzen berechnen, oder Wortsuche bei zusätzlicher Angabe der Wortart (zur Desambiguierung) ausführen.
Wenn eine Annotationsaufgabe so schwierig ist, dass sie einstweilen nicht oder nur mit ungenügender Ergebnisqualität automatisierbar ist, dann muss sie manuell durch geschulte Annotatoren ausgeführt werden. Dies ist bei allen in diesem Buch besprochenen Ebenen der Fall, auch wenn für einige davon bereits automatische Lösungen mit durchaus beachtlicher – aber eben nicht perfekter – Qualität existieren. Auch für die manuelle Annotation sind aber geeignete Software-Werkzeuge erforderlich, die vor allem diese zwei Zwecke erfüllen:
Das Werkzeug kann den jeweiligen Typus der Annotation durch eine geeignete Visualisierung und ein zugeschnittenes Bedienungskonzept optimal unterstützen und dadurch hohe Effizienz ermöglichen.
Die entstehenden Daten können in geeigneten Formaten abgespeichert werden, die eine einfache Weiterverarbeitung erlauben.
Mit anderen Worten: Linguistische Annotation sollte in aller Regel nicht mit dem gebräuchlichen Textverarbeitungs-