Automatische Textwörterbücher: Studien zur maschinellen Lemmatisierung verbaler Wortformen des Deutschen 3484101679, 9783484101678

Die Buchreihe Linguistische Arbeiten hat mit über 500 Bänden zur linguistischen Theoriebildung der letzten Jahrzehnte in

140 24 53MB

German Pages 240 Year 1973

Report DMCA / Copyright

DOWNLOAD FILE

Polecaj historie

Prometheus - Studien zur Geschichte des Deutschen Idealismus [2 ed.]

The third volume of Han’s Urs von Balthasar’s Early Writings, The Apocalypse of the German Soul. Studies for a Doctrine

208 76 58MB Read more

Studien zur geschichtlichen Bedeutung des deutschen Bauernstandes 9783110506662, 9783828253230

139 17 20MB Read more

Das älteste Systemprogramm: Studien zur Frühgeschichte des deutschen Idealismus [2 ed.] 9783787330935, 9783787315024

Einleitung – Dieter Henrich. Systemprogramm? Vorfragen zum Zurechnungsproblem – Hermann Braun. Philosophie für freie Gei

154 8 9MB Read more

Prudentia gubernatoria: Studien zur Herrschaftslehre in der deutschen politischen Wissenschaft des 17. Jahrhunderts 9783110910629, 9783484165045

202 41 12MB Read more

Germanistische Studien und Texte I: Beiträge zur deutschen und niederländischen Philologie des Spätmittelalters

Die vorliegenden Untersuchungen und Textausgaben verdanken ihre Enstehung einmal zufälligen Handschriftenfunden in unser

663 82 26MB Read more

Studien zur Industriegeschichte des Erzgebirges 9783412304379, 9783412020675

212 89 10MB Read more

Weltbürgertum und Nationalstaat: Studien zur Genesis des deutschen Nationalstaates [7. Auflage. Reprint 2019] 9783486748468, 9783486748451

242 3 23MB Read more

Merkmale und Relationen: Diachrone Studien zur Nominalphrase des Deutschen [Reprint 2011 ed.] 9783110811353, 9783110166620

Der Struktur der Nominalphrase des Deutschen gilt seit Mitte der achtziger Jahre vor allem das Interesse einer generativ

191 59 17MB Read more

Studien zur preußischen Historiographie des 16. Jahrhunderts

Titelblatt handschriftlich ergänzt.

223 112 17MB Read more

Vom Weltkrieg zur Weltwirtschaftskrise: Studien zur deutschen Wirtschafts- und Sozialgeschichte 1914-1932 9783666357190, 9783647357195, 3525357192, 9783525357194

134 6 15MB Read more

Automatische Textwörterbücher: Studien zur maschinellen Lemmatisierung verbaler Wortformen des Deutschen
3484101679, 9783484101678

Author / Uploaded
Rainer Dietrich

Table of contents :
A GESCHICHTE, SYSTEMATISCHER ORT UND ZIELSETZUNG DER MASCHINELLEN LEMMATISIERUNG
1 Notwendigkeit der maschinellen Lemmatisierung
1.1 Der Terminus 'Lemma'
1.2 Lemmatisierte Textwörterbücher
1.3 Lemmatisierung als Teilprozess der maschinellen Sprachübersetzung
2 Allgemeine Zielsetzung
3 Mögliche Verfahrensweisen
3.1 Inputintensive Verfahren
3.2 Programmintensive Verfahren
3.2.1 Informationsintensive Verfahren
3.2.2 Regelintensive Verfahren
B LINGUISTISCHE GRUNDLAGEN DER LEMMATISIERUNG
1 Lemma als Menge linguistischer Einheiten
1.1 Wort - Lemma
2 Semantische Merkmale der Lemmatisierung
2.1 Hypothese
2.2 Problematische Konsequenzen
2.2.1 Unterschiedliche gc bei gleicher Bedeutung
2.2.2 Gleiche gc bei verschiedener Bedeutung
2.2.3 Verbalkomposita
3 Die Relevanz des Funktionsteils für die Lemmatisierung
3.1 Die paradigmatischen Eigenschaften
3.1.1 Wortklassen
3.1.2 Homographie
3.1.3 Flexionsklassen
3.1.4 Präfix - Verbzusatz
3.1.5 Reflexivität als Ep
3.2 Die strukturalen Eigenschaften
3.2.1 ± Vollverb
3.2.2 Der syntaktische Kontext
3.2.3 Der semantische Kontext
4 Einige Analysegrundsätze der Kasusgrammatik
4.1 Zusatzinformationen
4.2 Zur Strategie des Reduktionsteils
C LEMMATISIERUNG ALS PROJEKT DER LINGUISTISCHEN DATENVERARBEITUNG
1 Die Erkennung der Wortklasse (Ep (WK)) durch Endungsanalyse
1.1 -keit, -keiten
1.2 -heit, -heitert
1.3 -ung, -ungen
2 Die Erkennung der Flexionsformen
2.1 Regelmäßige und unregelmäßige Verben
2.2 Besonderheiten in der morphologischen Analyse von R- und U-Verben
2.2.1 Zur Methode des Wörterbuchvergleichs
2.2.2 Eingeschränkte Flektierbarkeit
2.2.3 PART II ohne qe-
2.2.4 Besonderheiten in der Flexion von R-Verben
2.2.5 Die Flexion und Analyse der U-Verben
3 Zur Zusammenfassung zu Wortformen
3.1 Getrennte Flexionselemente
3.2 Getrennte Verbzusätze
3.2.1 Die Wortklasse Verbzusatz
3.2.2 Die Wortklassenmehrdeutigkeit der VZS
3.2.3 Kriterien zur Auflösung der Homographie
4 Der Aufbau der Lexikoneinheit
D SCHLUSSBEMERKUNGEN
E REGISTER
F BIBLIOGRAPHIE
G VERZEICHNIS DER ABKÜRZUNGEN

Citation preview

Linguistische Arbeiten

2

Herausgegeben von Herbert E. Brekle, Hans Jürgen Heringer, Christian Rohrer, Heinz Vater und Otmar Werner

Rainer Dietrich

Automatische Textwörterbücher Studien zur maschinellen Lemmatisierung verbaler Wortformen des Deutschen

Max Niemeyer Verlag Tübingen 1973

ISBN 3-484-10167-9 Max Niemeyer Verlag Tübingen 1973 Alle Rechte vorbehalten. Ohne ausdrückliche Genehmigung des Verlages ist es auch nicht gestattet, dieses Buch oder Teile daraus auf photomechanischem Wege (Photokopie, Mikrokopie) zu vervielfältigen. Printed in Germany

INHALTSVERZEICHNIS

A

GESCHICHTE, SYSTEMATISCHER ORT UND ZIELSETZUNG DER MASCHINELLEN LEMMATISIERUNG

1 1.1 1.2 1.3

Notwendigkeit der maschinellen Lemmatisierung Der Terminus 'Lemma 1 Lemmatisierte Textwörterbücher Lemmatisierung als Teilprozess der maschinellen Sprachübersetzung

6

2

Allgemeine Zielsetzung

7

3 3.1 3.2 3.2.1 3.2.2

Mögliche Verfahrensweisen Inputintensive Verfahren Programmintensive Verfahren Informationsintensive Verfahren Regelintensive Verfahren

B

LINGUISTISCHE GRUNDLAGEN DER LEMMATISIERUNG

1 1.1

Lemma als Menge linguistischer Einheiten Wort - Lemma

19 19

2 2.1 2.2 2.2.1 2.2.1.1 2.2.1.2 2.2.1.3 2.2.2 2.2.3

Semantische Merkmale der Lemmatisierung Hypothese Problematische Konsequenzen Unterschiedliche gG bei gleicher Bedeutung Trennung synonymer Wortformen Orthographische Varianten Flexionsbedingter Wechsel von g C Gleiche g bei verschiedener Bedeutung Verbalkomposita

23 24

25 26 27 27 31

3

Die Relevanz des Funktionsteils für die Lemmatisierung Die paradigmatischen Eigenschaften

32

3.1

l 3

9 9 11 12 14

VI

3.1.1 3.1.2 3.1.2.1 3.1.3 3.1.4 3.1.5 3.2 3.2.1 3.2.2 3.2.3 3.2.3.1 3.2.3.2 3.2.3.3 3.2.3.3.1 3.2.3.3.2

Wortklassen Homographie Die Homographie Verb/Adjektiv Flexionsklassen Präfix - Verbzusatz Reflexivität als E Die strukturalen Eigenschaften ± Vollverb Der syntaktische Kontext Der semantische Kontext Verbklassifizierung nach Denkmodellen Die Subkategorisierung der 'Aspekte...' Die Kasustheorie von Fillmore Die inhärente Subkategorisierung Die Subkategorisierungsmerkmale der Verben

33 38 42 46 49 51 60 61 62 75 8O 84 95 115 121

4 4.1 4.2

Einige Analysegrundsätze der Kasusgrammatik Zusatzinformationen Zur Strategie des Reduktionsteils

123 128 137

C

LEMMATISIERUNG ALS PROJEKT DER LINGUISTISCHEN DATENVERARBEITUNG

1 1.1 1.2 1.3 2 2.1 2.2

Die Erkennung der Wortklasse (E (WK)) durch Endungsanalyse -keit, -ke-Lten -he-it, -he-iten -ungt -ungen

146

147 148 149 149

2.2.1 2.2.2 2.2.3

Die Erkennung der Flexionsformen Regelmäßige und unregelmäßige Verben Besonderheiten in der morphologischen Analyse von R- und U-Verben Zur Methode des Wörterbuchvergleichs Eingeschränkte Flektierbarkeit PART II ohne qe-

153 156 16O 162 165 166

2.2.4

Besonderheiten in der Flexion von R-Verben

17O

2.2.4.1 2.2.4.2 2.2.4.3

Endung des INF = n g c ~Morph endet auf s, z oder Eingeschobenes

17O 173 176

VII

2.2.5 2.2.5.1 2.2.5.2 2.2.5.3

Die Flexion und Analyse der U-Verben Paradigmen und Paradigmenklassen Allgemeine Reduktionsregeln Abweichungen

179 18O 182

2.2.5.3.1 Die Gruppe weisen, fressen, wachsen, geniessen,

sitzen und andere 2.2.5.3.2 Das Verb bersten

184 186

2 . 2 . 5 . 3 . 3 Die Gruppe bieten, binden, braten, reiten und

andere Die Paradigmenklassen der U-Verben Die Kodierung der unregelmäßigen Verben Die Erzeugung des Lemmanamens bei unregelmäßigen Verben

186 187 199

3 3.1 3.2 3.2.1 3.2.2 3.2.3

Zur Zusammenfassung zu Wortformen Getrennte Flexionselemente Getrennte Verbzusätze Die Wortklasse Verbzusatz Die Wortklassenmehrdeutigkeit der VZS Kriterien zur Auflösung der Homographie

2O9 2O9 21O 210 211 213

4

Der Aufbau der Lexikoneinheit

D

SCHLUSSBEMERKUNGEN

219

E

REGISTER

22O

F

BIBLIOGRAPHIE

226

G

VERZEICHNIS DER ABKÜRZUNGEN

231

2.2.5.4 2.2.5.5 2.2.5.6

2O4

214

Wenige Monate/ nachdem die vorliegende Untersuchung, eine vorwiegend bibliographisch erweiterte Fassung meiner Dissertation begonnen wurde, beauftragte die Deutsche Forschungsgemeinschaft die Arbeitsgruppe 'Elektronische Sprachforschung' unter Leitung von Hans Eggers, ein Verfahren zur maschinellen Lemmatisierung von Texten der deutschen Gegenwartssprache zu entwickeln. Die Aufgabenstellung sowie arbeitstechnische Erwägungen legten es nahe, arbeitsteilig vorzugehen. Die Untersuchungsergebnisse der Teilgruppen wurden in regelmäßigen Sitzungen koordiniert. Die zahlreichen Erörterungen, die die im folgenden behandelten Probleme oft unmittelbar betrafen, trugen in vielen Punkten zur Bereicherung meiner Überlegungen bei. Ich danke daher allen Mitarbeitern und Gästen der Arbeitsgruppe für die Anregungen, die sich für mich aus vielen Gesprächen ergaben. Insbesondere gilt mein Dank Hans Eggers, der die Arbeit betreut hat, sowie Arnim von Stechow für neunzehn kritische Anmerkungen und dem Verleger Robert Harsch-Niemeyer für seine Großzügigkeit und Geduld. Helena Peltonen hat das druckfertige Manuskript und Manfred Thiel die Zeichnungen dazu angefertigt; ohne ihre umsichtige und selbständige Arbeit... R. D.

GESCHICHTE, SYSTEMATISCHER ORT UND ZIELSETZUNG DER MASCHINELLEN LEMMATISIERUNG

l

Notwendigkeit einer maschinellen Lemmatisierung

1.1

Der Terminus 'Lemma 1

'Lemma' ist ein Terminus, der in der Linguistischen Datenverarbeitung (LDV) selten und uneinheitlich verwendet wird. Stickel und GrMfe, Mitarbeiter am Goethe-Wörterbuch, bezeichnen damit signifikante Wort- und Grundformen in Text und Wörterbuch , während die Herausgeber der 'Indices zur deutschen Literatur' die im Lexi2 kon verzeichnete Grundform darunter verstehen . Ähnlich definiert Busa Lemma als für das Paradigma repräsentatives Stichwort des Lexikons: "cequi, dans les lexiques, represente toutes les formes reunies dans un meine paradigme" . Dies ist für Verben zum Beispiel die erste Person, Singular, Präsens, Indikativ, Aktiv. Nach Maas schließlich ist Lemma bestimmt als "ein Paar (M , I X ) , wobei X

M X eine Menge von Wortformen und I X. die ihnen gemeinsame grammatische Information ist. Die Elemente von MX sind nicht zufällig ausgewählt, sondern es sind die verschiedenen Formen eines Wortes (des Lemmas ) , die dieses je nach seiner Funktion, die es im Satz 4 erfüllt, annehmen muß" . Fast synonym zu dem unten S. 22 in (8) entwickelten Lemmabegriff definieren Klein und Rath in 'Automatische Lemmatisierung 1 , S. 2 - 3. Dort umfaßt Lemma alle, hier nur 1

Stickel, G. und Gräfe, M . , 'Automatische Textzerlegung...' Die genauen bibliographischen Angaben zu der zitierten Literatur finden sich in der Bibliographie, S . 2 2 6 2 Schwerte, H. und Schanze, H . , ' I n d i c e s . . . ' , B d . l , S. VII 3 Busa, R. und Zampolli, A . , 'Centre pour l'automation de l'analyse linguistique' 4 Maas, H . D . , 'Homographie und maschinelle Sprachübersetzung 1 , S. 3

alle im Text belegten Formen mit den definierten Merkmalen. 1 Diese terminologische Vielfalt, von der hier nur ein Ausschnitt wiedergegeben wurde, ist jedoch älter als die linguistische Datenverarbeitung. Als der Name Lemma - in Anlehnung an den lexikologi2 sehen Gebrauch - in die Sprachwissenschaft Eingang fand, schuf einerseits die Assoziation mit dem philologischen Begriff Verwirrung, andererseits wurde es notwendig, ihm in der Diskussion um die Wortdefinition einen begrifflichen Ort zuzuweisen, was bislang noch zu keiner allgemein akzeptierten Lösung geführt hat. Die Orientierung an der lexikologischen Bedeutung verhilft nur zu der Klarheit, daß Lemma ein Stichwort einer lexikalischen Einheit, eines Wörterbuchartikels, bezeichnet. Sowohl die Stichwörter selb: als auch die Artikel unterscheiden sich erheblich, je nach Intention und Gattung der einzelnen Wörterbücher. Sowohl finite als 4 auch infinite Verbformen können als Stichwort gewählt werden , Vollformen ebenso wie 'Stämme 1 . Die unter einem Stichwort zusammengetragenen Informationen können phonetische Transskriptionen (Aussprachewörterbuch) oder entwicklungsgeschichtliche Erklärungen sein (Etymologisches Wörterbuch), Belegstellenhinweise (Indizes) oder bedeutungsgleiche Wörter (Synonymwörterbuch), zur gleichen Sachgruppe gehörende Begriffe ebenso wie Adressen oder Telefonnummern. Wie jede Gattung spezifischen Ansprüchen genügen muß, so bestimmt sich auch die Struktur von Maschinenwörterbücher: aus den Zielsetzungen und den Gegebenheiten der linguistischen Datenverarbeitung. Teildarstellungen enthalten: Rath, R . : 'Vorschläge zur Automatischen Lemmatisierung (AL) deutscher Adjektive'und Rath, R.:'Probleme der automatischen Lemmatisierung' Daß Lemma in der Mathematik und der Philosophie ebenfalls ein - allerdings genau definierter - Begriff ist, sei nur nebenbei erwähnt. Texteinheit als Stichwort in Verbindung mit kritischen Anmerkungen des Herausgebers. Vgl. z.B. das 'Mittelhochdeutsche Wörterbuch 1 von Benecke, Müller und Zarncke gegenüber dem 'Mittelhochdeutschen Handwörterbuch' von Lexer. Gegenüber diesen beiden wiederum unterscheidet sich Pokornys 'Indogermanisches etymologisches Wörterbuch', indem es als Stichwörter vorwiegend Wurzeln enthält.

In der Geschichte der maschinellen Untersuchung von Texten führten zwei im Ansatz völlig verschiedene Richtungen zur Entwicklung von Lenunatisierungsverfahren: die Erstellung von Indizes zu literarischen Texten und die maschinelle Sprachübersetzung. l.2

Lemmatisierte Textwörterbücher In immer größer werdender Anzahl werden zu Teiltexten, zu ge-

schlossenen Werken einzelner Schriftsteller oder zur Literatur von Zeiträumen sortierte Wörterverzeichnisse maschinell erstellt. Sie unterscheiden sich zwar voneinander in der Anlage sowie im Anteil von Maschinenarbeit verglichen mit dem der menschlichen Bearbeiter , doch verbindet sie erstens der gemeinsame Ausgang von literarischen Texten, zweitens das Bearbeitungsprinzip, dessen Hauptteile Segmentieren, Zählen und Ordnen der einzelnen Graphemfolgen zu Listen bilden und schließlich das Ziel, Texteinheiten zu Sprachinventaruntersuchungen aufzubereiten. Segmentierungs-, Zähl- und Ordnungsanweisungen stellen das Regelsystem, den Algorithmus, der maschinellen Bearbeitung dar; alle zusätzlichen Ergebnisse, wie Angaben über syntaktische oder semantische Merkmale (Homographie, Homonymie usw.) müssen in einer Vor- oder Nachbereitung hinzugefügt werden - für jeden Text. Dies ist neben den zahlreichen Vorteilen ein Nachteil . Ihm kann man teilweise begegnen, indem man zu jedem Token eine bestimmbar große Kontext4 menge mit in die Liste übernimmt, gewissermaßen als mittelbare Dieser Anteil ist beispielsweise beim Goethe-Wörterbuch wesentlich größer als bei den Aachener 'Indices'. Als Grenzsymbole der Segmente gelten Leer- und Satzzeichen. Der Bezugsrahmen der Segmentzählung ist unterschiedlich, bei Prosatexten meist Seite und Zeile, bei Gedichtsammlungen Seitenzahl, Gedichtnummer und Zeile, bei Dramen Seite, Akt, Szene und Vers oder Zeile. Als Ordnungsprinzip gilt das Alphabet. Von vielen, die dieser Unzulänglichkeit Ausdruck verleihen, sei nur W. Müller erwähnt: 'Gedanken zur automatischen Analyse von N o r m e n . . . ' , S. 312 - 314. In Wisbeys 'Vollständiger Konkordanz zur "Wiener Genesis?..' wird beispielsweise zu jedem Textwort der jeweilige Vers ausgedruckt.

Informationen . Was allerdings die Termini 'Index 1 und 'Konkordanz' b e t r i f f t , so ist hier der Sprachgebrauch nicht weniger schwankend als beim Lemma, wie etwa ein Vergleich zwischen den 'Indices zur deutschen Literatur' und Spevacks 'Complete Concordance to the Works of 2 W. Shakespeare' zeigt. In der weiteren Darstellung wird für Verzeichnisse ohne Kontextausdruck der Name Index , für die andere 4 Klasse der Name Konkordanz benutzt. Werke beider Gattungen sind nützliche Hilfsmittel für Stilanalysen und -vergleiche einerseits und die interpretatorische Erforschung von Einzelproblemen andererseits. Für beide Verwendungszwecke aber stellen sie noch bei weitem nicht die Ideallösung dar, wie manche Kritik und Selbstkritik erkennen läßt: im Vorwort zu Band I bedauern die Herausgeber der 'Indices...', "vorerst auf die Vollständigkeit der linguistischen Analyse zu verzichten" . In einer Rezension der Racine-Konkordanz von Freeman und Batson beklagt Brody die fehlende Lemmatisierung, die Quemada in seiner Ausgabe zum gleichen Text manuell durchgeführt hatte. Nahezu beschwörend klingt eine Formulierung aus Lloyds Besprechung von o Wisbeys Wiener-Genesis-Konkordanz: "... one can still look forward to the millennium, when parsed concordances will be less forQ bidding undertakings." 1 2 3

4 5 6 7 8 9

Daß Konkordanzen darüberhinaus noch Aufschlüsse eigener Art ermöglichen und beabsichtigen, steht außer Frage, ist hier aber nicht von Bedeutung. Dies sind nur Beispiele für eine ständig wachsende Zahl ähnlicher Projekte. Mit Index ist also nicht das Ergebnis eines Indexing-Programms verstanden, dessen verschiedene Variationen H. Borko in seiner Arbeit 'Indexing and Classification' aufführt; S. 99 - 125 über die einzelnen Phasen eines Konkordanzprojektes informiert die interessante Arbeit von Hines, Harris und Lewy, 'An Experimental Concordance Program'. Schwerte, H. und Schanze, H . , ' I n d i c e s . . . ' , B d . l , S. VII Freeman, B.C. und Batson, A . , 'Concordance du theatre...' 'J.Racine, Phedre, Concordances, Index et Releves statistiques' siehe Anm. 4, S. 3 in: Computers and the Humanisties, Vol.3, 1969, S. 182

Konkordanzen und Indizes weisen - wie zu erkennen ist - drei grundsätzliche Mängel auf: - die Trennung von inhaltlich zusammengehörigen Texteinheiten - die Zusammenfassung von inhaltlich ganz Verschiedenem - die Gleichbehandlung von primär funktionsorientierten (grammatischen) und primär semantisch relevanten Texteinheiten. Wo immer von Datenverarbeitungsanlagen gelieferte Ergebnisse unbefriedigend bleiben, können die Fehler - abgesehen von technischen Defekten der Maschine - in zwei Bereichen liegen: den eingegebenen Daten oder der Bearbeitungsvorschrift. Da aber einem Text nicht vorgeworfen werden kann, daß er so ist, wie er ist, müssen die Grundsätze der Index- und Konkordanzprogramme geprüft werden. Wie schon gesagt, sind ihre grundlegenden Teilprozesse Segmentieren, Zählen und Ordnen. Indizes und Konkordanzen lassen sich mithin nur weiterentwickeln, wenn - die Segmentierung nicht ausschließlich auf der strengen und oberflächlichen Definition von Wort als Graphemfolge zwischen zwei Leerzeichen basiert, - somit die im Grunde genommen sprachinadäquate Ordnung nach dem Alphabet nicht als oberstes oder gar einziges Kriterium für die Reihenfolge bei der Auflistung von Wortformen gilt. Diese noch sehr allgemeinen Einsichten sind es, die im Bereich der Literaturwissenschaft die automatische Lemmatisierung notwendig machen. Indizes und Konkordanzen liefern die fehlenden Informationen mittelbar über einen Belegstellenhinweis, der es ermöglicht, in einer Nachbereitung, die allerdings vom Benutzer geleistet werden muß, die Lemmatisierung der gesuchten Wörter durchzuführen . Er ist dazu imstande aufgrund seiner Kenntnis des Sprachsystems. Aus diesem Zusammenhang heraus erhellt der interessante systematische Ort der dritten Teiloperation, des Zählens und Errechnens der Belegstellen. Eine automatische Lemmatisierung wird Die Nachbereitung kann ein äußerst zeitraubendes Unterfangen werden, wenn das gesuchte Lemma beispielsweise einen trennbaren Verbzusatz aufweist und das entsprechende Simplex häufig belegt ist.

jeweils in dem Maße gelingen, wie es möglich ist, die dazu notwendigen Kenntnisse des Sprachsystems zu mechanisieren. 1.3

Lemmatisierung als Teilprozess der maschinellen Sprachübersetzung

Betrachtet man im Bewußtsein der Ergebnisse von Kap. 1.2 die Entwicklung der scheinbar völlig anders gelagerten maschinellen Sprachübersetzung, zeigen sich aufschlußreiche Parallelen. Es sei darauf jedoch nur soweit eingegangen, wie es für die Lösung der in dieser Arbeit thematisierten Problematik nützlich ist. Das Ziel der MT (machine translation) ist klar: KommunikationsInhalte innerhalb von mindestens zwei sprachlichen Systemen, L und L _ , zu übertragen: (1) entweder: L. ^ L2 oder : 1^ -—» L., Die Hypothesen, daß der formalen Einheit Satz (Graphemfolgen zwischen zwei Begrenzungszeichen ) in Bezug auf die zu übermittelnden Inhalte eine gewisse Geschlossenheit und Selbständigkeit zukomme und daß die ebenso formal definierten Wortformen und ihre Reihenfolge die konstituierenden Elemente von Sätzen seien, führten zu den bekannten Wort-für-Wort-übersetzungen und zu den ebenso bekannten Kritiken an der Möglichkeit maschineller Übersetzung überhaupt. Wie die Erfolgsaussichten der MT-Projekte zu beurteilen sind, kann hier nicht diskutiert werden. Wir können nur feststellen, daß sie eng verbunden sind mit der adäquaten Analyse der Ausgangssprache. Dazu müssen in einem ersten Schritt die Wortformen der Sätze der Ausgangssprache mit grammatischen Informationen aus einem geeigneten Verzeichnis ausgestattet werden. Geschieht diese 'Textvorbereitung 1 , die selbst schon Teil der automatischen Bearbeitung ist, mit Hilfe eines Stammwörterbuchs, so umfaßt sie im wesentlichen die gleichen Operationen, wie sie für eine Lemmatisierung entwickelt werden müssen. Aus dieser Sicht bezeichnet 1 Punkt, Ausrufezeichen und Fragezeichen z.B. 2 siehe dazu die ausführlichen Kapitel 1.1 und 2 der Dissertation von W. Klein, 'Parsing... 1

zum Beispiel Busa die Lemmatisierung als Prozess der Informationszuordnung zu Textsegmenten . 2

Allgemeine Zielsetzung

Nun ist aber unsere grammatik zu erstellen wie schon gesagt, eine gewisse Elemente einer Die Ausführungen in die Anforderungen, die

Aufgabe nicht, eine vollständige Analyseund in ein Programm umzuarbeiten, sondern, mehr lexikologische, die aber nicht ohne Satzanalyse zu bewerkstelligen ist. den Kapiteln 1.2 und 1.3 ermöglichen es, an das Verfahren zu stellen sind, zu expli-

zieren: o (1) Das Ergebnis eines Lemmatisierungsprogramms zu einem gegebenen Text soll sein: eine geordnete Liste von Lexikoneinheiten (Lemmata), die die zur Einheit gehörenden und im Text belegten Elemente (Wortformen) enthalten und durch einen Namen (Lemmaname) identifiziert werden können. Als Namen wählen wir die unflektierten Grundformen des jeweiligen Paradigmas (Adjektive und Substantive) und bei den Verben jeweils den Infinitiv. Zu den Lemmata sollen die Wortklasse und die Gesamthäufigkeit angegeben sein und zu den Elementen des Lemmas weitere Informationen wie grammatische, Belegstellenhinweise, Häufigkeit und andere. Um als Output ein solches Verzeichnis zu erhalten, müssen folgende Schritte der Textbeafrbeitung möglich sein: (2)

1) Eine Folge von Graphemen zwischen Blanks muß als 4 Element oder Elementteil identifiziert werden.

2) Elementteile müssen zu einem Element zusammengeführt werden. 1 vgl. A n m . 3 , 3 . 1 2

Sätze, Definitionen und Beispiele werden durch in () gesetzte Z i f f e r n gekennzeichnet und kapitelweise durchnumeriert. 3 Bei idiomatischen Wendungen kann eine entsprechende Information als Wortklassenangabe gelten. 4 Das Element wird geliebt haben besteht aus drei Elementteilen; der Lemmaname ist lieben.

8

3) Elemente müssen zu einem Lemma zusammengeführt werden. 4) Elemente müssen durch a) grammatische Informationen b) Belegstellenhinweise charakterisiert werden. Wir betrachten nach (1) Lemma als eine Menge von Graphemfolgen des Alphabets A mit bestimmten gemeinsamen Eigenschaften, E , , E*, ... E , formal dargestellt: (3)

y = {x|E n

(x)} A

Zum Lemma y gehört jede Graphemfolge x, welche die über der Grundmenge A definierten Eigenschaften E aufweist. EI, E-t ... E müssen exakt definiert sein. Sie könnten beispielsweise lauten: (4) E.: x ist eine sprachrichtige Wortform. E 2 : das dritte Graphem von x ist ein B. Eigenschaften dieser Art sind nicht so sinnlos, wie sie auf Anhieb scheinen . Für eine Lemmatisierung könnte E« modifiziert werden in E.,: die letzten Grapheme von x sind keit. E.: x ist im Text T belegt. Offenbar unterscheidet sich E. von den übrigen in (4) genannten Eigenschaften. Sie beinhaltet eine primäre und quantitative Aussage. Ihr Bezugsrahmen sind die vom jeweiligen Autor gesetzten Textgrenzen. E. ist neben der automatischen Zähloperation die einzige Grundlage eines in keiner Weise vor- oder nachbereiteten Werkindex'. E bis E 3 richten sich nach sprachlichen Kriterien. Sie gewinnen für die Lemmatisierung erst an Bedeutung, wenn E 4 nachgewiesen ist. Die weitere Aufgabe besteht nun aus zwei Teilen: erstens, einen Katalog von Eigenschaften der Art E^ bis E, aufzustellen, der den für jedes LDV-Projekt geltenden Postulaten nach linguistischer Adäquatheit und Mechanisierbarkeit genügen muß, zweitens, einen Algorithmus zu entwickeln, mit dessen Hilfe für jede Graphemfolge entschieden werden kann, welche Eigenschaften l

vgl. dazu den Trakl-Index von Klein und Zimmermann, dem nicht ein Graphem- sondern ein Phonemkode zugrunde liegt.

sie aufweist. Der erste Teil der Aufgabenstellung muß signifikante Eigenschaften aller möglicherweise in Texten repräsentierten Types berücksichtigen. Er wird im folgenden Spezifikationsteil (ST) genannt. Da dem Lemmatisierungs- beziehungsweise Analysealgorithmus die Aufgabe der Identifizierung der E für die jeweilige Graphemfolge zufällt, soll er Identifikationsteil (IT) heißen 2 . 3

Mögliche Verfahrensweisen

Jedes Lemmatisierungsprojekt muß drei Faktoren berücksichtigen und sinnvoll aufeinander abstimmen: Textvorbereitung (TV) und die Analyseteile ST und IT. Unter ihnen besteht folgende Relation: (1) Die Strukturen von ST und IT charakterisieren den automatisch ablaufenden Teil, das Programm. (2) Das Verhältnis TV zu (ST, IT) charakterisiert das gesamte Lösungsverfahren. Jenachdem, ob in (2) das Schwergewicht auf TV oder (ST,IT) liegt, heißt ein Verfahren inputintensiv oder programmintensiv. Jenachdem, ob in programmintensiven Verfahren die Eigenschaften einer Graphemfolge vorwiegend durch direkte Einzelinformationen erkannt werden oder durch einen Analysalgorithmus auf der Basis linguistischer Regeln, heißt das Programm informations- oder regelintensiv. Die Vor- und Nachteile der drei Lösungswege sollen im folgenden kurz dargestellt und diskutiert werden. 3.1

Inputintensive Verfahren

Inputintensive legt, daß im Zuge vollzogen werden, matisierung lösen nem gewissen Grad

Verfahren sind, wie wir gesehen haben, so angeder manuellen Textvorbereitung Arbeitsgänge mitdie Teile der sprachlichen Problematik der Lemoder deren Lösung durch das Programm bis zu eiunterstützen.

1

Unter Type wird zunächst ganz allgemein die jeweilige Klasse nicht durch Leerzeichen unterbrochener Graphemfolgen verstanden.

2

Die Termini finden sich in einem analog auf Satzanalyse übertragenen Sinne bei W. K l e i n , ' E i n e Analysegrammatik 1 ,S. 15-16,

10

Der meines Wissens noch nicht in der Praxis durchgeführte Extremfall wäre, zu jeder Graphemfolge des Textes einen Verweis einzugeben, wie sie zu lemmatisieren ist. Das kann durch direkte Angabe des Lenunanamens oder über eine kodierte Information als unmittelbare Bearbeitungsrichtlinie geschehen. Der Beispielsatz Verse entstehen, die mehr tönen ale sagen wollen hätte dann bei der Ablochung die Form (1) oder ( 2 ) . (1) Verse nom Pl (Vers) SUB2 entstehen 3.P1 PRÄS IND AKT (entstehen) VRB; FOLGT KOMMA die mehr

tönen usw.

REL nom Pl MASK ADV

INF (tönen) VRB

(2)

Verse nom Pl SUB / LEMMANAME: ELIMINIERE GRAPHEM 5 entstehen 3.P1 PRÄS IND AKT VRB / LEMMANAME: GLEICH TOKEN usw. Die in (1) und ( 2 ) angedeuteten Vorbereitungen nehmen die gesamte Lemmatisierung voraus, wie man sieht. Input (1) oder (2) kann mit einem entsprechend erweiterten Indexprogramm bearbeitet werden. Die Vorteile eines solchen Verfahrens liegen in der

ver-

hältnismäßig einfachen Programmierung und der äußerst niedrigen Fehlerquote, die theoretisch gleich null sein kann, sofern in der menschlichen Bearbeitung kein Fehler unterläuft. Die eingegebenen Informationen können beliebig erweitert werden, zum Beispiel auf dem semantischen Bereich, sodaß auch polyseme Formen wie Schloss, Druck und Fuchs getrennt lemmatisiert werden. 1

Viele Beispiele sind - wie dieses - aus den Korpora gewählt, die dem unter Leitung von H. Eggers entwickelten Saarbrükker Analyseprogramm als Material dienten. Eine ausführliche Beschreibung findet sich in Eggers, H . , 'Zur Syntax der deutschen Sprache der Gegenwart'.

2

Alle Zeichen und Abkürzungen sind im Abkürzungsverzeichnis, S. 232 - 233 erklärt. Die Berechnung der relativen Häufigkeit der Belege sowie die Summierung der Gesamthäufigkeit sind auch - allerdings von der linguistischen Fragestellung unabhängige - Erweiterungen von Indexprogrammen. Man vergleiche die Konkordanz von Spevack.

3

11

Jedoch sprechen zwei schwerwiegende Nachteile dagegen, diese Methode weiter in Betracht zu ziehen. Der Aufwand an intellektueller Arbeit, der für jeden Text gleich bleibt, ist unökonomisch groß. Zweitens stellt die Lösung für die Erforschung maschineller Sprachbearbeitung keinen Fortschritt dar. Solange allerdings keine automatischen Lösungsverfahren entwickelt sind, der Bedarf an leiranatisierten Textwörterbüchern aber immer nachdrücklicher laut wird, bleibt der Weg über die Textvorbzw. Nachbereitung durch menschliche Bearbeiter der einzige überhaupt, wenn man nicht ganz auf die Unterstützung durch Maschinen verzichten will . So kann man die in ihrer 'Generation' nicht mehr zu verbessernden Indizes als Ausgangsbasis für Lemmatisierungsprojekte ansehen, indem der noch sehr hohe Anteil manueller Arbeit Zug um Zug abgebaut wird. Einen Schritt in dieser Richtung gingen Klein und Zimmermann, die den schon erwähnten Trakl-Index durch ein rationelles 'man-machine-interaction'-System lemmatisierten . In einer zwischengeschobenen Phase werden zum Beispiel homographe Wortformen von Hand bearbeitet. 3.2

Programmintensive Verfahren

Programmintensive Verfahren erfordern ein Minimum an Textvorbereitung. Als fast utopisch anmutendes Fernziel kann man sich ein Programm vorstellen, das über Klarschriftleser den Text einliest und ein lemmatisiertes Wörterbuch ausgibt. Weder die technischen noch die linguistischen Voraussetzungen dazu sind zur Zeit gegeben. Die Entwicklung entsprechender technischer Geräte hat mit den Normschriftlesern allerdings schon einen Stand erreicht, der die Vollendung deutlich ahnen läßt. 1 2

3

Ein Exempel für in der Nachbereitung lemmatisierte Textwörterbücher ist der schon erwähnte Racine-Index Quemadas (vgl. Anmerkung 7, S. 4 ) . vgl. Anm. l, S. 8. Klein, W. und Zimmermann, H . , 'Index zu Georg Trakl. Dichtungen ' ähnlich übrigens: Wetzel, H . , 'Konkordanz zu den Dichtungen Georg Trakls . Salzburg 1971.

12

Zur Lösung der sprachlichen Probleme werden im folgenden zwei mögliche Wege diskutiert, die allerdings wohl nur in Verbindung miteinander befriedigende Ergebnisse liefern können. Sie werden getrennt nacheinander behandelt, damit der systematische Unterschied klarer hervortritt. 3.2.1

Informationsintensive Verfahren

Der oben (S. 1O) beschriebene, vorbereitete Text kommt zustande, indem jeder Wortform vom Bearbeiter aufgrund seiner Sprachkenntnis alle nötigen Informationen zugeordnet werden. Der Versuch, diesen Prozess zu simulieren, indem die Angaben nicht von einem menschlichen Bearbeiter, sondern von einem umfangreichen Wörterbuch bezogen werden, führt zu einem informationsintensiven Lemmatisierungsverfahren. Das Wörterbuch gehört zum Spezifikationsteil innerhalb des Analysesystems und ist nicht mit dem Output, dem Lemmawörterbuch (LWB) zu verwechseln. Es wird im weiteren ST-Wörterbuch (ST-WOBU) genannt. Jede seiner Einheiten umfaßt drei Komponenten, eine Graphemfolge ( g ) , den Namen des Lemmas, zudem g gehört (L) und grammatische Informationen ( h ) . Das ST-Wörterbuch hat also die allgemeine Form:

(1)

(9

/

Lx, hx)

(g 2 , L 2 , h 2 ) ... (9 n , V h o ) Das Prinzip läßt die Voraussetzungen, allerdings auch die Schwierigkeiten erkennen. In der Spalte g ( g . , g _ , . . . , g ) müssen möglichst alle Wortformen der zu behandelnden Texte aufgenommen sein, was trotz des beachtlichen Umfangs theoretisch möglich wäre, da der Wortformenbestand einer Sprache Grenzen hat. Komplikationen treten erst durch die Tatsache a u f , daß zwischen g, L und h nicht das Verhältnis 1 : 1 : 1 besteht, daß es, anders ausgedrückt, homographe und polyseme Wortformen gibt: '2J \ 9 i » l ' 2 ' * * * 'n' l ' 2 ' * * * Die im Text auftretende Wortform g ist -^

nur über eine Kontext4

analyse zu lemmatisieren. Innerhalb von ST müssen demnach Regeln formuliert werden, die die Bedingungen angeben, nach denen die Zuordnung von g, L und h eindeutig wird.

13

Da neben der Morphologie die Syntax das Gebiet ist, über das sich relativ gesicherte Aussagen machen lassen, beschränkte sich die maschinelle Kontextanalyse bislang auf die syntaktische Einheit Satz. In einigen Fällen kann zur Lösung von Homographen eine Wahrscheinlichkeitsschätzung oder Berechnung der relativen Häufigkeit herangezogen werden. Schätzen läßt sich die Wahrscheinlichkeit nach dem Alter des Textes, seinem Inhalt, der Sprachschicht, der er angehört, und anderen Faktoren. Für eine mathematisch genaue Bestimmung dagegen kann man von den Zahlenverhältnissen ausgehen, die sich für den gleichen Homographen aus einem dem zu bearbeitenden Text vergleichbaren Sample ergeben. Die zuverlässigsten Orientierungsgrößen gewinnt man natürlich aus der Berechnung der relativen Häufigkeit aus dem vorliegenden Text. Allerdings setzt diese Ermittlung schon die Angaben voraus, für deren Gewinnung sie angesetzt wird und ist daher sinnlos. Beide Methoden, die Schätzung nach philologischen Kriterien sowie die Berechnung, kann man nicht als automatische Homographenprogramme in dem genannten Sinn bezeichnen, denn die Mehrdeutigkeiten werden vor Beginn des Programmdurchlaufs nach den geschätzten oder errechnete Maßgaben reduziert oder aufgehoben. Ein Beispiel dafür berichtet Busa: Tritt in den Texten von Thomas von Aquin die Graphemfolge Ibis auf, so wird die Möglichkeit, daß es sich um den Namen des exotischen Vogels handeln könnte, als unwahrscheinlich ausgeschaltet. Ibis wird nur als 2. FUT Sg IND AKT zu Ire lemmatisiert . Die Zahl der Fälle, die so eindeutig entschieden werden können, ist freilich sehr klein. Hinzu kommt, daß sich aus der Wahrscheinlichkeitsschätzung keine allgemeinen Regeln ableiten lassen, da sie auf textabhängigen Variablen basiert. Für die lateinische Abhandlung eines Ornithologen würde sich die Wahrscheinlichkeit für Ibis eventuell zugunsten des Vogelnamens verschieben. Allein aus diesen knapp skizzierten Überlegungen ist ersieht~ lieh, daß automatische Lemmatisierung durch bloßen Wörterbuchvergleich nicht möglich ist. l

Sinngemäß zitiert nach Busa, R . , 'Un lexique latin electronique', S. 258.

14

3.2.2

Regelintensive Verfahren

Das Prinzip regelintensiver Verfahren ist dem in Kap. 3.2.1 geschilderten sozusagen entgegengesetzt. Es besteht darin, möglichst alle Graphemfolgen, ausgehend von Form und Satzkontext, einem Lemma zuzuordnen, ohne auf direkte Informationen eines Wörterbuchs angewiesen zu sein . Daß dieser Weg ebenso wenig erfolgreich sein kann, wie der zuvor beschriebene, ist offenbar. Wenn wir ihm dennoch einige Überlegungen widmen, dann deshalb, weil er verschiedene interessante Einsichten vermittelt, die für die Entwicklung einer sinnvollen und erfolgversprechenden Kombination zwischen ST-Wörterbuch und 'regelmäßiger' Textbearbeitung von Bedeutung sind. Wäre ein Sprachsystem gegeben, das sich ohne Wör2 terbuch vollständig und eindeutig durch Regeln analysieren ließe , so bestünde ein Lemmatisierungsprogramm im wesentlichen aus den folgenden Teilprozessen: - Segmentierung in Graphemfolgen zwischen Leerzeichen, - Klassifizierung der einzelnen Wortformen nach morphologischen Kriterien (Endungs- und Präfixanalysen), - Ausstattung mit allen von der Struktur der Graphemfolge her möglichen Informationen, - Verifizierung bzw. Falsifizierung der im zweiten Schritt als mehrdeutig erkannten Wortformen anhand syntaktischer Gesetze, wie Stellungsregeln, Satzzeichen, zulässige Gruppenbildung und andere. (1) Beispiel: Für die Wortform Veree des in Kap. 3.1 gewählten Beispielsatzes ( 1 ) , S. 1O, ergäbe sich aus der morphologischen Untersuchung das redundante Ergebnis, daß sie allen Wortklassen angehören könnte, denn das Graphem E kann in jeder Wortklasse als letztes auftreten; es sei denn, die Einteilung ist so getroffen, daß Infi1

Ein derartiges Verfahren erwähnt Krallmann in seiner Dissertation, geht aber nicht näher darauf ein; 'Statistische Methoden... 1 , S. 95 - 96. 2 Das Russische weist zum Beispiel homographe Wortformen in weit geringerem Maße auf als etwa das Deutsche.

15 nitive, Partizipien und Kardinalzahlwörter je eigene Klassen bilden . Wie aber innerhalb der Wortklassen die rein morphologische Analyse bestimmte Formen des Paradigmas ermittelt, zeigt die folgende Aufstellung. o Funktionswortklassen sind nicht berücksichtigt, was hinsichtlich des Programms bedeutet, daß schon ein ST-WOBU vorausgesetzt ist. — Verse IMP Sg zu Versen (VRB) 3 (2) I* II» Verse III» Veree IV» Verse

V* Verse VI* Verse

VII* Verse VIII* Verse IX* Verse

XI

Verse Veree

XII

Verse

X

Verse XIV* Verse XV* Verse XVI* Verse

XIII

XVII* Verse XVIII* Verse XIX* Verse XX* Verse

XXI* Verse XXII* Verse

1. Sg : [S IND AKT zu 1. Sg :PRÄS KONJ AKT zu 3. Sg PRÄS KONJ AKT zu nom S g zu zu gen Sg zu dat Sg zu akk S g nom Sg zu dat Sg zu nom Pl zu gen Pl zu zu akk Pl zu dat Sg nom Pl zu zu gen Pl akk Pl zu nom S g zu akk Sg zu nom Pl zu akk Pl zu

versen (VRB) veveen (VRB) Versen (VRB) Verse (SUB FEM) Verse (SUB FEM) Verse (SUB FEM) Verse (SUB FEM) Verse (SUB MASK) Vers (SUB MASK) Vers (SUB MASK) (SUB MASK) Vers Vers (SUB MASK) Vers (SUB NEUT) Vers (SUB NEUT) Vers (SUB NEUT) Vers (SUB NEUT) verse (ADJ) verse (ADJ) verse (ADJ) verse (ADJ) zu verse (ADV)

Gehen wir einen Schritt weiter und nehmen an, daß die im STWOBU verzeichneten Formen (diet mehr, als) mit Informationen versehen wären, so ergäbe sich als Input für die Falsifikationsphase:

2 3

wie es etwa das Saarbrücker Projekt vorsieht; vgl. H . , 'Elektronische Syntaxanalyse... 1 . S. 57 - 59 Siehe zu diesem Begriff Anm. l S.23. Siehe Abkürzungsverzeichnis

Eggers,

16

(3)

Verse

entstehen,

SUB VRB ADJ ADV

SUB VRB ADJ ADV INF PART

als

sagen

KON

SUB VRB ADJ ADV INF PART

die

mehr»

tönen

DEM REL

ADJ ADV

SUB VRB ADJ ADV

wollen . SUB VRB ADJ ADV INF PART

Jede Homographie potenziert natürlich die Möglichkeiten der Gruppenbildung und erschwert die Prozedur der automatischen Zusammenfassung, über einen Satz, dessen Wortformen wie in (3) mehrdeutig sind, läßt sich durch syntaktische Regeln nur die eine Klarheit gewinnen: 2 (4) (Verse entstehen) , (die mehr tönen als sagen wollen) . Aber nicht eine Wortklassenangabe ist damit zu falsifizieren; alle in (3) mehrdeutigen Wortformen bleiben es in der gleichen Weise. Die in (4) dargestellte Gruppierung läßt in Hinsicht auf die Satzart die folgenden Möglichkeiten zu: (5) l (Hauptsatz), (rel. Nebensatz) 2 (Hauptsatz), (Hauptsatz) 3 (Nebensatz) , (Hauptsatz) Mehr ist über den Satz nicht zu erfahren, und die einzige Möglichkeit, ohne menschliche Zwischenkorrektur zu lemmatisieren, besteht darin, das ST-WOBU erheblich zu erweitern. Je mehr Graphemfolgen eines Satzes durch die Suche und den Vergleich im ST-WOBU 1

2

3

Die in (2) verzeichneten detaillierten Angaben sind mitzudenken; sie werden nicht noch einmal aufgeführt, um die Darstellung überschaubar zu halten. Die Schreibweise soll andeuten, daß die syntaktischen Bindungen der Elemente innerhalb der Klammer enger sind als diejenigen über die Klammern hinaus. hier ein uneingeleiteter Nebensatz, etwa: fiele Regen, ...

17

eindeutig klassifiziert werden können, desto leichter fällt die Auflösung der verbleibenden Homographien. Aus der Erkenntnis, daß weder ein nur auf einem Wörterbuch basierendes, noch ein nur mit einem Regelsystem arbeitendes Verfahren zu den gewünschten Ergebnissen führt, bleiben für die Planung des kombinierten Verfahrens nur die alternativen Maximen: (6) Maximales ST-WOBU (Wortformenbuch); Lösung der Mehrdeutigkeiten, Zusammenfassung getrennt stehender Formen über eine Satzanalyse. (7) In das ST-WOBU wird nur aufgenommen, was nicht durch eine allgemeine Regel zu erfassen ist. Die Geschichte der LDV zeigt eindringlich, daß Fortschritte nur in dem Maße möglich sind, wie es gelingt, linguistische Gesetzmäßigkeiten zu erkennen und zu mechanisieren. Diese Aufgabe stellt sich nach Grundsatz ( 7 ) , und wir versuchen aus diesem Grund, die Bedingungen eines automatischen, programmintensiven Lemmatisierungsverfahrens zu klären und für ein Teilproblem, die Behandlung der Verben in Texten der deutschen Gegenwartssprache, eine Lösung anzubieten. Unter dieser Zielsetzung kommt der Lemmatisierung im Ganzen der LDV eine interessante Zwischenstellung zu, wie Schema (8) zeigt:

Von diesem absoluten Postulat wird man aus programmökonomischen Gründen hie und da abweichen müssen. Dennoch soll in solchen Fällen die Möglichkeit einer regelgemäßen Lösung angedeutet werden.

18 L D VJ

(8)

sprachsystemgerichtete Projekte

Parsing

Content- semantic analysis memory

sprachinventargerichtete Projekte

Indizes

Konkordanzen

Lemmawörterbucher Lemmatisierung

Nach anderen Kriterien gliedert Lamb ('The Digital Comput e r . . . 1 ) ; er unterscheidet fünf Teilbereiche, je nach Bearbeitungsgegenstand oder Programmstruktur. Garvin ('Computer Participation in Linguistic Research 1 ) trennt drei Unterdisziplinen, je nach Grad der Teilnahme des Computers an der linguistischen Forschung: a) language data collection b) computerprograms using the results of linguistic research c) automation of linguistic research processes; vgl. S. 385. Vgl. dazu Quillian, R . , Semantic Memory' in Minsky, M., 'Semantic Information Processing', S. 227 - 27O. Quillians Dissertation, wovon diese Arbeit eine gekürzte Passung ist, rückt die automatische semantische Analyse ein beachtliches Stück näher in den Bereich des Möglichen.

B

LINGUISTISCHE GRUNDLAGEN DER LEMMATISIERUNG

l

Lemma als Menge linguistischer Einheiten

Wie wir in Kap. A 2, S. 7 und 8, gesehen haben, kann das einzelne Lemma definiert werden durch die Aufzählung der allen seinen Elementen gemeinsamen Merkmale. Da man in einem zwar etwas ungenauen, aber zutreffenden Verständnis sagen kann, ein Lemma umfasse die in einem Text belegten Formen eines Wortes, wären Definitionskriterien eines Wortes, falls sie zu präzisieren sind, ein erfolgversprechender Ansatz. 1.1

Wort - Lemma

Es hat sich schon in der Kritik an den Indizes (S. 5) erwiesen, daß die in der LDV weit verbreitete formale Wortdefinition mangelhaft ist. 'Graphemfolge zwischen Blanks' ist zwar unmittelbar zu mechanisieren, wird aber den Gegebenheiten der Sprache nicht gerecht. Zwar garantiert der methodisch streng formulierte behaviouristische Strukturalismus eine vollständige Beschreibung aller Teile jeder Äußerung, was aber heißt: Klassifizierung der Elemente einer Äußerung nach morphologischen und phonologischen Gesetzen, in deren Geltungsbereich Diskontinuität zusammengehöriger Elemente (Verbalklammer, getrennte Verbzusätze) nicht erkannt wird. Andererseits gelingt es nicht, sprachwissenschaftlich befriedigende Definitionen zu formalisieren. Wie weit lassen sich dennoch Theoreme der Linguistik zur Eingrenzung des Lemmas verwenden ? Offenbar sind für die linguistische Analyse nicht die unmittelbar zugänglichen Graphemfolgen von Sätzen als solche interessant - ebenso wenig wie die sie trennenden Zwischenräume - sondern die

20

durch sie signalisierten Relationen und Funktionen des Sprachsystems. Jenachdem, welche Funktion man als primär erachtet, wird man dem Terminus Wort verschiedene Bedeutungen beilegen: semantische Einheit, Syntagma, Morphemverbindung usw. Die meistdiskutierten Definitionen bespricht Lyons in einem systematischen Überblick, dem er seine eigene 'cohesiontheory 1 anschließt. Sie geht davon aus, daß die kleinste grammatische Einheit das Morphem ist, eine abstrakte Komponente des Wortes, die durch ein Morph in orthographischer, phonologischer oder anderer Weise repräsentiert wird. Das Wort ( W ) , ebenfalls eine abstrakte Größe, nimmt als Morphemkomplex eine Stufe zwischen Satz (S) und Morphem ein. Die Hypothese, Wörter als Funktionseinheiten morphematischer Faktoren zu bezeichnen, setzt voraus, daß zwischen den ein Wort konstituierenden Morphemen spezielle Relationen bestehen; schematisch dargestellt: (D S = W L , W2, ...,Wn W

= °l' °2 °m also: S = oj, o£, ...,0^

Die Morpheme o., o _ , . . . , o fassen wir zusammen zur Menge 0. (2) O = {o lf o 2 , . . . , o m > Ebenso definieren wir die Menge W: (3) W = {w lf w 2 , . . . , w n > Bevor die Möglichkeiten dieses einfachen Modells weiter untersucht werden, muß eine grundsätzliche Frage beantwortet sein: Lassen sich die Grundlagen der Wortdefinition gemäß ( 1 ) , (2) und (3) mit den mengentheoretischen Aussagen S. 8, Definition ( 3 ) , widerspruchsfrei und sinnvoll verbinden ? Die Definition ( 3 ) , S. 8, geht von rein formalen, linear begrenzten Einheiten, den Graphemfolgen

aus. Wortformen

beste-

1

'Introduction to Theoretical Linguistics', S. 17O - 171 und 180 - 206.

2

Vgl. demgegenüber die Definition des Morphs bei Bechert, Clement, Thümmel, Wagner, ' E i n f ü h r u n g . . . 1 , S. 139.

3

Den dem Morph entsprechenden Begriff für die konkrete Repräsentation des Wortes im Text bezeichnen wir also mit Wortform. Es ergibt sich damit die Gleichung: Wort : Wortform = Morphem : Morph.

21

hen aber nicht zwingend aus nur einer Graphemfolge, ebensowenig wie die Graphemfolgen einer Wortform im Satz einander unmittelbar folgen müssen. Für die Erkennung der Wortformen entscheidend sind nicht räumliche, sondern grammatische Relationen. Um diese Tatsache in der Lemmadefinition zu berücksichtigen, genügt es, statt von einer Menge von Graphemfolgen, von einer Menge von Wortformen mit bestimmten Eigenschaften E , E _ , . . . , E zu sprechen, also für w und für A die Menge der Wortformen W einzusetzen: (4) y = {w|E (w)} w

Gleichzeitig mit diesem Übergang von der Ebene der Schriftzeichen zu derjenigen grammatischer Elemente wird die Art der Merkmale En deutlich. Sie können nunmehr aus der Kombination und Ordnung bestimmter Morpheme abgeleitet werden. Aus dieser Sicht stellt sich maschinelle Lemmatisierung als Versuch dar, einzelne Morpheme aufgrund ihrer orthographisch realisierten Morphe zu bezeichnen, zu sammeln und als Lexikoneinheiten wiederum zu bezeichnen. Damit werden einige weitere Grundsätze deutlich. Wenn Graphemfolgen die konkreten Realisierungen von Wortformen sind, können wir für einen Satz allgemein schreiben: (5)

S = g

g w/ 1 ".2

(6)

Vi -

9

" n Da Wortformen aus Morphen gebildet sind, läßt sich ableiten: g

o/ l

g

o92

*om

Daß innerhalb der Menge aller Morpheme nach ihrer Leistung verschiedene Klassen angenommen werden können, braucht hier nicht eigens nachgewiesen zu werden. Wir unterscheiden Morpheme semantischen, syntagmatischen und strukturalen Charakters. (7) (c.., c _ , ... ,c } = C (Menge der semantischen Morpheme) {p , p 0 , . . . , p } = P (Menae der syntagmatischen Mor1 m ^ pheme) {q , q , . . . , q j } = Q (Menge der strukturalen Morpheme) Die semantischen Morpheme sind die einzelnen bedeutungstragenden, abstrakten Komponenten von Wörtern, realisiert als semantische Morphe, Segmente von Wortformen. Da die semantischen Komponenten der Verben nicht alleine nur die vom jeweiligen Verb ausgedrückte Bedeutung umfassen, sondern, wie später (S. 28 ) gezeigt

22

ist, auch semantische Kookkurrenzanforderungen, nennen wir sie zusammengefaßt: die semantischen Eigenschaften E . Zu den funktionsorientierten Morphemen gehören alle grammatischen - paradigmatische sowie syntagmatische - Kategorien, zum Beispiel 3. Person, Nominativ, Indikativ, Akkusativrektion. Die syntagmatischen Morpheme sind die, welche die Struktur der einzelnen Wortform je nach Funktion, die sie im Satz erfüllt, bestimmen. Die entsprechenden Morphe sind Kasus-, Numerus-, Genus-, Tempus- und Modusmorphe. Aus der Form der syntagmatischen Morphe zusammengehöriger Wortformen erschließen sich die das Paradigma charakterisierenden Eigenschaften E , z . B . : 'regelmäßig 1 , 'Plural auf -ten usw. Paradigmatisch ist hier also etwas enger gefaßt als gewöhnlich, und es meint nur die dem Flexionsparadigma eigentümlichen Eigenschaften Wortklasse ( W K ) , Deklinationsklasse, Konjugationsklasse . In Umkehrung zu den syntagmatischen Morphemen, die sich für die Wortform aus der Funktion im Satz ergaben, sind die strukturalen Morpheme Konsequenzen von Strukturanforderungen der Wortform an den Kontext: die Tatsache, daß einem Verb in jedem Satz ein Akkusativobjekt zugehört, ist ein Strukturales Morphem des Verbs, die allgemeine Eigenschaft E eine Strukturale Eigenschaft, z.B.: Transitivität, Präpositionalrektion, obligatorisches Adverb (Ee fällt mir schwer^ leicht,...). Die mengentheoretische Lemmadefinition läßt sich nun präzisieren zu: (8) y = {x|E c , Ep , Eq ( x ) } Zum Lemma y gehören alle Graphemfolgen x, die die semantischen Eigenschaften E , die paradigmatischen Eigenschaften Ep und die i i strukturalen Eigenschaften E aufweisen. q i Die nicht semantischen Klassen P und Q bilden die Menge F der funktionsorientierten Morpheme: (9) F = P u Q Angewendet auf die allgemeine Struktur von Wortformen ergibt sich: l

Hierzu gehören auch Eigenschaften wie 'Flexion mit sein bzw. haben.

23

(10)

gw = (gc , gp , g ) q i i i i Man erkennt, daß E nur aus der Kombination von g und g P< c, q. aufgrund der Kenntnis des Sprachsystems bestimmt werden kann. Es wird in den meisten Fällen so sein, daß paradigmatische Eigenschaften von Wortformen nicht durch ein g direkt bezeichnet sind, sondern auf distributionellem Wege bestimmt werden müssen. Die Ausnahmen bilden Wortbildungsmorpheme wie -keit, -licht -ung usw. Aus diesen paradigmatischen Morphemen lassen sich paradigmatische Eigenschaften in vielen Fällen über Regeln direkt gewinnen. Allerdings müssen sie zum Teil wohl auch noch als Signale der C-Morpheme angesehen werden. Ein weiteres paradigmatisches Morphem ist die Groß- bzw. Kleinschreibung der Anfangsgrapheme, sofern sie nicht nur den Satzanfang markiert. Sie wird in den folgenden Untersuchungen jedoch nicht berücksichtigt, da sie kein unmittelbar linguistisches Phänomen darstellt und ihre Signifikanz geringer ist,als man auf den ersten Blick annimmt, wie die Arbeit 2 von Weber und Zimmermann belegt .

2

Semantische Merkmale der Lemmatisierung

Der primäre Anlaß, Lemmatisierungsverfahren zu entwickeln, ist die Zusammenfassung von Wortformen gleichen Inhalts, übertragen auf das in Kap. B 1.1 entwickelte Modell bedeutet das: die Übereinstimmung mehrerer Wortformen in Hinsicht auf ihre semantischen Eigenschaften Ec ist das primäre Kriterium für die Zusammenfassung, Man kann sich die optimalen Voraussetzungen für eine automatische Lemmatisierung dementsprechend vorstellen: es wären ein detailliertes, adäquates und formalisierbares lexikalisches System semantischer Merkmale einer gesamten Sprache und die Möglichkeit, in schriftlicher Form vorliegende Texte semantisch zu segmentieren und zu klassifizieren. Alle Wortformen mit gleichen E würden zuc sammengefaßt und nach Ep und Eq beliebig' untergliedert. Ep und Eq 1

Nicht alle Wortformen weisen semantische Morpheme a u f . Wörter von der Form w = (p,q) heißen Funktionswörter. 2 Weber, H.J., Zimmermann, H . , 'Zur Verwertbarkeit...' 3 vgl. Anm. 2, S. 18.

24 sind aus den F-Morphen der Mengen P und Q zu erschließen. 2.1

Hypothese

Die bisher entwickelten Verfahren (Quillian, Meier, Scharnhorst) sind in der Systematisierung und Formalisierung beachtlich weit gediehen, sodaß eine formale Beschreibung der "semantischen" Merkmale des Sprachinventars mehr an dem immensen Arbeitsaufwand als an den sachlichen Problemen scheitert. Ein 'semantisches Wörterbuch 1 wäre immerhin zu leisten, wenn nicht bis ins Kleinste, so doch bis zu einer Stufe hinreichender Präzision. Unüberwindliche Schwierigkeiten bereitet bislang jedoch die Analyse semantischer Strukturen von Sätzen, deren theoretische Grundlagen Weinreich im zweiten Teil seiner schon klassisch gewordenen 'Explorations' behandelt. Eine automatische Lemmatisierung nach semantischen Kriterien wäre ohne eine weitgehende Analyse jedoch in gleicher Weise zum Scheitern verurteilt, wie eine grammatisch orientierte Lemmatisierung ohne syntaktische Analyse. Andererseits enthebt uns die Feststellung, daß kein praktikables Verfahren verfügbar ist und es in der nächsten Zukunft wohl auch nicht sein wird, nicht der Notwendigkeit, von der Ebene der Graphemfolgen auf eine bedeutungsmäßige zu abstrahieren. Das Prinzip, das diesem Schritt in dem hier entwickelten Verfahren zugrunde gelegt wird, ist sehr einfach, und es mag unter theoretischem Gesichtspunkt fast naiv wirken. Indessen stellt es, ausgehend von den geschilderten Umständen eine praktikable und den linguistischen Sachverhalten nicht widersprechende Alternative dar. (1) Wir nehmen an, daß im allgemeinen die Graphemfolge g i signifikant (graphisch angedeutet durch ) für Gleichheit oder Verschiedenheit der durch sie bezeichneten Morpheme 1

2

ist:

Meier, G . F . , 'Semantische Analyse und Noematik 1 , t l "Ein Beispiel der Monosemierung zusammengefaßt zu: 'Noematische Analyse als Voraussetzung... Scharnhorst, J . , ' Z u r semantischen Struktur des Wortschatzes. .. ' Weinreich, U . , 'Explorations ...'

25

g

c c

i

= g

c c

E

i'

c c

i

= E

c c

i'

Das heißt nicht, daß die Bedeutung einer Wortform aus ihren Graphemen erschlossen wird oder gar gleich der Graphemfolge ist. über E selbst wird anhand von g überhaupt nichts ausgesagt, auch nicht in eindeutigen Fällen von Lautmalerei. Eine grobe semantische Beschreibung wird als zusätzliche Information im STWOBÜ mitgegeben werden (siehe S.121-123 ) . Als Folgeerscheinung der Annahme (1) treten Zweifelsfälle und Mehrdeutigkeiten auf. Bevor wir diese eingehender betrachten, sei darauf hingewiesen, daß die aus den F-Morphemen ableitbaren Eigenschaften E und E außerdem als Lemmatisierungskriterien heran1 gezogen werden. 2.2

Problematische Konsequenzen

2 . 2 . 1 Unterschiedliche 2.2.1.1

g

bei gleicher Bedeutung

Trennung synonymer Wortformen

Zu ( 1 ) , Kap. B 2.1, lautete die negative Aussage:

(D

g_ci ¥ gc± ,

Ec ± ji Ec±,

Beispiel: die Verbformen anfangen und beginnen unterscheiden sich hinsichtlich ihrer Graphemfolgen; mithin müßten auch ihre Bedeutungen verschieden sein: "anfangen"

jf

"beginnen"

2

Daraus kann man auch ohne eine explizite semantische Beschreibung der beiden Wortbedeutungen erkennen, daß ( 1 ) , Kap. 2.2.1.1, eine falsche Schlußfolgerung ist. Zwar ist aus der Gleichheit von g und g 1 im allgemeinen auf die Gleichheit von Ec und Ec i i i i' zu schließen, nicht aber umgekehrt: (2) Ec = EC , gc = gc , ± L ± ± 1 Vgl. Kap. B 3, S. 32. 2 Die " ... " sollen hier andeuten, daß es sich um Bedeutungen, nicht um Graphemfolgen handelt. Sie könnten auch durch eine Reihe semantischer Komponenten ersetzt werden.

26

In der oben angedeuteten optimalen Lemmatisierung auf der Basis eines semantischen Systems würden vermutlich anfangen und beginnen zu einem Lemma gehören. Die in Kap. B 2.1 genannten Umstände zwingen uns jedoch dazu, ein anderes Verfahren zu wählen und somit auch das Lemmawörterbuch nach nichtsemantischen, nämlich graphematischen Gesichtspunkten zu ordnen, eine Konsequenz, deren Nachteile nicht so gravierend sind, wie es vielleicht den Anschein hat. Das LWB soll in geeigneter Weise Material zur Bearbeitung des Textes bereitstellen. Ein semantisch - bzw. nach Wortfeldern aufgebautes LWB ist von größerem Nutzen nur, wenn die Textuntersuchung auf inhaltlichem Gebiet liegt. 2.2.1.2

Orthographische Varianten

Einen Sonderfall gleicher Bedeutung bei unterschiedlicher Graphemfolge stellen die Schreibvarianten dar. Es wäre in der Tat unbefriedigend, wenn die Formen tat und that verschiedenen Lemmata zugeordnet würden. Um diesem und ähnlichen Fehlern vorzubeugen, müßten die Orthographieregeln aller zu bearbeitenden Texte programmiert sein. Erheblich einfacher ist es jedoch, die betroffenen Formen mit einem entsprechenden Verweis ins Wörterbuch aufzunehmen, insbesondere, wenn in der Hauptsache Texte der Gegenwartssprache lemmatisiert werden müssen. Aus ökonomischen Überlegungen heraus wird man das ST-WOBU allerdings nicht von vornherein mit allen denkbaren orthographischen Varianten überlasten, sondern nach Maßgabe ihres Auftretens und der fehlerhaften Behandlung oder vor der Bearbeitung eines Textes das ST-WOBU entsprechend ergänzen. Beide Wege bereiten eine Menge von Umständen: da das ST-WOBU alphabetisch geordnet ist, müssen die Einträge zur Erfassung von Schreibvarianten an den richtigen Stellen eingefügt werden. Das bedeutet, alle nachfolgenden Einträge müssen um einen Platz nach hinten verschoben werden. Je umfangreicher das ST-WOBU ist, um so aufwendiger wird jede Erweiterung und es bleibt zu überlegen, ob eine manuelle Lemmatisierung im Zuge der anschließenden Korrektur sich nicht als zweckmäßiger erweist. Eine Aufnahme ins Wörterbuch ist allerdings immer dann erforderlich, wenn die Schreibvariante einer Wortform mit einer Wort-

27 form eines anderen Lemmas übereinstimmt und so zum Homographen wird. Beispiel : (1) thun statt tun 2 Gewinnst statt Gewinn 2.2.1.3

Flexionsbedingter Wechsel von g O

Nach ( 1 ) , Kap. B 2.1, würden in Fällen von Heteroklisie die Wortformen mit verschiedenen Stämmen zu verschiedenen Lemmata geordnet. Die meisten unregelmäßigen Verben wären ebenfalls davon betroffen. (1) "bin" i· "war" "denk" jt "dacht" Formen dieser Art müssen natürlich unter einem Lemma gefaßt werden. Einen Vorschlag zur Systematisierung und maschinellen Bearbeitung geben wir in den Kapiteln C 2.2.5.1 und 2.2.5.5. 2 . 2 . 2 Gleiche g

bei verschiedener Bedeutung

In diese sehr umfangreiche Gruppe von Ausnahmen gehören alle Fälle von Homonymie, Polysemie, streng genommen auch der metaphorische Gebrauch . Der Versuch, semantisch mehrdeutige Verben getrennt zu lemmatisieren, setzt eine semantische Analyse voraus, die aber in großem Umfang zu diesem Zeitpunkt und in dieser Arbeit nicht geleistet werden kann. Dennoch kann die Lemmatisierung auf syntaktischer Basis in einem bestimmten Umfang Hinweise erbringen und zwar immer dann, wenn durch den Bedeutungswechsel des Verbs die Satzstruktur notwendig verändert wird. 1

Aus der Kleist-Ausgabe des Bibliographischen Instituts Leipzig und Wien, hrsg. von H. Kurz.

2

Thun ist neben der älteren Schreibweise des INF von tun ein Substantiv zur Bezeichnung einer Fischart; Gewinnst wird außer als Verbalform in dem in Anm. l genannten Text auch als Substantiv statt Gewinn geschrieben.

3

In Hinsicht auf die Wortklassenzugehörigkeit mehrdeutige Graphemfolgen nennen wir Homographen. Sie unterscheiden sich nicht nur in den semantischen, sondern auch in den paradigmatischen Eigenschaften (siehe Kap. B 3.1.2).

28

Verschiedene Wertigkeit des 'gleichen' Verbs kann ein Hinweis auf semantische Mehrdeutigkeit sein, muß es aber nicht. (1)

nom + bekommt + akk «# "erhalten"

nom + bekommt + dat »* "zuträglich sein" (2) oder: nom + traut + akk ·» "vermählen" nom + traut + dat ·» "vertrauen" Die indirekte Erkennung der verschiedenen Bedeutungen von Verben mit gleicher Graphemfolge läßt sich um so mehr präzisieren, je mehr signifikante Einzelheiten der Substantive über die Kasusangabe hinaus zu kookkurrenzbedingungen formuliert werden können. DRs bedeutet, daß vom Verb abhängende Nominalglieder z.B. nach ihrem Inhalt weiter differenziert werden müssen. Bleiben wir bei dem Verb trauen, so können wir (2) auch in einer geläufigeren Schreibweise darstellen: (3) SUBj^ (+ nom) - trauen - SUB2 (+ akk) 1 SUB und SUB- unterliegen aber nicht nur syntaktischen Gesetzen der Kasuswahl, sondern auch semantischen Restriktionen. Für SUB. können z.B. nur Nomina eingesetzt werden, die Menschen oder von Menschen gebildete Institutionen bezeichnen: (4) /Oer Standesbeamte Herr X Die Kirche ? ' trauen ~ SUB2 (+ akk) usw. Die Einsetzbarkeit für SUB- unterliegt noch engeren Selektionsbeschränkungen. Um semantisch richtige Aussagen zu erhalten, darf die Position SUB_ nur von Substantiven eingenommen werden, die Menschen verschiedenen Geschlechts oder Kollektive (Paar, Brautleute) bezeichnen, denn semantisch ausgeschlossen wäre z . B . : (5) *SUB1 - trauen - Kirche ( + akk) Wie schon bemerkt, kann durch die Angabe von Kookkurrenzbedingungen eine vollständige Analyse der semantischen Struktur umgangen werden, nicht aber eine semantische Subklassifizierung der Substantive. l

Daß SUB und SUB2 auch von Nebensätzen und anderen syntaktischen Einheiten besetzt werden können, sei hier nur vermerkt, beeinflußt aber nicht die Grundsätze.

29 Letzteres jedoch stellt ein weit weniger aufwendiges Unterfangen dar und kann auf in der Theorie bewährte Vorschläge zurückgreifen. Wir legen versuchsweise die bei Chomsky

genannten Kate-

gorien, ± Appellativum ( A p p ) , ± Individuativum ( I n d ) , ± Belebt, ± Abstraktum (Abstr), ± Menschlich (Mensch) zugrunde. Nun wäre es allerdings überflüssig, die Substantive semantisch zu subklassifizieren und in Kookkurrenzbedingungen zur Valenzangabe der Verben zu übernehmen, wenn alle Verben mit den syntaktischen Mitteln der Rektionsangabe unterschieden werden könnten, wie es bei trauen der Fall ist. Und tatsächlich stellen Rektionsunterschiede bei sehr vielen Verben ein hinreichendes Kriterium zur semantischen Trennung dar, wie Heibig und Schenkel an rund 330 häufig gebrauchten deutschen Verben nachweisen . (6) Er hängt den letzten Waggon ab. 2 (7) Er hängt von seiner Mutter ab. (8)

Er hängt den letzten Waggon von der Lok ab.

(9)

Er hängt das ganze Jahr von seiner Mutter

ab.

Die Sätze (6) bis (9) weisen einen Grund nach, aus dem heraus eine semantische Subklassifizierung der Substantive notwendig ist. (8) und (9) sind syntaktisch gleich gebaut, obwohl die Verben sich bedeutungsmäßig so voneinander unterscheiden, daß sie zwei verschiedenen Lemmata angehören. Zwar sind sie im ST-WOBU auch hinsichtlich ihrer Rektion unterschieden, aber wegen des 'unechten 1 Akkusativobjekts in ( 9 ) , das ganze Jahr, in der Analyse nicht zu identifizieren. Sie können erst richtig lemmatisiert werden, wenn das ganze Jahr und den letzten Waggon durch die Überprüfung semantischer Merkmale als rektionserfüllend bzw. nicht erfüllend erkannt werden. 1 2

'Aspekte . . . ' , S. 112. Heibig, G. und Schenkel, W . , 'Wörterbuch zur Valenz und Distribution... 1 . Daß die Autoren ebenfalls semantische Kategorien der nominalen Glieder angeben, soll uns hier zunächst nicht interessieren; die Hauptlast der Bedeutungsunterscheidung bei Verben gleicher Graphemfolge liegt bei der syntaktischen Valenz.

3

Daß sich abhängen (6) und (7) auch hinsichtlich ihrer Flexion unterscheiden, kann in diesem Zusammenhang unberücksichtigt bleiben.

30

Aus einem zweiten Grund wird es dann nötig, semantische Kategorien der Substantive zur bedeutungsmäßigen Trennung der Verben heranzuziehen, wenn bei gleichbleibender syntaktischer Valenz ein Verb dennoch mehrere Bedeutungen haben kann, also mehrere Lemmata angenommen werden müssen. Beispiel: (10) Er hält1 die Hand auf (SUBl (+nom) - VRB - SUB2 ( + a k k ) ) (11)

Er hält den Verkehr auf (SUBj(+nom) - VRB - SUB 2 (+akk))

Der Definition der Eigenschaften E C , E , E

(S. 22) folgend,

gehört die syntaktische Rektion zu den strukturalen Eigenschaften, (E ) . Ohne die semantischen Kategorien der mit aufhalten kombinierbaren Substantive zu berücksichtigen, ergäbe sich nur ein Eintrag im ST-WOBU: (12) ^aufhalten, E , Eq , obwohl Ec ( ) ^ c(11) PI

±

Um dennoch der unterschiedlichen Bedeutung gerecht zu werden, müssen die Subklassen, denen er, Hand und Verkehr angehören, mitgenannt werden: (13) SUB (+nom, -Abstr, +Belebt) - aufhalten

- SUB 2 (+akk, - Ind, -Abstr)

(14)

SUB^+nom) - aufhalten

- SUB2 (+akk)

In (14) sind, wie man sieht, weder für SUB

noch für SUB2 se-

mantische Selektionsbeschränkungen anzugeben. Nomina aller acht von Chomsky aufgestellten Subklassen sind einzusetzen: (15)

f"Der Junge Die Katze Moralische Gesinnung l la*8*v \ (+nom) - aufhalten \ Frieda ! \ Bello Die U S A \ Der Fernsehapparat

-2

1

Die dritte Bedeutung (er hält eich -in X auf) Eigenschaft 'reflexiv 1 erkannt werden.

kann über

die

2

Die Position SUB2 (+akk) kann analog zu SUB mit Substantiven aller Subklassen besetzt werden. Das heißt nicht, daß jedes Substantiv aus SUB mit jedem aus SUB» kombiniert werden kann: * moralische Gesinnung-aufhalten-waseer. Um Konstruktionen wie diese als metaphorisch zu identifizieren, ist ein Spezifikationsteil erforderlich, der über die gegenwärtigen Möglichkeiten der LDV hinausgeht.

31

2 . 2 . 3 Verbalkomposita Wendet man den in Kap. 2.1 entwickelten Grundsatz ( 1 ) , S. 24, auf die beiden Graphemfolgen kommen und vorkommen an, so treten keine Schwierigkeiten auf, denn ihre Bedeutungen sind in der Tat verschieden; kommen und vorkommen bezeichnen mindestens zwei verschiedene Lemmata, ebenso wie kommen und gehen. Natürlich steht die Bedeutung von kommen denjenigen von vor-, an-, entgegenkommen näher als der von gehen. Und "entgegenkomm" ist mit "komm" enger verbunden als etwa mit "entgegenseh". Es kann jedoch andererseits nicht allgemein behauptet werden, daß zusammengesetzte Verben ähnliche Bedeutungen aufweisen wie die Simplicia, mit denen sie gebildet sind. Anfangen steht beginnen semantisch näher als fangen, während einfangen die Bedeutung des Simplex beibehält. Sowohl für große semantische Unterschiede, wie auch für Fälle enger Verwandtschaft ließen sich viele Beispiele aufführen: geben, vergeben, vorgeben; nehmen, wegnehmen, benehmen, unternehmen usw. Aber sollten sich selbst Regeln darüber aufstellen lassen, wann ein Präfix oder Verbzusatz (VZS) die Bedeutung des Simplex stark oder weniger stark verändert, so hätten sie auf die Trennung nach Lemmata keinen direkten Einfluß. Die Gründe, warum trotzdem von den Verbalkomposita die Rede ist, sind mehr praktischer Art. Zunächst stellen uns die VZS vor erhebliche Analyseprobleme, auf die wir aber erst im praktischen Teil der Ausführungen (Kap. C 3 . 2 ) im Zusammenhang mit ähnlichen Fragen eingehen. Eine Veranlassung, entgegen den theoretischen Grundsätzen präfigierte Verben ihren Simplicia zuzuordnen, bestünde zwar insofern, als es für bestimmte Arbeiten einige Zeit des Suchens im Lemmawörterbuch erspart. Dieser Vorteil wird jedoch mit einem Nachteil bezahlt, der schwerer wiegt. Stehen nämlich zusammengesetzte Verben beim jeweiligen Simplex, so muß, wer einen Überblick über die in einem Text belegten Verbzusätze haben will, das gesamte Lemmawörterbuch Seite um Seite, Verb um Verb durchgehen, während er bei alphabetischer Einordnung alle Belege eines VZS beieinander findet. Die 'komfortabelste 1 Lösung bestünde darin, beiden Ansprüchen zu genügen, was den Umfang des LWB und die Komplexität der Programme jedoch erheblich vergrößerte. Bei größeren literarischen Texten scheint es daher sinnvoller, Spezialregister anzufertigen.

32

3

Die Relevanz des Funktionsteils für die Lemmatisierung

3.1

Die paradigmatischen Eigenschaften

Zu den paradigmatischen Eigenschaften in dem oben beschriebenen Sinne gehören Wortklassenzugehörigkeit, Flexionsklassenzugehörigkeit und das Genus bei den Substantiven. (1) Zum Beispiel unterscheidet Tau- von Tau~ nur: E = (+MASK) E

= (+NEUT)

Sie werden gleich flektiert, jedoch kann Tau- keine Pluralformen bilden, ein Umstand, den wir allerdings in den vorausgehenden Ausführungen als teilweise semantische Eigenschaft erkannt haben: Tau- ist ein Kontinuativum und daher ebenso wenig in der Mehrzahl jp 3 denkbar, wie die Milche . Wir treffen hier auf einen der interessantesten Punkte der Sprachkompetenz. Es gibt weder einen bestimmbaren Teil von Wortformen, der die Bedeutung trägt, noch einen anderen, der die grammatischen Leistungen im Kommunikationsprozess übernimmt. Die Trennung nach abstrakten Komponenten wie Morphemen (siehe oben S. 19 23) ist eine Hilfsvorstellung, eine durchaus geeignete zwar, der man auch intuitiv zustimmen kann; dennoch beeinflussen semantische und funktionale Segmente sich bei der Identifizierung von Satzsegmenten als Verben, Substantive, Adjektive usw. Morphe wie -en3 -eat -st sind, alleine betrachtet, mehrdeutig; oft bleiben sie es auch in der Wortform und die Kontextbedingungen müssen geprüft werden. Häufig aber genügt ein semantisches Morph, um Eindeutigkeit zu schaffen: reit-en, Frau-en. Weder aus reit noch aus en alleine ist die Wortklasse zu ermitteln, aber reiten wird ohne Kontext als Verb bezeichnet, kältere als Adjektiv, Kälte wiederum als Substantiv. 1 2 3

Vgl. oben S. 22. Dies ist im Grunde genommen eine Zusammenfassung mehrerer Eigenschaften; vgl. Anm. l, S. 22. Zur näheren Bestimmung von 'Kontinuativ 1 vs. 'Individuativ' vgl. unten S. 88 (1O).

33

Wenn wir dennoch eine Menge semantischer Segmente und sogar ihnen zuzuordnende Graphemfolgen annehmen und eine andere Menge funktionaler Segmente, so deshalb, weil es unter den theoretischen Modellen über diesen Teil der Sprecherkompetenz das adäquateste zu sein scheint, das sich auch auf die Arbeit mit Datenverarbeitungsanlagen übertragen läßt. 3.1.1 Wortklassen Das 'Ineinanderverwobensein', von dem im vorigen Kapitel die Rede war, setzt sich fort bis in die Methodik der Wortartendefinitionen. So kann man als deren beide Pole die inhaltliche, ideelle der distributionell vorgehenden gegenüberstellen . Konsequent angewandt, führen beide Prinzipien zu unbefriedigenden Lösungen, das inhaltliche, weil es nicht zwingend ist und Grenzfragen der individuellen Interpretation überläßt, das distributioneile, weil es zu einer verwirrenden Vielfalt von Wortklassen führt, sofern nicht in der Distributionsprobe schon Wortklassen vorausgesetzt werden. Wir folgen daher dem Mittelweg, der auch für die 'Elektronische Syntaxanalyse 1 der Saarbrücker Arbeitsgruppe bestimmend war, das konventionelle Wortklassensystem im Ganzen zu übernehmen, aber nach syntaktischen Gesichtspunkten zu determinieren und hie und da zu modifizieren. Einige Abweichungen von diesem auf Satzanalyse angelegten Modell werden allerdings notwendig, damit nicht Flexionsformen eines Lemmas aufgrund verschiedener Wortklassenzugehörigkeit getrennt lemmatisiert werden. Unflektierte Partizipien II, Infinitive mit eingeschlossenem zu, Infinitive und finite Verbformen bilden in der Saarbrücker Analyse je eine Wortklasse: PTZ, IZU, INF und VRB . Demnach würden die Wortformen einsetzen, eingesetzt, einzusetzen, einsetzt getrennt lemmatisiert, obwohl sie definitionsgemäß zum gleichen Lemma gehören. Vgl. dazu Klein, W . , 'Zum Begriff der syntaktischen Analyse' in Eggers, H. u . a . , 'Elektronische Syntaxanalyse...', S. 3133 und Lyons, 'Introduction...', S. 194 - 2O2 Vgl. Zimmermann, H . , 'Der Aufbau des syntaktischen Wörterbuchs' in Eggers, H . , u.a. 'Elektronische Syntaxanalyse... 1 , S. 57 - 59

34

Die Zusammenfassung der Wortformen, die sich syntaktisch verschieden verhalten, bereitet einige Schwierigkeiten. Einerseits liegt es in unserem Interesse, Wertformen, die verschiedenen Wortklassen angehören, zu verschiedenen Lemmata zu sammeln; andererseits ist das Wortklassensystem, das wir zugrundelegen wollen, nach syntaktischen Kriterien definiert. Jede Infinitivform z.B. kann substantivisch gebraucht werden: (1) Laufen ist gesund. Anders ausgedrückt: Laufen kann zur syntaktischen Wortklasse SUB gehören. Die größte Zahl der Partizipien kann zu den syntaktischen Wortklassen ADJ und ADV gehören, eine Vielseitigkeit, die sich auch darin äußert, daß sie mit dem Wortbildungspräfix unzusammen zu reinen Adjektiven werden können. Diese lassen sich nicht mehr auf verbale Lemmata reduzieren: (2) belebt ·£ beleben unbelebt £ unbeleben Wir könnten diesem Dilemma sehr einfach entgehen, indem wir auf die mit der Wortklasseneinteilung PTZ, VRB, INF, IZU gelieferte syntaktische Information verzichteten, begäben uns damit aber einer überaus nützlichen Angabe für die syntaktische Analyse, die ihrerseits wiederum für die maschinelle Lemmatisierung notwendig ist. Wie man sieht, führt nur eine strikte Trennung der lexikalischen Wortklassendefinition von der syntaktischen Verwendbarkeit aus dem Kreis heraus. "Infinitive können sich verhalten wie Substantive" heißt einzig und alleine, daß beide auf der Ebene der syntaktischen Funktion die Stelle einer nominalen Gruppe einnehmen können; es heißt nicht, daß der Infinitiv ein SUB wird, wie es vielleicht der Terminus 'substantivierter Infinitiv 1 suggeriert. Auch die sogenannten Gliedsätze können per definitionem die gleiche Funktion ausüben, ohne daß sie als Substantive bezeichnet werden. Obwohl die substantivierten Infinitive auch noch orthographisch als nichtverbale Wortformen gekennzeichnet sind, werden sie zu den Verben lemmatisiert. Die Homographie VRB/SUB bleibt natürlich bestehen, sofern die Wortform als SUB lexikalisiert ist, Beispiel: leben. Sie gleicht, was die beteiligten Wortklassen bet r i f f t , derjenigen von ritten. Die Grundsätze der syntaktischen Analyse sind davon nicht berührt. Zwar sind die Wortklassenangaben

35

des ST-WOBU nicht mehr unmittelbar für den Analysealgorithmus verwertbar, wohl aber mittelbar. Die für die Analyse notwendigen Angaben zum syntaktischen Verhalten sind implizit vorhanden und können in einer Phase der Lemmatisierung, die natürlich der Analyse vorangehen muß, automatisch bereitgestellt werden. In einzelnen Fällen hat der unterschiedliche syntaktische Gebrauch zu Wortartübergängen auch im lexikalischen Bereich geführt. Neben der nur noch selten belegten Verbalform dringend muß man auch ein lexikalisiertes Adjektiv dringend annehmen. Dagegen würde die Form gelesene in der Wendung das selten gelesene Buch zu lesen lemmatisiert, denn ein lexikalisiertes Adjektiv gelesen ist nicht belegt. Tritt ein Fall wie dringend auf, so ist er nicht damit gelöst, daß zwei Einträge als mögliche Lösungen im ST-WOBU gefunden werden, sondern die Wortform ist als Homograph identifiziert. Wir werden diesen komplizierten Fall von Homographie später eingehend behandeln, zuvor aber noch einen Sonderfall besprechen, der durch die Lemmatisierung der PART II zum Verb entsteht, die 'un-Partizipien 1 . Wie schon angedeutet (siehe oben S. 34) kann es geschehen, daß - analog zur Präfigierung mit un bei den Adjektiven - auch PART II in dieses Muster der Wortbildung eingehen. Sind auch diese Formen schon als Adjektive in das Sprachinventar aufgenommen, kann die Lemmatisierung regelmäßig ablaufen: (3) die unbelebten Straßen -^ unbelebt ungeheizte Zimmer fr ungeheizt unerwünschte Kinder f unerwünscht Theoretische sowie praktische Schwierigkeiten, bereiten Belege wie ungelesene Bücher, ungezielte Schüsse. Weder ungelesen und ungezielt noch die einfachen Formen gelesen und gezielt sind beispielsweise im 'Deutschen Wörterbuch 1 von Wahrig als Adjektive aufgenommen und man kann sie als Augenblickskomposita bezeichnen, was auch durch die Feststellung gerechtfertigt ist, daß die Zusammensetzung mit un ein Typ der Wortbildung ist, der fast ausschließlich nominale Lexikoneinheiten betrifft: 1 2

siehe in der Bibliographie. was nicht ausschließt, daß sie sich einbürgern und in einer der kommenden Auflagen berücksichtigt sind.

36

(4)

Glück - Unglück Mensch - Unmensch

glücklich - unglücklich Tritt ein Kompositum mit un im verbalen Bereich (VRB, ADV) auf, so liegt kaum eine Präfigierung eines verbalen Elements vor, sondern eine Bildung aus einem schon mit un verbundenen nominalen Glied: (5)

glücklich - glücklicherweise unglücklich - unglücklicherweise rein - reinigen unrein - verunreinigen

und nicht: (6)

glücklicherweise - unglücklicherweise reinigen - verunreinigen

Für diese These spricht auch die Tatsache, daß nicht adjektivisch gebrauchte, sogenannte reine Adverbien sowie Verben sehr selten mit un zusammengesetzt werden : (7) schade - unechade schaden - unschaden Aus diesen Überlegungen folgt als Maxime für die Lemmatisierung: (8) Mit un präfigierte Partizipien werden als eigene Lemmata der Wortklasse ADJ aufgenommen und nicht dem Verb zugeordnet. Abgesehen von der methodischen Klärung eines Einzelproblems unter vielen anderen, gibt uns (8) einen Anlaß, den systematischen Ort der Wortklassenangabe (WK-Angabe) zu verdeutlichen. Wir haben gesehen, daß eine automatische Lemmatisierung, solange keine maschinelle semantische Analyse entwickelt ist, formal erkennbare Kriterien verwenden muß, um Bedeutungsunterschiede zu erkennen. Eines dieser Mittel ist die Identifizierung der Graphemfolge, von der wir annehmen, sie sei für Gleichheit bzw. Unterschiedlichkeit der Bedeutung signifikant. Die damit verbundenen Schwierigkeiten und Ausnahmen wurden in Kap. B 2 . 2 besprochen.

Zu den wenigen 'echten 1 Adverbien, die mit un präfigierbar sind, gehören gern und wohl.

37

Die Graphemfolge gc eines Lemmas muß dem Identifikationsteil i vom ST-WOBU zur Verfügung gestellt werden , denn es ist unmöglich, den Wortschatz einer natürlichen Sprache durch allgemeine Regeln, ausgehend von den Bedeutungen, zu erzeugen. Theoretisch stellt also jede g_C eine Einzelinformation über Zulässigkeit bzw. Nichtzulässigkeit einer Wortform in einer Sprache dar und gleichzeitig eine semantische Information, letzteres unter dem Aspekt, daß Lemmata Mengen von Wortformen gleicher Bedeutung sind. Da aber g als formales Mittel zur Identifizierung semantischer Gleichheit bei weitem nicht ausreicht, müssen andere - entweder über Regeln oder aus dem ST-WOBU - herangezogen werden, nämlich die formal zu identifizierenden, funktionsorientierten Eigenschaften, deren eine die WK-Angabe ist. Vorwiegend aus diesem semantischen Grund werden sie überhaupt notwendig und zur Lemmatisierung eingesetzt. (9) Beispiel: Die Graphemfolge weise alleine genügt nicht zur Unterscheidung von Ec "Weise" (Art und Weise) l gegenüber E "weise" (klug und weise) C 2 Tritt aber zu EC E (WK) = SUB und zu EC E (WK) = ADJ, so kann anhand dieser mittelbaren Informationen nach einer syntaktischen Homographenlösung "Weise" von "weise"_ formal unterschieden werden. Dieser Zusammenhang verdeutlicht nocheinmal die Funktion des syntaktischen Programms als diejenige eines methodischen Umwegs, allerdings eines zur Zeit unabdingbaren und wie uns scheint des günstigsten Umwegs im Hinblick auf das Ergebnis. Außerdem muß man damit rechnen, daß auch für die Zukunft einer automatischen Analyse die Klärung der morphologischen und syntaktischen Gegebenheiten eines Textes Voraussetzung bleiben wird. Es bedarf nun nur noch des Verweises auf Beispiel ( 1 ) , S. 14, um zu belegen, daß die WK-Information einer Wortform nicht allgemein aus der Graphemfolge erschlossen werden kann . Daraus folgt, daß sie im ST-Wörterbuch angegeben werden muß:

l

bis auf einige Ausnahmen, die wir in Kap. C l behandeln.

38

(10)

Weise

SUB

weise ADJ Vom Standpunkt der Lemmatisierung aus betrachtet, wäre die WKangabe überall da überflüssig, wo gc alleine hinsichtlich EG eindeutig ist, wie Hund, Zettel usw. Wie allerdings schon früher erwähnt wurde (siehe S. 16) basieren Programme zur Homographenlösung auf Bedingungsabfragen an den syntaktischen Kontext innerhalb des Satzes. Je mehr Wortformen mit eindeutiger WK-Angabe im Satz gefunden werden, um so leichter gelingt die Vereindeutigung homographer Formen. Dieser Umstand weist die zweite Funktion aller WK-Angaben auf, die eine rein syntaktische ist. Sie sind Ausgangsinformationen für die Satzanalyse und müssen auch in eindeutigen Fällen im STWOBU angegeben sein. Denn ebenso wenig wie aus der Graphemfolge Verse läßt sich aus Hund und Zettel die Wortklassenzugehörigkeit formal erschließen. Daher und außerdem infolge der Tatsache, daß ST Teil einer Analyse und nicht einer Synthese ist, tritt seine theoretisch primäre Funktion etwas in den Hintergrund, während das ST-WOBU als Speicher grammatischer Informationen an Bedeutung gewinnt. 3.1.2 Homographie Da die auf den Eigenschaften E , E und E basierende Definic p q tion des Lemmas linguistische Adäquatheit beansprucht, muß es möglich sein, das Phänomen der Homographie im Rahmen dieses theoretischen Konzepts zu erklären. Damit dies mit der notwendigen Klarheit geschehen kann, ist ein Exkurs über die formalen Grundlagen der definierten Eigenschaften erforderlich. Man kann die Lexembedeutungen einer Sprache als Menge C betrachten: (1)

1 2

C = { b , b,

...,b>

Daß weise auch noch flektierte Verbform sein kann, bereitet keine grundsätzlichen Schwierigkeiten, sondern fällt in den Bereich des Wörterbuchaufbaues. Vgl. oben ( 2 ) , S. 15.

39

Weiterhin definieren wir die Graphemfolgen des Deutschen als Teilmenge des freien Monoiden über dem lateinischen Alphabet: (2) D(G) = {g lf g 2 , . . . » g n > Eine Relation R besteht zwischen je einem Element aus C und D (G) (3) Rc = Wird in einer Relation die Menge F auf D ( G ) abgebildet, so stellt die Abbildung die Menge aller funktionalen Morpheme dar. (11) F {flf f2, ...,fr> D ( G ) {g l f g 2 , g 3 , ...,g n } (11) ist keine Funktion, weil vielen f mehr als ein g entspricht. Eine funktionale Abbildung ist nur so zu erreichen, daß jedes f . durch ein g in seiner Abbildbarkeit begrenzt wird. Das bedeutet, daß die Elemente der Mengen F und C ( G ) über eine Operation verbunden werden müßten zu Elementen der Form:

(12)

gcc : f.

i Im Gegensatz zur Operation F, lassen sich die Restriktionen für die letztgenannte Operation mit dem Ergebnis (12) nicht allgemein angeben. Daß beispielsweise g = Hund nicht mit i f ± = (kj + kj + k' + kj + k* +

verbunden werden kann, g = Fuchs aber durchaus, ist nicht allgeC "i 1 mein prädiktabel, sondern- idiosynkratisch. Man kann es als Zufall bezeichnen, daß werdet hunden keine Wortform des Deutschen ist, während werdet fuahsen gebildet und verstanden wird. Soviel nur läßt sich allgemein sagen: Merkmalkombinationen wie g c f . sind der Normalfall, 0 f . zugelassen, gc 0 alleine nicht. i 3 D i Die Abbildungsfunktion von GF {g c f L , gC f. , g f _ , ...,g fp } l 2 1 cl * m

41

auf D(G) tg 1 » 9 2 ' · · · » 9 ^ stellt Wortformen dar, die man nun so ordnet, daß alle diejenigen eine Teilmenge bilden, für deren Umkehrung, D ( G ) auf GF die g -Komponente der Elemente g f gleich x ist. Bezeichnen wir die Abbildungsfunktion von GF auf D(G) mit W und die Abbildungen demnach mit W(g f ) , so können wir die Teilmengen bezeichnen mit: (13) (W(g„c fx ) für = l bis n} u < W ( gc fx ) für = l bis n} i j ... u {W(g f ) für x = l bis n} c mx Die Eigenschaften einer Wortform, aufgrund deren sie zu einer der in (13) bezeichneten Teilmengen gehört, nennen wir paradigmatische Eigenschaften, E . Die vorangehende Darstellung macht noch einmal zweierlei deutlich: - erstens, daß sie zwar Grundlage einer formalen Lemmadefinition sein kann, dagegen nichts aussagt über die definitorische Abgrenzung der Kategorien k. bis k _ , insbesondere der Wortklassen k . , - zweitens läßt sich einsichtig darstellen, daß Eigenschaften wie 'transitiv', 'intransitiv 1 , 'Modalverb' mit Recht nicht zu den E gezählt werden, denn sie sind von anderer Art, wenn man zu ihrer Bestimmung bestimmte Kontextmerkmale als Kriterien wählt. Daß sich beispielweise die Menge der Wortformen von sollen von den Wortformen von lassen unterscheiden, läßt sich durch einen kontextfreien Vergleich zeigen: (14) W ( e o l Z , f . ) , wobei f. = l.Sg PRÄS IND AKT = soll W(lass,f ) = lasse Diese Eigenschaft ist eine paradigmatische, die sich sprachgeschichtlich darin begründet, daß sollen zu den Päteritopräsentia gehört, lassen nicht. Daß sollen im Satz einen Infinitiv ohne zu anschließen kann, wissen dagegen nicht, obgleich es ebenfalls die E 'Präteritopräsens 1 aufweist, geht aus der Funktion W(g f) nicht hervor, sondern aus dem Kontext, weshalb die Eigenschaft 'Modalverb 1 zu den strukturalen zu zählen ist. Anhand dieser Trennung läßt sich nun der Ort des Homographieproblems genau angeben.

42

(16)

Als Homographen bezeichnen wir alle Wortformen für die sich bei der Inverse zu W, W (Abbildung von D (G) auf GF) mehrere Verbindungen g c f als Abbildungen ergeben und zwar derart, daß sich mindestens zwei Kategorienverbindungen f j und f . in den kategorialen Konstitu^ enten k i und k^ unterscheiden. Homographie ist formal mit der Feststellung zu erklären, daß die Funktion W nicht injektiv ist. Es besteht kein Zweifel, daß diese Erklärung auch auf einfachere Art vorgenommen werden könnte. Hier ging es jedoch darum, im Rahmen der formalen Lemmatheorie das Phänomen der Wortklassenmehrdeutigkeit zu lokalisieren und zugleich die linguistische Adäquatheit des Modells zu demonstrieren. Weiter werden wir auf diesen Fragenkreis nur in den Punkten eingehen, die für die Lemmatisierung deutscher Verben im einzelnen geklärt werden müssen, z.B. strikte und selektionale Subkategorisierung der Verben. Im übrigen mag die allgemeine Feststellung genügen, daß die Form der Homographenauflösung von der zugrundeliegenden Grammatik und der Parsingstrategie des jeweiligen Projekts bestimmt wird. Eine zusammenfassende Veröffentlichung über dieses Gebiet liegt noch nicht vor. Wir werden uns in dieser Arbeit auf die exemplarische Behandlung eines Einzelproblems beschränken, das verbale Wortformen betrifft, die Homographie VRB/ADJ. 3.1.2.1

Die Homographie Verb/Adjektiv

Infolge der Notwendigkeit, Partizipialformen der Verben der Wortklasse VRB zuzuordnen einerseits und andererseits der Möglichkeit, diese Formen auch attributiv oder adverbial zu verwenden, entstehen Homographen immer dann, wenn eine Graphemfolge sowohl als Repräsentant eines Verbs (PART I oder II) als auch eines im ST-WOBU belegten Adjektivs oder Adverbs angesehen werden kann. Da für die Trennung der Lemmata die WK-Zugehörigkeit als Kriterium herangezogen wird, muß sie für die einzelnen Wortformen eindeutig bestimmt werden. Dies geschieht in allen uns bekannten Verfahren, indem der Kontext auf verschiedene, die Wortform determinierende, morphologische und syntaktische Bedingungen hin geprüft wird.

43 Ob diese Gesetzmäßigkeiten ausreichen, um die adjektivisch oder adverbial gebrauchten Verbformen von den mittlerweile als ADJ bzw. ADV lexikalisierten Partizipien zu trennen, soll die folgende Untersuchung ergeben. Zuvor sei bemerkt, daß zur Wortklasse ADV nur die sogenannten reinen Adverbien gezählt werden; das sind diejenigen, die nicht flektiert werden können, die also nur adverbial oder prädikativ verwendet werden. Gegenüber der Duden-Grammatik bedeutet diese Begrenzung eine Einschränkung, denn die Verfasser bezeichnen auch attributiv verwendbare Lexeme wie lieb, fern, still und zufrieden als Adverbien . Da Partizipien als lexikalisierte Elemente flektierbar bleiben, gehören sie nach der obigen Definition nicht zu den Adverbien. Eine Homographie ADV/VRB (PART) 2 besteht demzufolge nicht. Adjektive und Partizipien können die folgenden syntaktischen Funktionen erfüllen: - Prädikativum (1) Die Milch ist gezuckert. (2) Die Sache ist dringend. Um kenntlich zu machen, daß das Partizip als Prädikativum Teil einer verbalen Wortform ist, nennt man das Genus verbi in (1) bisweilen auch Zustandspassiv . - Attribut (3) die gezuckerte Milch (4) die dringende Sache - Teil der (5) hat ... verletzt Verbform _ getungen ( 6 ) ißt - adverbial

(7) hört aich dringend an (8) sieht verletzt aus (9) die verloren geglaubte

Brieftasche

Die den Beispielen ( 2 ) , ( 3 ) , (5) und (7) bis (9) entsprechenden Fälle stellen in der Theorie der maschinellen Lemmatisierung keine Schwierigkeiten dar, sofern die Formen wie dringend im STWOBU als Homographen berücksichtigt sind. Ist dies der Fall, wird (2) zu dringend (ADJ) lemmatisiert. Die Möglichkeit, daß es sich 1 2 3

Duden-Grammatik, S. 3O2 - 313, besonders 31O und 311. (PART) soll die Flexionsform andeuten. z.B. Erben, 'Deutsche Grammatik 1 , S. 51 und 5 2 , Duden-Grammatik, S. 108 und 1O9, allerdings mit einigen Einschränkungen .

44

um das Partizip des Verbs dringen handelt, kann ausgeschlossen werden, da dies als Strukturanforderung eine obligatorische Präpositionalrektion aufweist: das in den Keller dringende

Wasser. Wie

fast immer finden sich auch hier Beispiele, die nur noch semantisch lösbar sind: die aus triftigem Grund dringende Frage. Wie weit solche Belege durch selektionale Subkategorisierung der Verben trotz der scheinbar erfüllten Präpositionalrektion, aus triftigem Grund, erkannt werden können, bleibt vorläufig offen . Ist ein attributiv gebrauchtes Partizip nicht als ADJ aufgenommen ( 3 ) , weil es noch nicht als solches gebräuchlich ist , wird es zum Verb lemmatisiert: (10) die gezuckerte Milch

£ zuckern

Analog kann bei adverbialem Gebrauch (7) bis

(9) verfahren wer-

den. Mit haben zusammengesetzte Verbformen können in der weitaus größten Zahl der Fälle als solche erkannt werden. Eine Ausnahme läßt sich konstruieren; haben wird dabei nicht als Hilfsverb, sondern als Vollverb verwendet. Zudem muß ihm eine nominale Gruppe folgen, die mit einem nicht als ADJ im Wörterbuch verzeichneten Partizip erweitert ist: (11) A. hat ein Paket Zigaretten frisch angebrochen im Schreibtisch . Nicht die Reihenfolge der Glieder verweist darauf, daß angebrochen in (11) nicht Teil der Verbalklammer ist, sondern die Bedeutung der Gruppe im Schreibtisch. Hieße es stattdessen: (12) A. hat noch ein Paket Zigaretten frisch angebrochen in der letzten halben Stunde. so läge eine vielleicht etwas holprige, aber akzeptable Ausklammerung vor. Eine Unterscheidung zwischen (11) und (12) auf automatischem Wege durchzuführen, verlangt ein ausgefeiltes semantisches Analyseverfahren. Solange jedoch Probleme anstehen, die weit weniger feinmaschig und somit vordringlicher sind, überlassen wir die Lemmatisierung 1 Vgl. dazu unten S. 2 Diese Entscheidung werden. Das zeigen chronischen wie im

14O - 145. wird immer mit einiger Willkür getroffen die meisten Wörterbücher - sowohl im syndiachronischen Vergleich.

45 von (11) gegenüber (12) der abschließenden Korrektur durch menschliche Bearbeiter. Zu ( 1 ) , (4) und ( 6 ) : Verbalkonstruktionen mit dem Hilfsverb sein sind immer dann syntaktisch mehrdeutig, wenn das PART auf ein mit sein flektierendes Verb zurückgeführt werden kann: (13) Die Geschwister sind verschieden. Sind verschieden kann von der Form her sowohl als prädikative Konstruktion aus sein + ADJ wie auch als Perfektform von verschieden verstanden werden. Zur Klärung muß der übersatzmäßige Kontext herangezogen werden. Dagegen ist (14) eindeutig. (14) Die Büaher sind verschieden. Die formal noch bestehende Mehrdeutigkeit ist durch entsprechende Subkategorisierung von verschieden lösbar. Weiter wollen wir auf Einzelheiten der Wortklassenmehrdeutigkeit nicht eingehen, sondern uns abschließend einer hier zentraleren Frage zuwenden und zwar, ob Homographie als E form angesehen werden kann.

einer Wort-

In der formalen Beschreibung, S. 4O und 4 l , wurde gezeigt, daß die Träger paradigmatischer Eigenschaften ursprünglich Elemente aus D ( G ) sind. D ( G ) ist definiert als Menge und nicht als Sequenz; das bedeutet, daß jedes Element nur einmal belegt ist und somit in der Menge W(g f) nur einmal auftreten kann, jedoch als Abbildung verschiedener gc f-Elemente. Wir müssen also davon ausgehen, daß eine Wortform mehreren Wortklassen angehören kann, eine Annahme, die für den Aufbau des ST-WOBU Konsequenzen hat und auch die technische Seite der Homographenerkennung im Text mitbestimmt. Es wäre allerdings vorschnell, demnach Homographie als E zu bezeichnen. Da zu einem Lemma laut Definition ( 8 ) , S. 22, nur die Wortformen mit gleichen E , E und E zusammengefaßt werden dürc p q fen, ergäbe sich die mißliche Notwendigkeit, einzelne homographe Wortformen eines Paradigmas auszuschließen und gesondert zu behandeln. (15)

Beispiel: Die Flexion von saheinen ergibt die Formen: l Scheine, 2 Saheinst, 3 Scheint, 4 Scheinen, 5 Schien, 6 Schienst, 7 Schienen, 8 Schient, 9 Schiene, 10 Geschienen, 11 Scheinend.

46

Davon weisen 1,4,7 und 9 die gleiche Homographie VRB/SUB auf, würden also getrennt von 2,3,5,6,8,10 und 11 lemmatisiert. Das verstößt jedoch gegen die Definition, da alle Formen von l bis 11 dieselbe Bedeutung haben, also nicht getrennt werden dürfen. Daß die Eigenschaften, homograph zu sein, von anderer Art sind, als die, die wir oben mit paradigmatisch bezeichnet haben, ist deutlich; die Homographeninformation kann nicht von der Lemmatisierung als Kriterium verwendet werden, sondern ist eine 'Anweisung 1 an die syntaktische Analyse, bestimmte Schritte zu unternehmen; erst das Ergebnis dieses Prozesses stellt eine E -Information dar 1 . (16) Eigenschaften, die für die syntaktische Analyse von Bedeutung sind und keinen unmittelbaren Einfluß auf die Lemmatisierung haben, werden über Zusatzinformationen ( Z I ) ins ST-WOBU aufgenommen. Die Vereinbarung (16) weist erneut darauf hin, daß es notwendig ist, die linguistischen Grundlagen der Lemmatisierung getrennt von Verfahrensweisen zu betrachten, die sich aus der Anwendung von EDVAnlagen ergeben. Letzteren wird ein eigener Teil der Arbeit (C) gelten. Die methodische Verschiedenheit von Linguistik und LDV zeigt sich noch klarer in den folgenden Kapiteln, in denen weitere, für die Theorie der Lemmatisierung relevante E diskutiert werden. 3.1.3 Flexionsklassen Innerhalb einiger Wortklassen wird nach Flexionsklassen unterschieden. Für die Lemmatisierung relevant und damit zu einer E wird :iie Flexionsklassenangabe (FK-Angabe) nur dann, wenn zwei 2 manamen in ihren g -Teilen und den bisherigen E übereinstimmen. Das t r i f f t nicht für das auf S. 32 genannte Beispiel (1) zu, denn Tau,i hat die Ep = (MASK), Tau« Ep (NEUT) . Würden sich alle Substantive mit gleichem gC -Morph aber verschiedener Bedeutung im Ge nus unterscheiden, wäre die FK-Angabe für die Lemmatisierung re1 2

Falls die Mehrdeutigkeit nicht beseitigt werden kann, muß die Wortform gesondert ausgegeben und von menschlichen Bearbeitern lemmatisiert werden. siehe S. 7, (1).

47

dundant. Daß es sich aber nicht so günstig verhält, zeigen (1) und

(2): (1)

g

c Mutter Mutter Bank Bank

WK

Genus

FK

Umlaut im PI = Mütter = Muttern -N im PI = Banken FEM -EN im PI SUB (2) Umlaut und FEM SUB = Bänke -E im Pl In den Beispielen wurde als Kriterium zur Definition der FK die Pluralbildung gewählt; wir wollen auf andere nicht eingehen, sondern uns den Verben zuwenden und zwar zunächst den Kriterien 'Regelmäßigkeit' 1 und 'Flexionsauxiliar' 2 . Die Matrix (3) veranschaulicht die vier Flexionsklassen, die sich damit bestimmen lassen: SUB SUB

FEM FEM

+ sein

(3)

+ haben

VI

+ regelmäßig

1

2

I

- regelmäßig

3

4

II

IV

v

III

FK1 = (+regelmäßig, +sein), FK2 = (+regelmäßig, +haben) FK3 = (-regelmäßig, +8ein), FK4 = (-regelmäßig, +haben) Die römischen Ziffern in der Matrix bezeichnen Durchschnittsmengen der Durchschnittsmengen : (4)

FKD I = FKln FK2 ; FKD III

FKD II = F K 3 n F K 4 ;

= F K 2 r v F K 4 ; FKD IV = FKlr» FK3 ;

FKD V = F K l / - v F K 4 ;

FKD VI = F K 2 o F K 3

Im Bereich der Verben würde die FK-Angabe dann zu einer E , wenn Verben bei gleichem gC-Teil ihres Lenunanamens aber unterschiedlicher E mindestens zwei verschiedenen FK angehörten. Zu FKD I gehören einerseits tanzen, segeln, klettern, bummeln und weitere Verben der Bewegung4. Eine Veränderung der E liegt nach C

1 zur Definition von Iregelmäßig vgl. unten S. 156 - 16O . 2 das Hilfsverb zur Bildung der zusammengesetzten Tempusformen. 3 FK1 = FK(+regelmäßig)rv FK(+eein); FK1 ist also schon eine Schnittmenge . 4

Die Reflexivität ist hier nicht berücksichtigt.

48 Duden nicht vor, sondern eher eine Modifikation in der 'Sehweise 1 , obgleich sich mit dem Wechsel von FK1 nach FK2 eine formale Veränderung in den E ergibt: (5) Iah bin auf den Berg geklettert. aber: (6) Iah habe auf den Berg geklettert. Der Rektionswechsel ist jedoch nicht allgemein: (7) loh bin auf dem Meer gesegelt. (8) Iah habe auf dem Meer gesegelt. Außer diesen Bewegungsverben finden sich in FKD I als zweite Gruppe die Verben heilen, spritzen, trocknen, tropfen usw. (9) Das Wasser ist in das Glas getropft. (10) Der Wasserhahn hat getropft. Der Wechsel von FK1 nach FK2 bewirkt zwar eine Veränderung in der Bedeutung, die allerdings meist keine grundsätzliche ist, sondern im Bereich der Aktionsvarianten gleicher Grundbedeutung bleibt. Zu FKD II gehören laufen, reiten, schwimmen, allgemein die FKD I entsprechenden unregelmäßigen Verben. Beispiel: (11) Iah habe geschwommen .3 t> schwimmen Ich bin geschwommen Der zweiten Gruppe aus FKD I entsprechen in FKD II die Verben brechen, stossen, verderben, die ebenfalls nicht in der Bedeutung wechseln, sondern die Aktionsart ändern. Ob in beiden Gruppen aufgrund dieser Unterschiede für ein Verb letztlich mehrere Bedeutungen angenommen werden, hängt von der Subkategorisierung ab. Falls sich der Unterschied in Rektionsanforderungen und semantischen Kookkurrenzbedingungen äußert, sodaß er mit dem später vorgeschlagenen System erfaßt und in der Analyse erkannt werden kann, was bei vielen Fällen wohl möglich ist, so muß die FK-Zugehörigkeit als formales Mittel zur Identifikation aufgeführt und somit als E angesehen werden. 1 Duden Bd. 4, S. 99. 2 Wenn es nicht eindeutig aus dem Kontext hervorgeht, werden Lemmanamen durch ein nach- und hochgestelltes + gekennzeichnet.

49

Zu FKD III gehören backen, bewegen, dünken, fragen, gären, hängen, küren, melken, pflegen, schaffen, scheren, senden, sieden, stecken, wägen, weben, wenden und wiegen. Während echor ( F K 4 ) und scherte ( F K 2 ) , wog ( F K 4 ) und wiegte (FK2) sich klar in der Bedeutung unterscheiden, liegt bei stak (FK4) und steckte ( F K 2 ) , hing (FK4) und hängte (FK2) nur Aktionsartenverschiebung vor. Bei fvug (FK4) und fragte ( F K 2 ) oder buk (FK4) und backte (FK2) bewirkt der Flexionsklassenübergang allenfalls noch Stilvarianten. Zu FK IV: ein mit sein gebildetes Verb, das sowohl regelmäßig als auch unregelmäßig flektiert werden kann, ist uns nicht bekannt Verben mit den Merkmalen iregelmäßig scheinen alle mit haben allein (FKD III) oder mit haben und sein (FKD VI) gebildet zu werden, denn auch für FKD V konnten wir kein Beispiel finden. Zu FKD VI zählen wachsen, weichen, erschrecken. Wie schon in vorangegangenen Klassen, lassen sich auch hier keine allgemeinen Regeln aufstellen: (12) ist gewachsen (FK3) ^ hat gewachst (FK2) (13) ist gewichen (FK3) ? hat geweicht (FK2)2 (14) ist ersahrocken (FK3) ^ hat erschreckt ( F K 2 ) Allgemein bietet der formal feststellbare Tatbestand, daß ein Verb zu einer FKD gehört, keine sichere Gewähr für die Annahme mehrerer Lemmata; das heißt nicht, daß die in (3) genannten Merkmale für die Reduktion von Wortformen zum Lemma irrelevant sind, im Gegenteil , sie unterscheiden aber nicht mehrere Lemmata mit gleichem Namen, sondern sie charakterisieren einzelne Lemmata. 3.1.4 Präfix - Verbzusatz Die zusammengesetzten Verben, die in den finiten Tempusformen bei Hauptsatzreihenfolge sowohl trennbar wie nicht trennbar sein können, verhalten sich hinsichtlich ihrer Bedeutungen unterschiedlich: 1 Die Reflexivität ist hier nicht berücksichtigt. 2 wohl etwas ungewöhnlich, aber im Duden, Bd. 4, S. 8l, Anm. 3 und im Wahrig aufgeführt. 3 Ihre Beschreibung bildet einen großen Teil des ST-Apparates.

50

(1) Der Funke springt über. Der Funke überspringt 3 mm. (2) Fritz setzt uns über. Fritz übersetzt einen Brief. (3) Fritz schneidet die Schnur durch. Fritz durchschneidet die Schnur. Das Schiff schneidet die Wellen durch. (4) Er umfährt die Ampel. Er fährt die Ampel um. (5) Er unterstellt ihm eine Lüge. Er stellt seine Möbel bei ihm unter. Obwohl die Präposition über besonders zu dieser Ambiguität tendiert, bietet die Ausrichtung nach einzelnen Präpositionen ebensowenig einen Anhaltspunkt für den Wechsel in den Ec , wie das Merkmal ± trennbar einen Rückschluß zuläßt. Aus diesen Gründen ist es gerechtfertigt, die Trennbarkeit bei gleichem gC -Morph des Lemmanamens als E zu bezeichnen, die Handhabung aber in den einzelnen Fällen von der Subkategorisierung abhängen zu lassen. Die Mehrzahl der Arbeiten, die über zusammengesetzte Verben handeln, unternehmen eine Klassifizierung auf der Basis der Distributionsmethode. Statt vieler einzelner Titel sei der knappe überblick genannt, den Hundsnurscher in seiner Untersuchung 'Partikelverben und Wörterbücher 1 gibt. Ausgehend von einer kritischen Analyse des Wörterbuchartikels 'auswischen 1 im 'Wörterbuch der deutschen Gegenwartssprache1, schlägt Hundsnurscher als Kriterien zur Bedeutungsbestimmung vor: - "die syntaktischen Einspannungsmöglichkeiten" - bezogen auf unser Problem ist das die E ttrennbar. - "der unmittelbare sprachliche Kontext" - die selektionale Subkategorisierung. - und "die Komplementärbeziehung zu einem anderen Partikelverb, die auf jeden Fall in die semantische Beschreibung ... aufgenommen werden muß." Hundsnurschers Überlegungen betreffen nicht Maschinenwörterbücher; welche Ausmaße ein Projekt annimmt, das diesen letztgenann1

innerhalb der infragekommenden über, um, wieder, durch, unter.

51

ten Vorschlag in die LDV übernimmt, zeigt die eingangs erwähnte Arbeit von Quillian . Schon der weit eher realisierbare Punkt zwei muß im Hinblick auf die Bedingungen der Datenverarbeitung relativiert werden. Hundsnurscher selbst tut dies allgemein mit der Bemerkung: "Es hängt weiterhin ab von der 'Feinheit 1 der semantischen Analyse, die man anstrebt, und es ist letzten Endes eine methodische Entscheidung, welche semantisehen Komponenten der Subjekt- und Objektbegriffe und der Stammverben man in die Beschreibung aufnehmen will." 3.1.5 Reflexivität als E Ehe man prüfen kann, inwieweit Reflexivität für die Bedeutung von Verben signifikant ist, muß die methodisch frühere Frage geklärt sein, ob sie zu den paradigmatischen oder strukturalen Phänomenen der Verben gehört. Eine Antwort deutet sich in der Überschrift des Kapitels zwar an, muß jedoch begründet werden. Reflexivität ist bekanntermaßen ein Terminus, der mindestens zweierlei Merkmale von Verben benennt: die echte Reflexivität und die mögliche Reflexivität. Nennen wir die erste Klasse RK1, die zweite RK2. Um zu entscheiden, zu welcher der beiden Mengen ein Verb gehört, fragt man normalerweise danach, ob das Reflexivpronomen eine direkte bzw.indirekte Rektion des Verbs befriedigt oder nicht, was z. B. durch Substitutionsproben entschieden werden kann: (1)

Iah rasiere mich. Iah rasiere Herrn X.

(2)

Iah schäme mich. Iah schäme Herrn X.

Auf den strukturellen Unterschied beider Konstruktionen weist u. a. Tesniere ausdrücklich hin. Zwar behandelt er die 'diathese recessive1 3 ebenso wie die 'diathese reflechie' 4 im Rahmen der 1 Vgl. Anm. 2, S. 18. 2 Alle Zitate: siehe 'Partikelverben... 1 , S. 3 5 6 3 'Elements ...', Kap. 115, S. 272 - 275. 4 'Elements ...', Kap. 103, S. 246 - 251.

52

Valenztheorie , begründet aber die Trennung eben darin, daß das Reflexivpronomen der 'diathese recessive 1 nur der Form nach mit 2 dem 'marquant reflechi 1 übereinstimmt , aber keinen Aktanten bezeichnet, im Gegensatz zu ( 1 ) . Während in (1) zwei Aktanten angenommen werden, auch wenn es sich jeweils um dieselbe Person handelt, ist

unter dem mich in (2)

niemand vorzustellen; es spielt für die Valenz keine Rolle. Tesniere geht in einer sonst kaum praktizierten Methode von der Oberflächenform aus, wenn er erklärt: "la diathese recessive, ayant pour effet de diminuer de un le nombre des actants, ramene les verbes trivalents a des verbes divalents, les verbes divalents a des verbes monovalents et les verbes monovalents a des verbes avalents." 3 Grundsätzlich bewirkt die 'diathese recessive 1 eine Valenzverminderung um einen Aktanten, der aber tiefenstrukturell gar nicht vorhanden ist, sondern nur aus der Existenz des Reflexivpronomens heraus einmal gesetzt wird und dann im Falle echter Reflexivität wieder gestrichen wird. Nehmen wir aber von vornherein an, daß echte Reflexivität eine paradigmatische Eigenschaft ist, die mögliche Reflexivierung eines der Mitspieler des Verbs eine struktu4 rale, so erübrigt sich der oben aufgezeigte methodische Umweg . In einem gewissen Sinne analog zu Tesnieres Methode wird die echte Reflexivität auf gleicher Stufe mit der Reflexivierung und Pronominalisierung im Transformationsteil der generativen transformationellen Grammatik behandelt . 1

2 3 4 5

Einen ausgezeichneten überblick über die verwirrende Vielzahl von Ansätzen und Theorien zur Valenz geben Heibig und Schenkel mit ihrer 'Einführung in die Valenztheorie 1 im 'Wörterbuch zur V a l e n z . . . ' , S. 9- 47. 'Elements . . . ' , Kap. 115, § 5, S. 2 7 3 . 'Elements . . . ' , Kap. 118, § l, S. 278. Möglicherweise ergab sich Tesnieres Argumentation in diesem Punkt - wie in vielen anderen - aus didaktischen Erwägungen. Zu dem früheren Modell vgl. Bierwisch, 'Grammatik des deutschen Verbs 1 , S. 94. In den 'Aspects' wird das Problem nur am Rande erwähnt, jedoch nicht wesentlich verändert; vgl. 'Aspekte . . . ' , S. 185 - 186.

53 Die Konstituentenregeln generieren also für beide Phänomene Tiefenstrukturen nach demselben Prinzip :

(3)

Der

schämt

den

wäscht

den

Jungen

(4)

Art

Der

Junge

Damit aus (3) ein grammatisch richtiger Satz entsteht, wird die Reflexivierungstransformation (Eliminierung und Substitution) für obligatorisch erklärt, in (4) für fakultativ. Die dazu notwendigen 2 Informationen sind Klassenangabe beim Verb im Fall (3) und zusätzlich ein Identifikationsmerkmal der nominalen Gruppen in ( 4 ) . Wollte man als mögliche Alternative zu (3) die Trennung schon in der Tiefenstruktur berücksichtigen, ergäbe sich:

Individuelle Unterschiede in der Notation des Strukturbaumes wurden nicht berücksichtigt. V In dem Lexikonmodell Bierwischs 'Grammatik des deutschen Verbs 1 , S. 184-

54

(5)

Junge Sieht man von methodischen Schwierigkeiten ab, auf deren Diskussion wir hier verzichten müssen, hat die Darstellung (5) vermutlich den Vorzug der größeren Adäquatheit; Überlegungen, lexikalisierte Wendungen als grammatische Einheiten zu betrachten und zu 2 behandeln, gehen auf die gleiche Argumentation zurück . Für die Mechanisierbarkeit und Formalisierbarkeit der Grammatik ergeben sich aus dem Schritt, die echte Reflexivität als E aufzufassen, keine einschneidenden Veränderungen: sowohl die generative Transformationsgrammatik wie auch Dependenzparser stehen weit größeren Problemen gegenüber ; für taxonomisch ausgerichtete, vorwiegend oberflächenorientierte syntaktische Suchalgorithmen bedeutet zusätzliche Information im Lexikon allgemein eine Vereinfachung. Die bisherigen Ausführungen zur Reflexivität bilden jedoch nur die Grundlage der Voraussetzung, sie als E zu etablieren. Es bleibt zu prüfen, ob sie bei gleichbleibender Graphemfolge auch die E determiniert. Die Frage wäre schnell zu lösen. Es liegt nahe zu behaupten, die beiden Wortformen benehmen und sich benehmen

A

unterscheiden sich in ihren gC -Teilen benehm und sieh benehm

1

Modifikationen, eventuell neue Transformationen innerhalb der morphologischen Komponente;

2

"Selektionsbeschränkungen machen solche Komplexe zu einer Einheit, die zweifellos als Ganzes, aber m i t ihrer Konstituentenstruktur gespeichert wird. Diese Tatsache fände eine sehr angemessene Erklärung, wenn sich ... zeigen ließe, daß die Grammatik einfacher wird, wenn man solche Komplexe als Ganzes mit einer entsprechenden Notation ihrer Struktur ins Lexikon aufnimmt, statt die komplizierten Regeln für ihre Ableitung zu formulieren." 'Grammatik des deutschen Verbs 1 , S. 172, Anra.4O.

3

z.B. Formalisierbarkeit des Transformationsteils.

4

Das Leerzeichen zwischen Reflexivpronomen und Verb ist tiefenstrukturell nicht bedeutungsvoll; im Russischen fehlt es zum Beispiel, und das Reflexivsuffix wird dennoch flektiert.

55

und wären von daher auf die gleiche Art zu unterscheiden wie etwa nehm und abnehm . Die Gegenargumente sind in der Tat nur auf den ersten Blick einsichtig: die Formen des Lemmas sich benehmen lauten: (6) benehme mich, benimmst dich, benimmt sich, ... dagegen bleibt der Verbzusatz ab konstant: (7) nehme ab, nimmst ab, nimmt ab, ... Bei (8) nehme, nimmst, nahm, nähme, genommen verändern sich aber ebenfalls die Graphemstrukturen wie mich, dich und sieh in (6) und werden doch zu einem Lemma gefaßt. Das geschieht aber nicht, weil die Vokale in jeder Wortform vom g -Teil c ausgeschlossen werden/ sodaß zu g von nehmen nur die Grapheme zu ° 2 rechnen sind, die sich in der Flexion als invariabel erweisen - also n und m - , sondern weil alle Stämme aufgrund einer Ausnahmeregelung als verschiedene g eines Lemmas betrachtet werden. DaC her liegt die paradigmatische Eigenschaft in dem Wechsel der Stämme nicht in den Graphemen selbst, wenn das Verb daneben noch regelmäßig flektiert werden kann. Ebenso verhält es sich mit den echten Reflexiwerben, wenn sich Überschneidungen ergeben. Zur Bestimmung der in Frage kommenden Verben operieren wir wieder mit Durchschnittsmengen: wie oben (S. 51) vereinbart, gehören zu RK1 {sich schämen, sich beeilen, . . . } und zu RK2 {waschen, rasieren, singen, übertreiben} (9) RK1 r\ RK2 = RKD Zur Durchschnittsmenge RKD gehören beispielsweise sich bilden, sich richten, sich benehmen, sich stossen und einige mehr. Der Definition gemäß gehören nicht zu RKD sich irren, sich sorgen, wie sich auch an Beispielen belegen läßt: (10) sich bilden : Gelbe Gase bilden sich (11) bilden : Die Theaterbesucher bilden sich 1 2

Vgl. dazu Kap. 2 . 2 . 3 , S.3l. eine Methode, die für die meisten regelmäßigen Verben zum richtigen g führt: lieb-e, lieb-st, lieb-te usw.

3

Daß RK2 unter dem Aspekt der Reflexivierung wieder in zwei Klassen zu trennen ist, fällt unter strukturale Merkmale: sich waschen aber *siah singen.

C

56 (12) sich irren : Vater irrt sich (13) irren : Vater irrt sich durch die Stadt Der Bedeutungsunterschied "sieh bilden" - "bilden" in (10) ist evident und echte Reflexivität für dieses Verb nachgewiesen. Das gleiche gilt wohl für "siah stos8en"und "stossen", "sich vorsehen" und "vorsehen" : (14) Er stößt sich den Brieföffner ins Herz. (15) Er stößt sich am Schreibtisch. (16) Für dieses Amt hat er sich vorgesehen. (17) Vor diesem Amt hat er sich vorgesehen. Doch stehen die Verbbedeutungen in (14) und (15) einander schon wesentlich näher als (10) und (11) oder (16) und ( 1 7 ) . Wie schon oben bei der Eigenschaft ttrennbar reicht auch in RKD die Skala der Bedeutungsunterschiede von gering bis offensichtlich, wobei allerdings in der Mehrzahl der Fälle letzteres z u t r i f f t . Das ergab eine Untersuchung an den Verben, die Mater in der Hauptgruppe 2 seiner 'Deutschen Verben', Band 7 aufführt. Eine Sonderstellung nehmen einige Verben ein, von denen bislang noch nicht ausdrücklich die Rede war: sich ausruhen, sich ausschlafen, ausrasten, davonschleichen und sich irren, das aber, wie oben gezeigt, auch noch in eine andere Gruppe gehört. Die genannten Verben stellen gewissermaßen das Gegenteil zu RKD dar, insofern als sie sowohl echt reflexiv als auch nicht reflexiv flektiert werden können, ohne daß eine Lemmatrennung gerechtfertigt wäre: (18)

Er ruht sich aus.

(19)

Er ruht aus.

(20) Er schleicht sich davon. (21) Er schleicht davon. Sie stehen, so befremdlich das zunächst anmutet, systematisch den semantisch irrelevanten Schreibvarianten nahe, denn sie weisen unterschiedliche g -Morphe bei gleichen E a u f ; 3 da es s i c h ein-

c

1

2

3

c

Daß die Mehrdeutigkeit in diesem Fall nur in der 3. Sg, 1., 2., 3. Pl auftritt, wird durch die Rektionsangabe erfaßt. Sich ist ein Beleg für Kasusmehrdeutigkeit. Unberücksichtigt blieb die Untergruppe 2 . 9 . Sie enthält Verben, bei denen das Reflexivpronomen für den freien Dativ stehen kann: Er brät sich ein Huhn. siehe Kap. 2.2.1.1 und 2 . 2 . 1 . 2 , S. 25 - 27.

57 deutig um morphologische Erscheinungen handelt, t r i f f t der Terminus paradigmatische gc-Varianten den Sachverhalt wohl am besten. Im ST-WOBU kann dieser seltenen Erscheinung dadurch Rechnung getragen werden, daß die g -Morphe hinsichtlich der E "echt reflexiv 1 sowohl positiv als auch negativ kodiert werden. Die bislang als E behandelten Merkmale umfassen keineswegs alle paradigmatischen Informationen, die in einer Grammatik des Deutschen zu finden sind. Die Beschränkung folgt aus der besonderen Zielsetzung, unter der wir vorgegangen sind, nämlich herauszufinden, welche formal feststellbaren, paradigmatischen Kriterien bei gleichem g -Teil für eine Lemmatrennung zu verwerten sind G

und welchen Regelmäßigkeiten sie folgen. Nicht behandelt wurden z.B. Informationen wie 'Partizip ±ge-' und 'INF-Endung ±e'. Daran jedoch die gleichen Untersuchungen vorzunehmen, führt zu keinem für die Lemmatisierung verwendbaren Ergebnis,weil die Durchschnittsmengen leer sind: es gibt hinsichtlich dieser Merkmale keine Doppelbelege, es entstehen keine Mehrdeutigkeiten, also auch keine Probleme der EO -Zuordnung. Der folgende Nachweis, der für viele steht, soll die Überlegung verdeutlichen. Bleiben wir bei den oben genannten Kriterien und gliedern die Verben danach in vier Paradigmenklassen : (22) a)

{Verb {Verb {Verb

INF endet auf -n]

INF endet auf -en} b) PART II +ge- } c) PART II -ge- } d) {Verb Aus a) bis d) entstehen, wie aus Matrix ( 2 3 ) hervorgeht, auf der ersten Ebene die Durchschnittsmengen P K 1 , 2 , 3 und 4. (23) INF-Endung

P A R T

II

+e

-e

+ge

PK1

PK2

PK1 r> PK2 = PKD I

-ge

PK3

PK4

P K 3 ^ P K 4 = PKD II

PKD IV

PKD

III

PKD VI

PKD V

58

Belege zu PK1 : leben - gelebt gehen - gegangen zu PK2 : wechseln - gewechselt zu PK3 : empören - empört zu PK4 : benebeln - benebelt Die Verben nun, die die Voraussetzungen bieten, in dem geforderten Sinne mehrdeutig zu sein, gehörten zu den auf der zweiten Ebene gebildeten Durchschnittsmengen PKD I bis VI. Sie lassen sich aber nur konstruieren oder zählen zu den umgangssprachlich verkürzten Formen: Belege zu PKD I : gehen - gegangen gehn - gegangen leben - gelebt lebn - gelebt zu PKD II : verlieren - verloren verliern - verloren zu PKD III : stottern - gestottert stottern - stottert Tatsächliche Doppelformen weist das Deutsche nur für PKD IV a u f , und auch nur dann, wenn man streng formal vorgeht: ( 2 4 ) Er hat ihn gehen lassen. (25) Er hat ihn nach Hause gelassen. ( 2 6 ) Er hat den Koffer stehenlassen. (27) Er hat den Koffer stehengelassen. Gegenüber dieser, wie gesagt, formalistischen Annahme von Doppelformen sieht die grammatisch üblichere die Regelmäßigkeit darin, daß einige Verben in den zusammengesetzten Tempusformen des Aktiv statt der Partizipialform den Infinitiv einsetzen können oder müssen, je nach Verb. Für einige Verben dieser Klasse sind die Bestimmungen genauer, für andere weniger genau, wie ( 2 6 ) und ( 2 7 ) zeigen. Die grammatische Annahme hätte nur dann einen größeren Aussagewert als die formale Beschreibung, wenn mit den Termini Partizip II und Infinitiv in diesem Zusammenhang mehr als nur ihre formalen Erscheinungen verbunden würden, ein Ansatz, der rasch in den Bereich des nicht mehr nachweisbaren gerät; damit ist nicht gesagt, daß er falsch ist; das ist eben nicht zu sagen. Die DudenGrammatik definiert den Infinitiv als "die Form, die nur das ge-

59

kennzeichnete Sein oder Geschehen benennt, ohne Verbindung mit Person, Zahl, Aussageweise und Zeit" . Demnach muß es sich bei den Sätzen ( 2 4 ) und ( 2 6 ) um etwas anderes als den Infinitiv handeln, denn sie sind nach Person, Zahl, Aussageweise und Zeit genau festlegbar. Belassen wir es also bei der Feststellung, daß einige Verben unter bestimmten Bedingungen für das Partizip II Doppelformen aufweisen und versuchen herauszufinden, ob sich mit dem unterschiedlichen Gebrauch ein Bedeutungsunterschied einstellt: PKD IV enthält die Verben: a) lassen, können, wollen, sollen, dürfen und mögen Sie bilden das PART II in der Form des INF, wenn sie mit einer Infinitivform eines anderen Verbs verbunden sind: (28) Er hat mich gehen lassen. b) brauchen Hier kann die verbundene Infinitivform durch zu erweitert sein. c) heißen, sehen, fühlen, helfen, hören; Sie werden mit oder ohne ge- gebraucht, wenn sie mit einer anderen Infinitivform verbunden sind, sonst mit ge-. ( 2 9 ) Iah habe ihn schreien hören. (30) Ich habe ihn schreien gehört. (31) Ich habe ihn gehört. d) Unabhängig vom syntaktischen Kontext weisen Doppelformen auf: stehenlassen, liegenlassen, bleibenlassen, sitzenlassen, steckenlassen; VZS + müssen wie herabmüssen, wegmüssen, durchrtüssen, hinüber-, her-, weiter-, hinaus-, heraus-, mit- und fortmüssen; VZS + können; VZS + sollen; VZS + wollen; VZS + mögen und VZS + dürfen. Nur bei sitzenlassen kann man von einem spürbaren Bedeutungsunterschied sprechen, der sich zudem formal äußert: in der Bedeutung die Klasse wiederholen wird das Partizip II ohne ge- gebildet. Daß wir in diesem Zusammenhang dennoch nicht allgemein eine E tge- einführen, hat zwei Gründe: sie t r i f f t nur auf sehr wenige Fälle zu, die als Ausnahme ihre Gültigkeit behalten; die Regel formuliert sich nach der größeren Zahl. Zweitens bestimmen Vorüber1 siehe S. 13O. 2 und den entsprechenden Endungen,

60

legungen zur Analyse die Entscheidung. Die Mehrdeutigkeit der Form sitzenlassen ist durch maschinelle Analyse nicht zu lösen. Die meisten Belegsätze bleiben auch für den Linguisten mehrdeutig, wenn der übersatzmäßige oder situative Kontext fehlt. Es sei jedoch noch einmal bemerkt, daß alle Informationen, die wir unter dem Gesichtspunkt der Lemmatisierung außer acht lassen konnten, für die maschinelle morphologische Analyse natürlich eine Rolle spielen . 3.2

Die strukturalen Eigenschaften

Der Gegenstand dieses Kapitels hat wie kaum ein anderer allein während der letzten fünfzehn Jahre die Aufmerksamkeit der Sprachwissenschaftler erregt. Dieser Umstand bedeutet Erleichterung aber auch Gefahr. Es gibt kaum mehr einen Aspekt, der nicht schon einmal am Rande oder im Mittelpunkt einer linguistischen Arbeit gestanden hätte; zentrale Phänomene sind von mehreren Richtungen her beschrieben und zum Angelpunkt unterschiedlicher Sehweisen geworden. Andererseits hat die Menge der Detailbeschreibungen einen Umfang erreicht, der den Blick für die grundlegenden Einsichten zu verstellen droht. Eben diese Einsichten aber sind so fundamental, daß man in ihnen mit einigem Recht den Grund dafür sehen kann, daß die moderne Linguistik "die Märkte erreicht hat" . Weder in einer weiteren Detailbeschreibung noch in einem umfassenden Methodenvergleich liegt der Sinn der folgenden Ausführungen, sondern darin, die Relevanz strukturaler Eigenschaften von deutschen Verben für die Lemmatisierung aufzudecken. Wo es notwendig und möglich ist, sollen Systematisierungen und Regularitäten vorgeschlagen werden, die maschinell verwertbar sind. Der Definition (S. 22) zufolge zählen zu den potentiellen E : a) ± Vollverb b) syntaktische Rektion c) Kookkurrenzangaben, die die Bedeutung der Satzteile betreffen, die mit dem Verb verbunden werden können. 1 siehe oben S. 49, Anm. 3. 2 wie es K.Baumgärtner auf dem Orientierungskurs 'Methoden der Linguistik' am Institut für deutsche Sprache in Mannheim 197O treffend charakterisierte.

61 Potentielle E sind diese Merkmale insofern als sich noch erweiq sen muß, ob sie von lemmaunterscheidender oder lemmacharakterisierender Art sind. 3.2.1 ± Vollverb

Innerhalb der strukturalen Merkmale nimmt die Information + bzw. - Vollverb eine Sonderstellung ein. Die alternativen Entscheidungen, die von ihr abhängen/ sind nicht: Lemma oder Lemma y, sondern Lemma oder nicht Lemma. Während es beispielsweise von E '± echt reflexiv 1 abhängt, ob sieht sich vor zum Lemma sich vorsehen oder vorsehen geordnet wird, bewirkt E '+ Vollverb', daß für die Formen hat, habe, war usw. überhaupt Lemmata angenommen werden, während sie im Falle von E '- Vollverb' als syntagmatische Morphe (Flexionselemente) der jeweiligen verbalen Flexionsform für den Lemmanamen keine Bedeutung haben . Die Information "± Funktionsform 1 kann sinnvollerweise nur die Wortformen spezifizieren, die bei gleicher Graphemfolge beide Merkmale je nach Kontext aufweisen können, also im Verbalbereich sein, haben und werden: (1) haben : Er hat einen bemerkenswerten Gedanken. (2) vergessen : Er hat einen bemerkenswerten Gedanken vergessen. (3) sein : Er ist in München. (4) sein : Er ist in München gewesen. (5) sterben* : Er ist in München gestorben. (6) werden* : Die Arbeit wird allmählich. (7)

schreiben

: Die Arbeit wird allmählich geschrieben.

Deutlich ist der Unterschied in ( 4 ) , wo beide Fälle belegt sind: ist, E '+ Funktionswort 1 gewesen, E '- Funktionswort 1 . Daß es für statistische Auswertung von Texten sinnvoll sein kann, ihr Vorkommen zu zählen und die Belege ausdrucken zu lassen, ist unbenommen, aber von der Lemmatisierung unabhängig. als Antonym zu '± Vollverb' gebraucht, mit der begrifflichen Erweiterung, daß ± Funktionsform auch andere Wortklassen umfaßt.

62

Einigen anderen Verben wird in bestimmten Konstruktionen häufig ein Vollverbcharakter abgesprochen; die Duden-Grammatik sieht deren Leistung allgemein darin, "ein Geschehen zu modifizieren" ; es sind die sogenannten Modalverben dürfen, sollen, mögen, wollen, können, müssen und lassen. Dem Status dieser Formen trägt die Transformationsgrammatik Rechnung, indem die meisten Verfahren sie aus der in der Tiefenstruktur gegebenen Auxiliarkonstituente ableiten. Diese wird entweder direkt vom Satzsymbol oder vom Prädikatskomplex dominiert . Eine wesentliche Veränderung hat ihre Position seit den 'Syntactic Structures' nicht erfahren. Daß der Anteil an Eigenbedeutung bei diesen Verben intuitiv aber höher er4 achtet wird als derjenige von haben, sein und werden spricht dafür , sie entgegen Tesnieres Klassifizierung zu den 'Mots vides 1 als Vollverben anzusehen und generell als solche zu lemmatisieren. Für sie ergibt eine E '+ Funktionswort' mithin keine Information; *3 sie ist redundant, weil sie nicht lemmaunterscheidende Konsequenzen hat. 3.2.2 Der syntaktische Kontext Dem bisherigen Vorgehen entsprechend wäre eine Subkategorisierung der Verben nicht einheitlich für jedes g -Morph zu fordern, sondern nach Maßgabe der Notwendigkeit zur Lemmatrennung. Bewußt wurden in Kapitel 2 . 2 . 2 (S. 27 - 30) nur Beispiele gewählt, für die diese Notwendigkeit besteht. Nun enthält aber der Wortschatz des Deutschen eine große Anzahl von Verben, die nur je eine Rektion zulassen und - semantisch gesehen - nur mit einer bestimmten 1 2 3 4 5

6

Duden-Grammatik, S. 71. Siehe 'Aspekte... 1 , S. 140. Vgl. 1. Auflage 1957, S. 39 - 4O. mit E '+ Funktionswort'. wie auch J. Erben introspektiv argumentiert: "Bei ihnen tritt die - bei allen 'Modalverben' vorhandene - spezifische Eigenbedeutung so wesentlich hervor, daß die Aussage unter1 einen besonderen Aspekt gerückt wird..."('Deutsche Grammatik , § 86, S. 71). 'Elements...', Kap. 28, § 13, S. 55.

63

Klasse von Nominalgliedern akzeptable bzw. sinnvolle Verbalkomplexe bilden können . Auf der ersten Seite des Buchstaben A im 'Deutschen Wörterbuch 1 finden sich: aasen, abändern, abalienieren, abandonnieren, sich abängetigen, abarten, abbeeren, abbehalten, abbeiesen, abbeizen, abberufen, abbestellen, abbeten, abbetteln, abbezahlen, abbilden, abbitten, abblassen, abblatten und abblättern. Sind sie in der syntaktischen Analyse einmal als Verben erkannt, so besteht für die Lemmatisierung ihrer Formen kein Zweifel. Weder die Angabe zur Rektion, noch eine selektionale Subkategorisierung ist notwendig und somit nicht als E zu betrachten. Neben der Methodenstrenge, die ein solches Vorgehen nahelegt, ist ein gewichtiges Argument die Forschungslage der Semantik in der maschinellen Textanalyse. Solange syntaktische Tiefenstrukturanalyse auf Satzebene nicht bis zur vollen Zufriedenheit automatisch zu bewältigen ist, muß ein Operieren mit methodisch nicht abgesicherten Mitteln auf der Bedeutungsebene provisorischen Charakter behalten. Bedenkt man zudem, daß Lemmatisierung keine Textgenerierung, sondern ein Analyseprojekt ist und die zu lemmatisierenden Sätze als 'wohlgeformt 1 vorausgesetzt werden, verliert auch das Bemühen, nicht akzeptable Sätze als solche zu erkennen, für die Praxis als Argument an Gewicht. Ein Satz wie (1) "Am Abend, wenn die Glocken Frieden läuten,.." wird vermutlich nicht deshalb von der Lemmatisierung ausgelassen, weil entgegen der Rektionsangabe von läuten die Form Frieden erscheint. Eine semantisch kontextuelle Subkategorisierung von läuten kann zwar nicht so weit gefaßt sein, daß sie (1) als richtigen Satz zuläßt, darf ihn aber andererseits auch nicht als falsch ablehnen. In diesem Konflikt steht auch die strikte - nach syntaktischer Rektion vorgenommene - Subkategorisierung und zudem nicht nur bei 2 dichterischen Texten wie (1) . Eine Argumentation, die die Wohlgeformtheit und den Regelcharakter von Sprache zu retten versucht, 1 2

Verbalkomplex ist mit Absicht nicht enger gefaßt; damit sind vorerst sowohl Verbalphrasen der Konstituententheorie wie auch ganze vom Verb regierte Sätze im Sinne der Dependenz gemeint. Georg Trakl, ' V e r f a l l ' , Anfang der ersten Strophe.

64

besteht darin, Abweichungen von der gegebenen Grammatik als Ergebnisse individuellen Stilbemühens und damit als singular von der Betrachtung auszuklammern, eine durchaus gerechtfertigte Auslegung, die aber nicht die gewählte Grammatik bestätigen kann, sondern sie in ihrer Eigenschaft als Sprachkompetenzbeschreibung experimentell als unzureichend aufdeckt. Diese ultimativ anmutende Forderung ist als grundsätzliche zu verstehen, und wir sind uns dabei durchaus der Schwierigkeiten bewußt, die sich aus der Dichotomie von Kompetenz und Performanz ergeben, Schwierigkeiten, die durch das Postulat formaler Exaktheit in der Kompetenzbeschreibung nicht abgenommen haben, sondern gewachsen sind. Aus dieser Einsicht ergibt sich als Konsequenz, semantische Kookkurrenzangaben als unzuverlässiger anzusehen als beispielsweise paradigmatische oder morphologische Gesetzmäßigkeiten. Wenn ihnen dennoch in der folgenden Behandlung und im gesamten Projekt einiger Raum zukommt, so deshalb, weil bei Entscheidungen im Detail häufiger als auf anderen Gebieten Grundlägen zu reflektieren sind und zweitens, weil sie in einigen Subkategorisierungsmethoden eine zentrale Rolle spielen. Ein anderer Stellenwert kommt der Angabe über den syntaktischen Kontext zu und zwar aus folgendem Grund: es wurde schon verschiedentlich darauf hingewiesen, daß Lemmatisierung voraussetzt, daß keine homographe Form mehr vorliegt und daß zur WK-Bestimmung eine syntaktische Analyse erforderlich ist. Das Verb als syntaktisch wichtige Größe im Satz muß zu diesem Vorhaben mit einer Reihe von Informationen versehen sein, unter anderem mit Rektionsangaben. Wenn auch häufig nicht für die Lemmatrennung, so sind sie doch notwendig für die Syntaxanalyse. Es hieße jedoch die Methodenstrenge zu weit treiben, wenn wir daraufhin die Rektionsangabe bei den Verben, bei denen sie lemmatrennend wirkt, als E ansetzen, bei den übrigen als Zusatzinformation. Auf diese von der Theorie her notwendige Konsequenz verzichten wir zugunsten der Einheitlichkeit in der Darstellung und der Ökonomie der Kodierungsanweisungen: wir nehmen die Angaben zur Rektion allgemein als E auf. l

z. B. im Fillmore-Modell und bei anderen Generativ-Semantikern.

65

Nach dieser allgemeinen Orientierung steht nun die Frage nach Art und Umfang der den syntaktischen Kontext spezifizierenden Informationen an. Für die Wahl der methodischen Grundsätze bleibt kein großer Spielraum. Das Prinzip, die Verben nach ihrer Valenz zu klassifizieren, ist ein dependenzielles, und es wird vom Gegenstand selbst so nahegelegt, daß es in jeder linguistischen Beschreibung angewandt wird. Daß die Subkategorisierung der Transformationsgrammatik auf eine DependenzStruktur innerhalb der umfassenderen, den Satz charakterisierenden Konstituentenstruktur zurückzuführen ist, hat mit dankenswerter Klarheit Baumgärtner in seinem Forschungsbericht 'Syntax und Semantik 1 bewußt gemacht und gleichzeitig, daß beides "Beschreibungsweisen (sind) ..., die schon solange nebeneinander bestehen, solange es grammatische Be2 trachtung gibt" . Das soll selbstverständlich weder bedeuten, daß Valenz dasselbe ist wie Dependenz, noch daß mit dieser Erkenntnis alle Probleme gelöst sind. Es ist zunächst einmal zu definieren, nach welchen Kontextteilen die Valenz eines Verbs bestimmbar ist, denn eine rein distributioneile Methode ist auch in diesem Fall sinnlos, weil Sätze theoretisch beliebig lang sein können, als auch linguistisch unangemessen, weil gewisse Glieder zum Verb des Satzes eine spürbar und nachweislich engere Beziehung haben als andere. Diese Beziehung hat beispielsweise Heringer in einer von Tesniere abgeleiteten Formalisierung als Relation betrachtet und die über die Verben in Beziehung gestellten Elemente 'Ergänzungen' , die weniger eng verbundenen, sogenannten freien Teile 'Angaben' genannt. Damit ist in einiger Annäherung der Unterschied dargestellt, den Tesniere zwischen 'actants' und 'circonstants' definiert. Der Charakter der Ergänzungen läßt sich am deutlichsten nachweisen, wenn die vom Verb geforderten Positionen mit Nominalgruppen besetzt werden. Je nach Kasus der Substantive werden die Positionen von Heringer mit e. bis e_ numeriert, wobei e. den Nominativ, e~ den Akkusativ, e, den Dativ, e. den Genitiv und e- die Präpositionalgruppe bezeichnen. 1 Vgl. auch Baumgärtner, 'Konstituenz und Dependenz'. 2 'Syntax und Semantik', S. 62. 3 "Wertigkeiten und nullwertige Verben...' 4 auch 'Ergänzungsbestimmungen'.

66 Wir wollen ähnlich vorgehen, jedoch mit folgenden Modifikationen: da es uns nicht auf eine relationenlogische Darstellung ankommt, wählen wir zur Bezeichnung der syntaktischen Rektion eine Notation, in der die Kasus direkt genannt werden und die in Art eines Bauplanes die Reihenfolge der Valenzpositionen im Hauptsatz ausdrückt : (2) V = Verb; meint allgemein eine einfache, finite Verb2 form mit oder ohne Verbzusatz N = Nominalgruppe im Nominativ G = Nominalgruppe im Genitiv D = Nominalgruppe im Dativ A = Nominalgruppe im Akkusativ P = Nominalgruppe mit Präposition N ' = Nominalgruppe als Gleichsetzungsnominativ A ' = Nominalgruppe als Gleichsetzungsakkusativ Die Symbole stellen allerdings nicht nur nominale Gruppen dar, wie die Erklärung vielleicht andeutet, sondern eher syntaktische Kategorien in Abhängigkeit vom Verb. Das äußert sich deutlich darin, daß Valenzpositionen nicht zwingend von einer Nominalgruppe besetzt sein müssen; an ihre Stelle können auch umfangreichere Konstruktionen und ganze Sätze treten. Für diese Schreibweise spricht auch, daß sie weder die Entscheidung für eine bestimmte Analysegrammatik noch für eine Analysestrategie einschneidend präjudizlert. Wenden wir das Kategorieninventar (2) in der vorgeschlagenen Schreibkonvention auf das schon mehrfach erwähnte Verb abhängen an, so können seine verschiedenen syntaktischen Strukturanforderungen (E (SK) ) wie folgt beschrieben werden: (3) (4)

Er hängt die Lampe ab. E (SK) 1 - N V A Er hängt von seiner Mutter ab. E (SK) 2 = N V P

Diese Notation kommt derjenigen von Heibig und Schenkel sehr nahe, scheint uns allerdings noch etwas einfacher und anschaulicher, obwohl keine Information verlorengeht. Die Klammerstellung von Verb und Verbzusatz wird dabei nicht berücksichtigt, da sie auf die formale Notation der Wertigkeit keinen Einfluß hat. = Strukturale Eigenschaften (E ) bezüglich des syntaktischen q Kontextes (SK)

67

Inwieweit trotz gleicher g abhäng und gleicher E (SK) = NVP verschiedene E vorliegen und mit welchem Erfolg sie maschinell zu trennen sind, bleibt eine Frage der semantischen Subkategorisierung. (5) Der Erfolg hängt von der Ausdauer ab. E (SK) 3 = E ( S K ) ~ Zur gleicher Klasse wie (3) zählen Heibig und Schenkel (6)1: (6) Der Rennfahrer hängt seinen Konkurrenten ab. E q (SK) 4 = E q ( S K ) 1

Liessen wir es bei dem bisherigen Kategorieninventar (2) bewenden, so wären nicht alle verschiedenen Bedeutungen von stimmen durch verschiedene E (SK) zu beschreiben, obwohl ihnen durchaus verschiedene Strukturen entsprechen: (7) Die Rechnung stimmt. E (SK) = N V (8) Die Rechnung stimmt mioh traurig. E (SK) = N V A (9) Er stimmt das Klavier. E (SK) = N V A (10) Er stimmt für den Antrag. E (SK) = N V P Zweifellos ist "stimmen" (8) ungleich "stimmen" ( 9 ) . Eine Methode, die den Unterschied erklären könnte, wäre, als Verb von (8) nicht stimmen sondern traurig stimmen anzunehmen und traurig so morphologisch die Stellung eines VZS zuzuschreiben, vergleichbar mit abstimmen, zustimmen, einstimmen und so weiter; eine andere Methode geht von der entgegengesetzten Annahme aus, daß in beiden Fällen, abstimmen und traurig stimmen, ein Adverbialcharakter vorliegt. Diese Position vertritt Tesniere, schränkt aber ein, daß einige Adverbien die Tendenz zeigen, sich zu 'preverbes' 2 zu entwickeln . Das Einzelproblem, auf das wir hiermit treffen, hängt unmittelbar mit einer grundlegenden Frage zusammen. Oben (S. 18) wurde dargestellt, daß der Ort der Lemmatisierung sich aus der Vorgehensweise und den geforderten Ergebnissen bestimmt. Bei traurig stimmen stellt sich somit die Alternative, eine linguistische Analyse zu entwickeln, welche die besondere semantische Verbindung über morphologische und syntaktische Gesetzmäßigkeiten erkennt und ausgibt, oder dem lexikologisehen Prinzip zu folgen und als 1 2

'Wörterbuch zur Valenz und Distribution...', S. 227. 'Elements...', Kap. 37, §§ 47 und 51, und Kap. 205, bes. § 22.

68

Stichwort (= Lemmaname) keine Ausdrücke zuzulassen,die aus mehreren getrennten Einheiten bestehen. Zweifellos ist das erstgenannte Ziel erstrebenswert. Andererseits ist zu bedenken, was zu einer auch nur annähernd zufriedenstellenden Behandlung dieser Aufgabe vorausgesetzt ist. Alle mehrteiligen Konstruktionen, die in der Literatur als Funktionsverbgefüge bezeichnet werden, weisen in ihrer semantischen Struktur ähnlich enge Beziehungen auf, wie traufig stimmen, sich krank lachen und Überhand nehmen. Es wäre eine Theorie zu erstellen, deren Regeln eine Klassifizierung je nach Abhängigkeitsgrad der Elemente untereinander ermöglicht. Diese Regeln müßten nicht nur formalisierbar sein, sondern auch mechanisierbar, und zwar so, daß sie auf einem möglichst unvorbereiteten Text operieren könnten. Da die theoretischen Grundlagen auf diesem Gebiet noch zu großen Teilen ungeklärt sind, stellt die Entwicklung maschineller Verfahrensweisen eine Aufgabe dar, die selbst in einem umfangreichen Kapitel nur fragmentarisch erörtert werden könnte. Hinzu kommt, daß gegenwärtig in Saarbrücken eine Dissertation entsteht, in der A. Rothkegel diesen Fragenkreis unter dem Gesichtspunkt maschineller Analysemethoden abhandelt. Sollten sich aus ihren Untersuchungen präzise und einsichtige Richtlinien zur Behandlung fester Wendungen in die Lemmatisierung übernehmen lassen, so erfordert das zwar Modifikationen aber keine umwälzenden Änderungen des Lemmatisierungsprozesses. Bis ein solcher Schritt möglich wird, beschränken wir uns darauf, Elemente fester Fügungen getrennt zu lemmatisieren, sofern die Orthographie eine getrennte Schreibweise ihres Lemmanamens vorsieht . Bei schwankendem orthographischem Gebrauch - wie etwa bei Rad fahren vs. radfahren - wird zunächst natürlich die Schreibweise des jeweils vorliegenden Textes wiedergegeben . Bezieht man diese Vereinbarung zurück auf Satz ( 8 ) , so führt sie zwar nicht unmittelbar zu einer Behebung des aufgedeckten Mangels, wohl aber mittelbar: "stimmen" (8) kann von "stimmen" (9) getrennt werden, wenn in E (SK) von "stimmen" (8) zum Ausdruck kommt, daß das Adverb obligatorisch ist,

denn:

mit der Ausnahme echt reflexiver Verben: sieh abrackern; siehe dazu oben S. 55. Weiteres zur Behandlung der VZS siehe unten, S. 21O.

69 Die Rechnung stimmt mich.

Um diese Kennzeichnung zu ermöglichen, erweitern wir das Inventar der Kategoriensymbole (2) um J (= Adjektiv im adverbialen Gebrauch) und können nun "stimmen" (8) gegenüber (7) und (9) spezifizieren durch E (SK) = N V A J. Mit dieser Ausdehnung des Rektionsbegriffes weichen wir von Tesnieres Valenztheorie ebenso ab wie von den Grundsätzen, die Heringer in seiner relationenlogischen Klassifikation übernimmt; er schreibt: "Auch Prädikativ und Verkettungen sind keine Ergänzungsbestimmungen, weil sie enger zum finiten Verb gehören und einen neuen Verbalkern bilden" . Das von uns vorgeschlagene Prinzip wäre - wo es nötig ist - eher durch eine prädikatenlogische Metasprache wiederzugeben, indem die Verben als Prädikate fungieren, die obligatorisch von ihnen abhängenden Glieder als Argument stellen. So 2 verfährt etwa Fillmore , geht aber weiter, indem er für die Argumentstellen nicht nur syntaktische, sondern semantisch-funktionale Restriktionen einführt, die er zu einer umfassenden ' Tiefenkasus 'Theorie ausbaut; doch davon später. Die Transformierung unseres Ansatzes in das Prädikatenmodell ist denkbar einfach. Setzen wir F für die logische Funktion - das P Filimores kollidiert mit unserem Symbol für Präpositionalgruppe - und kleine Buchstaben für die Argumente, so wird (12) N V zu F a (13) N V A (14) N V D A oder, konkret gefüllt:

z u FO.= f .Jj zu Fa. .D ^ a

C

(15) **i"»"««er, Klavier (16) •**"««»Rechnung (17) fca«/*« Hans , Maria , Xpfel Engel führt in seinem Aufsatz 'Die deutschen Satzbaupläne' einen Rektionsbegriff an, der zwar nicht nur Verben betrifft, in ihrem Bereich jedoch zu den gleichen Folgerungen für die Darstellung führt, wie sie sich aus unserer Notation ergeben. Der prinzipielle unterschied besteht nur noch darin, daß Engels 'Rektion' auch fa1 2 3

Heringer, 'Wertigkeiten... 1 , S. 14. 'Lexical Entries for Verbs' 'Lexical Entries . . . ' , S. 373.

70

kultative Glieder umfaßt . Tatsächlich ist der Unterschied zwischen obligatorisch und fakultativ (zwischen Ergänzung und Angabe) nicht einwandfrei zu entscheiden und schwieriger noch der Bedeutungswechsel bei elliptischem Gebrauch, wie Heringer an Beispielen darstellt 2 . (18) Hans schlägt Fritz. E (SK) = N V A gegenüber (19) Die Nachtigall schlägt. E (SK) = N V Sowohl für Bedeutungseinengung, (20) Sang hat gegeben. E (SK) = N V als auch für Erweiterung finden sich Belege unter den elliptischen Sätzen: (21) Der Krieg gibt nicht, er nimmt, Entwicklungsgeschichtlich sind es Ellipsen, synchronisch betrachtet stellt sich aber die Frage, wie weit sie sich als eigene Bedeutungen konsolidiert haben, denn das nur kann der Lemmatisierung als Richtlinie dienen. Exakte Definitionen über Obligatorisch 1 oder 'fakultativ' aufzustellen, scheint eben deshalb immer wieder zu scheitern, weil als letzte Instanz die Bedeutungsveränderung befragt wird. Dadurch wird aber die ursprüngliche Intention, semantische Größen an syntaktischen Erscheinungen zu messen genau ins Gegenteil verkehrt. Hier kann nur noch introspektiv nach Maßgabe der noch nicht exakt formulierbaren Sprecherkompetenz entschieden werden . In diesem Punkt erweist sich auch Engels Grenzziehung, "die sich mit keiner der bisher vorgenommenen Definitionen deckt" , eher als Maxime mit Ermessensspielraum. Sie beruht auf den beiden Sätzen: - "Wir definieren nun die Ergänzung als Element, das einer verbalen Subklasse unmittelbar zugeordnet werden kann, so daß sich die Wortklasse 'Verb 1 aufgrund der Kombinierbarkeit mit einer oder mehrerer Ergänzungen in eine Anzahl disjunkter Subklassen teilen läßt." 1 2 3 4

Engel, U . , 'Die deutschen Satzbaupläne', S. 365. 'Wertigkeiten...', S. 15 - 17 und öfter. In der praktischen Arbeit wird man wohl am besten im Großen und Ganzen die Entscheidungen übernehmen, die ein Wörterbuch anbietet. 'Die deutschen Satzbaupläne', S. 372.

71

- "Ob eine dieser Ergänzungen gesetzt werden muß oder fakultativ ist, hängt dann eben nicht an der Ergänzung selbst, sondern wird vom jeweiligen regierenden Verb geregelt." Mit anderen Worten: die Verben werden subklassifiziert nach der Art der obligatorischen Ergänzungen. Für die Entscheidung Obligatorisch 1 oder 'fakultativ' ist kein Kriterium genannt, außer eventuell der Subklassifizierung des Verbs und das ist ein Zirkel; damit behält die Entscheidung vorerst ohne exakte linguistische Begründung den Charakter eines intuitiv gefaßten Votums; wobei allerdings zu bemerken ist, daß Beispiele totaler Diskrepanz der Meinungen sicherlich nicht sehr häufig sind. Ehe wir an einigen Beispielen verdeutlichen, wie die E (SK) eines Lemmas bestimmt und notiert werden, seien noch einige Konventionen zum Gebrauch der Kategorien vereinbart: wie schon gesagt sind die Begriffe N, G, D, A, N ' , A 1 , P und J nicht als oberflächensyntaktische oder morphologische Merkmale zu verstehen, sondern vielmehr als Größen, die auf eine bestimmte Weise mit dem Verb verbunden sind. Man könnte diese Verbindung als reine Konkatenation ansehen, hätte dann aber keine Möglichkeit, zwischen obligatorisch und fakultativ vom System her zu trennen. Da dieser Unterschied aber spürbar besteht, ist es sinnvoll, die Verbindung zu qualifizieren, also von Konstituenten oder 'actants 1 oder 'Mitspielern' zu reden. Wie Tesniere berichtet, verglich Fourquet die Leistung des Verbs im "noeud verbal 1 auf anschauliche Weise mit dem Ring des Schlüsselbundes . übertragen auf den sprachlichen Sachverhalt ist es sicher eine gute und für unsere Zwecke hinreichende Erklärung, zu sagen: die obengenannten Symbole bezeichnen tiefere syntaktische Größen, die über das Verb verbunden sind und vom Verb abhängen. Vielleicht trägt es zur Klärung bei festzustellen, daß eine prädikatenlogische Formulierung sich am ehesten eignete, diese Art der Strukturbeziehungen metasprachlich auszudrücken. Es erübrigt sich, eigene Termini zur Bezeichnung von N, G, ... einzuführen, da durch den Zusammenhang mit E (SK) hinreichend ihr systematischer Ort gekennzeichnet ist. Sollten sie doch hie und da als gemeinsame genannt werden müssen, so verwenden wir leihweise den Begriff 'Argumente' und leiten davon den Namen 'Argumentbeziehung' ab, der ihr l

'Elements ...' , S. 129.

72 Verhältnis zum Verb bezeichnet. Ihre Position wird noch deutlicher, wenn wir - in Relativierung zur Gesamttheorie - darauf hinweisen, daß Argumente zu den strukturalen Morphemen gehören. Der bescheidene Begriffsapparat versetzt uns nun in die Lage, die Definitionen von N, G, ... wesentlich zu präzisieren. Mit N bezeichnen wir das Argument zu einem Verb V, für dessen substantivische Repräsentanten auf der Morphebene sich als Kasus der Nominativ ergibt. G, D, A können analog beschrieben werden; N* und A* bezeichnen die Argumente, für deren Repräsentanten sich der Nominativ bzw. Akkusativ ergibt, und schon ein N bzw. A vorliegt. P ist das Argument, das bei substantivischer Füllung nicht durch einen reinen Kasus, sondern unter Hinzufügen einer Präposition sprachlich realisiert wird. Die Definition für J ergibt sich nach den Bemerkungen auf Seite 69. Aus den Überlegungen, die wir oben zur E '± echt reflexiv 1 angestellt haben, ergibt sich im Grunde schon, daß das Reflexivpronomen kein Repräsentant eines Argumentes 1st. (22) Er eohämt sieh. ergibt mithin E (SK) = N-V, eich sorgen E (SK) = N-V-P. Bei fakultativer Reflexivität dagegen wird das Argument, das reflexivierbar ist, behandelt wie alle anderen: (23) Anklagen, E (SK) = N-V-A-G gilt auch für (24) Ich klage mich der seelischen Grausamkeit an. (25) Kaufen, E (SK) = N-V-D-A gilt auch für (26) Ich kaufe mir kein Buch mehr. An einigen Beispielen soll nun die Signifikanz der E (SK) zur Trennung verschiedener E„ bei gleichen gw -Teilen demonstriert werC den. Der Versuch wird zugleich zeigen, in welchen Fällen die Subkategorisierung nach E (SK) nicht ausreicht. In der Notierung werden außerdem alle anderen E , ebenso - wo es der Bedeutungsunterscheidung dient - alle E verzeichnet. Auf diese Weise gewährt die folgende Tabelle einen zusammenfassenden Rückblick, ehe wir uns den am wenigsten gesicherten Grundlagen der semantischen Subkategorisierung zuwenden. l

siehe oben Kap. 3.1.5, vor allem S. 51 - 55.

73

(27)

l

"ziehen" l, E (SK) = V l Es zieht. "ziehen" 2, E (SK) = N-V-A 2 Er zog den Schlitten, "ziehen" 3, E (SK) - N-V-P 3 Er zog nach Berlin, "folgen" l, E (SK) = N-V 1 Venn das nichts nützt, folgt

womöglich ein Attentat. (11017)

"folgen" 2, E (SK) = N-V-D 2 Man folgt den Argumenten des Autors mit Genuß. (11805) "folgen" 3, E (SK) - N-V-P 3 Das folgt aus der natürlichen und auch vom Grundgesetz vorgeschriebenen Funktion des Bundes in der Wissenschaft sförderung. (13232) "abbauen" l, E (SK) = N-V 1 Uwe baut ab. "abbauen" 2, E (SK) = N-V-A 2 Baut die Mauer ab! "eilen" l, E (SK) = N-V 1 Die Sache eilt. "eilen" 2, E (SK) = N-V-P 2 Eugen eilt ins Lokal. "brechen" l, E (FK) 3 = FK l, E (SK) = N-V 1 Das Pad ist gebrochen. "brechen" 2, E (FK) = FK 2, E (SK) = N-V 2 Er hat sofort danach gebrochen, "brechen" 3, E (SK) = N-V-A 3 Er hat das Brot gebrochen, "spielen" l, Eq (SK) = N-V l Die Kinder spielen auf dem Spielplatz der Mauer. (16478)

gegenüber

1 Ebenso wie die Witterungsimpersonalia regnen, donnern, ... 2 Zur Quellenangabe der fünfstellig numerierten Belegsätze siehe Anm. l, S. 10. 3 Vgl. Matrix ( 3 ) , S. 47. 4 "brechen" l und 3 stehen einander sehr nahe. Bei inhärenter Klassifizierung könnte man l als Vorgang, 3 als Tätigkeit bezeichnen.

74

"spielen" 2, E (SK) - N-V-P/N-V-J 2 Die Geschichte spielte in diesen Monaten. (167O9) "spielen" 3, E (SK) = N-V-A 3 Das Quartett Loeüenguth spielt Beethoven, Kodaly und Debussy. (11456) "steigen" l, E (SK) = N-V 1 Die Konsumgilterpreise ... stiegen ebenfalls.(13O31) "steigen" 2, E (SK) = N-V-P 2 . . . j uo sie gegen 18 Uhr in ein Taxi stiegen, "bekommen" l, E (FK) = FK l, E (SK) = N-V-D 1 Mir sind die Pilze bekommen. "bekommen" 2, E (FK) = FK 2, E (SK) = N-V-A r *4 2 ..., Sahuras Söhnchen bekam einen Platz im Kindergarten. "heissen" l,

E

(FK) = FK 2, E

1 Er heißte die Flagge. "heissen" 2, E (FK) = FK 4 , E 2 Er hieß Prometheus. "heissen" 3, E (FK) = FK 4, E 3 Das heiße iah humorig.

(SK) - N-V-A

(SK) = N-V-N' (SK) = N-V-A-A' 1

Wie man sieht, sind viele Lemmamehrdeutigkeiten mit den bisherigen Kategorien zumindest im ST-WOBU zu erfassen. Unter Lemmamehrdeutigkeit verstehen wir analog zur Wortklassenmehrdeutigkeit das Phänomen, daß Wortformen bei gleicher Graphemfolge und gleicher E (WK) hinsichtlich ihrer Lemmazugehörigkeit mehrdeutig sind. Alle in (27) gegebenen Beispiele sind Belege für Leiranamehrdeutigkeit. Ihr Verhältnis zur Homographie ist leicht zu klären. Letztere ist definiert durch eine Verschiedenheit der E (WK) bei gleicher Graphemfolge, die Lemmamehrdeutigkeit hat als Kriterium verschiedene E_c bei gleicher Ep (WK) und Graphemübereinstimmung. Ein Zusammenhang besteht insofern, als wir annehmen, daß jede Homographie Lemmamehrdeutigkeit impliziert, das heißt, daß Wortformen verschiedener Wortklassen trotz gleicher Graphemfolge generell verschiedene E. aufweisen. G l

humor ig = A".

75

(28)

"Weise"

1,

(WK) = ADJ

"weise" 2, E

(WK) = VRB

"Weise" 3, E

(WK) = SÜB

Daraus ergibt sich "weise" l ji "weise" 2 ? "Weise" 3 infolge einer Regel, die die allgemeine Form (29) hat: (29) E (WK) i f E (WK) i' E C i ^ EC i 1 In einigen Fällen von Lemmamehrdeutigkeit genügt E (FK) alleine zur Auflösung: (30) EP überdachte die Hundehütte mit Wellblech. (E (FK) = FK 2)

(31)

Er überdachte sein Vorhaben immer wieder.

(E

(FK) = FK 4)

3.2.3 Der semantische Kontext Betrachten wir neben ( 2 7 ) jedoch die folgenden Verben: (1) "versuchen" l, E (SK) = N-V-A 1 Er versucht den Salat, "versuchen" 2, E (SK) = N-V-A 2 Er versuchte Jesus zum zweitenmal, "verstehen" l, E (SK) = N-V-A 1 Er verstand den Brief nicht, "verstehen" 2, E (SK) = N-V-A 2 Er verstand zu raten, "abführen" l, E (SK) = N-V-A 1 Maigret führte ihn schließlich ab. "abführen" 2, E (SK) = N-V-A 2 Unternehmer führen Steuern nach Liechtenstein ab. Die noch nicht genannten Mehrdeutigkeiten, "abführen" 3, E (SK) = N-V 3 Darmol führt ab. und ·"'abführen" 4 , ' 1 4 Wenn sie doch mit dem nächsten Zug abführen! sind über E (SK) 3 bzw. über E (FK) 4 = FK 3 zu lösen.

q

l

p

Hier handelt es sich nicht um eine Mehrdeutigkeit von Lemmanamen, wohl aber um eine solche von g -Teilen.

76

Die Sätze in (1) enthalten Verben, deren Lemmamehrdeutigkeit zwar offenbar, aber mit den Möglichkeiten des Systems nicht zu beschreiben ist. Wenn auf syntaktischer Ebene für verschiedene Lemmata derselben E sich der Unterschied nicht in verschiedenen E P q '± Vollverb' oder E (SK) manifestiert, so ist zu fragen, wie weit semantische Merkmale des Kontextes formal erfaßt und als Kriterien in der Analyse verwendet werden können. Käme es nur darauf an, ein für allemal ein Wörterbuch zu erstellen, so genügte es, die verschiedenen Lemmata durch Ziffern zu trennen, wie es viele Wörterbücher zeigen. Da aber das ST-WOBU als Informationsspeicher für die Analyse Daten enthalten muß, die am Text verifizierbar bzw. falsifizierbar sind, müssen wir auf diesen direkten und anschaulichen Weg verzichten; in einem unvorbereiteten Text sind die Bedeutungen der lemmamehrdeutigen Wortformen nicht durch Z i f f e r n kenntlich, sondern nur durch den Kontext. Für die Syntaxanalyse haben wir als zu analysierende linguistische Einheit den durch seine Begrenzungszeichen ' . , ? , ! ' definierten Satz angenommen. Weiter kann mithin auch der Kontext für die semantische Untersuchung nicht gefaßt werden, denn semantische Angaben über eine nominale Gruppe sagen nichts aus, solange die weiteren Beziehungen zu dem zu lemmatisierenden Verb nicht bekannt sind. Die Beschränkung auf den syntaktischen Satz hat einschneidende Folgen: fragmentarische Sätze (Setzungen) wie (2) Abführen ! (3) Versuch ee ! (4) Geraten ! können nicht eindeutig lemmatisiert werden, wenn sie mehrdeutige Wortformen enthalten. Das gilt ebenso für homographe Formen, deren Vereindeutigung gleichfalls auf Kontextdaten angewiesen ist; nicht zu lösen sind etwa: (5) Nur gemach ! (6) Hinweg ! obwohl die meisten Sätze von (2) bis (6) aufgrund des Erfahrungshorizontes in einem situativen Kontext vorgestellt und eindeutig interpretiert werden. Nur dem Zugriff der semantischen Analyse entziehen sich Pronominalisierungen, denn über sie ist ohne Kennt-

77 nis ihrer Bezugsgrößen semantisch nichts auszusagen. (7) Sie ist übergelaufen und in die Küche geflossen. (8) ET hat sie auegeführt und wieder nach Hause gebracht. Daß in (7) nicht "die Seite wechseln" und in (8) nicht "exportieren" gemeint ist, geht zwar aus den Sätzen hervor, ist aber beispielsweise mit einem Lexikoneintrag eines transformationellen Modells nicht zu erkennen. Die Subkategorisierungsmerkmale von überlaufen, ( 7 ) , wären: (9) [+ V], + [ [ [ - Ind, - Abstr, - Belebt, - Mensch ]2N ] NP_ J S Überlaufen im Sinne von 'die Seite wechseln* hätte die Merkmale: (10) [+ V] , + [ [ [ + Mensch ] N ] NP_ ]s Ob aber sie in (7) die Merkmale (9) oder (10) repräsentiert, ergibt sich aus dem Bezugswort oder - wie in (7) - aus einem Analogieschluß: da f Hessen nicht in dem gleichen Sinne mehrdeutig ist wie überlaufen, die Subkategorisierungsmerkmale (1O) sicher nicht aufweist, aber ebenfalls mit sie vom gleichen S dominiert wird, muß ein nichtmenschliches Nomen die Bezugsgröße sein; damit ist übergelaufen ( 7 ) , die Bedeutung, die in (9) erfaßt ist, zuzuordnen. Ähnlich verhält es sich in ( 8 ) . Hier ist der Analogieschluß allerdings nicht mehr aus linguistischer Kenntnis zu ziehen, sondern geht von außersprachlichen Erfahrungen aus, aufgrund deren eine Modellsituation rekonstruiert wird. Diese knappen kritischen Erwägungen, in denen so etwas utopisches wie eine automatische, übersatzmäßige semantische Analyse postuliert wird, sind unrealistisch, wenn man sich die Forschungslage in der Semantik bewußt macht und zudem die Ergebnisse unter dem Gesichtspunkt der Mechanisierbarkeit prüft. Wie grobmaschig unter diesen Einschränkungen schließlich die semantische Analyse ausfällt, muß sich zeigen. Wir werden uns bei der Sichtung der Theorien zur Subkategorisierung auf einige Exempel beschränken, die Klassifizierung nach Denkmodellen, die generative Transformationsgrammatik und die Kasustheorie Filimores. Hier zeigt sich nun, daß die Entscheidung für eine Subkategorisierungsmethode die 1 etwa Chomskys 'Aspekte... 1 2 Auf Verkürzungen, die sich durch Redundanzregeln ergäben, wurde absichtlich verzichtet.

78

Analyseform nicht mehr so offen läßt, wie es wünschenswert wäre. Die Klassifizierungsart nach semantischen Merkmalen und die semantische Analyse beeinflussen sich gegenseitig. Bei der Besprechung des Fillmore-Modells wird sich zeigen, daß die Subkategorisierung sogar eine bestimmte Art der Satzanalyse voraussetzt, um wirkungsvoll angewandt zu werden . Tesnieres Aussagen über die inhaltliche Seite von Sätzen erwecken zunächst den Eindruck, daß die Semantik total aus der Sprachbeschreibung zu streichen sei und in den Bereich von Logik und Psychologie falle. In der Theorie, sagt er, sind Struktur (le plan structural) und Semantik (le plan semantique) völlig unabhängig voneinander, in der Praxis besteht ein 2 gewisser Parallelismus, aber keine Übereinstimmung . Dies verwundert um so mehr, als ein Charakteristikum der Dependenztheorie Tesnieres die enge Verbundenheit mit inhaltlicher Betrachtensweise ist. Beispiele dafür bieten sich an: die Definition der Wortarten; schon die grundsätzliche Trennung zwischen 'mots pleins 1 und 'mots vides" kann man unter einem bestimmten Verständnis als semantisch bezeichnen; die Kriterien zur Trennung zwischen 'actants' und 'circonstants' ebenso wie die Prinzipien zur Gliederung der 'actants' untereinander, ja sogar so fundamentale Theoreme wie Konnexion und Translation sind nicht ohne Rückgriff auf Inhalte zu etablieren. Tesniere hält diese Art von Inhaltlichkeit von dem 'plan semantique' getrennt durch den Begriff 'fonction 1 , die ' syntaxe structurale 1 ist ihren Grundlagen entsprechend zugleich eine 'syntaxe fönetioneile' und der Konflikt ist scheinbar geklärt, indem zusätzlich dem 'plan semantique1 ein außersprachlicher, zumindest präverbaler Ort reiner Ideenhaftigkeit zugewiesen wird. Eine Subkategorisierung ist nach diesen Maßen nicht möglich, sie kann nur auf der Ebene des 'plan structural' vorgenommen werden und als Merkmale Phänomene der vom Verb regierten Struktur zugrundelegen. Die Klassifizierung nach monovalent, divalent und trivalent berücksichtigt ausschließlich die 'actants'. Zusätzlich die Distribution hinsichtlich der 'circonstants 1 zu erörtern, ist nach Tesnieres Definition sinnlos, denn: "Le nombre des circonstants n'est pas de1 2

siehe unten S. 137 - 145. 'Elements ...', Kap. 20 und 21, S. 4O - 4 4 .

79 fini comme celui des actants. II peut n ' y en avoir a u c u n, tout comme il peut y en avoir un nombre i l l i m i t e . " 2 Zwar haben die umfassenden Formalisierungsvorschläge von Hays , Klein 3 und Heringer4 die Mechanisierbarkeit einer Dependenzanalyse für viele Bereiche der Sprache nachgewiesen, vor allem jedoch auf der Ebene der syntaktischen Bezüge, und somit liegt das Hauptgewicht dieser Arbeiten, soweit sie Ambiguitäten betreffen, auf der Reduktion syntaktischer Mehrdeutigkeiten und nicht im lexematischen Bereich. Auch auf Bierwischs Theorie der 'syntaktisch-semantischen Merkmale 1 sei nur am Rande verwiesen. Die Merkmale beziehen sich per definitionem auf die nominalen Lexikoneinheiten mit der zusätzlichen Begrenzung auf die Subklasse, die die Merkmale [ + Ind ] und [ - Abstr ] aufweisen. Eine hierarchische Anordnung dieser Lemmata ist für die Gliederung der Verben nur von minimalem Aussagewert. Eine Grundvoraussetzung dafür, daß die Hierarchie in Sätzen des Deutschen als Relation der nominalen Glieder untereinander angenommen werden kann, liegt darin, daß das Verb möglichst exakt die sprachliche Paraphrase einer transitiven Relation im mathematischen Sinne darstellt. Das gilt aber nur für einige wenige Verben und tritt am klarsten bei haben in Erscheinung, von dem noch deutlicheren Ausdruck 'Teil von sein* einmal abgesehen. Eine Relation R ist transitiv, wenn für x, y und z aus den Aussagen xRy und yRz die Wahrheit der Aussage xRz folgt. Wählen wir für ein Beispiel aus der natürlichen Sprache Deutsch die Substantive (11)

Auto +Individuativ, + Konkret Motor " Kolben so folgt aus (12) Dae Auto hat einen Motor. und (13) Der Motor hat Kolben. 1 2 3 4

'Elements . . . ' , Kap. 56, § 4, S. 125 - die gesperrt geschriebenen Wörter sind im Text fett gedruckt. Hays, D . G . , 'Dependency Theory ...' Klein, W . , 'Parsing . . . " Heringer, H.J., 'Theorie der deutschen Syntax', bes. S. 235 254.

80

der Satz (14) Das Auto hat Kolben. Diese Teil-von-Relation ist eine ontologische und darf nicht mit dem mathematischen Gleichheitsaxiom 'wenn x=y und y=z, dann x=z' verwechselt werden, denn die Gleichheitsrelation ist nicht nur transitiv, sondern zusätzlich kommutativ, was bei der Teilvon-Relation nicht zutrifft. Außer von haben wird die Teil-von-Relation von einigen synonymen Verben wie besitzen und aufweisen ausgedrückt. Sie machen deutlich, welche spezielle Bedeutung von haben vorliegen muß, damit eine hierarchische Relation von Satzteilen angenommen werden kann, wie aus (15) bis (17) erhellt: (15) Ich habe einen Rund. (16) Der Hund hat eine feuchte Schnauze. (17) Ich habe eine feuchte Schnauze. Aus den verschiedenen Bedeutungen von haben in (15) und (16) erklärt sich, daß (17) nicht als Folgerung zugelassen ist. 3.2.3.1

Verbklassifizierung nach Denkmodellen

Mit der Erkenntnis, daß die Teil-von-Relation sich offenbar gut eignet, um eine der verschiedenen Bedeutungen von haben zu beschreiben, entsteht die Frage, ob nicht andere Relationen zur Klassifizierung anderer Teile des Verbinventars dienen können. In einer Arbeit 'Zum deutschen Verbalsystem 1 zeigt H. Rupp die Schwierigkeiten auf, die eine Zweiteilung in transitive und intransitive Verben mit sich bringt. Indem er einen Gedanken von Brinkmann weiterführt, setzt er fundamentale Denkmodelle voraus, die in ihrem Bezug zur Sprache etwa den Status von übersprachlichen Grundstrukturen der 'Konzeption' im Kainz 1 sehen Sinne haben. Die Art des Denkmodells hat nach Rupp Konsequenzen für die Verbalisierung derart, daß sich danach der Wortschatz in die Grundwortarten kategorisieren läßt, wobei es den Verben allgemein zukommt, Prozesse auszudrücken. Aus dieser Sehweise könnte man die interessante Hypothese aufstellen, daß Verben grundsätzlich Abstrakte bezeichnen. l

als schriftliche Ausarbeitung eines Vertrags veröffentlicht in: 'Satz und Wort im heutigen Deutsch 1 , S. 148 - 164.

81

Wenn auch der Augenschein dagegen spricht, so ergibt schon eine kurze Reflektion des Erkenntnisvorganges, daß 'Prozess' eine abstrahierende, auf der Denkleistung des Menschen beruhende Zusammenfassung einer Reihe von Gegenständen darstellt. Die Affinität solcher Überlegungen zur Kategorisierung der 'mots pleins' Tesnieres ist nicht zu übersehen: "une premiere subdivision opposera les idees de s u b s t a n c e s ä celles de p r o c e s. ... Les mots pleins exprimant l'idee d'un proces sont appeles v e rb e s." Die Prozesse teilt Tesniere in zwei Arten, 'les etats' und 'les actions' und die Verben demzufolge in die disjunkten Teilmengen 'verbes d'etat* und 'verbes d 1 action', was aber für seine weiteren Ausführungen keine Konsequenzen hat, zumal sich die Klassenzugehörigkeit nicht eindeutig formal äußert. Obgleich sich eine Tendenz der 'verbes d'etat' zur Intransitivität und der 'verbes d 1 action' zur Transitivität abzeichnet, gibt es zahlreiche Gegenbeispiele. Er nennt als Beleg für ein transitives 'verbe d'etat' den Satz: (1) Alfred a un oheval. während das 'verbe d'action 1 tomber intransitiv ist: (2) Alfred tombe. Gegenüber der Zweiteilung in Handlungs- und Zustandsverben legt die Orientierung an den fundamentalen Denkmodellen nach Rupp eine Gliederung in vier Klassen nahe: "Die vier Verben - sein, werden, haben, tun - bilden so etwas wie menschliche Grundprozesse ab, geben Perspektiven, wobei jede in ihrem Inhalt und in ihrer Funktion eine klare Einheit bildet." Die als Folge der Denkmodelle sich ergebenden sprachlichen Perspektiven greifen so tief, daß sie nicht nur das Lexikon nach Wortklassen und Unterklassen trennen, sondern sogar im Tempussystem ihren Niederschlag finden. Während verblühen zu den Verben mit Werden-Perspektive gehört, weist die Wortform ist verblüht setn-Perspektive auf, ebenso wie ist geritten, obwohl reiten zu den tun-Verben zählt. Sehen wir aber von 1

Die gesperrt geschriebenen Wörter sind in den "Elements durch Fettdruck hervorgehoben: Kap. 32, §§ 2 und 4 . 2 'Elements ...', Kap. 36, S. 72 - 73. 3 'Zum deutschen Verbalsystem', S. 154.

82

diesem weiteren Schritt ab, ebenso von den daraus erwachsenden Erleichterungen in der Beschreibung der passivischen Konstruktionen und untersuchen stattdessen die Möglichkeiten, die Klassenbildung auf der Basis von Perspektiven für die Lemmatrennung gewinnbringend einzusetzen. Außerdem grenzen wir das Material wesentlich dadurch ein, daß die Klassifizierung nur die mehrdeutigen Verben betreffen soll, für die bisher keine operablen Kriterien entwickelt sind. Beispiele wurden in (1), S. 75 gegeben. Faßt man 'Prozess 1 nicht als inhärente Eigenart der Verbbedeutung auf, sondern als Sich-Verhalten von Gegenständen, so können die Perspektiven als Klassen von Prädikationen bezeichnet werden, ein nicht eben neuer Denkansatz, und die Einwände dagegen sind fast klassisch zu nennen, zum Beispiel das Impersonalienproblem: Prädikatenlogische Aussagen ohne Argumentstellen sind unsinnig. (3) Hans ißt Suppe. ist darstellbar als Fa,b .. (4) Es regnet. ergäbe, entsprechend gefaßt, F, denn es kann als Größe nicht definiert werden. Unter den zahlreichen Erklärungen, die dazu unternommen wurden, scheint uns die einsichtigste die Annahme einer reinen Existenzaussage zu sein, die den Regen als Gegenstand behauptet und (4) paraphrasiert durch (5) Es ist Regen. - F_3. Daß die Einführung der Existenzrelation generell eine Erhöhung der Valenz um l erlaubt, zeigt Heger in 'Valenz, Diathese und Kasus 1 , S. 145. Daraus ergibt sich für (4) eine Zuordnung zur seinPerspektive. Doch wenn es selbst gelänge, alle Grenzfälle zu klären und somit von jedem g -Morph eindeutig zu bestimmen, welcher Perspektivenklasse es angehört, so bleiben die Probleme der Lemmatisierung bestehen, wie die Beispiele zeigen. Nennen wir die verschiedenen Perspektiven als Funktionen nach den Anfangsgraphemen der von Rupp genannten Grundverben: s bezeichne die sein-, h die haben-, w die werden- und t die tun-Perspektive, a, b, c wie1

Heger, K . , : 'Valenz, Diathese und Kasus. In: Zeitschrift für romanische Philologie, 82. Bd, 1966, S. 138 - 170.

83

derum die Argumente, so wären "versuchen" l (= probieren) und "versuchen" 2 (= in Versuchung führen) in derselben Klasse t, . zu a,D finden. Ebenso: "aueführen" l = begleiten1 "ausführen" 2 = exportieren V t . "ausführen" 3 = erledigen J "auaetoeaen" l = produzieren "aueetoaeen" 2 = verbannen > t a,b . "auaetoeeen" 3 - artikulierenJ Jedoch spricht diese Erkenntnis nicht gegen das Verfahren an sich, sondern nur gegen die Wahl der Perspektiven. Eine wirkungsvolle Trennung wäre vermutlich zu erreichen, wenn ein wesentlich verfeinertes Klassifizierungssystem erarbeitet würde. Der entscheidende Einwand liegt darin, daß das ST-WOBU alleine, so umsichtig und linguistisch begründet es auch aufgebaut ist, nur einen Teil der Lemmatisierung darstellt. Die Informationen, die es liefert, müssen in Identifikationsprozessen am Text verifiziert werden können, und eben dies ist mit den Perspektiven-Kriterien nicht möglich. Man kann sich als Ausschnitt des ST-Wörterbuchs die folgenden Einträge vorstellen: E (SMK) 2 E(WK) E M + VK Die in Modern Theory ...' eingeführte Konstituente 'Auxiliary 1 ist in 'The Gase ...' in M als Repräsentant von Tempus und Modus integriert: (13) M > Tempus + Modus Da das Genus des Verbs die Stellung der NP im Satz beeinflußt und so Permutationstransformationen bestimmt, werden Informationen darüber dem Verb zugeschrieben. Dieser Schritt ist nicht hinreichend begründet, denn die aus M expandierten Hilfsverbformen sind davon in gleicher Weise betroffen. Wir wollen dieser Frage jedoch nicht weiter nachgehen, weil sie für die Subkategorisierung nicht sehr bedeutsam ist. (14) VK » V (+Ag) (+Inst) (+Obj) (+Dat) (+Fac) (+Loc) Die Formulierung dieser Regel weicht sowohl von Modern Theory..! wie auch von 'The Case ...' ab, denn sie läßt zu, daß das Verb ohne einen Kasus auftritt, eine Konstellation, die von Fillmore ausgeschlossen ist. (15) ,S

Tempus

Modus

PRÄS

IND zieh

Für den unpersönlich konstruierten Satz (16) Ea zieht. müßte es aus einer Obj-Konstituente erzeugt werdenj

103

(17)

Aus (17) entstünde nach einer Permutation, einer obligatorischen Tilgung von K, sowie einer konventionsgemäßen Löschung von Obj und den morphologischen Regeln entsprechend: (18)

zieht

"ziehen" (16) wäre damit formal nicht zu unterscheiden von "ziehen" (19): (19)

Die Wolken ziehen.

Aus (17) ergibt sich für "ziehen" (16) dieselbe Subkategorisierung, wie sie die Tiefenstruktur (2O) für "ziehen" (19) vorsieht: (20)

zieh die Wolken 1 Die hier schon getilgte Präposition von Obj wäre durch oder von, 2 d = Kategorialsymbol für den Artikel,

104

Daß es sich bei (17) und (20) bzw., (16) und (19) um durchaus verschiedene Strukturen handelt, wird in der Substitution deutlich: (21) Dae Ziehen der Wolken. (22) Das Ziehen von ihm. Akzeptiert man jedoch (15) als zulässige Tiefenstruktur und damit (14) als Expansionsregel zu VK, so können (16) und (19) formal unterschieden werden; nur die Existenz von es in (16) ist tiefenstrukturell nicht erklärt. Das bleibt eine theoretische Unzulänglichkeit, die wir jedoch unter der Zielsetzung der Lemmatisierung aus pragmatischen Gründen in Kauf nehmen, insbesondere, weil ee aus (15) eindeutig prädiktabel ist. In (14) ist eine Information noch nicht enthalten, die Fillmore in Modern Theory ...' anführt: die gegenseitige Abhängigkeit der Kasuskategorien untereinander . Eine Formationsregel, die alle in (14) fehlenden Informationen angibt, wird sehr komplex: (23) Ag

\

Ag + Dat Ag + Dat + Inst Ag + Dat + Obj Obj (+Dat (+Loc)) ,0bj + (DatX Ag)2

Die ... bedeuten, daß in Regel ( 2 3 ) , wenn sie vollständig ausgeschrieben wird, alle möglichen Strukturen des Verbalkomplexes aufgeführt werden müssen. (24) Dat l Inst l K + NP

1 Modern Theory . . . ' , Anm. 7, S. 366. 2 Die sich überschneidenden Klammern zeigen an, daß mindestens ein Kasus - hier also Dat oder Ag - stehen muß. Es ist eine verkürzte Schreibweise für alternativ und fakultativ und gleichbedeutend mit ( (Dat) + Ag) bj "· ° + l Dat (+Ag)J 3 Diese Klammer fehlt bei Fillmore, da, wie wir gesehen haben, mindestens ein Tiefenkasus stehen muß.

105 (25)

Obj

(26)

(d) + N (+S)

NP

K bestimmt den Oberflächenkasus; es wird weiter verzweigt zu einer Präposition oder bei sogenannten reinen Kasus zu einer morphologisch zu interpretierenden Information (nom, gen, dat, akk) oder, falls die erzeugte Präposition mehrere Kasus regieren kann, zu beiden Angaben: (27)

K

(Prp)

(27) ist von Fillmore in dieser Form nicht genannt. Sie trägt der Eigengesetzlichkeit des Deutschen jedoch eher Rechnung als die Universalfassung von 'The Case ...' und die für das Englische gel2 tende Form in Modern Theory . . . " . Daß das S-Symbol sowohl in ( 2 4 ) als auch in ( 2 6 ) auf der rechten Seite des Pfeils erscheint, bedeutet, daß zwei Arten von Rekursivität auftreten. Die aus (25) zu eliminierende Einzelregel (28) Obj * S ermöglicht es, statt einer Präpositionalphrase, K + NP, aus Obj direkt einen Satz zu erzeugen; sie betrifft insbesondere Verbalkomplexe, die mit sein + ADJ gebildet sind . (29)

ist

wahr

Peter Daß Obj als einziger Kasus S-Rekursivität beinhaltet, ist nicht unbestritten, soll hier jedoch nicht weiter diskutiert werden. Vgl. dazu 'The Case ...', S. 33 und Modern Theory ...', S. 367, Regel (15). Adjektive betrachtet Fillmore in Übereinstimmung mit Postal und Lakoff als eine Teilmenge der Verben.

106

Die in ( 2 6 ) eingeführte Einbettung des S-Symbols erklärt die Tiefenstruktur des possessiven Genetivs. Sie betrachtet also Nominalkonstituenten wie das Haus des Vaters als elliptische Sätze immer dann, wenn tiefenstrukturell das Verb haben zu ergänzen ist. Aus dieser Bedingung folgt, daß das Substantiv, welches oberflächenstrukturell im Nominativ steht, in der Tiefenstruktur wiederholt wird - und zwar als Obj des eingebetteten Satzes - und der Oberflächengenetiv des Vaters als Dat desselben Satzes dargestellt wird. Bezeichnet das im Genetiv stehende Substantiv einen unbelebten Gegenstand, so müßte als dominierender Tiefenkasus ein Obj statt eines Dat angenommen werden. Da aber einem unbelebten Gegenstand oder Begriff nichts gehören kann, drückt der Genetiv nicht ein Possessiwerhältnis aus, sondern ein partitives, lokatives oder anderes: (30) Das Daah des Hauses, (31) Die Mitte des Raumes (32) Er steht auf Peters Fuß. Um Beziehungen zwischen nominalen Gliedern zu beschreiben, für die es keine äquivalente Satzparaphrase gibt, ist bei einzelnen Tiefenkasus ein direkter adnominaler Gebrauch vorgesehen. Das bezieht sich insbesondere auf Belege wie (32) , das heißt die Besonderheiten der "Syntax der Körperteile" . Die entsprechende Regel (33) ist eine Erweiterung von ( 2 6 ) : (33)

NP

»

(d) + N

+

|gat|

UocJ Für (32) ergibt sich über (33) als Strukturbaum: (34) -S. M-

/\

IP

Loc

K 1 1 1 1

: i l

Dm

t

/ fj l 1

1

Dat K l 1 1

NP N l l

Peter steh er auf Fuß 's lVgl. dazu die Untersuchung von Isacenko,A.V., 'Das syntaktische Verhältnis der Bezeichnung von Körperteilen im Deutschen'

107

Die Tiefenstruktur ( 3 4 ) erzeugt neben ( 3 2 ) auch die Endketten (35) Er steht auf dem Fuß Peters. (36) Er steht auf dem Fuß von Peter. (37) Er steht Peter auf dem Fuß. Abschließend sei noch eine Formationsregel erwähnt, die eine Insertion ermöglicht, nach den Restriktionen der TG also nicht zugelassen ist. (38) NP > NP (+Com) Nach der Schreibkonvention kann sie mit (33) zusammengefaßt werden zu: (39) (d) + N NP NP + Com Ihre Notwendigkeit ergibt sich aus Filimores Postulat, daß in einem Satz jeder Tiefenkasus nur einmal erscheinen d a r f , andererseits aber Sätze bildbar sind wie (40) Er fährt mit seiner Mutter nach Paris. (41) Er und seine Mutter fahren nach Paris. Zumindest für ( 4 l ) müßte Ag zweimal angenommen werden. Es ist klar, warum Fillmore hier nicht die Lösung Tesnieres übernimmt und eine Junktion mehrerer NP unter einem Kategorialkasus zuläßt: die Anzahl der von Ag dominierten NP ist beliebig zu erweitern, und die Unendlichkeit dieser Reihung auf einer Ebene kann in ( 2 4 ) nicht ausgedrückt werden. Die Restriktion (11), S. 1O2, verbietet unendliche Ausgabeketten aus automatentheoretischen Gründen. (42)

fahr

nom

er

mit

seine Mutter nach

Paris

108 Die Subkategorisierung der Verben als für unsere Untersuchung zentraler Gegenstand, besteht darin, daß jedem Verb die Kasusstruktur, in der es von VK dominiert wird, als Merkmal zugeschrieben wird. Das Vorgehen unterscheidet sich also prinzipiell nicht von der strikten Subkategorisierung der TG. Die Differenz liegt einzig in der Art und der Struktur der Kategor ialsymbole und darin, daß die Reihenfolge, in der die Tiefenkasus als Merkmale erscheinen, nichts über ihre Position im Strukturbaum aussagt. Wie schon angedeutet, gehen die folgenden Überlegungen einen Schritt über die Ausführungen Filimores hinaus. Während er bei gleicher Graphemfolge ein Verb ansetzt, auch wenn es semantisch mehrdeutig ist, kommt es uns eben darauf an, die unterschiedlichen Subkategorisierungen zur Trennung im semantischen Bereich heranzuziehen. Es wurde gezeigt, daß mit den Mitteln der TG ohne umfangreiche semantische Analyse nicht alle Bedeutungen des Verbs beziehen zu unterscheiden sind. Nach der Kasusgrammatik beschrieben, hat der Satz ( 2 2 ) , S. 91, die Tiefenstruktur (43)

t

bezieh

Demgegenüber ergibt sich für

l

Vgl. oben S. 92 - 95.

nom

( 3 2 ) , S. 92

Vater akk der Baum ( 4 4 ) .

1O9 (44)

bezieh

nom

Vater

akk

die Wohnung neu

Aus ( 4 3 ) und ( 4 4 ) leiten sich unterschiedliche Merkmale für die Subkategorisierung ab: Baum ( 4 3 ) entspricht (+ Ag, O b j ) ; dagegen lauten die Merkmale zu ( 4 4 ) (+ Ag, Loc) . Die Verbsubkategorisierung nach diesem Modell ersetzt, wie man sieht, nicht nur die E (SMK), sondern enthält außerdem Informationen über die Tiefenstruktur der E (SK). Es muß also einmal untersucht werden, ob die Verbbedeutungen, die durch die E (SK) alleine im ST-WOBü getrennt wurden, in gleicher Weise mit den Angaben über die Struktur des Verbalkomplexes (E (VK)) zu unterscheiden sind. Zum zweiten ist die Frage zu klären, ob aus der Oberflächenstruktur eines Satzes durch formalisierbare Regeln die E (VK) automatisch analysiert werden kann. Um den Nachweis der Äquivalenz zwischen E (SK) und E (VK) zu erbringen, greifen wir zurück auf einige Beispielsätze aus ( 2 7 ) , S. 73 bis 74, beschränken uns jedoch in dem folgenden Vergleich auf Verben mit 3 und mehr Bedeutungen. (45)

zieh

Ec

E q (SK)

Eq(VK)2

(1)

V

(+

(Dat(Loc)))

(2)

N-V-A

(+

Ag, Obj ( L o c ) ( I n s t ) )

Dieser Teilast wird nicht weiter verfolgt, über das S-Symbol wird die Ergänzung neue eingeführt, die aber auf die Subkategorisierung keinen Einfluß hat. Auch nicht-obligatorische Konstituenten des VK sind angegeben; zur Schreibkonvention vgl. oben, Anm. 2, S. 104. Unberücksichtigt bleiben freie, den Satz modifizierende Ergänzungen, die allgemein möglich sind und in der Fassung von Modern Theory ...' aus der M-Konstituente abgeleitet werden.

no '-

zieh folg

break

stimm

E q (SK)

Eq (VK)

N-V-P N-V-P

(+ (+

Ag, Loc)

(1) (2)

N-V N-V

(+

Obj)

N-V-D

(+

Ag, Obj, We 1 )

(3)

N-V-P

(+

Fac, Inst)

(4)

N-V-D

(+

Ag,

(1) (2)

N-V

(+

Obj,

N-V

(+

Ag)

(3)

N-V-A

(+

(D (2)

N-V

(+

N-V-A

(+

(3)

N-V-A-J

(+

(4)

N-V-P

(+

Ag, Obj, (Inst)) Obj) Ag, Obj, (Inst)) (AgX O b j ) , Dat, Fac) Ag (Dat X O b j ) )

E

c v(3)

M

M

(Dat X O b j ) ) (Fac)2)

Allem Anschein nach genügen die E (VK) der ersten der oben aufgestellten Forderungen. Daß auch der mögliche S-Anschluß bedeutungsunterscheidende Funktion hat, zeigt sich an dem Verb versuchen: (46) Der Teufel versuchte Christus dreimal. (+ (Ag X O b j ) , Dat) (47) Peter versuchte den Kuchen. (+ Ag, Obj) (48) Peter versuchte zu versahwinden. (+

Ag,

(Obj X S ) )

Daß versuchen in der Bedeutung von (48) wahlweise mit Satzanschluß oder nominaler Gruppe stehen kann, wie es E (VK) von (48) ausdrückt, zeigt der Satz: (49) Peter versuchte den Handstand. Neueingeführte Kategorie: der Kasus, der die Art und Weise bezeichnet, in der der vom Verb genannte Prozeß erlebt oder ausgeführt wird. We wird als Subkategorisierungsmerkmal nur erwähnt, wenn es obligatorisch ist. Es wird in der Endkette durch ein Adverb oder eine präpositionale Nominalgruppe repräsentiert. Einige Gründe sprechen dafür, We nicht direkt aus VK, sondern adnominal abzuleiten, also aus NP von Ag bzw. Obj. Eine dritte Möglichkeit wäre, We aus einem eingebetteten S über Regel ( 3 9 ) , S. 1O7, zu erzeugen. Wir wählen der Einfachheit halber die direkte Dominanz [We]VK, da es für keine Alternative zwingendere Argumente gibt. Fac ist belegt in dem Satz: Das Rad ist in drei Teile gebrochen.

Ill

Ungeklärt sind die in E (SK) mit N ' und A* bezeichneten Gleichsetzungen im Nominativ oder Akkusativ: (50) loh heiße Napoleon. (51)

Iah bin Maler.

(52) (53) (54)

Ich werde Maler. Wir heißen Euch hoffen. Wir heißen Euch Versager.

Eine von Fillmore abweichende Beschreibung schließlich verlangen Sätze, deren VK aus sein + ADJ bzw. sein + P bestehen: (55) loh bin müde. (56) Iah bin im Theater. Da wir im lemmatisierten Output nach den E (WK) Verb und Adjektiv trennen wollen, können wir uns Filimores Vorschlag der Gleichbehandlung nicht anschließen, sondern sind gezwungen, in Konstruktionen dieser Art sein als Vollverb zu betrachten; dasselbe gilt für (51). Der Ansicht, daß derartige mehrteilige Prädikate dasgleiche leisten wie eine Verbform alleine, wird die Annahme zwar nicht gerecht, widerspricht ihr jedoch nicht absolut, da alle mit ein verbundenen Teile gemeinsam den Verbalkomplex konstituieren. Nach dieser Vereinbarung ist mit dem bislang eingeführten Inventar an Tiefenkasus der Satz (56) - und übertragen auf werden auch ( 5 2 ) - beschreibbar; (57)

nom

iah

in (dat)das Theater

112 (58)

1V

N 1 1

l

werden

nom

ich

nom

1

Maler

Auch (53) kann abgeleitet werden, ohne neue Kategorien einzuführen: — (59) S » N + VK M

—

>

VK

—

> V + Ag + Dat + Fac

Fac S'

— —

>

S1

>

M' + VK'

1

—

>

PRÄS + IND

—

>

V

V

—

»

heißen

Ag

—

>

K + NP

NP

—

> N

N

—

»

PERS

PERS

—

>

wir

Dat K

— —

>

K + NP

»

akk

NP

—

»

N

N

—

>

PERS

PERS

—

V

—

» »

ihr hoffen

—

>

K 1 + NP'

—

» nom » N1 » PERS '

M

VK

1

Dat K' NP

N'

1

1

— —

PERS' —

»

PRÄS + IND

ihr

+ Dat'

113

Nach weiteren Transformationen entsteht als eine der letzten Strukturen: (60)

Wir heißen euch, ihr

hofft.

Sie erfüllt die Bedingungen, um als Eingabekette der AcI-Transformation akzeptiert zu werden und wird umgeformt zu ( 5 3 ) . Die Konstituenten Napoleon, Maler, Versager und müde in (50), (51), (54) und (55) entsprechen keinem der auf S. 1OO - 101 definierten Tiefenkasus. Es sind - tiefenstrukturell gesehen - anaphorisch auf eine andere Konstituente bezogene Aussagen oder Wiedernennungen nach dem Grundschema logischer Prädizierungen. Es kommt dem Sachverhalt damit am nächsten, einen Tiefenkasus einzuführen, der diese Nominalgruppen dominiert; wir bezeichnen ihn entsprechend seiner Funktion als Nominativum (No). Er kann oberflächenstrukturell durch Nominalgruppen im nom, gen, akk oder durch Adjektive repräsentiert sein. Eines der seltenen Beispiele für den Genetiv ist: (61)

Du bist des

Teufele.

Um die Analyse der Adjektive trotz Wortklassentrennung im Lemmaoutput vollständig nach der Kasustheorie durchzuführen, wäre eine methodische Trennung in mindestens zwei Ebenen nötig; in einer Oberflächenanalyse müßte nach raorphographematischen und oberflächensyntaktischen Regeln die Homographie aufgelöst und eine erste Strukturbeschreibung vorgenommen werden. In einem Reduktionsteil würden die die Tiefenstruktur betreffenden Informationen insbesondere strikte Subkategorisierung der Verben und Adjektive mit den Daten der Oberflächenbeschreibung verglichen und Lemmamehrdeutigkeiten gelöst. Ein mögliches Verfahren, die Untersuchungen der ersten Ebene automatisch durchzuführen, wurde schon verschiedentlich erwähnt: die syntaktische Analyse der Saarbrücker Arbeitsgruppe. Sie beschreibt - in sich über fünf Ebenen aufsteigend die Oberflächenstruktur von Sätzen in einer Form, die als Eingabedaten teilweise unmittelbar in den Reduktionsteil (RT) übernommen werden können . Wir wollen jedoch weder auf analysestrategische Fragen noch auf die Lemmatisierung der Adjektive näher eingehen, sondern uns der l

Vgl. Output-Beispiele in Eggers, H. und Mitarbeiter, 'Elektronische Syntaxanalyse ...', S. 181 - 193.

114 Subkategorisierung der Substantive, den inhärenten semantischen Merkmalen und der selektionalen Subkategorisierung in der Kasusgrairimatik zuwenden. Zuvor jedoch noch eine Bemerkung zu dem oben eingeführten Nominativum, einem Kasus, der auch bei Gleichbehandlung von ADJ und VRB nicht überflüssig wird. Die enge Beziehung zwischen Napoleon und iah3 Maler und ich und Versager und euch in

( 5 O ) , (51) und ( 5 4 )

könnte Anlaß sein, No nur adnominal einzuführen. zu (5O) wäre demnach:

Der Strukturbaum

(62) M

nom

iah

nom

Napoleon

(62) hat den Vorteil, daß aus der Strukturbeschreibung auf den ersten Blick hervorgeht, zwischen welchen Kategorien die Prädizierungsbeziehung besteht. Die Subkategorisierung für heißen gemäß

(62)

ist: (63) (+ Dat) Der Baum zu Satz ( 5 4 ) ist analog zu ( 6 2 ) abzuleiten; die E (VK) von heißen ( 5 4 ) ist: (64) (+ Ag, Dat) Dem entgegen steht die Ansicht Tesnieres, der für (51), (52) und (54) eine so enge Verbindung zwischen Verb und PrMdikativum lehrt, daß sie zu einem Nukleus zusammengefaßt werden. ( 5 4 ) , in einem ausführlichen Stemma dargestellt, hat die Form: f --, (65) (heißen l, wir

euch

^^-^

Versager^

115

Entsprechend Satz ( 5 l ) : (66) iah

\Afaler

Tatsächlich scheint die Verbindung zwischen Verb und Prädikativ enger, als sie in Baum ( 6 2 ) dargestellt wird. Dieser t r i f f t eher auf 'appositionale 1 Anschlüsse zu wie: (67) Wir kennen euch Versager. Das bedeutet, daß NO ebenso behandelt wird wie Dat, er kann von VK dominiert werden, ebenso aber - in Sätzen wie ( 6 7 ) - adnominal abgeleitet sein. Eine Mehrdeutigkeit im Oberflächenkasus kann nicht entstehen; es gelten die folgenden Regeln: (68) In der Struktur V+(Dat X Obj)+No ist Dat bzw. Obj Subjekt und No stimmt im Kasus mit ihm überein. (69) In der Struktur V+Ag+(Dat X Obj)+No ist Ag normalerweise Subjekt, und No stimmt im Oberflächenkasus mit Dat bzw. Obj überein. 3.2.3.3.1

Die inhärente Subkategorisierung

Nur eines der inhärenten Merkmale ist von Fillmore genannt: [+ Belebt ]] ist allgemein die Bedingung dafür, daß ein Nomen unter den Symbolen Ag bzw. Dat abgeleitet werden kann. Unberührt davon - so muß man die genannten Arbeiten wohl interpretieren - bleibt die Expansion der Nominalsymbole zu Merkmalmengen bestehen. Sie wird jedoch erweitert, insofern als sowohl den aus K- als auch den aus N-Symbolen abgeleiteten Merkmalmengen das Symbol des sie dominierenden Tiefenkasus hinzugefügt wird. Das impliziert, daß alle Nomina und Präpositionen bzw. reine Kasus konsequenterweise im Lexikon nach +A