Prosodie und Sprachproduktion [Reprint 2013 ed.] 9783110911350, 9783484304017

The subject of the volume is the presentation of a cognitively oriented model of the generation of prosodic features and

173 61 11MB

German Pages 291 [296] Year 1999

Report DMCA / Copyright

DOWNLOAD FILE

Polecaj historie

Prosodie und Sprachproduktion [Reprint 2013 ed.]
 9783110911350, 9783484304017

Table of contents :
Danksagung
1. Einleitung
1.1. Zielstellung der Arbeit
1.2. Einordnung des Gegenstandsbereichs
1.3. Überblick über die Arbeit
2. Grundlagen
2.1. Zum Begriff der Prosodie
2.2. Prosodische Phänomene und ihre kommunikativen Funktionen
3. Prosodische Merkmale und Strukturen
3.1. Typologie prosodischer Merkmale
3.2. Prosodische Konstituenten
3.3. Mikroprosodie
3.4. Zusammenfassung
4. Sprachproduktion und Prosodie
4.1. Psycholinguistische Modelle der Sprachproduktion
4.2. Das Sprachproduktionssystem SYNPHONICS
4.3. Die Architektur des phonologischen und phonetisch-artikulatorischen Enkodierers
4.4. Zusammenfassung
5. Strukturen und Prozesse der prosodischen Enkodierung
5.1. Formale Repräsentation prosodischer Konstituenten
5.2. Formale Repräsentation prosodischer Merkmale
5.3. Makroprosodische Enkodierungsprozesse im SYNPHONICS-System
6. Die phonetische Realisierung makroprosodischer Merkmale und Strukturen
7. Zusammenfassung, Ausblick
8. Literatur

Citation preview

Linguistische Arbeiten

401

Herausgegeben von Hans Altmann, Peter Blumenthal, Herbert E. Brekle, Gerhard Heibig, Hans Jürgen Heringer, Heinz Vater und Richard Wiese

Carsten Günther

Prosodie und Sprachproduktion

Max Niemeyer Verlag Tübingen 1999

Meiner Familie, Anke, Julius und

Theresa

Die Deutsche Bibliothek - CIP-Einheitsaufnahme Günther, Carsten: Prosodie und Sprachproduktion / Carsten Günther. - Tübingen : Niemeyer, 1999 (Linguistische Arbeiten ; 401) ISBN 3-484-30401-4

ISSN 0344-6727

D 18 © Max Niemeyer Verlag GmbH, Tübingen 1999 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Printed in Germany. Gedruckt auf alterungsbeständigem Papier. Druck: Weihert-Druck GmbH, Darmstadt Buchbinder: Nadele Verlags- und Industriebuchbinderei, Nehren

Inhalt

Danksagung

VII

1. Einleitung 1.1. Zielstellung der Arbeit 1.2. Einordnung des Gegenstandsbereichs 1.3. Überblick über die Arbeit

1 1 4 13

2. Grundlagen 2.1. Zum Begriff der Prosodie 2.2. Prosodische Phänomene und ihre kommunikativen Funktionen 2.2.1. Pragmatische Funktionen der Prosodie 2.2.2. Grammatische Funktionen der Prosodie

15 15 21 22 32

3. Prosodische Merkmale und Strukturen 3.1. Typologie prosodischer Merkmale 3.1.1. Akzent 3.1.2. Intonation 3.1.3. Quantität 3.1.4. Junktur 3.2. Prosodische Konstituenten 3.2.1. Silbe 3.2.2. Fuß 3.2.3. Phonologisches Wort 3.2.4. Klitisierungsgruppe 3.2.5. Phonologische Phrase 3.2.6. Intonationsphrase 3.2.7. Phonologische Äußerung 3.3. Mikroprosodie 3.4. Zusammenfassung

47 47 48 62 69 70 72 76 79 80 82 83 85 86 88 90

4. Sprachproduktion und Prosodie 4.1. Psycholinguistische Modelle der Sprachproduktion

93 94

4.1.1. D a s S p r a c h p r o d u k t i o n s m o d e l l v o n LEVELT 4.1.2. D a s I n t o n a t i o n s m o d e l l v o n v.WUK & KEMPEN

4.2. Das Sprachproduktionssystem SYNPHONICS

4.2.1. Grundzüge des SYNPHONics-Systems 4.2.2. Prozeßeigenschaften des SYNPHONics-Systems

95 103

106

106 108

VI 4.2.3. Die computerlinguistische Modellierung in ALE 4.2.4. Die Gesamtarchitektur des SYNPHONics-Systems 4.3. Die Architektur des phonologischen und phonetisch-artikulatorischen Enkodierers 4.4. Zusammenfassung

123 129 152 160

5. Strukturen und Prozesse der prosodischen Enkodierung 5.1. Formale Repräsentation prosodischer Konstituenten 5.1.1. Phonem 5.1.2. Silbe 5.1.3. Fuß 5.1.4. Phonologisches Wort 5.1.5 Phonologische Phrase 5.2. Formale Repräsentation prosodischer Merkmale 5.2.1. Akzent 5.2.2. Intonation 5.2.3. Quantität und Junktur 5.3. Makroprosodische Enkodierungsprozesse im SYNPHONics-System 5.3.1. Fokus-Akzent-Abbildung 5.3.2. Die Prozesse der prosodischen Phrasierung 5.3.3. Tonale Planungsprozesse im Prosodischen Enkodierer

165 167 168 171 178 179 183 191 191 201 213 216 217 242 251

6. Die phonetische Realisierung makroprosodischer Merkmale und Strukturen

259

7. Zusammenfassung, Ausblick

267

8. Literatur

271

Danksagung

Zum Gelingen der vorliegenden Arbeit haben viele Kollegen und Freunde beigetragen, denen allen mein Dank gebührt. Ich möchte mich ganz besonders bei Christopher Habel bedanken, der mir 1990 an seinem Institut „Wissens- und Sprachverarbeitung" des Fachbereichs Informatik der Universität Hamburg den Einstieg in die Computerlinguistik ermöglicht hat und die Entstehung dieser Arbeit betreute. Seine Anregungen und Hinweise haben entscheidend zum Gelingen dieses Werkes beigetragen. Richard Wiese, Wolfgang Menzel und Stephanie Kelter haben mir in zahlreichen Diskussionen bei der Betreuung dieses Vorhabens wichtige Einsichten in den Themenbereich vermittelt. Ganz besonderer Dank gilt auch meinen Mitstreiterinnen und Mitstreitern im Projekt SYNPHONICS Claudia Maienborn, Andrea Schopp, Ingo Schröder, Soenke Ziesche, Bernd Abb, Susanne Abeln, Uta Arnold, Michael Herweg, Andreas Niemeyer und Kai Lebeth. Sie haben in vielen Gesprächen und Kommentaren entscheidend diese Arbeit geprägt und mir Rückhalt in der Zeit der Abfassung gegeben. Wichtige Anregungen habe ich in Gesprächen zu Fragestellungen dieser Arbeit von Anton Batliner, Kai Alter, Markus Walther, Carlos Gussenhoven und Diane Hirschfeld erhalten. Danken möchte ich auch Karin Gramsch und Shirin Bakhtari für ihre persönliche Unterstützung. Schließlich möchte ich mich bei meiner Familie bedanken, die in so wundervoller Weise diese Arbeit mitgetragen und auf viele Stunden gemeinsamen Familienlebens verzichtet hat.

1. Einleitung „ Unser halbes Leben ist Ausdruck. " Robert Musil

Kommunikation beruht auf dem Sich-Ausdrücken-Können — eine Fähigkeit, die gestisch, mimisch und sprachlich realisiert werden kann. Zum sprachlichen Ausdruck gehört nicht nur die Wahl der adäquaten Worte und Satzkonstruktionen, auch der richtige „Ton" muß gefunden werden. Es gilt, in Angemessenheit zur Kommunikationssituation und unter Berücksichtigung des Informationswertes der zu übermittelnden Nachricht, langsam oder schnell, laut oder leise, mit hoher oder tiefer Stimme zu sprechen. Dieser Forderung nach Ausdruck haben beide Partner in einer Kommunikationssituation nachzukommen. Tritt nun an die Stelle des Dialogpartners eine Maschine und wollen wir mit dieser lautsprachlich kommunizieren, so stellen wir an ihre Äußerungen ebenso die Forderung nach Ausdruck — nach adäquater Rhythmik und Melodik in der künstlichen Stimme. Dieser Anforderung gerecht zu werden, stellt eine der größten Herausforderungen an die Disziplinen, die mit der Konstruktion lautsprachlicher Systeme befaßt sind, dar. Gegenwärtig vollzieht die wissensbasierte maschinelle Sprachverarbeitung, ein Teilgebiet der Künstlichen Intelligenz (KI), den Schritt von der Verarbeitung geschriebener Sprache zur Verarbeitung gesprochener Sprache, der aufgrund der Entwicklung der Computertechnik und der theoretischen Durchdringung sprachlicher Phänomene möglich geworden ist. Mit diesem Schritt stoßen aber zwei Welten, zum einen die der symbolischen Verarbeitung sprachlicher Zeichen und zum anderen die der arithmetischen Verarbeitung akustischer Signale, aufeinander, die bisher eher koexistiert statt kooperiert haben. Daraus ergibt sich die Formulierung völlig neuer Arbeitspakete. Zu lösen sind diese Aufgaben, vornehmlich die Herstellung eines systematischen Zusammenhangs zwischen sprachlichem Signal und sprachlichem Zeichen betreffend, im Rahmen grammatik-interner, phonologischer, phonetisch-artikulatorischer, phonetisch-akustischer und phonetisch-auditiver Forschungen unter Zuhilfenahme computerlinguistisch bewährter Repräsentationsformalismen und physikalischer Modellierungssysteme.

1.1. Zielstellung der Arbeit Ziel dieser Arbeit ist der Entwurf eines kognitiv orientierten Modells zur Generierung und lautsprachlichen Realisierung abstrakter prosodischer Merkmale und dessen computerlinguistische Umsetzung im Rahmen eines Sprachproduktionssystems. Es werden logisch fundierte und auf den Phänomenbereich abgestimmte Repräsentationsformate für prosodische Merkmale und Strukturen entwickelt. Die Erprobung der kognitiv motivierten Modellierung prosodischer Prozesse erfolgt im Rahmen einer prototypischen Implementation.

2 Hierbei verfolgt die Arbeit drei Ansätze: Erstens basieren die Architekturentscheidungen bezüglich des Prozeßmodells, insbesondere die Prozeßabfolge, die Modularisierung und die Definition der Verarbeitungseinheiten, auf Erkenntnissen der Kognitionswissenschaften und auf experimentellen Befunden der Psycholinguistik zur menschlichen Sprachproduktion. Zweitens werden zur Fundierung einer Typologie der Prosodie und der relationalen Einbindung der Prosodie in ein Strukturmodell der menschlichen Sprache Ergebnisse der theoretischen Linguistik, insbesondere aus den Bereichen der Deklarativen Phonologie, der Prosodischen Phonologie, der artikulatorisch basierten Phonetik und aus Bereichen der Schnittstellenforschung zwischen Semantik, Syntax und Phonologie, herangezogen. Drittens basieren die formalen Repräsentationen prosodischer Merkmale und Strukturen sowie die maschinellen Modellierungen prosodischer Prozesse auf Ergebnissen der computerlinguistisch orientierten „Künstliche Intelligenz"-Forschung, die insbesondere im Rahmen der Untersuchungen zu merkmals- und unifikationsbasierten Grammatikformalismen erbracht wurden. Vor dem Hintergrund der Ausrichtung der Forschung und Anwendung der Sprachverarbeitung hin zur gesprochenen Sprache liefern die derzeitig bestehenden Defizite auf den Gebieten der Theorie der Prosodie, der Modellierung prosodischer Phänomene und der computerlinguistischen Anwendung prosodischer Erkenntnisse die wesentliche Motivation für diese Arbeit. Die Defizite wiegen für eine technische Realisierung von Sprachkommunikationssystemen um so schwerer, als der Prosodie in der menschlichen Sprachkommunikation eine tragende Bedeutung zukommt, indem prosodische Konfigurationen den propositionalen Gehalt von Äußerungen mit festlegen und wesentlich an der Übertragung von Absichten und Einstellungen des Sprechers beteiligt sind. Zu den prosodischen Phänomenen sind dabei sowohl die prosodischen Merkmalsausprägungen wie Intonation, Akzentuierung, Lautdauer als auch die Phrasierung des Redeflußes in prosodische Konstituenten mittels der genannten Merkmale zu zählen. Die Prosodie, unter Berücksichtigung verschiedener möglicher Beschreibungsebenen anzusehen als Teilbereich der Phonologie und der Phonetik, wird in dieser Arbeit zum einen in ihrer Einbindung in ein Strukturmodell der menschlichen Sprache - d.h. in ihrer relationalen Beziehungen zur Semantik und zur Syntax betrachtet. Dabei erweist sich die Prosodie als ein bedeutungskonstituierendes linguistisches System mit universalen und einzelsprachlichen Phänomenen. Zum anderen wird die Prosodie im Rahmen eines Prozeßmodells der menschlichen Sprachproduktion mit der Zielstellung untersucht, prosodische Prozesse zu definieren und spezifischen Verarbeitungsebenen der Sprachproduktion zuzuordnen. Es werden prosodische Prozesse spezifiziert, die in Bezug auf semantisches, syntaktisches, lexikalisches und phonologisches Wissen eine abstrakte suprasegmentale Struktur generieren und auf diese Weise den Artikulationsprozeß parametrisieren. Eine Untersuchung und Modellierung der systematischen Beziehungen zwischen den zu übertragenden Inhalten und den damit korrelierenden Parameterverläufen im menschlichen Sprachsignal erfordert die Definition von Strukturen zur Repräsentation prosodischer Merkmale und die Erstellung eines Prinzipien- und Regelapparates zur Ableitung dieser Merkmale aus syntaktischen, semantischen und pragmatischen Strukturen. Im Rahmen dieser Arbeit werden Repräsentationen prosodischer Merkmale und Strukturen als getypte Merkmals-

3 strukturen entwickelt, die sich einpassen in die aktuellen computerlinguistischen und grammatiktheoretischen Arbeiten zu merkmalsbasierten Unifikationsformalismen. Damit werden die zu modellierenden Strukturen mittels einer formal fundierten Beschreibungssprache dargestellt. In gleicher Weise werden die Verarbeitungsphänomene im Rahmen einer ConstraintSprache mit einer definierten prozeduralen Semantik modelliert. Die Wahl einer getypten Merkmalslogik erlaubt eine einheitliche Formalisierung der hier vorgeschlagenen prosodischen Struktur- und Prozeßbeschreibungen. Über prosodische Abbildungsprinzipien werden die relationalen Abhängigkeiten zwischen semantischen und syntaktischen Merkmalen einerseits und prosodischen Merkmalen andererseits hergestellt. Dies stellt èine Erweiterung des Regelapparats aktueller zeichenbasierter Grammatiktheorien wie der HPSG dar. Insbesondere soll damit ein Beitrag geleistet werden zur Klärung des strukturellen Zusammenhangs zwischen Semantik, Syntax und Phonologie, wobei die strukturellen Betrachtungen vor dem Hintergrund ihrer prozeduralen Verarbeitung erfolgen. Um Aufschluß über den strukturellen Zusammenhang zwischen Semantik, Syntax und Phonologie zu erlangen, werden einschlägige sprachliche Phänomene wie die Modusintonation oder die Abhängigkeit zwischen Fokussierung, Wortstellung und Akzentverteilung anhand spontansprachlichen Datenmaterials analysiert und auf der Grundlage der in dieser Arbeit entwickelten linguistischen Repräsentationsformate mittels eines prinzipienbasierten Regelapparates im Rahmen eines kognitiv orientierten Prozeßmodells modelliert. Die Untersuchung und angestrebte Modellierung umfaßt dabei auch den Zusammenhang zwischen abstrakten prosodischen Merkmalen und phonetischen Realisierungen. Die kognitive Orientierung bedeutet in diesem Zusammenhang, daß Architekturentscheidungen und Datenstrukturspezifikationen für das prosodische Planungssystem unter Bezug auf Eigenschaften der menschlichen Sprachproduktion wie Inkrementalität, Modularität, Versprecherproduktion und Sprechgeschwindigkeit getroffen werden. Eine solche Sichtweise erlaubt die adäquate Modellierung ausgewählter Phänomene der menschlichen Sprachproduktion und eine eingehendere Betrachtung der Beziehungen zwischen semantischen, syntaktischen und phonologischen Planungsprozessen. Um eine kognitive Plausibilität der vorgeschlagenen prozeduralen Ausformulierung der Generierung prosodischer Merkmale zu erzielen, dient die inkrementelle Sicht als Methode in der Analyse prosodischer Phänomene. Die kognitive Orientierung in der Modellierung zielt zum einen darauf ab, ein Verarbeitungsmodell zu entwickeln, das die Grundlage für ein leistungsstarkes und flexibles Computersystem zur Sprachgenerierung und Sprachausgabe bildet. Zum anderen sollen in der Computersimulation psycholinguistische Hypothesen zum Prozeßverlauf und zu Verarbeitungseinheiten der prosodischen Enkodierung überprüft und Anregungen zur Formulierung neuer Forschungsrichtungen vermittelt werden. In dieser Arbeit wird ein Modell zur Produktion prosodischer Merkmale vorgestellt, das einerseits deren abstrakte Planung auf der Grundlage grammatischer Strukturbildung und prosodischer Prinzipien und Regeln und andererseits deren konkrete phonetische Realisierung umfaßt. Mit der Entwicklung merkmalsbasierter prosodischer Repräsentationen soll die phonologisch-phonetische

Grundlage für eine computerlinguistische

Modellierung

des

Sprachproduktionsprozesses mit einer anschließenden lautsprachlichen Ausgabe gelegt wer-

4 den. Grandzüge dieses Modells einschließlich der Repräsentationsstrukturen werden im Rahmen des computerlinguistischen Sprachproduktionssystems SYNPHONICS1 evaluiert. Es soll mit der Arbeit ein Beitrag zur Entwicklung der theoretischen Prosodie geleistet werden, indem mit der Schaffung einer einheitlichen Formalisierung prosodischer Merkmale und Strukturen die Möglichkeiten der Anwendung linguistisch, formal und kognitiv fundierter Ansätze zur Beschreibungen prosodischer Merkmale und Prozesse aufgezeigt werden. Desweiteren sollen Möglichkeiten der computerlinguistischen Modellierung expliziert werden, welche in zukünftigen Sprachausgabesystemen die Qualität und die Natürlichkeit synthetisch erzeugter Sprache wesentlich verbessern. Es sollen mit Mitteln der sprachverarbeitenden KI prosodische Phänomenbereiche modelliert werden, bei denen zur Generierung segmentübergreifender Merkmale der gesprochenen Sprache wie Tonhöhenverlauf, Dauer- und Intensitätsverhältnisse umfangreiches linguistisches Wissen genutzt wird. Eine umfassende Berücksichtigung dieser Zusammenhänge kann zu einer deutlichen Qualitätsverbesserung sprachausgebender Systeme führen. Letztendlich wird neben Performanz- und Integrationsgesichtspunkten die erreichbare Qualität (als Verstehensqualität aber auch als Korrektheit) in der Sprachausgabe die Akzeptanz der Sprachtechnologie in zukünftigen, neuen Anwendungsfeldern bestimmen.

1.2. Einordnung des Gegenstandsbereichs Sprachverarbeitung ist als ein wissensbasierter Prozeß zu begreifen und stellt einen wesentlichen Untersuchungsgegenstand des Wissenschaftszweiges Künstliche Intelligenz2 dar. Mit dieser Arbeit soll ein Beitrag zur KI-Forschung sowohl in ihrer kognitionswissenschaftlichen als auch in ihrer natur- und ingenieurwissenschaftlichen Ausrichtung geleistet werden (vgl. GENESERETH & NILSSON 1987). Zum einen sollen Konzepte weiterentwickelt und formal abgesichert werden, die das Verständnis menschlicher Sprachproduktion befördern und somit einen Beitrag zu einer umfassenden Theorie der menschlichen Intelligenz darstellen. Zum anderen soll die Modellierung der Theorie menschlicher Sprachproduktion im Rahmen der praktischen Konstruktion eines Sprachgenerierungssystems vorangetrieben werden. Die wenigen praktischen Anwendungen der maschinellen lautsprachlichen Ausgabe (Sprachsynthese) zeigen, wie unbefriedigend und eingeschränkt die bestehenden Lösungen ausgefallen sind. Einer der wesentlichen Gründe für den Mangel an Korrektheit, Verständlich-

1

Die hier vorzustellende phonologische und phonetisch Planungskomponente ist Bestandteil des Sprachproduktionssystems SYNPHONICS. Das Akronym SYNPHONICS steht für Syntactic and Phonological Realization of incrementally Generated Conceptual Structures. Dieses Sprachproduktionssystem wurde im Rahmen des von der DFG unter dem Förderzeichen HA-1237/4 geförderten Projekts „Sprachproduktion: von konzeptueller Struktur und Kontext zur prosodischen Realisierung der Bedeutung" innerhalb des DFGSchwerpunktprogramms „Kognitive Linguistik" am Fachbereich Informatik der Universität Hamburg entwickelt.

2

Für einen Überblick zu den verschiedensten Arbeitsfeldern der Künstlichen Intelligenz wie der Wissensrepräsentation, dem automatischen Beweisen, der Sprach- und Bildverarbeitung usw. s. GÖRZ (1995).

5 keit und Natürlichkeit der synthetisierten Sprache ist z.B. darin zu suchen, daß die Grundlagen bezüglich der prosodischen Merkmale und Strukturen nicht in einem ausreichenden Maße gesichert sind. Soll ein Sprachgenerierungssystem neben der schriftsprachlichen Ausgabe eine lautsprachliche Ausgabe vornehmen, ist für eine vollständige und möglichst eindeutige Übertragung der konzeptualisierten Nachricht eine phonologische und phonetische Planungskomponente nötig, die sich bei der Generierung der phonetischen Ausgabestruktur aus einer syntaktischen Oberflächenstruktur auf semantisches, syntaktisches, lexikalisches und phonologisches Wissen bezieht. Hierbei spielt insbesondere die Spezifizierung der prosodischen Merkmale eine zentrale Rolle, da sie wesentlich dazu beitragen, bestimmte Bedeutungsaspekte wie z.B. Fokussierung und Satzmodus zu übertragen. Ausgehend von einem ausgewählten Phänomenbereich der Sprachproduktion, der Generierung und Repräsentation prosodischer Merkmale und Strukturen, werden unter Rekurs auf Theorien der Deklarativen Phonologie (z.B. BIRD 1991), der constraint-basierten Phonologie (z.B. BIRD 1990) und der Prosodischen Phonologie (z.B. NESPOR & VOGEL 1986) formale

Modellierungen prosodischer Merkmale und Konstituenten vorgeschlagen. In diesem Sinne soll die Arbeit der relationalen Trichotomie (1) von Phänomen, Modell und Theorie Genüge leisten (MCDERMID & DENVIR 1991, POLLARD & SAG 1994): Ausgewählte prosodische Phänomene werden mittels mathematischer Strukturen modelliert, welche eine Interpretation einer Theorie der Prosodik darstellen. Im Rahmen einer solchen Theorie, die eine weitgehende Korrespondenz von Phänomen und Modellierung herstellt, können Vorhersagen zu prosodischen Phänomenen getroffen werden. Phänomen/Domäne \ (1)

Modell

Theorie

Diese methodisch begründete Trichotomie wird in Anbetracht des gegebenen Untersuchungsgegenstandes Sprachproduktion wiederum in ihrer phänomenbedingten Dichotomie (2) von zu verarbeitender Struktur und von verarbeitendem Prozeß zu betrachten sein.

(2)

Struktur

Prozeß

Wissen über Sprachproduktion ist zum einen deklarativ formulierbares Wissen, das die Wohlgeformtheit der zu verarbeitenden Struktur festschreibt, und zum anderen prozedurales, generierungsspezifisches Wissen, das die Ordnung und Interaktion der Prozesse spezifiziert. In diesem Sinne werden sowohl sprachstrukturbezogene Phänomene als auch sprachproduktionsprozeßbezogene Phänomene zu betrachten sein. Somit greift diese Arbeit ein in die gegenwärtige Debatte zum Zusammenhang zwischen deklarativer Grammatikbeschreibung und prozeduraler Verarbeitung. Bei der Darstellung der grammatischen Enkodierungsprozesse

6 wird insbesondere auf die Darstellung prosodierelevanter Berechnungsprozesse Wert gelegt, um die Herkunft der Informationsressourcen aufzuzeigen, auf denen prosodische Prozesse operieren. Struktur-Phänomene Eine spezifisch strukturbezogene Betrachtung der Prosodie vor dem Hintergrund der Sprachproduktion muß die prosodischen Phänomene in Relation zu den übrigen sprachlichen Ebenen und der artikulatorischen Realisierung sehen. Für eine solche Betrachtung werden in dieser Arbeit eine Typologie der im einzelnen zu planenden prosodischen Merkmale und Strukturen aufgestellt und geeignete Repräsentationen zur Modellierung dieser Merkmale und Strukturen vorgegeben. Damit wird die prosodische Grundlage für eine computerlinguistische Modellierung des Sprachproduktionsprozesses mit einer anschließenden lautsprachlichen Ausgabe bereitet. Im Zentrum der in dieser Arbeit zu betrachtenden prosodischen Struktur-Phänomene stehen: - die prosodischen Konstituenten (Silbe, Fuß, Phonologisches Wort usw.) und die prosodischen Merkmale (Intonation, Akzent, Quantität und Junktur) als die Typen der zu modellierenden linguistischen Objekte, - der Zusammenhang zwischen prosodischer Merkmalsbelegung und der semantischen Informationsgliederung (insbesondere der Fokus/Hintergrund-Gliederung), - der Zusammenhang zwischen prosodischer Phrasierung und tonaler Markierung. Eine exakte Modellierung der Domäne steht vor der besonderen Schwierigkeit, daß die prosodischen Phänomene der gesprochenen Sprache noch ungenügend untersucht sind und sehr wenige systematische Beschreibungen vorliegen. Neben der grundsätzlichen Unklarheit der systematischen, sprachübergreifenden Darstellung prosodischer Strukturen liegt ein weiteres Desiderat in der Beschreibung einzelsprachlicher prosodischer Phänomene, was insbesondere für die Prosodie des Deutschen gilt. Während das Schwedische, das Niederländische sowie das britische und amerikanische Englisch sehr umfassend untersucht wurden, begannen für das Deutsche erst in den 80er Jahren umfangreichere, systematische Untersuchungen. Hier sind an erster Stelle die Arbeiten von Forschungsprojekten zu nennen, die im Rahmen des DFG-Schwerpunktes „Formen und Funktionen der Intonation" erfolgten und die explizit eine Zusammenführung der bis dahin recht unabhängigen linguistischen und phonetischen Forschung zur Prosodie anstrebten. Außerdem sind aus jüngster Zeit die Arbeiten von UHMANN (1991), FÉRY (1992) und MÖBIUS (1993) hervorzuheben, die sich mit der Intonation des Deutschen beschäftigen. Für ein Großteil der prosodischen Phänomene und deren Ursachen steht eine überzeugende linguistische Analyse noch aus. Aufgrund dieser recht ungenügenden Phänomenanalyse ist es nicht möglich, für eine Computermodellierung prosodischer Merkmale und Prozesse im Rahmen eines Sprachproduktionssystems auf eine gesicherte und allgemein akzeptierte prosodische Theorie zurückgreifen

7 zu können. Allein schon beim Versuch einer Definition prosodischer Merkmale sind die Divergenzen oft unüberbrückbar. In dieser Arbeit wird ein Beitrag zur theoretischen Prosodie geleistet, der in der Vereinheitlichung der zugrundegelegten prosodischen Merkmale und Strukturen besteht. Hierbei ist der Blick nicht nur auf einzelne, spezielle prosodische Phänomene gerichtet, sondern das Ziel besteht in der Vereinheitlichung der Beschreibung prosodischer Merkmale und Strukturen auf einer globalen, alle Stufen der prosodischen Enkodierung betreffenden Ebene. Zur Analyse prosodischer Phänomene wird im folgenden zum einen auf Daten zurückgegriffen, die im Rahmen dieser Arbeit in auf prosodische Phänomene ausgerichteten Wegbeschreibungsexperimenten erhoben worden sind, und zum anderen auf Daten, die im Rahmen des oben genannten DFG-Schwerpunktes gewonnen worden sind (z.B. BATLINER 1994). Theorie zur Struktur Eine Theorie der Prosodie trifft Vorhersagen über mögliche prosodische Merkmale und Strukturen und deren funktionale Beziehungen zu den übrigen Komponenten der linguistischen Beschreibung. Die im Rahmen der bisher vorherrschenden Ansätze der Generativen Phonologie und der Autosegmentalen Phonologie entwickelten phonologischen Beschreibungen haben sich als sehr inhomogen und formal unscharf erwiesen.3 Im Vergleich zu den anderen Beschreibungsebenen des Sprachsystems erfuhr die Prosodie bisher weitestgehend eine informelle theoretische Beschreibung. Jedoch haben die Phänomenanalysen der jüngsten Zeit gezeigt, daß die Theorie der Prosodie sehr komplex und stark verwoben mit den anderen linguistischen Teiltheorien ist. Aus diesem Grund wird in dieser Arbeit für die vorgenommene prosodische Theorieentwicklung eine merkmalslogik-basierte Modellierung erarbeitet. Jedoch ist der erreichte Komplexitätsgrad der prosodischen Theoriebildung nicht der einzige Grund für die Notwendigkeit der Formalisierung. Ein zweiter Grund ist darin zu sehen, daß die Methodik der Computersimulation als Mittel der experimentellen Verifikation von Theorien mit der Leistungssteigerung der Computersysteme (sowohl in der Rechenleistung als auch beim Leistungsumfang wie z.B. integrierte DA-Wandlung) auch in der Prosodie-Forschung zunehmend eingesetzt wird. Die Überlegungen zur Theorie der Prosodie basieren in dieser Arbeit auf den folgenden Grundlagen: (1 Spezifikation eines Systems prosodischer Grundeinheiten im Rahmen einer Typhierarchie sowohl für abstrakte prosodische Merkmale als auch für prosodischen Konstituenten, welche die linguistischen Datenobjekte der prosodischen Enkodierung darstellen, (2)Spezifikation von Prinzipien zur prosodischen Merkmalsbelegung und Strukturbildung unter Bezug auf andere linguistische Strukturebenen und die Artikulatorebene, (3)Formalisierung der prosodischen Theorie auf der Grundlage einer getypten Merkmalslogik.

3

Für eine umfassende Kritik der nichtformalen theoretischen Beschreibungen in der Phonologie s. BIRD & LADD (1991).

8 Es wird der Ansatz der Trennung zwischen prozeduralem und deklarativem Wissen verfolgt, so daß sich diese Arbeit in die gegenwärtigen Bemühungen der Deklarativen Phonologie einordnet, den Rückstand der phonologischen Theoriebildung gegenüber der Semantik und Syntax in der deklarativen Formulierung linguistischen Wissens aufzuarbeiten. Den grammatikalischen Gesamtrahmen hierfür bildet das in der Computerlinguistik gegenwärtig vorherrschende Paradigma der unifikations- und merkmalsbasierten Entwürfe, wobei sich die Formulierung der prosodischen Prinzipien und Regeln besonders an den Arbeiten der Theorie der Head-Driven-Phrase-Structure-Grammar (HPSG, POLLARD & SAG 1987, 1994) orientiert. In der HPSG werden sprachliche Ausdrücke unter Berufung auf DE SAUSSURE als komplexe Zeichen angesehen, die phonologische, syntaktische, semantische Information sowie ggf. Kontext- und Diskursinformation beinhalten. Der zeichenbasierte Ansatz der HPSG gestattet es, systematisch über die Formulierung von Prinzipien und Regeln linguistische Information verschiedensten Typs miteinander in Relation zu setzen, so auch die semantische und die phonologische Informationspartition. In Bezug auf die Einbindung der Prosodie in die grammatische Theorie wird gewöhnlich so verfahren, daß phonologische und insbesondere prosodische Regeln nur auf syntaktische Strukturen zugreifen können. Die vorliegende Arbeit vertritt jedoch einen relationalen Ansatz, der im SYNPHONICS-Projekt ausgearbeitet wurde. Neben der üblichen Abhängigkeit zwischen Semantik und Syntax einerseits sowie Syntax und Phonologie andererseits wird hier eine dritte Relation, nämlich die zwischen Semantik und Phonologie angenommen. Somit können prosodische Prinzipien unmittelbar auf semantisches Wissen zurückgreifen, was die theoretische Erklärung z.B. der prosodischen Realisierung der Informationsgliederung wesentlich einfacher und sparsamer gestaltet. Struktur-Modell Ein Ziel dieser Arbeit besteht im Entwickeln einer merkmalsbasierten, formalen Repräsentation prosodischer Merkmale und Konstituenten. Es wird auf eine formale Sprache zurückgegriffen, die eine mathematische Überprüfbarkeit der Datenmodelle und Axiomatisierungen der Domäne zuläßt, um den Status informeller bzw. inkonsistenter Beschreibungen in der Phonologie und Prosodie sowie deren implizite Kopplung an Prozeßbedingungen wie Regelanordnung und Zwischenrepräsentationsebenen überwinden zu können. Die mathematische Modellierung prosodischer Phänomene und prosodischer Objekte erfolgt in dieser Arbeit im Rahmen eines Systems getypter Attribut-Wert-Strukturen (CARPENTER 1992). Die endliche Menge der Typsymbole ist über eine Subsumptionsrelation partiell geordnet. Auf der Grundlage einer Eins-zu-eins-Relation zeigt jede Struktur über ihren Typ an, welches prosodische Objekt sie modelliert. Außerdem sind die Merkmalsstrukturen wohl-getypt, d.h. über den Typ wird festgelegt, welche Merkmale zur Beschreibung einer Struktur zulässig sind. Aus programmiertechnischer Sicht stellen die getypten Merkmalsstrukturen einen Datentyp dar, über den die Operation der Unifikation definiert ist. Filler-SlotStrukturen sind erfolgreich in der Wissensverarbeitung als grundsätzliches Format zur Repräsentation von Wissen eingesetzt worden und haben sich in ihrer spezifischeren Form der

9 getypten Merkmalsstrukturen als geeignete Modellierungsstruktur linguistischen Wissens erwiesen. Die prosodische Grundlage für die merkmalslogische Modellierung prosodischer Objekte wird eine zuvor in dieser Arbeit vorgenommene formale Definition metrischer Strukturen, Intonationskonturen und prosodischer Konstituenten bilden. Es muß beachtet werden, daß für eine umfassende Behandlung prosodischer Phänomene zwei verschiedene Theorien und Modelle nötig sind, zum einen für die abstrakte (mit dem linguistischen System in Zusammenhang stehende) Prosodie und zum anderen für die konkrete (artikulatorisch und akustisch bezogene) Prosodie. Diese Arbeit beschränkt sich im wesentlichen auf die Problempunkte der abstrakten Prosodie und deren Relationen zum übrigen linguistischen System im Rahmen der Grammatikkonzeption der HPSG. Die Behandlung der konkreten Prosodie kann relativ unabhängig davon erfolgen. Eine ausführlichere Abhandlung würde den Rahmen dieser Arbeit sprengen, da mit den mikroprosodischen, artikulationsbedingten Aspekten neues Terrain beschritten wird. Aus diesen Gründen legt diese Arbeit ihr Hauptaugenmerk auf die abstrakte Prosodie. Im Rahmen der Standard-HPSG wird die Modellierung des phonologischen Informationsteils bisher weitgehend vernachlässigt. Sie beschränkt sich im wesentlichen auf die Liste der Phonemzeichenketten (POLLARD & SAG 1994:16) bzw. auf die Integration segmentbezogener Automatenmodelle (BIRD 1992) und der Kopplung zur Morphologiekomponente (BIRD & KLEIN 1994). Prosodische Aspekte der Modellierung und Beziehungen zu semantischen und syntaktischen Modellierungen werden vernachlässigt. Hier wird die vorliegende Arbeit eine Erweiterung und Modifizierung der bestehenden HPSG-Version vorschlagen, welche der prosodischen Strukturbildung angemessen Rechnung trägt. Prozeß-Phänomene Wie in Darstellung (2) ersichtlich, sollen die deklarativen Aspekte der Sprachproduktion von den prozeduralen Aspekten getrennt werden. Das erfordert eine gesonderte prozeßbezogene Betrachtung der Phänomen-Modell-Theorie-Relationen, wobei zu berücksichtigen ist, daß insbesondere über die prosodischen Planungsprozesse beim Menschen sehr wenig bekannt ist. Man kann jedoch die Annahme vertreten, daß sich zumindest die grundsätzlichen Eigenschaften der Sprachproduktion, die aus Untersuchungen anderer sprachlicher Prozesse bekannt sind, auf die prosodischen Prozesse übertragen lassen.4 Unter Sprachproduktion sind die kognitiven und physiologischen Prozesse der konzeptuellen Inhaltsplanung, der sprachlichen Enkodierung und der Artikulation zu verstehen, die von verschiedenen Prozeßmodulen ausgeführt werden. Ein zentrales Merkmal ist in diesem Zusammenhang die Inkrementalität des Sprachproduktionsprozesses (LEVELT 1989), was sich auf der Ebene der Prosodie darin niederschlägt, daß prosodische Prozesse im allgemeinen nur auf partiellen Strukturen statt auf vollständigen Satzstrukturen operieren. Eine wieitere Eigen-

4

Erkenntnisse zur menschlichen Sprachproduktion können gewonnen werden durch die Analyse des Spracherwerbs sowie durch die Untersuchung der gestörten und ungestörten Sprachproduktion, was die Analyse von Versprechern, von Auswirkungen verschiedener Aphasien und von elizitiert gestörten Redesituationen beinhaltet. Bzgl. einer Kritik dieser Untersuchungsmethoden siehe MEYER 1992.

10 schaft der Sprachproduktion ist die Modularität der Prozeßgestaltung. Untersuchungen von Aphasiker (z.B. KELTER 1990) zeigen den Zusammenhang zwischen Störungen bestimmter menschlicher Gehirnregionen und verschiedener sprachlicher Defekte (wie z.B. fehlerhafte syntaktische Struktur). Ebenso läßt sich zeigen, daß die Prosodie im Rahmen des menschlichen Sprachsystems ein eigenständiges Modul umfaßt. Weiterhin zeichnet sich der menschliche Sprachproduktionsapparat durch die Fähigkeit aus, Information parallel zu verarbeiten, so daß z.B. während der Artikulation von Äußerungsteilen die konzeptuelle und sprachliche Planung der folgenden Äußerungsteile erfolgt. Dieses Prozeßphänomen spiegelt sich in verschiedenen Versprecherarten wider wie z.B. in Antizipationen (z.B. SHATTUCKHUFNAGEL 1979). Diese generellen Prozeßeigenschaften der Sprachproduktion bilden die Grundlage für den in dieser Arbeit vorgenommenen Prozeßentwurf der prosodischen Enkodierung. Theorie zu Prozessen der Sprachproduktion Die vorliegendende Arbeit ist den Theorievorstellungen zur Sprachproduktion von LEVELT (1989) verpflichtet, die auf psycholinguistischen Untersuchungen zur Sprachproduktion beruhen. Diese den modularen Systemansätzen zuzurechnende Theorie stellt die gegenwärtig elaborierteste Erklärung menschlicher Sprachproduktion dar und umfaßt die Produktionsebenen von der konzeptuellen Planung bis zur Artikulation. Der Sprachproduktionsprozeß des Menschen läßt sich aufgrund von psycholinguistischen Untersuchungsergebnissen in die Prozesse der Konzeptualisierung, Formulierung und Artikulation gliedern (wobei zusätzlich noch Monitoring-Prozesse während der Konzeptualisierung und über den gesamten Produktionsprozeß ablaufen). Nach LEVELT umfaßt der Formulierungsprozeß die syntaktische und die phonologische Enkodierung. Die phonologische Planung umfaßt das Herstellen phonologischer Strukturen, d.h. Prozesse auf segmentaler und auf suprasegmentaler Ebene. Zu den suprasegmentalen Planungsprozessen gehören neben Prozessen wie z.B. der Assimilation vor allem die prosodischen Prozesse. Dabei erweist sich die Prosodie als ein bedeutungskonstituierendes linguistisches System mit universalen und einzelsprachlichen Phänomenen. Das prosodische System bildet eine Vielzahl linguistischer Funktionen auf konkrete akustische Parameter ab. Im Rahmen dieser Arbeit wird die Interaktion der phonologischen Regeln mit einer Reihe von Beschränkungen semantischen, syntaktischen und lexikalischen Ursprungs näher untersucht. Die relevanten Bedingungen für die ins Auge gefaßten prosodischen Phänomen werden den jeweiligen Struktur- und Prozeßebenen zugeordnet. Die phonologische Planungskomponente als Schnittstellenkomponente zwischen Sprachsystem und physiologischem Apparat überführt kognitive sprachliche Strukturen in eine kognitive phonetische Struktur, die die Grundlage für ein motorisches Programm bildet. Die Artikulatorkomponente setzt diese phonetische Struktur (phonetischer Plan) in entsprechende neuromotorische Reize (Muskelreize) um, wodurch die lautsprachliche Äußerung erzeugt wird. Kontextabhängige Beeinflussungen zwischen adjazenten Segmenten hinsichtlich Artikulationsstelle und -art (und auch die Kompensation krankheits- und mißbildungsbedingter

11 Dysfunktionen und Verformungen des Kiefer- und Gesichtsbereiches) werden erst unmittelbar im motorischen System berücksichtigt. Phonologische Planungsprozesse umfassen lexikalische und postlexikalische morpho-phonologische, segmentale und suprasegmentale Prozesse und lassen sich aufgrund ihrer Schnittstellenfunktion innerhalb des Sprachsystems wie folgt gliedern: - Abbildung komplexer pragmatischer, semantischer, syntaktischer und morphologischer Strukturen auf phonologische Strukturen; - Modifikation phonologischer Strukturen auf segmentaler und suprasegmentaler Ebene unter Anwendung des phonologischen Regelwissens; - Abbildung der abstrakten phonologischen Struktur auf eine konkrete phonetische, segmental und prosodisch parametrisierte Ausgabestruktur (phonetischer Plan). Prozeß-Modell Eine Möglichkeit der Überprüfung der theoretischen Annahmen zur Sprachproduktion besteht in einer Computersimulation des Produktionsprozesses. Jedoch ist dieser Weg bisher kaum beschritten worden. Computerlinguistische Modellierungen liegen nur zu ausgewählten Teilbereichen der Sprachproduktion vor, so z.B. zur syntaktischen Enkodierung (z.B. KEMPEN & HOENKAMP 1982,1987; DE SMEDT 1990a) bzw. zur segmentalen phonologischen Enkodierung (ROELOFS 1994). Jedoch bildete die Integration von Erkenntnissen der theoretischen Linguistik nicht den Schwerpunkt dieser Modellierungen. Eine erste, umfassende Modellierung des Sprachproduktionsprozesses von der konzeptuellen Planung bis zur lautsprachlichen Ausgabe bildet den Gegenstand des SYNPHONICS-Projekts. Die computerlinguistische Modellierung erfolgt mit der Zielrichtung, aktuelle Analyse- und Repräsentationsvorschläge der theoretischen Linguistik auf den Gebieten Semantik, Syntax und Phonologie und empirische psycholinguistische Befunde zur Prozeßcharakterisik menschlicher Sprachproduktion miteinander zu verbinden und auf der Grundlage logikbasierter computerlinguistischer Beschreibungsformalismen zu modellieren. Gegenstand dieser Arbeit ist es, die Modellierung der prosodischen Planungsprozesse für das Sprachproduktionssystem SYNPHONICS zu entwerfen. Hierbei werden gemäß der intendierten Trennung von deklarativem und prozeduralem Wissen die Struktur- und die Prozeßmodellierung sowohl getrennt als auch in ihrer Interaktion untersucht. So soll in dieser Arbeit untersucht werden, inwieweit die prosodische Strukturierung vom Sprachproduktionsprozeß beeinflußt wird und man prosodische Strukturen als performanzabhängige Strukturen ansehen kann. Insbesondere wird im folgenden die Inkrementalität als generelle Prozeßeigenschaft der prosodischen Enkodierung im Zentrum der Beschreibung und Modellierung stehen. Dieser Gesichtspunkt erfordert sowohl eine Neuformulierung prosodischer Regeln als auch deren explizite Einordnung in den Sprachproduktionsprozeß, während in bisherigen Ansätzen der prosodischen Regelformulierung von vollständig spezifizierten, meist satzwertigen Strukturen ausgegangen wird und selten Aussagen über den Zeitpunkt der Regelanwendung getroffen werden.

12 Beobachtbar ist ein große Varianz der prosodischen Phrasierung. Ausgehend davon werde ich dafür argumentieren, diese Varianz auch als prozeßbedingt zu betrachten, statt eine reine Strukturabhängigkeit vorzusehen. Eine Zielstellung der vorliegenden Arbeit besteht darin, unter Beachtung der Dichotomie von Struktur- und Prozeßmodell die prosodischen Strukturanforderungen in der Art zu formulieren, daß damit für die zu entwerfenden Prozesse keine Restriktionen verbunden sind, für die sich keine psycholinguistischen Evidenzen finden lassen.

13

1.3. Überblick über die Arbeit Zum Abschluß der einführenden Bemerkungen soll ein kurzer Überblick über die Gliederung der Arbeit gegeben werden. Im nächsten Kapitel wird zunächst der Begriff der Prosodie näher bestimmt. Im Anschluß daran werden zur Einführung in die Domäne der prosodischen Planung eine Reihe prosodischer Phänomene beschrieben und einer funktionalen Analyse im Hinblick eines Ausdrucksmittels in sprachlichen Kommunikationssituationen unterzogen. Anhand dieser Analyse soll die komplexe Abhängigkeit der prosodischen Merkmals- und Strukturausprägungen von den übrigen linguistischen Wissensquellen systematisiert werden. Im dritten Kapitel stehen die sprachsystemimmanenten, strukturell bedingten Aspekte der Prosodie im Vordergrund. Es erfolgt die Beschreibung der prosodischen Merkmale unter Beachtung ihrer phonologischen, artikulatorischen, akustischen und auditiven Dimension. Die darauf folgende Erörterung der prosodischen Konstituentenhierarchie bildet die Grundlage für die Festlegung der Domänen, auf die sich die jeweiligen prosodischen Merkmalsbeschreibungen beziehen. Es werden formale Definitionen metrischer Strukturen, Intonationskonturen und der prosodischen Konstituentenhierarchie entwickelt. Außerdem werden mikroprosodische Effekte vorgestellt, die in den artikulatorischen Beschränkungen zur Bildung der jeweiligen Laute begründet liegen und die Natürlichkeit synthetisch erzeugter Sprache erhöhen können. Aus den Überlegungen ergibt sich eine Präzisierung und teilweise Revision des bestehenden Prosodiebegriffs. Vor diesem Hindergrund wird zum Abschluß des dritten Kapitels der Begriff der Prosodie neu definiert, wie er im Rahmen dieser Arbeit zu verstehen sein soll. Das vierte Kapitel ist den Prozeßgesichtspunkten der prosodischen Spezifizierung einer Äußerung gewidmet. Im Rahmen dieses Kapitels wird ein komplexes Modell zum Zusammenhang zwischen Sprachproduktion und Prosodie entwickelt. Die Zielstellung besteht darin, prosodischen Berechnungsprozessen, die im Verlauf der Produktion einer Äußerung stattfinden, eine definierte Prozeßebene zuzuweisen und die Berechnungsergebnisse miteinander in Beziehung zu setzen. Zunächst wird das Sprachproduktionsmodell von LEVELT (1989) vorgestellt, das den Rahmen für die Prozeßmodellierungen vorgibt, die in dieser Arbeit vorgeschlagen werden. Daran schließt sich die Beschreibung des Sprachproduktionssystems SYNPHONICS an, in das die hier vorgeschlagene Modellierung prosodischer Merkmale und Prozesse integriert ist. Diese Darstellung beinhaltet die Präsentation der wesentlichen Prozeßeigenschaften und der Systemarchitektur der Modellierung. Es werden die einzelnen Prozeßebenen vorgestellt und die entsprechend stattfindenden prosodischen Prozesse beschrieben. Bei der Darstellung der grammatischen Enkodierungsprozesse wird insbesondere auf die Darstellung prosodierelevanter Berechnungsprozesse Wert gelegt, um die Herkunft der Informationsressourcen aufzuzeigen, auf denen prosodische Prozesse operieren. Im fünften Kapitel werden formale Modellierungen für prosodische Konstituentenstrukturen, Merkmale, Regeln und Prozesse vorgestellt. Die Modellierungen bauen auf einem merkmalsbasierten, getypten Repräsentationsformat auf. Es werden Prinzipien zur Modellierung der Abbildung semantischer Strukturkonstellationen auf prosodische Merkmale und

14 syntaktischer Strukturkomplexe auf prosodische Konstituenten entwickelt. Durch die eingenommene strenge Prozeßsicht auf prosodische Phänomene und Struktureinheiten, läßt sich eine systematischere Abbildung semantischer und syntaktischer Konstellationen auf prosodische Merkmals- und Strukturausprägungen konzipieren. Die Überprüfung der getroffenen Strukturannahmen erfolgt in einem expliziten Prozeßmodell. Das sechste Kapitel skizziert die phonetisch-artikulatorische und akustische Realisierung prosodisch spezifizierter Äußerungen. Es werden exemplarisch die Abbildung phonologischer Strukturen auf artikulatorische Strukturen, die Sprachrhythmusplanung und die Grundfrequenzkonturberechnung beschrieben um den Zusammenhang zwischen den abstrakt geplanten prosodischen Merkmalen und Konstituentenstrukturen und den entsprechenden phonetischen Realisierungen herzustellen.

2. Grundlagen

Der Begriff der Prosodie hat bis heute noch keine eindeutige und allgemein anerkannte Definition gefunden. Auch wenn der Gebrauch dieses Begriffs bis in die griechische Antike zurückverfolgt werden kann, muß noch heute am Anfang einer Arbeit zum Phänomenbereich der Prosodie definiert werden, was im folgenden unter dem Begriff der Prosodie im einzelnen zu verstehen sein soll, über welche Phänomene der gesprochenen Sprache abstrahiert wird, um dessen Extension zu liefern, und mit Hilfe welcher Merkmale dieser Begriff festgelegt wird, um dessen Intension zu liefern. Es muß sich, gemäß der Zielstellung dieser Arbeit, nachfolgend die Prosodie einer weitergehenden Betrachtung stellen als z.B. in den Arbeiten von NÖTH (1990), UHMANN (1991), IDSARDI (1992) oder MÖBIUS (1993), da hier prosodische Phänomene mit Blick auf ihre Stellung innerhalb des gesamten Sprachsystems und im Rahmen eines umfassenden Prozeßmodells zur Sprachproduktion betrachtet werden sollen. Somit rücken die Verankerung der Prosodie in all ihren Merkmals- und Strukturausprägungen im Sprachsystem, die konkrete phonetisch-artikulatorische Realisierung abstrakter prosodischer Merkmale und vor allem die Prozesse der prosodischen Merkmals- und Strukturplanung auf den verschiedenen Ebenen der Sprachproduktion ins Blickfeld. Zu Beginn dieses Kapitels soll zur Feststellung der verschiedenen Bedeutungsbelegungen eine Analyse des Begriffs der Prosodie erfolgen. Im Anschluß daran werden in einer systematisierenden Zusammenstellung prosodische Phänomene und deren Stellenwert im sprachlichen Gesamtsystem vorgestellt. Diese Analyse des prosodischen Phänomenbereichs soll die komplexen Abhängigkeiten zwischen der Prosodie und dem übrigen Sprachsystem verdeutlichen, um die Aufgaben abzustecken, die an eine prosodische Planungskomponente im Rahmen eines Sprachproduktionssystems zu stellen sind.

2.1. Zum Begriff der Prosodie Zurückverfolgen läßt sich der Gebrauch des Begriffs der Prosodie bis in die griechische Antike.1 Damals hatte der Terminus Prosodie (προσωδία) 2 noch eine klar umrissene Bedeutung und bezeichnete die Sprachmelodie, den melodischen Akzent, über vollen Worten des Altgriechischen, wobei diese melodischen Akzente in der Schriftsprache nicht notiert worden waren. Erst nachdem das klassische Griechisch von immer weniger Menschen aktiv gebraucht wurde, ist es zum Zwecke der Vermeidung von Ambiguitäten bei der Interpretation klassischer Texte notwendig geworden, die Prosodie in der Schriftsprache zu notieren. Aus diesem Grund entwickelte der alexandrinische Philologe und Begründer der wissenschaftlichen

1

Für eine umfassende diachronische Darstellung der Verwendung des Begriffs Prosodie sei auf ALLEN (1973) verwiesen.

2

Wörtliche Übersetzung: Pros-odie = Beigesang (προσ- = hinzu; ωδη = Gesang, Lied; WITTSTOCK 1980).

16 Lexikographie ARISTOPHANES VON BYZANZ (250-180 ν. Chr.) eine schriftsprachlich fixierte Notation für die griechischen Akzente (auch Prosodien genannt): Acutus (') für Hochton, Gravis C) für den Tiefton und Circumflex (Λ) für die Tonfolge Hoch-Tief; JENSEN (1984).3 Eine erste Erweiterung im Gebrauch des Prosodiebegriffs läßt sich auf den späthellenistischen Grammatiker DLONYSLOS, „DER THRAKER" (2Jhd. v. Chr.) zurückführen, der erstmals mit dem Begriff Prosodie auch die Phänomene der Aspiration und Vokallänge bezeichnete. Diese Begriffserweiterung manifestierte sich schließlich im Werk „Allgemeine Prosodie" des Grammatikers HERODIAN (2Jhd. n. Chr.), in welchem er das altgriechische Akzentsystem und die Vokalquantitäten beschreibt. Im 4. Jhd. wurde der Begriff Prosodie noch um die schriftsprachlichen Markierungen für Junktur und Disjunktur (Apostroph, Komma, Ligatur) erweitert, die beim Lesen das Setzen von Pausen und die Intonation steuern sollten. Somit subsumierte der Begriff der Prosodie erstmals neben den Prosodien des Wortes auch die der Phrase bzw. des Satzes. Auch im Gebrauch der Prosodienotationen vollzog sich in der ausklingenden Antike ein grundsätzlicher Wandel. Der disambiguierende Charakter des Einsatzes der Akzent- und Aspirationsmarkierungen wich einer grundsätzlichen Annotation in der Schriftsprache. Ein völliger Wandel der Bedeutung der Prosodie läßt sich seit der Renaissance nachweisen. LINDLEY MURRAY definierte in seiner „English Grammar" (18163) Prosodie nicht als ein Phänomen, sondern als ein Teilgebiet der Geisteswissenschaften, als die Lehre von der korrekten Aussprache der Worte (Akzent, Quantität, Emphase, Pause, Ton betreffend) und von den Gesetzen des Versbaus4. Von da an wurde Prosodie vornehmlich mit den metrischen Aspekten der Sprache, insbesondere der poetischen Sprache, gleichgesetzt, was noch bis in heutige Definitionen des Begriffs Prosodie hineinwirkt.5 Der melodische Aspekt blieb im Gegensatz zum metrischen, poetikbezogenen Aspekt der Prosodie mit wenigen Ausnahmen6 weitgehend unbehandelt. Erst in den 30er und 40er Jahren dieses Jahrhunderts, mit dem Aufkommen der Deskriptiven Linguistik im Rahmen des amerikanischen Strukturalismus und der Prager Schule, wurden wieder die Dauer-, Ton- und Intensitätsphänomene in ihrer Gesamtheit als prosodische Merkmale betrachtet. BLOCH & TRAGER (1942) definieren Quantität (sowie Lautdauer), Akzent (hier: stress) (sowie Lautheit) und Intonation (sowie Tonhöhe) als prosodische Merkmale und verweisen in dieser Definition erstmals sowohl auf die produktive als auch auf die perzeptive Dimension der Prosodie. Auch TRUBETZKOY definiert Intensität, Quantität und Tonhöhe sowie die Pause als prosodische 3

ARISTOPHANES VON BYZANZ führte ebenso die Quantitäts- und Interpunktionszeichen ein.

4

Das Herstellen der Beziehung zwischen den Prinzipien des Versbaus und der ursprünglichen Bedeutung von Prosodie beruht darauf, daß zur damaligen Zeit vornehmlich der klassische griechische und lateinische Versbau analysiert wurde, dessen Gerüst ja gerade auf dem prosodischen Merkmal der Quantität beruht.

5

Siehe ARNDT 1968:91: „Prosodie: Lehre von der Behandlung der Sprache im Vers" und BOLLOBÁS 1986:13:,frosody, the study of versification, [...]". Im Rahmen dieser Arbeit sollen die spezifischen, prosodischen Gesetzmäßigkeiten der poetischen Sprache keine weitere Beachtung finden. Eine systemtheoretische Analyse des Zusammenhangs zwischen der Grammatik und dem poetischen System einer Sprache findet sich in BIERWISCH (1969).

6

Einschlägig für Fragen der Sprachmelodie sind z.B. die Arbeiten von STEELE: An essy towards establishing the melody and measure of speech (1775) und SWEET: A New English Grammar (1891) relevant.

17 Merkmale, geht dann sogar einen Schritt weiter, indem er mit der Silbe und der More7 explizit prosodische Struktureinheiten definiert, welche er als Prosodeme bezeichnet (TRUBETZKOY 1939/1989:179). Umfangreiche Arbeiten zu prosodischen Aspekten der Sprache wurden Mitte dieses Jahrhunderts (1935-1965) von der „Londoner Schule" geleistet, welche auf das antike Verständnis von Prosodie zuriickgriff (FlRTH 1948) und wesentlich weiterentwickelte. Deren prominentester Vertreter, J. R. FlRTH8, definierte diejenigen phonologischen Einheiten als Prosodien, welche in einer syntagmatischen, strukturbezogenen Relation zu anderen phonologischen Einheiten stehen. Die im Rahmen dieser Schule entwickelte Methode der prosodischen Analyse stand zur damaligen Zeit insbesondere in Opposition zur gängigen phonemischen Analyse, wo nur die segmentalen, phonomatischen Merkmale in ihrem paradigmatischen Kontext untersucht wurden. Prosodien im FlRTHianschen Sinne beziehen sich als abstrakte phonologische Merkmale auf Strukturdomänen wie Silben und Worte und erfahren eine struktur- und kontextabhängige phonetische Interpretation als phonetische Exponenten (exponency) der phonologischen Merkmale. In diesem Sinne werden Vokalharmonie (wie z.B. im Türkischen oder Ungarischen) oder die Retroflexion im Sanskrit sowie die diachronische Dissimilation von Aspiranten („Grassmann 's Law" im Sanskrit und Griechischen) als wortprosodische Phänomene behandelt, indem z.B. die vokalischen Artikulationsarten vorn vs. hinten und rund vs. nicht-rund eine Kategorisierung als Wort-Prosodien erfahren. Ebenso werden Prozesse zur Markierung von Grenzen solcher Einheiten wie z.B. im Deutschen das strukturbedingte Einfügen des Glottisschlags, der im Deutschen keinen phonematischen Status hat, als prosodisches Phänomen behandelt. Prosodien9 im FlRTHianschen Sinne (z.B. Aspiration, Friktion, Retroflexion) sind nicht an ein Kontinuum ihrer phonetischen Realisierung gebunden, sondern werden als abstrakte Merkmale einer Domäne zugewiesen, wo sie sich kontextabhängig als phonetische Exponenten realisieren. Die Grundlage jeglicher phonologischer Analyse ist dabei das phonetische Material, für das eine adäquate abstrahierende Beschreibung gefunden werden muß. Als Beschreibungsebenen stehen nur eine phonologische und eine phonetische zur Verfügung, da im Rahmen der FlRTHianschen Analyse auf phonologische Derivationsstufen verzichtet wird. In ihrer Suche nach invarianten phonologischen Beschreibungen, die sich von nicht-monotonen Struktur- oder Merkmalsänderungen lossagt, kann man sie als einen frühen Vorläufer der heutigen Deklarativen Phonologie bezeichnen (vgl. OGDEN 1993). Außerdem wird im FlRTHianschen Ansatz der Versuch unternommen, konsequent die Prosodien in das grammatische Gesamtsystem der Sprache einzuordnen, indem eine einheitliche linguistische Beschreibung zur Herstellung der „Kongruenz der Ebenen" (congruence of levels) angestrebt wurde, die Semantik, Syntax und Phonologie in

7

Die More (lat. mora = Zeitraum) ist die phonologische Meßeinheit für kurze Silben (Vokal + max. ein Konsonant) und dient u.a. als Grundlage für die Bestimmung des Silbengewichts (s.u.).

8

Von seinem Namen wurden auch „FIRTHiansche Phonologie" bzw. „FIRTHiansche Prosodische Analyse" als Synonyme für die „Londoner Schule" abgeleitet.

9

Hier zeigt sich die Problematik der ambigen Verwendung des Terminus „Prosodie", da dieser Terminus zur Bezeichnung eines ganzen Forschungsfeldes, abstrakter phonologischer Merkmale, konkreter phonetischer Parameter, phonologischer Prozesse und phonologischer Struktureinheiten verwendet wird.

18 Beziehung setzt; eine Vorstellung, die sich in aktuellen, zeichenbasierten Grammatikkonzeptionen wie der HPSG ( P O L L A R D & SAG 1 9 9 4 ) wiederfindet. Das phonetische Phänomen ist in dieser Sichtweise der Exponent, d.h. die konkrete, strukturabhängige Realisierung grammatischer Kategorien. Eine nochmalige, phänomenbezogene Erweiterung erfuhr der Begriff der Prosodie bei C R Y S T A L ( 1 9 6 9 ) , der zusätzlich neben der Pause Sprechtempo und Rhythmizität zu den prosodischen Merkmalen zählt. Im Rahmen des amerikanischen Deskriptivismus wurde synonym zum Terminus „prosodisches Merkmal" der Terminus „suprasegmentales" Merkmal eingeführt (s. L E H I S T E 1 9 7 0 ) . Jedoch konnten mit diesem neuen Terminus weder die Divergenzen hinsichtlich der zu erfassenden lautsprachlichen Phänomene noch eine exaktere Begriffsdefinition erreicht werden. Zudem ist die angebliche Synonymie von Prosodien und Suprasegmentalia nur unter dem strukturalistischen Ansatz gegeben, wo man bestrebt war, die kontinuierliche Lautgestalt eines linguistischen Zeichens in einzelne distinktive Elemente zu segmentieren und die zwischen ihnen bestehenden syntagmatischen und paradigmatischen Relationen anzugeben.10 Da sich jedoch nicht alle Phänomene innerhalb der Domäne einzelner Segmente beschreiben lassen, wurde eine segmentübergreifende Ebene, eben die suprasegmentale Ebene, postuliert (HAMP 1 9 5 7 ) . Allerdings führt der bloße Bezug auf eine segmentübergreifende Domäne bestimmter lautlicher Eigenschaften noch zu keiner exakteren Spezifizierung und Abgrenzung, s. auch L E H I S T E ( 1 9 7 0 ) . Intonationsmerkmale beispielsweise könnten nicht als suprasegmentales Merkmal erfaßt werden, sobald das Merkmal nur über einem Segment realisiert wird (etwa der Grundfrequenzverlauf nur über dem Vokal als Intonation über einer Silbe mit stimmlosen Konsonanten an den Silbenrändern). Es müßten andererseits zusätzlich Merkmale als suprasegmentale Merkmale klassifiziert werden, nur weil sie sich über mehr als ein Segment erstrecken (z.B. die durch Koartikulation bedingte Nasalität bei benachbarten Segmenten oder die bloße Stimmhaftigkeit aufeinanderfolgender stimmhafter Segmente). Jedoch kommt L E H I S T E über die Angabe von Ausschlußbedingungen auch nur zu einer Definition, die suprasegmentale Merkmale als den inhärenten, segmentalen Merkmalen überlagerte bestimmt. Sie definiert die suprasegmentalen Merkmale als Merkmale:„w/iose arrangement in contrastive patterns in the time dimension is not restricted to single segments defined by their phonetic quality (i.e., distribution of energy in the frequency dimension)" ( L E H I S T E 1 9 7 0 : 2 f.). Dieser Definition der Prosodie, die prosodische Merkmale als strukturungebundene, den segmentalen Eigenschaften überlagerte Merkmale versteht, setzt die Britischen Schule eine im Rahmen einer hierarchisch orientierten Analyse gewonnene Definition der Prosodie entgegen, die explizit auf die prosodische Struktureinheit der Silbe als kleinstmögliche prosodische Domäne verweist ( C R Y S T A L 1 9 6 9 , C O U P E R - K U H L E N 1 9 8 6 ) . Ohne explizit eine Definition der Prosodie anzugeben, ordnet B I E R W I S C H ( 1 9 6 6 ) erstmals systematisch das Intonationssystem in eine Grammatikkonzeption ein, hier speziell in die der generativen Grammatik. B l E R W I S C H s prosodisches System als Teilsystem der Phonologie besteht aus Akzentuierungs-, Phrasierungs- und Intonationsregeln, über die ausgehend von der 10

Z . B . m i t t e l s d e r M e t h o d e d e s D i s t r i b u t i o n a l i s m u s (HARRIS 1951).

19 syntaktischen Konstituentenstruktur und von syntaktischen Intonationsmarkem die phonetische Realisierung in Form des Frequenzverlaufs, der Amplitude, der Lautdauer und der Pausen abgeleitet wird. Unter Berufung auf den FlRTHianschen Prosodie-Begriff schlägt TLLLMANN (1980) vor, den dynamischen Ablauf einer lautsprachlichen Äußerung in Abhängigkeit einzelner Phänomendomänen als A-, B- und C-Prosodien (s.u.) zu bezeichnen, die auch untereinander in relationaler Abhängigkeit stehen. Dabei kritisiert er explizit die als zu statisch angesehene Ausrichtung einer phonetischen Analyse, die mit dem Begriffspaar des Lautsegments und der überlagerten suprasegmentalen Einheit operiert und so der Dynamik phonetischer Ereignisse nicht gerecht werden kann. Als zentralen Referenzpunkt zur Bildung der Domänen der verschiedenen Prosodien und zur Vermittlung zwischen den Prosodien setzt TLLLMANN die Silbe an. Zur Α-Prosodie, die in direkter Beziehung zur semantischen und pragmatischen Äußerungsstruktur steht, sind die globalen, silbenübergreifenden intonatorischen und akzentuierungsgradabhängigen, rhythmischen Phänomene einer Äußerung zu zählen. Die B-Prosodie umfaßt die Phänomene der über Akzentuierung gesteuerten Ausprägung der vokalischen Silbenkerne. Die C-Prosodie beschreibt schließlich die Phänomene, welche die über Koartikulation und Steuerung" hergestellte Wohlartikuliertheit zwischenvokalischer Konsonantenverbindungen charakterisieren. TERNES (1987) bezeichnet die Merkmale Quantität, Intensität und Tonbewegung als suprasegmentale Merkmale und argumentiert explizit gegen die Verwendung des Begriffs der Prosodie, da dieser seiner Meinung nach unmittelbar mit der linguistischen Schule von FIRTH in Zusammenhang gebracht wird. Er kann seiner intendierten Theorieneutralität jedoch nicht gerecht werden, da die Bezeichnung „Suprasegmentalia" wiederum unmittelbar eine Verbindung zum Amerikanischen Strukturalismus impliziert. Eine umfassende und in ihrer Formulierung allgemeingültige Definition des Begriffs der Prosodie findet sich schließlich bei ABRAHAM (1988:647). ABRAHAM sieht die Prosodie als ein Teilgebiet der systematischen Phonologie an, das „sich über die einzelnen Phoneme hinweg mit deren akzentuellen und intonatorischen Eigenschaften in Einheiten wie Moren, Silben, Wörtern, syntaktischen Konstituenten und Sätzen beschäftigt." Außerdem verweist er auf den Charakter der Prosodie als eine „verbindende Beschreibungskomponente zwischen Phonologie und Syntax", indem mit Hilfe der prosodischen Merkmale Akzent, Intonation, Dauer und Lautstärke die genannten linguistischen Struktureinheiten „gegeneinander systematisch abgegrenzt und intern strukturiert" werden. Zum Abschluß des kurzen Abrisses der doch recht widersprüchlichen Begriffsbildung zur Prosodie ist festzuhalten, daß Prosodie grundsätzlich nur mit dem grammatischen bzw. dem poetischen System der Sprache in Zusammenhang gebracht wird. Neben den linguistisch bedingten stimmlichen Beeinflußungen der Sprache sind noch außer-linguistische stimmliche

11

Unter Koartikulation ist die antizipatorische, vom nachfolgenden Vokal beeinflußte konsonantische Artikulation zu verstehen (z.B. o-ko). Mit Steuerung ist die Beeinflussung der vokalischen Artikulation durch den nachfolgenden Konsonanten gemeint (z.B. op-o) (MENZERATH & DE LACERDA 1933).

20 Besonderheiten zu nennen, die sich in denselben Signalparametern (z.B. Grundfrequenz, Intensität) manifestieren und aus diesem Grund einer klar umrissenen Abgrenzung bedürfen. Zum einen sind hier nicht-linguistische Phänomene einzuordnen, die physiologisch dauerhaft bedingt sind (z.B. das persönliche Lautfrequenzspektrum) oder die momentane physiologisch bedingte Reflexe des Stimmapparates darstellen (z.B. Husten und Niesen). Zum anderen sind hierzu aber auch paralinguistische Phänomene der Stimmbeeinflussung zu zählen (s. CRYSTAL 1 9 6 9 : 1 3 3 - 1 3 8 , LAVER 1980), b e i d e n e n t e m p o r ä r d e r V o k a l t r a k t o d e r d i e S t i m m -

lippen in eine bestimmte Position gebracht werden (Flüsterstimme, Fistelstimme, Knarrstimme - voice qualifiers genannt) oder wo zusätzliche Atemstöße die Stimmgebung modifizieren (z.B. zum Erzeugen von Lachen, Kichern, Schluchzen, Seufzen - voice qualifications genannt). Diese nicht-linguistischen und paralinguistischen segmentübergreifenden Aspekte der Stimmgebung werden in der hier vorliegenden Arbeit ausgeblendet. Die Behandlung prosodischer Aspekte der Sprachproduktion wird sich auf deren linguistische Funktionalität beschränken. Bevor ich eine eigene Begriffsbestimmung der Prosodie vornehme, soll deshalb die funktionale Einbindung prosodischer Merkmale in das Sprachsystem näher betrachtet werden. Halten wir an dieser Stelle zunächst fest: als prosodische Merkmale werden im folgenden - Akzent, - Intonation, - Quantität und - Junktur (d.h. Grenzsignale wie Pausen und Lautdauer) angesehen. Im Kern handelt es sich bei diesen Merkmalen um Merkmale der Lautbildung, die auf den am wenigsten spezialisierten Aktivitäten des menschlichen Stimmapparates beruhen (ALLEN 1973:12), der phonatorischen Anstrengung, der Schwingfrequenz der Stimmlippen und der Dauer der Lautbildung. Diese Merkmale zeichnen sich außerdem durch eine Sprachuniversalität aus, da sie in den meisten Sprachen als Prosodien fungieren (ALLEN 1973:12) und im allgemeinen auch die diachronische Sprachentwicklung überdauert haben (FIRTH 1948:152). Prosodischen Merkmalen kann eine abstrakt phonologische, eine produktive (d.h. artikulatorische), eine akustische und eine perzeptive Dimension zugeschrieben werden, welche in einem funktionalen und einem strukturellen Zusammenhang zum grammatischen System stehen. Dabei umfaßt die Prosodie ebenso die relationalen Beziehungen zwischen abstraktem Muster (z.B. Akzentstruktur), konkreter artikulatorisch-akustischer Realisierung (z.B. im Falle des Akzentes, der über Dauer, Intensität oder Tonhöhe realisiert werden kann; ZlRIN 1970:13; n a c h ALLEN 1 9 7 3 : 1 5 ) u n d a u d i t i v e r W a h r n e h m u n g (z.B. d e r Z u s a m m e n h a n g

zwischen wahrgenommener Tonhöhe und wahrgenommener Prominenz). Funktionell eingebunden sind prosodische Merkmale in das Sprachsystem, indem sie bestimmte semantische, syntaktische und lexikalische Strukturmerkmale (wie z.B. den Wortakzent) realisieren und letztendlich an der Übermittlung der Intentionen des Sprechers teilhaben. Prosodische Merkmale sind an bestimmte Strukturdomänen gebunden, wobei vorerst die Frage einer präg-

21 matischen, semantischen, syntaktischen oder prosodischen Determiniertheit der Struktureinheiten zurückgestellt werden soll. Die Dichotomie von Merkmal und Struktur erfordert sowohl eine singulare als auch eine relationale Betrachtung von prosodischen Merkmalen und prosodischen Strukturen. Im folgenden sollen nun die Funktionen der prosodischer Phänomene und im Anschluß daran die Merkmals- und Strukturausprägungen der Prosodie untersucht werden, um die linguistische Grundlage für die Konzeption und Modellierung der prosodischen Planungskomponente eines Sprachproduktionssystems zu legen. Dabei werden zuerst anhand einer Ordnung prosodischer Phänomene die verschiedenen Funktionen, welche die Prosodien in der sprachlichen Kommunikation begleiten können, im Überblick vorgestellt. Diese prosodische Phänomenologie soll einen Überblick über die Varianz lautsprachlicher Realisierungsmöglichkeiten von Äußerungen vermitteln. Die Vielfalt prosodischer Phänomene wird die Bedeutung einer prosodischen Planungskomponente innerhalb eines Sprachgenerierungssystems verdeutlichen, die sich nicht nur aus der kognitiven Motivation der Modellierung ergibt, sondern vor allem einer korrekten, nicht ambigen Übermittlung von Propositionen und Sprecherintentionen dienen soll.

2.2. Prosodische Phänomene und ihre kommunikativen Funktionen Sprache ist ein System, das dem Menschen zum Ausdruck und zur Übertragung von Vorstellungen, Gedanken und Informationen dient. Diese vornehmlich auf Kommunikation ausgerichtete Funktionalität von Sprache evoziert u.a. eine funktionale Analyse als ein Mittel zur Beschreibung und Erklärung sprachlicher Strukturen und Phänomene. 12 Die gesprochene Sprache, physikalisch gesehen die akustische Realisierung abstrakter sprachlicher (Zeichen-) Strukturen, ist neben der geschriebenen Sprache und der gestischen Zeichensprache eine spezifische Manifestation von Wissensstrukturen, welche den Kernpunkt einer sprachlichen Handlung 13 darstellt. Gesprochene Sprache ist dabei mehr als die monotone lautsprachliche Realisierung einzelner Worte eines Satzes. Die Laute werden einer gesteuerten, globalen Modulation unterzogen, indem durch die Steuerung des Atmungs- und Artikulationssystems Frequenz-, Dauer- und Intensitätsparameter modifiziert werden. Diese Modifikationen und spezifischen Realisierungen von Lauten sind Gegenstand prosodischer Analysen zur Auf-

12

Eben aus dieser Überlegung heraus ist die Vielzahl Funktionaler Grammatiken wie z.B. die LexikalischFunktionale Grammatik (BRESNAN 1982) oder die Funktionale Unifikationsgramatik (KAY 1984) hervorgegangen, wo versucht wird, im Gegensatz zu strukturalistischen Ansätzen die sprachlichen Phänomene unter Rückgriff auf deren Funktion zu beschreiben und zu erklären. Mit diesem Verweis auf die funktionale Sprachbeschreibung soll jedoch nicht impliziert werden, daß im Rahmen dieser Arbeit eine prosodische Theorie im funktionalen Paradigma entwickelt wird. Vielmehr soll versucht werden, prosodische Phänomene und Strukturen im Rahmen constraint-basierter Ansätze zu modellieren und dabei ihrer Funktionalität gerecht zu werden.

13

Zum Handlungsaspekt sprachlicher Äußerungen siehe u.a. AUSTIN (1962).

22 deckung funktionaler und struktureller Determinantien von prosodischen Phänomenen der gesprochenen Sprache. In Anbetracht der primär kommunikativen Funktion gesprochener Sprache unterliegt das prosodische System ganz besonders den zentralen kommunikativen Zielen der Übermittlung von Informationen, dem Ausdruck von Einstellungen und dem Erfüllen von Absichten. Die Funktionen der Prosodie begründen sich somit zum einen aus dem Sprachsystem selbst: Die ausgewählte Information soll unter Ausnutzung der zur Verfügung stehenden sprachlichen Mittel möglichst vollständig und eindeutig dem Hörer übermittelt werden. Zum anderen kennzeichnet die Prosodie Einstellungen und den expressiv-emotionalen Zustandes des Sprechers und dient als Mittel zur erfolgreichen Erfüllung der Absichten des Sprechers und der Anpassung der Rede an die Situation. Da zudem die Sprache ein durch den Sozialisationsprozeß geprägtes System ist, sind der Prosodie ebenso soziale Funktionen zuzuordnen. Die in Bezug auf diese Arbeit wesentlichen Funktionen der Prosodie lassen sich aus der modularen Betrachtungsweise des Sprachsystems herleiten. Im folgenden soll ein systematisierender Zugang zum prosodischen Phänomenbereich der Sprache erschlossen werden. Die in diesem Abschnitt erstellte Systematik bildet die Grundlage für die Definition prosodischer Merkmale und prosodischer Spezifizierungsprozesse in dieser Arbeit. Es sollen die pragmatischen Funktionen der Prosodie angesprochen werden, die sich sowohl aus handlungstheoretischer als auch aus textlinguistischer Sicht ergeben. Im Mittelpunkt des Interesses stehen jedoch die grammatischen Funktionen , die sich als möglichst eindeutige Realisierungen semantischer, syntaktischer und lexikalischer Strukturen ergeben.

2.2.1.

Pragmatische Funktionen der Prosodie

Verschiedene akustische Parameter (z.B. Frequenzspektrum und Intensität) der gesprochenen Sprache sind immer wieder auf bestimmte Gegebenheiten der aktuellen Sprechsituation und der Sprecher-Hörer-Beziehung zurückgeführt worden. Zur Diskussion steht hierbei insbesondere die Frage, ob eine direkte Relation zwischen Pragmatik und Prosodie14 besteht oder ob eher eine Vermittlung über das grammatische System anzunehmen ist, da die genannten pragmatischen Gegebenheiten ebenso in differierenden Lexikalisierungen ihren Niederschlag finden können. Im folgenden werden einige prosodische Phänomene vorgestellt, denen eine pragmatische Funktion im Kommunikationsprozeß zugeordnet werden kann. Sprechakt - Prosodie Pragmatik als Theorie sprachlichen Handelns (GREWENDORF et al. 1987: 378) beschreibt, was es heißt, mit sprachlichen Äußerungen Handlungen zu vollziehen. Zu fragen ist dann, inwieweit hierzu prosodische Mittel eingesetzt werden. Nach AUSTIN (1962) läßt sich eine

14

Für eine umfassende Darstellung der Pragmatik-Prosodie-Beziehung s. COUPER-KUHLEN (1986).

23 Äußerungshandlung hinsichtlich ihrer lokutionären, illokutionären und perlokutionären Aspekte analysieren. Als lokutionärer Akt wird der Akt des Etwas-Sagens bezeichnet, d.h. der Umstand, daß Laute realisiert werden (phonetischer Akt), welche die artikulatorische Realisierung einer grammatikalisch wohlgeformten Wortfolge ist (phatischer Akt). Dabei wird über etwas etwas Bestimmtes geäußert (Übertragung einer bestimmten Bedeutung; rhetischer Akt). Der illokutionäre Akt betrifft den spezifischen Gebrauch des Geäußerten, in dessen Ergebnis der Sprachhandlung eine illokutionäre Rolle (z.B. Versprechen, Behauptung, Warnung) zugeordnet werden kann. Diese illokutionäre Rolle bzw. illokutionäre Kraft (SEARLE 1969) gibt die kommunikative Funktion der jeweiligen Äußerung an und wird in der grammatischen Struktur mit Hilfe sogenannter illokutionärer Indikatoren angezeigt. So kann die illokutionäre Kraft zum einen explizit lexikalisch durch das Gebrauchen performativer Verben (z.B. „Ich warne I befehle I verspreche ...") oder implizit über das Einsetzen grammatischer Mittel wie Wortstellung, Verbmodus und eben prosodischer Merkmale ausgedrückt werden. Ein perlokutionärer Akt wird mittels einer Äußerung vollzogen, wenn diese in einem Kausalzusammenhang zu einer bestimmten Wirkung beim Hörer steht (z.B. jemanden überzeugen, so daß er etwas glaubt oder eine bestimmte, möglicherweise auch sprachliche, Handlung vollzieht bzw. nicht vollzieht).15 Anhand dieser Analyse von Äußerungshandlungen läßt sich ersehen, daß einer Sprachhandlung mit gleichem propositionalem Gehalt verschiedene illokutionäre Rollen verliehen werden können. Zum Beispiel kann Satz (1) bei gleichem propositionalen Gehalt ρ (d.h. bei gleicher Referenz des Personalpronomens und gleicher Prädikation Glimmstengel ausmachen) als Frage, Aufforderung oder Drohung geäußert werden (in der SEARLEschen Notation F(p) mit Fe {Frage, Aufforderung, Drohung}) (1) Du machst den Glimmstengel aus?/! Wird die Äußerung (1) mit den verschiedenen illokutionären Rollen F realisiert, so liegt jeder Äußerungshandlung eine identische syntaktische Struktur und lexikalische Füllung zugrunde. Eine Analyse des Sprachsignals (Abb. 2.1 a-c)16 der verschiedenen Äußerungen (männlicher Sprecher) hinsichtlich Energieverlauf (Intensität), Grundfrequenzverlauf und Frequenzspektrum zeigt, daß die prosodischen Parameter in diesem Fall die einzigen distinktiven Merkmale sind, anhand derer in der gesprochenen Sprache die verschiedenen illokutionären Rollen erkannt werden können. Charakteristisch für die Äußerung mit Frage-Funktion (Abb. 2.1 a) ist der Grundfrequenzanstieg am Ende der Äußerung, der in den übrigen Äußerungen nicht zu verzeichnen ist. Der finale tonale Anstieg, bis auf 210 Hz, setzt erst am Ende der wortakzenttragenden Silbe des Lexems Glimmstengel ein. Dagegen weist die Äußerung mit der illokutionären Rolle der Aufforderung (Abb. 2.1 b) einen finalen Fall der Grundfrequenz bis auf 90 Hz auf. Hier befindet

15

SEARLE (1969) unterscheidet in einer kritischen Auseinandersetzung mit der ΑυβΉΝεοΙιβη Typologie insbesondere zwischen propositionalem (dies entspricht dem AUSTINschen rhetischen Akt) und illokutionärem Akt (neben dem lokutionärem und perlokutionärem Akt).

16

Es sind jeweils von oben nach unten Energieverlauf, Grundfrequenzverlauf (80-250 Hz), Frequenzspektrum (0-8kHz) und das Sprachsignal dargestellt. Aus Lesbarkeitsgründen wurde das Sprachsignal in lateinischer Schrift und nicht in der phonetischen Umschrift transkribiert.

24 sich auf der wortakzenttragenden Silbe des Lexems Glimmstengel der Grundfrequenzgipfel der Äußerung. Außerdem ist die Aufforderungsäußerung mit einer Dauer von 1350 ms die kürzeste der drei Beispieläußerungen.

. »... M. Es gelte: (i)

(Va,ß, y e !A£UΤ) e I'D Α deklarativ, - query



- doubt - desire

50

interrogativ, interrogativ,

->

Optativ,

Siehe auch entsprechende Vorschläge von JACOBS (1991), den Satzmodus als semantischen Funktor zu repräsentieren.

143 - order

->

imperativ,

- amazement

->

exklamativ.

Zu erkennen ist, daß sowohl Entscheidungsfragen {Hat Klinsmann den Elfmeter verschossen?) als auch Ergänzungsfragen (Wer hat den Elfmeter verschossen?) den gleichen Satzmodustyp (interrogativ) zugewiesen bekommen. Damit wird Vorschlägen aus der theoretischen Linguistik Rechnung getragen, um Aspekte der Sprechereinstellung, des Äußerungskontextes, des Funktionstyps und des Formtyps in einen systematischeren Zusammenhang zu stellen. Auf die einheitliche Behandlung auf der Ebene der Satzmodustypen von Entscheidungsfragen und Ergänzungsfragen hat auch Jacobs (1991a) hingewiesen, indem er feststellt: „Entscheidungsfragen unterscheiden sich von w-Fragen nicht dadurch, daß ihre Bedeutungsrepräsentation einen anderen Satzmodusfunktor enthält, sondern nur dadurch, daß FRAGE (Satzmodusfunktor, C.G.) auf einer speziellen Art von offenen Propositionen operiert. " Die konkrete Versprachlichung in Form syntaktischer Struktur, lexikalischer Füllung und prosodischer Realisierung ergibt sich im wesentlichen wiederum aus der kontextstrukturbasierten Interpretation der zu versprachlichenden konzeptuellen Struktur. Während der im Rahmen der Vorstellung der prosodischen Enkodierung zu erläuternden prosodischen Realisierung des Satzmodus wird Bezug genommen sowohl auf die semantische Modustypinformation als auch auf den konkreten syntaktischen Strukturaufbau (Verbstellung) einschließlich der lexikalischen Füllung (w-Elemente). Satzmodus- und Fokusphänomene sind auf der konzeptuellen und auf der grammatischen Ebene als zwei verschiedene Phänomenbereiche zu betrachten (s. JACOBS 1991) und evozieren verschiedene prosodische Merkmalsspezifikationen. Grenztöne satzwertiger Strukturen und die interne, temporale Struktur von Akzentrealisierungen (z.B. beim Exklamativakzent, OPPENRIEDER 1988) werden im wesentlichen aufgrund von Modusinformation festgelegt, während die Festlegung prominenter Äußerungspartitionen auf dem Berechnungsergebnis der Informationsgliederung beruht. Die grammatischen Informationen für eine korrekte prosodische Realisierung werden in der SYNPHONics-Modellierung während der semantischen Enkodierung in einem Prozeß der kontextbasierten Interpretation der zu versprachlichenden, konzeptuellen Struktur festgelegt.51 Dieser Prozeß ist so ausgelegt, daß er genau auf der momentan vorliegenden, partiellen Eingabeinformation rückkopplungsfrei operiert. Während im LEVELT-Modell Fokus- und Modusinformationen an der präverbalen Botschaft annotiert werden, obwohl sie genuin sprachliche Information darstellen, wird in dieser Modellierung für eine konsequentere Trennung der Konzeptualisierer- und Formulatorebene und der jeweils zu verarbeitenden Inkrementstrukturen plädiert. Um einen rückkopplungsfreien, unidirektionalen Informationsfluß gewährleisten zu können, werden zwei Wege beschritten. Zum einen müssen

51

Neben diesen prosodierelevanten Berechnungsprozessen von Fokus und Modus wird der Ansatz des systematischen Zusammenwirkens einer aktuellen konzeptuellen Struktur CS und einer strukturierten Kontextrepräsentation CT beim sprachlichen Strukturaufbau noch zur Erklärung und Modellierung einer Vielzahl weiterer Phänomene angewandt: Polysemie, Uminterpretation (HERWEG & MAIENBORN 1992), Pronominalisierung (SCHOPP 1994), Perspektivierung (GÜNTHER, HABEL, SCHOPP & ZIESCHE 1995).

144 sämtliche Informationen in der konzeptuellen, sprachunabhängigen Struktur angelegt sein, die für eine adäquate einzelsprachabhängige Strukturrealisierung von Relevanz sind, und zum anderen sind die nachfolgenden grammatischen Strukturbildungsregeln so robust und flexibel formuliert, daß sie auch auf unterspezifizierten Strukturen bei hoher Inkrementvariabilität operieren können. Eine Kontrollkomponente, die eintreffende Inkremente hinsichtlich ihrer Möglichkeiten der Versprachlichung untersucht und evtl. zurückweist, ist aufgrund der oben diskutierten Prozeßeigenschaften nicht vorgesehen.52 Semantisch-syntaktischer Strukturaufbau Im Ergebnis der semantischen Enkodierung steht die semantische Repräsentation eines Äußerungsteils vom Typ sem mit den Belegungen der Merkmale REF_INFO, CORE_INFO und

EMBEDDINGJNFO zur Verfügung. Diese Informationspartitionen werden parallel auf zwei verschiedenen Verarbeitungszweigen, der Lemma- und der Schemaselektion, in sprachliche Zeichen umgesetzt. Die Referenz- und die Kern-Information steuern einen lexikon-getriebenen Strukturaufbau, während über die Einbettungsinformation der syntaktischer Strukturaufbau angestoßen wird. Im Rahmen dieser Prozesse werden semantische Repräsentationen in sprachliche Zeichen vom Typ sign überführt, die den linguistischen Objekten der modifizierten Grammatiktheorie HPSG entsprechen. Damit stellt sich der bisherige Prozeßablauf von der konzeptuellen Planung bis zur Initiierung des syntaktischen Strukturaufbaus wie in Abb. 4.14 gezeigt dar (als Detailauszug aus der allgemeinen SYNPHONICS-Architektur in Abb. 4.7).

Abb: 4.14: Präsyntaktische Verarbeitungstufen und Strukturinkremente

52

FODOR et al. (1974) sehen hier noch eine Kontrollkomponente vor, die einen Abgleich zwischen zu versprachlichender Struktur und sprachlich realisierbarer Struktur vornimmt.

145 Als die den grammatischen Strukturbildungsprozessen und grammatischen Wissensrepräsentationen zugrundeliegende Grammatiktheorie wurde eine deklarative Theorie, die HPSG, gewählt. Die Eignung der HPSG als eine Theorie der linguistischen Strukturbeschreibung im Rahmen eines Sprachproduktionsmodells beruht auf einer Reihe charakteristischer Merkmale dieser Grammatik. Bei der HPSG handelt es sich um eine lexikalisch orientierte Theorie. Da das syntaktische Wissen über den grammatischen Strukturaufbau im wesentlichen auf der Grundlage des lexikalisch abgelegten Wissens formuliert ist, wird die Modellierung eines psycholinguistisch motivierten, lexikongetriebenen Produktionsprozesses (s. LEVELT 1989) unterstützt. Des weiteren handelt es sich bei der HPSG um eine prinzipienbasierte Theorie, in der zwischen universalgrammatischen Prinzipien zur Beschreibung der Wohlgeformtheit grammatischer Strukturen und möglichen einzelsprachlichen Parametrisierungen unterschieden wird. In Zusammenhang damit steht die Deklarativität der Wissensformulierung, womit aus Gesichtspunkten einer Systemkoflzipierung eine klare Trennung von prozeduralem, produktions- und analysespezifischem Wissen und von deklarativem, verarbeitungsrichtungsunabhängigem Wissen möglich ist. Grammatisches Wissen wird in Form von Merkmalsstrukturen und Constraints über diesen Merkmalsstrukturen dargestellt. Die grundlegende Operation zur Überprüfung der Wohlgeformtheit bzw. zur weiteren Informationsanreicherung ist die Unifikation. Damit ist die Möglichkeit der Repräsentation und Verarbeitung partieller, unterspezifizierter Informationsstrukturen möglich, wodurch wiederum eine inkrementelle, modulare Modellierung unterstützt wird. Sprachliche Objekte werden hinsichtlich phonologischer, syntaktischer und semantischer Information spezifiziert. Aufgrund dieser integrativen Beschreibung erweist sich diese zeichenbasierte Repräsentation als adäquate Modellierungsgrundlage für das im Rahmen der SYNPHONics-Modellierung postulierte sprachsysteminterne Strukturmodell mit den relationalen Beziehungen zwischen den semantischen, syntaktischen und phonologischen Wissenssystemen. In der Beschreibung linguistischer Phänomene ist die HPSG ausreichend explizit ausgearbeitet, so daß sie als theoretische Basis zur computerlinguistischen Modellierung eines breiten Phänomenbereichs geeignet ist. Im Rahmen der SYNPHONics-Modellierung wird eine modifizierte Variante der Standard-HPSG-Theorie angewandt, die spezifische, syntaktische Phänomene des Deutschen (s. ABB 1994) und die Kopplung zur konzeptuellen und prosodischen Verarbeitungsebene berücksichtigt.53

53

Auch wenn die HPSG für diese Modellierung als geeignete Basis erachtet wird, ist der These von LEVELT zuzustimmen: „It should be kept in mind, however, that no grammatical theory can claim to be the correct one. " (LEVELT 1989:162) So ist die HPSG nicht mit der Zielstellung einer kognitiven Adäquatheit entworfen worden. Sie ist jedoch durch einzelsprachliche und sprachübergreifende Analysen genügend elaboriert, um eine breite, theoretisch plausible Computermodellierung von linguistischen Phänomenen zu gewährleisten, und sie vereinigt Konzepte wie die Unterscheidung universalgrammatischer Prinzipien und einzelsprachlicher Regeln. Somit paßt sich die Wahl der HPSG homogen in die SYNPHONICS-Zielrichtung des Zusammenführens theoretisch-linguistischer, psycholinguistischer und computerlinguistischer Erkenntnisse unter dem globalen Gesichtspunkt der Sprachproduktion ein. Desweiteren ist eine unmittelbare Kopplung der RefO-Repräsentationen auf der konzeptuellen Verarbeitungsebene mit den Repräsentationen grammatischer Zeichen auf der Formulatorebene gegeben.

146 Die an der syntaktischen Enkodierung beteiligten Prozeßkomponenten und Inkrementtypen sind in Abb. 4.15 im Überblick dargestellt.54 Auf dem lexikalischen Verarbeitungszweig werden vom Lemma-Selektor (Lemma Selector) mittels der semantischen Kern- und Referenzinformation die entsprechenden Lemmata im Lexikon aktiviert. Mit dem Lexikonzugriff wird ein sprachliches Zeichen vom Typ word bereitgestellt, das die zu diesem Lemma gehörende semantische und syntaktische Information enthält. Zur syntaktischen Lemmainformation gehört auch Wissen über die inhärente, strukturelle Einbettungsfähigkeit eines Lemmas. So ist z.B. in Lexikoneinträgen von Verben aufgrund von Valenzinformation die Anzahl und Art deren Argumente bekannt. Diese Information ermöglicht einen ersten komplexen Strukturaufbau. Hierzu wird die Lemmastruktur an den Lizertsierer (Licenser) übergeben, der unter Anwendung der grammatischen Prinzipien (Grammatical Principles) lexikalisch angelegte Information in phrasale Strukturen projiziert, indem z.B. die Information über die Valenz eines Verbs in eine entsprechende syntaktische Baumstruktur abgebildet wird. Zu beachten ist, daß gemäß der Lemma/Lexem-Partitionierung des Lexikons (s. z.B. LEVELT et al. 1991) zu diesem Zeitpunkt keine konkrete phonologische Information selegiert wird, sondern nur ein Lexem-Zeiger, der einen Teil des Zugriffsschlüssels auf die entsprechende Wortforminformation im Lexem-Lexikon bildet. Parallel zu diesem ¿>offom-wp-Produktionsprozeß findet ein sog. fop-Jcwn-Strukturbildungsprozeß statt, über den Aspekte der Inkrementabfolge und der konzeptuellen Verknüpfung auf die sprachliche Ebene abgebildet werden. Information über die konzeptuelle Einbettung von RefOs wurde vom Semantischen Enkodierer auf semantische Einbettungsinformation abgebildet (Merkmal EMBEDDINGJNFO). Diese semantische Information ist wiederum Ausgangspunkt syntaktischer Strukturbildung. Hierzu übergibt der Semantische Enkodierer die Einbettungsinformation eines Inkrements an den Schema-Selektor (Schema Selector), der aus einer Schemata-Wissenbasis (Phrasal Schemata) das den semantischen Relationen entsprechende syntaktische Strukturschema auswählt. So werden z.B. lokationale Einbettungsrelationen zwischen Objekt-RefOs und Raum-RefOs, die semantisch gesehen Modifikationsrelationen darstellen, in der syntaktischen Struktur als Kopf-Adjunkt-Schemata repräsentiert. Diese Strukturschemata sind zu diesem Zeitpunkt noch maximal unterspezifiziert, da projizierbare und perkolierbare Information erst über die Verschmelzung mit der lexikalischen Information bereitgestellt wird. Der syntaktische Strukturaufbau wird somit durch die bereitgestellte semantische Eingabeinformation aktiviert, die die Auswahl des lexikalischen und unterspezifizierten Struktur-

Aus Prozeßgesichtspunkten ist bei einer HPSG-basierten Computermodellierung besonders die unifikationsbedingte Anreicherung semantisch-syntaktischer Strukturen im Verlauf der Satzkonstruktion problematisch, die zu äußerst umfangreichen Repräsentationen zum Äußerungsende hin führt. Mögliche Auswege sind hier über den Einsatz von Heuristiken zu schaffen, indem z.B. bereits artikulierte Strukturkomplexe diesbezüglich gekennzeichnet werden und bei der Anwendung von Lizensierungsprinzipien nicht mehr bearbeitet werden oder auch über den hier gewählten Weg, daß die prosodisch-phonologische Enkodierung nur über partiellen, performanzorientiert gebildeten Strukturen operiert. 54

Ausführlichere Darstellungen der Arbeitsweise der syntaktischen Enkodierungsmodule finden sich in ABB & LEBETH ( 1 9 9 3 ) , A B B ( 1 9 9 4 ) , A R N O L D ( 1 9 9 4 ) , SCHRÖDER ( 1 9 9 4 ) u n d A B B e t a l . ( 1 9 9 5 ) .

147 Wissens determiniert. Da die semantische Repräsentation unmittelbar aus den konzeptuellen Eingabestrukturen berechnet wird und eine Formulator-Konzeptualisierer-Rückkopplung nicht vorgesehen ist, liegt eine indirekte konzeptuelle Steuerung des syntaktischen Strukturaufbaus vor. Die Annahme einer solchen restriktiven Kopplung von konzeptuellem, semantischem und syntaktischem Strukturaufbau, die global gesehen, auch keine sprachsysteminterne Kopplung der Formulatorprozesse auf der Analyse- und der Generierungsseite vorsieht, kann durch Ergebnisse psycholinguistischer Erinnerungsexperimente gestützt werden. POTTER & LOMBARDI (1990) und LOMBARDI & POTTER (1992) konnten nachweisen, daß selbst bei der Erinnerung vorgegebener Sätze grundsätzlich von einer abstrakten konzeptuellen Repräsentation ausgehend der sprachliche Strukturaufbau vorgenommen wird. Die naheliegene Annahme, daß bei der Erinnerung von Sätzen auf eine von der Analyse stammende, im Kurzzeitgedächtnis des Sprechers vorgehaltene syntaktische Strukturrepräsentation zurückgegriffen wird, wurde falsifiziert. Statt einer „Wiederverwendung" von gespeicherter Struktur findet eine konzeptuell gesteuerte Neugenerierung statt.

Abb. 4.15: Überblick zur syntaktischen Enkodierung in SYNPHONICS Das Zusammenfügen einbettungsbedingter Strukturanteile und lexikalisch projizierter Strukturanteile findet im Integrator (Integrator) statt. Um eine kohärente Strukturvereinigung sicherzustellen, werden auf der semantischen Ebene die Kern-, Referenz- und Einbettungsinformation eines Inkrements mit Referenzindizes versehen. Auf der Integratorebene steuern diese Referenzadressen neben Strukturbildungsheuristiken das Zusammensetzen der Strukturteile zu komplexeren sprachlichen Zeichen, indem referenzidentische Informationsstrukturen miteinander unifiziert werden müssen. Neu eintreffende Strukturteile werden in bereits vor-

148 liegende syntaktische Strukturteile integriert, so daß sukzessive die syntaktische Struktur einer Äußerung aufgebaut wird. 55 Als globale Integrationsheuristik wirkt hierbei der Anspruch, Inkremente so bald wie möglich zu versprachlichen (s. KEMPEN & HOENKAMP 1987), weshalb sie in Bezug auf syntaktische Strukturbäume in strukturell „frühe", also hierarchisch hohe, linksperiphere Positionen integriert werden. Nach jedem Integrationsschritt wird das angereicherte Äußerungsfragment erneut vom Lizensierer auf seine Wohlgeformtheit überprüft und über die Anwendung grammatischer Prinzipien mit Information angereichert. Hierzu zählt auch die Spezifizierung der phonologischen Information der sprachlichen Zeichen. Fokus-Akzent-Abbildung Im folgenden sei der in dieser Arbeit ausgearbeitete Vorschlag motiviert, daß bereits im Rahmen dieses Lizensierungsschrittes eine wesentliche, abstrakt prosodische Spezifizierung der Äußerung stattfindet: die Abbildung der Fokus/Hintergrund-Gliederung auf die Akzentstruktur der Äußerung. Ich gehe davon aus, daß die im Semantischen Enkodierer berechnete Fokusinformation der Konstituenten (s.o.) deren Prominenzgrad determiniert. 56 Entsprechend dieser Annahme werden im Rahmen dieses Ansatzes Fokus-Akzent-Regeln 57 definiert, die semantische und phonologische Information sprachlicher Zeichen direkt und systematisch miteinander in Beziehung setzen (s. Abschn. 5.3.1). Im Falle der Fokussierung größerer Äußerungspartitionen (weiter Fokus auf eine Konstituentenabfolge oder enger Fokus auf eine komplexe Konstituente) weist deren prosodische Realisierung zusätzlich eine interne Akzentstrukturierung auf. Es wird angenommen, daß diese Prominenzverteilung nicht allein auf prosodische Strukturfaktoren zurückgeführt werden kann, sondern daß sie in Relation zu grammatischen Strukturkonstellationen steht. Aus diesem Grund ist die Formulierung von Fokus-Akzent-Regeln nötig, die bei der Lizensierung der Akzentstruktur neben dem Fokusstatus auch strukturelle Konstellationen berücksichtigen. Zu beachtende Konfigurationen sind hierbei semantische Funktor-Argument- und Modifikator-Modifikand-Relationen, die syntaktische Einbettungsrichtung und die Wortstellung. Entsprechend der globalen Prozeßeigenschaften der Sprachproduktion müssen auch diese Regeln auf partiellen, unterspezifizierten Strukturen operieren können. Da die im Rahmen theoretisch-linguistischer Arbeiten vorgeschlagenen Fokus-Akzent-Regeln grundsätzlich vom

55

Strukturteile, die aufgrund einzelsprachabhängiger Linearisierungsbeschränkungen (s. Abb. 4.4) oder ungenügender relationaler Verankerung noch nicht integriert werden können, werden in einem integrator-internen Speicher zwischengespeichert.

56

Das bedeutet, daß entsprechend der im Kapitel 3 eingeführten Typologie prosodischer Merkmale die Akzentverteilung, jedoch noch nicht die tonale Realisierung, dieser Akzente festgelegt wird.

57

Da die Fokus-Akzent-Relation stark einzelsprachabhängig sind, ist hier von Regeln und nicht von Prinzipien die Rede. In der konkreten Formulierung und unter der Maßgabe der verwendeten Grammatiktheorie handelt es sich um Constraints.

149

Vorliegen der vollständig spezifizierten Satzstruktur ausgehen,58 ist der Entwurf eines Regelinventars erforderlich , das eine inkrementelle, monotone Verarbeitung gewährleistet (s. Abschn. 5.3.1).

Die Festlegung der Akzentstruktur erfolgt somit ohne die Vermittlung über eine prosodische Konstituentenstruktur und entspricht Ansätzen der direkten Referenz prosodischer Prozesse auf syntaktische Strukturen (direct reference approach), wobei bisherige Ansätze (z.B. CINQUE 1993, HIRST 1993) hier in Richtung der Berücksichtigung des determinierenden Einflusses der Fokusstruktur erweitert werden.59 Bei Betrachtung der Gesamtarchitektur des Systems (Abb. 4.7) wird ersichtlich, daß diese abstrakte Akzentfestlegung noch innerhalb der grammatischen Enkodierung, vor der Wortformauswahl und der eigentlichen phonologischen Enkodierung, stattfindet. Die Plausibilität einer solchen Prozeßanordnung läßt sich anhand von Versprecherdaten zeigen. Ist z.B. bei satzinternen Wortvertauschungen ein Wort betroffen, das den Satzakzent trägt, so wandert der Akzent nicht mit, sondern die strukturelle Akzentposition bleibt erhalten. Für dieses von FROMKIN (1971) und GARRETT (1982) umfangreich untersuchte Phänomen, das Akzent-

stranden (engl, accent stranding), läßt sich folgendes Beispiel (5) angeben: (5) Seymour sliced the knife with a SALAMI (statt: ... the salami with a KNIFE) (Fromkin 1973)

In diesem Beispiel wurden die Nomen salami und knife miteinander vertauscht, aber der Satzakzent verbleibt auf der satzfinalen Position. Daher kann man annehmen, daß die strukturabhängige Bestimmung der Akzentposition vor der Dereferenzierung des Lexemzeigers erfolgt. Der Fehler ist wahrscheinlich bei dem Prozeßschritt der Lexemwahl aufgetreten, indem die Zeigerinhalte miteinander vertauscht und an die falschen, unterschiedlich akzentuierten Positionen zurückgegeben wurden. Diese Annahmen über die Ursache des Akzentstrandens motivieren meine für die SYNPHONics-Konzeption vorgenommene Zuordnung der Prozesse der Festlegung der Akzentposition und der abstrakten Akzentart zum Prozeßschritt der grammatischen Enkodierung. Von einer frühen Festlegung der konkreten Intonationskontur, wie sie bei FROMKIN (1973) zu finden ist, sehe ich jedoch u.a. aus Modularitätsgründen ab, denn bei Festlegung der Intonationskontur

58

Es handelt sich dabei nicht um prozeßneutrale -also deklarative- Formulierungen. Es werden Regeln formuliert, die unter der Annahme sehr umfangreicher, bis zu satzwertiger Strukturen vom Satzende ausgehend operieren, durch Merkmalszuweisung und -löschung umfangreich von Nichtmonotonie Gebrauch machen und u.U. zirkulär angewandt werden. Eine Anwendung der Regeln im Rahmen eines inkrementellen Verarbeitungsparadigmas ist nicht möglich. Selbst in der sehr vagen und allgemeinen Formulierung einer Fokusregel von LEVELT (1989:174) findet sich kein Verweis auf eine Operationalisierbarkeit für eine inkrementelle Verarbeitung.

59

Das heißt jedoch nicht, daß die hier vorgenommene prosodische Modellierung dem direkten Referenzansatz verpflichtet ist, da es sich bei den erstellten Fokus-Akzent-Regeln um prälexikalische Regeln handelt, während es sich bei den im Rahmen der direkten Refernzansätze formulierten phonologischen Regeln mit direktem Syntaxbezug (sog. PI-Regeln) um lexikalische Regeln handelt (s. KAISSE 1990). Außerdem werden weiter unten Prozesse eingeführt, die dem indirekten Refernzansatz zuzurechnen sind. Die Plausibilität einer solchen komplementären Regelformulierung kann über die Berücksichtigung des Prozeßverlaufs der Sprachproduktion gezeigt werden.

150 sind die Einflüsse der tonalen Modusrealisierung zu berücksichtigen. Zudem wird der Akzent nicht allein über intonatorische Merkmale realisiert, so daß entweder umfangreiche prosodische Berechnungen in die grammatische Enkodierung integriert oder einzelne prosodische Prozesse wie die Tonkonturberechnung mehrfach in verschiedenen Komponenten angewandt werden müßten. Sprachübergreifende Verallgemeinerungen zum Prozeßablauf dürften mit einer solchen extensiven Ebenenvermischung schwer zu treffen sein. Aus diesen Gründen sehe ich die Bestimmung der Akzentpositionen als ein von der Festlegung der Intonationskontur unabhängiger Prozeß an, worauf bereits bei der Etablierung der Typologie prosodischer Merkmale in Kapitel 3 hingewiesen wurde. Während des semantischsyntaktischen Strukturaufbaus werden unter Rückgriff auf Fokus-Akzent-Regeln potentielle Akzentträger ausgewiesen, die unter Beachtung konfigurationeller Gegebenheiten abstrakte Akzenttypen (z.B. Phrasenakzent, Nukleusakzent) zugewiesen bekommen. Diese abstrakten Akzentspezifikationen werden an die phonologische Enkodierung übergeben und unter Anwendung von prosodischen Regeln, die auf einer einzelsprachlichen Intonationstheorie beruhen, auf prosodische Merkmalswerte wie Akzenttonwerte abgebildet.60 Mittels der Anwendung des Prinzipienapparates der Akzenttheorie auf eine Äußerungsstruktur werden somit die Stützpunkte zur Verankerung des Tonverlaufs bereitgestellt.61 Die Plausibilität der hier vorgenommen Prozeßanordnung läßt sich nicht nur anhand psycholinguistischer Evidenzen motivieren, sondern ebenso anhand der modularen Modellierung des Sprachproduktionsprozesses. Diese Prozeßverteilung findet eine adäquate Entsprechung in den verwendeten ebenenspezifischen Datenstrukturen. Auf der Ebene der grammatischen Enkodierung wird auf sprachlichen Zeichenstrukturen operiert, die entsprechend des relationalen Strukturmodells von SYNPHONICS semantische, syntaktische und phonologische Information über phrasale und lexikalische Einheiten repräsentieren. Genau diese komplexe Information ist erforderlich, um eine korrekte Akzentstruktur aus der Fokus/Hintergrund-Gliederung abzuleiten. Die formulierten Fokus-Akzent-Regeln operieren auf den sprachlichen Zeichenstrukturen, indem sie auf die unter dem semantischen Merkmal eines sprachlichen Zeichens kodierte Fokusinformation und auf die syntaktische Strukturinformation zugreifen und der phonologischen Information des Zeichens den Akzentwert zuweisen. An der Schnittstelle zur phonologischen Enkodierung wird die Zeichenstruktur auf eine prosodische Konstituentenstruktur abgebildet und die Akzentnotation übergeben. Semantische oder syntaktische Information steht nach diesem Prozeßschritt nicht mehr zur Ver60

Eine solche Ebenentrennung erscheint auch aus Analysesicht sinnvoll, indem im Rahmen der prosodischen Analyse aus der Vielzahl prosodischer Markierungsmöglichkeiten für jede Konstituente ein abstrakter Prominenzgrad bzw. eine Prominenzrelation zu adjazenten Konstituenten berechnet wird, und erst dieses abstrakte Akzentmerkmal statt einer konkreten Intonationsspezifikation Eingang findet in die syntaktischsemantische Analyse.

61

Diese relative Unabhängigkeit von Akzentposition und Tonverlauf zeigt sich z.B. auch darin, daß auf komplexen Fokus- und Moduskonstellationen beruhende Tonsequenzen sowohl über Ein-Wort- als auch MehrWort-Äußerungen auf der Grundlage der Akzentpositionen abstrakt spezifiziert werden können. Die tatsächliche Realisierung stellt sich jedoch als ein phonologisches bzw. phonetisches Problem dar, da sich performanzabhängig Verschmelzungen von Tonkonstruktionen durch die Varianz der Tondomänen ergeben können.

151 fiigung. Die Festlegung der prosodischen Realisierung des zugewiesenen Akzentes erfolgt prosodieintern unter Anwendung prosodischer Regeln, die allein auf prosodischen Konstituentenstrukturen operieren. Auf diese Weise wird eine klare Modularisierung der Modellierung erzielt. Nach dem grammatischen Lizensierungsprozeß liegt eine partiell spezifizierte sprachliche Äußerungsstruktur CUF (Current Utterance Fragment) vom Typ phrasal_sign vor (s. Abb. 4.15), die den momentanen Stand der sprachlichen Realisierung der konzeptuellen Eingabestrukturen widerspiegelt. Dieses CUF wird an die prosodische Planungskomponente übergeben. Deren Schnittstellenmodul bildet semantisch-syntaktisch bereits vollständig spezifizierte Strukturteile des CUF auf eine prosodische Inkrementstruktur ab, was im nachfolgenden Abschnitt vorgestellt werden soll. Über diese Bereitstellung partiell spezifizierter Äußerungsstrukturen wird der sukzessive Inkrementfluß sichergestellt, der die Voraussetzung für die Modellierung der empirisch belegten menschlichen Fähigkeit ist, mit der artikulatorischen Realisierung von Teilstrukturen zu beginnen, bevor eine vollständig spezifizierte syntaktische S a t z s t r u k t u r vorliegt (LEVELT & MAASSEN 1981, KEMPEN & HUIJBERS 1983).

Zusammenfassung: Die grammatischen Enkodierungsprozesse im SYNPHONICS-Modell weisen einige wesentliche U n t e r s c h i e d e zu d e n e n t s p r e c h e n d e n V o r s c h l ä g e n in KEMPEN & HOENKAMP ( 1 9 8 7 ) u n d

LEVELT (1989) auf. Die Eingabestruktur des SYNPHONics-Formulators beinhaltet ausschließlich konzeptuelle Informationen. Es findet keine Vermischung von konzeptueller und sprachlicher Information statt. Als Schnittstellenmodul zwischen konzeptueller und sprachlicher Ebene fungiert der Semantische Enkodierer, wo auch die prosodierelevanten semantischen Berechnungen von Fokus/Hintergrund-Gliederung und Satzmodus stattfinden. Für die grammatischen Enkodierung wurde statt der prozedural orientierten IPG die deklarative Grammatiktheorie HPSG gewählt. Auf diese Weise läßt sich eine größere Universalität des Ansatzes erzielen. Während in den IPG-basierten Ansätzen grammatisches Wissen als Prozedurbefehle an Lexikoneinträgen annotiert ist, wird hier grammatisches Wissen ebenso als deklaratives Wissen behandelt wie lexikalisches Wissen und in einer eigenen Wissensbasis abgelegt. Gesondert von diesen deklarativen Wissensbeständen wird über modulspezifische Prozeduren die Informationsanreicherung, die Prüfung der Wohlgeformtheit und die Weiterreichung der Inkremente gesteuert. Es wird ähnlich wie bei GARRETT (1984) ein paralleler, auf lexikalischem und auf abstraktem syntaktischem Wissen basierter syntaktischer Komplexbildungsprozeß statt der von LEVELT vertretenen seriellen grammatischen Enkodierungsstrategie angenommen. Die Lizensierung eines Strukturinkrements beinhaltet auch eine Akzentspezifikation, die im wesentlichen semantische Gegebenheiten reflektiert, jedoch zudem strukturelle Beschränkungen in Betracht zieht. Die semantisch-syntaktische Verarbeitung stellt einen sukzessiven, monotonen Strukturaufbau des CUFs dar, in dessen Verlauf die Informationsdimensionen der zu verarbeitenden sprachlichen Zeichen monoton angereichert werden.

152

4.3. Die Architektur des phonologischen und phonetisch-artikulatorischen Enkodierers Im Anschluß an die semantisch-syntaktische Enkodierung erfolgt die phonologische und abschließend die artikulatorische Enkodierung. Die formulatorintern stattfindende phonologische Enkodierung umfaßt die Ableitung einer prosodischen Konstituentenstruktur aus der syntaktischen Konstituentenstruktur, die Wortformgenerierung und die prosodische Merkmalsspezifikation. In der nachgeschalteten Artikulatorkomponente erfolgt die Ableitung einer phonetisch-artikulatorischen Struktur aus der prosodischen Struktur und die parametrisierte Artikulatoransteuerung. Phonologische Enkodierung Bei der Konzeption der abstrakten prosodischen Enkodierungsprozesse setze ich die folgenden Prinzipien um: - Die formulatorinterne Trennung zwischen der semantisch-syntaktischen und der phonologischen Planungsebene findet sich in der Trennung der zu verarbeitenden Datenstrukturen wieder. Diese Trennung der Datenrepräsentation beruht auf der für die Konzeption der phonologischen und phonetisch-artikulatorischen Enkodierung zentralen Annahme, daß es sich auf diesen Prozeßebenen um Struktureinheiten handelt, deren Größe und Komplexität in einem viel stärkeren Maß vom Prozeßverlauf und dem aktuellen Planungsstatus der Eingabeeinheiten abhängig sind, als auf der grammatischen Ebene. Es wird zu zeigen sein, daß eine solche performanzorientierte Sicht auf die prosodische Konstituentenstruktur und Merkmalsberechnung adäquatere und systematischere Erklärungen für die hohe Varianz möglicher, wohlgeformter prosodischer Realisierungen bieten kann als eine rein strukturorientierte, nicht-dynamische Sichtweise. - Auf der grammatischen Ebene ist die zentrale Verarbeitungseinheit das aus der HPSG entlehnte sprachliche Zeichen, das semantische, syntaktische, aber auch phonologische Information inkorporiert. Daß eine solche komplexe Wissensrepräsentation über eine zu verarbeitende grammatische Struktur eine adäquate Modellierung erlaubt, konnte im vorigen Abschnitt anhand der Fokus-Akzent-Abhängigkeit gezeigt werden. Diese erste, abstrakt prosodische Merkmalsfestlegung, die Berechnung der Akzentverteilung auf der Grundlage der Fokus/Hintergrund-Gliederung, ist genau der Prozeßebene zugeordnet, auf der sich diese relationale Abhängigkeit zwischen semantischen, phonologischen und beschränkenden syntaktischen Strukturgegebenheiten darstellt und wo das Wissen über diese drei Informationsdimensionen genuin zur Verfügung steht. Es handelt sich auf dieser Ebene um strukturbezogene Spezifikationen, die trotz der erforderlichen inkrementbasierten Operationsweise auf eine globale grammatische Wohlgeformtheit abzielen. - Die Prozesse der phonologischen Enkodierung lassen sich als Constraint-Lösungsprozesse formulieren, die auf die Herstellung einer lokalen prosodischen Wohlgeformtheit innerhalb

153 des aktuell zu verarbeitenden Inkrements abzielen. Die Verarbeitungseinheiten auf der phonologischen Ebene sind entsprechend der prosodischen Konstiuentenhierarchie strukturiert, und auf eben diese Einheiten nehmen die prosodieinternen Enkodierungsprozesse Bezug. Genuin semantisches oder syntaktisches Wissen steht auf dieser Ebene nicht mehr zur Verfügung. In der SYNPHONics-Modellierung werden prozeßabhängig bereits ausreichend spezifizierte grammatische Zeichenkomplexe an der Semantik/SyntaxPhonologie-Schnittstelle in eine prosodische Konstituentenstruktur umgesetzt. Allein über diese Äußerungsabschnitte wird eine lokale prosodische Konstituentenhierarchie aufgebaut. Auf die Konstruktion globaler prosodischer Konstituenten, die mehrere Äußerungsabschnitte umfassen, wird aus Prozeßgesichtspunkten verzichtet. - Die globale Wohlgeformtheit des Resultats der prosodischen Realisierung, wie z.B. die äußerungsinterne Prominenzabstufung, eine satzstrukturbezogene Grundfrequenzbereichseinschränkung (z.B. bei Parenthesen) oder der äußerungsfinale Grundfrequenzverlauf, wird über die grammatische Eingabestruktur mit den Informationen zu abstrakten Akzenttypen, Satzmodus und Konstituentenstruktur sichergestellt statt über prosodieinteme Prozesse, die explizit Bezug nehmen müßten aufbereite geäußerte Strukturteile. - Dieser Ansatz distributriert somit die Prozesse der prosodischen Spezifizierung einer Äußerung auf verschiedene Ebenen des Sprachproduktion. Es werden prosodische Prozesse definiert, die unmittelbar auf die semantisch-syntaktische Struktur Bezug nehmen und aus Sicht des Lexemlexikonzugriffs prälexikalisch operieren. Zugleich werden prosodische Regeln formuliert, die postlexikalisch nur in Bezug auf die prosodische Konstituentenstruktur agieren.62 Das Abbilden der semantisch-syntaktischen auf die prosodische Strukur erfolgt unter Anwendung prozeßsensitiver prosodischer Strukturbildungsregeln.63 Die Prinzipien des Informationstransfers von der semantisch-syntaktischen zur phonologischen Ebene werden im nachfolgenden Kapitel erläutert. - Entsprechend dieser Ebenentrennung zielt dieser Ansatz nicht auf eine Anreicherung der HPSG-Zeichen mit umfangreicher prosodischer Strukturinformation ab, sondern diese globale, satzstrukturbezogene Repräsentation ist Gegenstand der grammatischen Enkodierung, während die sich aus dem bisherigen Prozeßverlauf ergebende prosodische Konstituentenstruktur Gegenstand der phonologischen Enkodierung ist. Eine exhaustive Repräsentation prosodischer Strukturen und Merkmale innerhalb der grammatischen HPSG-Zeichen ergäbe nur dann einen Sinn, wenn man ähnlich wie V . W I J K & K E M P E N (1985) von satzwertigen, nicht inkrementell vorliegenden grammatischen Strukturen ausgeht und daraus idealisiert prosodische Konstituenten ableitet. Sobald jedoch der Sprachproduktionsprozeß in Betracht gezogen wird, kann nur von lediglich partiell spezifizierten

62

Hier sind die Regeln der indirekten Referenzansätze (indirect reference approach·, s. NESPOR & VOGEL 1986) und die P2-Regeln der direkten Referenzansätze (direct reference approach; s. KAISSE 1985, 1990) einzuordnen.

63

Auf dieser Ebene sind im Zusammenhang mit dem Lexemlexikonzugriff die syntax- und morphologiebezogenen PI-Regeln der direkten Referenzansätze (s. KAISSE 1985, 1990; ZWICKY 1990) anzusiedeln.

154

grammatischen Konstituentenstrukturen ausgegangen werden, und die Positionierung prosodischer Grenzen ist eher vom aktuellen Verarbeitungsstand abhängig als von Strukturkonfigurationen. Die hohe Variabilität der prosodischen Strukturierung würde im Fall einer in die HPSG-Notation integrierten Darstellung die Deklarativität dieser zeichenbasierten Repräsentation aufheben. Aus diesem Grund wird es als ungeeignet erachtet, in phrasale HPSG-Repäsentationen prosodisches Konstituentenstrukturwissen zu inkorporieren (vgl. aber BIRD & KLEIN 1 9 9 4 ) . 6 4 Im folgenden sollen im Überblick die phonologischen und phonetisch-artikulatorischen Prozeßmodule und Planungsschritte vorgestellt werden, die die grammatische Repräsentation in das akustische Sprachsignal überführen. Einen vollständigen Überblick über die Architektur der phonologiebezogenen Formulatorkomponente und der Artikulatorkomponente gibt Abb. 4.16. Eine detaillierte Darstellung einzelner Prozesse und Datenstrukturen findet sich im nachfolgenden Kapitel. Die Eingabestruktur für den phonologischen Enkodierer bildet das aktuelle Äußerungsfragment CUF. Nach erfolgter grammatischer Lizensierung, wozu auch die Fokus-Akzent-Abbildung gehört, bietet der Integrator das bisher generierte Äußerungsfragment dem phonologischen Enkodierer zur Versprachlichung an. Als formulatorinterne Schnittstelle zwischen grammatischer und phonologischer Planungsebene fungiert das SYNPHON Flood Gate, wo die Interpretation semantisch-syntaktischer Strukturen in prosodische Strukturrepräsentationen erfolgt. Im Sinne der Namensgebung dieses Schnittstellenmoduls findet hier jedoch kein direkter Strukturtransfer einer bereitgestellten Eingabestruktur statt, stattdessen übt diese Schnittstelle eine Schleusen- bzw. Filterfunktion aus, indem zur Versprachlichung nur diejenigen Lemmata selegiert werden, die erstens morphosyntaktisch vollständig spezifiziert sind und zweitens in der syntaktischen Strukturrepräsentation in einer ununterbrochenen links-nach-rechts-Abfolge stehen. Die erste Schnittstellenbedingung stellt sicher, daß ein eindeutiger Schlüssel für den Zugriff auf das Wortformenlexikon vorliegt. Über die zweite Schnittstellenbedingung wird gewährleistet, daß die Lemmata in der von syntaktischen Linearisierungsregeln vorgegebenen Reihenfolge versprachlicht werden. Dadurch wird auch verhindert, daß früh konzeptualisierte und grammatisch enkodierte Inkremente, wie in Abb. 4.4 dargestellt, vorzeitig versprachlicht werden, wenn eingeschobene, syntaktisch geforderte Strukturpositionen noch nicht morphosyntaktisch spezifiziert sind. Selegierte Strukturteile werden unter Anwendung von Strukturinterpre64

BIRD & KLEIN (1994) unternehmen den Versuch, die phonologische Repräsentation der HPSG-Zeichen zu erweitern und phonologische Prozesse im Rahmen dieses Grammatikformalismus zu beschreiben, ohne zwischen der morphosyntaktischen, lexikalisch-morphophonologischen Ebene und der postlexikalisch-phonologischen Ebene zu trennen. Demzufolge bleiben der Status einiger Regeln (lexikalisch vs. postlexikalisch; P I - vs. P2-Regel) und die Notwendigkeit der Integration dieser Regeln in die HPSG als Grammatiktheorie unklar, so daß die Darstellung dieser Regeln eher zu einem Plädoyer für eine constraint-basierte Phonologie gerät. Eben diesen Bestrebungen der Einführung einer constraint-basierten, formal fundierten phonologischen Phänomenbeschreibung ist auch der in dieser Arbeit präsentierte Ansatz verpflichtet, jedoch erachte ich es aus o.g. Gründen als notwendig, deutlich zwischen den Ebenen der grammatischen und der phonologischen Enkodierung zu trennen. Dementsprechend stellen die Hierarchie der grammatischen Typen und die der prosodischen Typen zwei verschiedene Partitionen der SYNPHONics-Gesamttyphierarchie dar.

155 tationsregeln auf eine prosodische Konstituentenstruktur abgebildet. Entsprechend der vorliegenden Satzmodusinformation und der aktuell verarbeiteten syntaktischen Strukturposition wird außerdem abstrakt die prosodische Markierung der Phrasengrenze der aktuell entwickelten prosodischen Konstituente berechnet.

Abb. 4.16: Die Architektur der phonologischen und phonetisch-artikulatorischen Planungskomponente Im Zuge dieser Abbildung wird zu jedem Lemma auch die konkrete Wortforminformation, das Lexem, bereitgestellt. Hierzu übergibt das Flood-Gate-Module den Lexemschlüssel an den Lexem-Selektor (Lexeme Selector). Der Lexemschlüssel setzt sich zusammen aus der im

156 Lemma-Lexikon abgelegten Zeigerinformation (eine abstrakte, während der semantisch determinierten Lemmaauswahl ermittelte Adresse, s.o.) und den im Rahmen der grammatischen Lizensierung erfolgten morphosyntaktischen Merkmalsbelegungen. Mit dem Zugriff auf das Lexem-Lexikon (Lexeme Lexicon) führt der Lexem-Selektor die Dereferenzierung des LexemZeigers aus.65 Die im Lexemlexikon abgelegte Lexeminformation umfaßt sowohl subsegmentale als auch suprasegmentale Merkmals- und Strukturinformation. Subsegmentale Information ist entsprechend dem Ansatz der nichtlinearen Phonologie als eine hierarchisch geordnete Merkmalsspezifikation des Phoneminventars des Deutschen abgelegt (WIESE 1995). Die suprasegmentale Information beinhaltet die lexeminterne prosodische Konstituentenstruktur und metrische Information. Zu beachten ist, daß entsprechend psycholinguistischer Befunde die segmentale Information nicht lexikalisch mit den einzelnen Silbenpositionen assoziiert ist, sondern dieser Assoziierungsprozeß postlexikalisch stattfindet (s. MEYER 1990, 1991), so daß auf einen kognitiv aufwendigen Re-Silbifizierungsprozeß verzichtet werden kann. Die Ausgabestruktur des Flood-Gate-Moduls stellt eine prosodische Konstituente vom Typ Phonologische Phrase (ph_phrase) dar und umfaßt eine hierarchisch strukturierte Repräsentation der aktuell zu äußernden Lexeme. In dieser Repräsentation liegt die subsegmentale Information (segm_struc) und die lexikalisch sowie semantisch-syntaktisch determinierte prosodische Strukturinformation (pros_struc) noch getrennt vor. Den nachfolgenden Prozeßschritt bildet die im Silbifizierer (Syllabifier) stattfindende Assoziierung der lexikalisch vorgegebenen segmentalen Information mit den in der prosodischen Struktur angelegten Silbenpositionen. Da die Silbifizierungsprozesse phrasale Grenzen beachten, wie Klitisierungsphänomene zeigen (s. LEVELT 1992), muß der Silbifizierer auf dieser Prozeßebene angeordnet werden.66 Im Rahmen der Silbifizierung finden außerdem noch struktursensitive segmentale, einzelsprachliche Modifikationen wie der wortinitiale Glottisschlageinschub oder Konsonantenalternationen (z.B. /g/-Spirantisierung) statt. Die makroprosodische Planung findet im nachgeschalteten Prosodischen Enkodierer (Prosodie Encoder) statt und umfaßt die abstrakte tonale und metrische Spezifizierung des Eingabeinkrements. Hierbei greift der Prosodische Enkodierer auf eine prosodische Wissensbasis zu, die einzelsprachlich parametrisierte Prinzipien zur tonalen Spezifizierung von Akzenten und Phrasengrenzen und zur metrischen Strukturierung enthält. Die Annahme eines prosodischen Kompetenzsystems, das zwischen der grammatischen Struktur und der phonetischen Realisierung vermittelt, ist dem Paradigma der Abstrakten Prosodie (LADD & CUTLER 65

Morphophonologische und lexikalisch-phonologische Prozesse sind nicht Gegenstand der SYNPHONICSModellierung. Aus diesem Grund löst der Lexikonzugriff über den abstrakten Zeiger und der morphosyntaktischen Information keinen morphophonologischen Wortbildungsprozeß aus. Statt dessen ist das Lexem-Lexikon als ein Vollformenlexikon angelegt. Eine psycholinguistisch adäquate Modellierung des Lexikons und lexikalischer Zugriffsmechanismen sollte insbesondere konnektionistische Ansätze integrieren.

66

Prozeßebene sei hier in einem weiteren Sinn zu verstehen. Es ist ebenso vorstellbar, daß der Silbifizierungsprozeß in das Flood-Gate-Modul und die Prozesse des Lexemzugriffs integriert wird. Er ist hier aus dem Flood-Gate-Modul herausgenommen wurden, da er in dieser Modellierung und der näheren Beschreibung des allgemeinen syntaktisch-prosodischen Strukturtransfers (s.u.) nicht näher betrachtet wird. Beschreibungen von Silbifizierungsalgorithmen finden sich in WIESE (1995) und WALTHER (1993).

157

1980) entlehnt67 und wird durch psycholinguistische Befunde zur metrischen Planung gestützt (FERREIRA 1 9 9 2 ) .

Aus dieser Prozeßabfolge ist zu sehen, daß nicht wie in der von V.WIJK & KEMPEN (1985)

vorgeschlagenen Modellierung der intonatorischen Planung die Lexemauswahl und die Intonationskonturberechnung in einem Prozeßschritt erfolgen. Aus Gründen einer klaren Modularisierung wird im SYNPHONICS-Modell zwischen der Prozeßebene des Aufbaus einer prosodischen Strukturrepräsentation (im Flood-Gate-Modul) und der Ebene der Spezifizierung der prosodischen Merkmale (im Prosodischen Enkodierer) unterschieden. Die Plausibilität einer solchen Trennung ergibt sich aus der unterschiedlichen Qualität der jeweiligen Prozesse. Die Prozesse des Flood-Gate-Moduls stellen Schnittstellenprozesse dar, die aus einer partiell spezifizierten grammatischen Struktur unter Beachtung prosodischer Struktur-Constraints eine prosodische Phrasenstruktur produzieren. Dagegen stellen die Prozesse der intonatorischen Planung Prozesse dar, die prosodieintern, also nur unter Bezug auf die prosodische Konstituentenspezifikation und abstrakte phonologische Information (z.B. Akzenttyp), operieren. Mit der phonologischen und abstrakt prosodischen Enkodierung ist die formulatorinterne Planung abgeschlossen. Die lexikalisch determinierte subsegmentale und näher spezifizierte prosodische Information wird an den Artikulator übergeben. Artikulatorische Enkodierung Auf der Grundlage der im Formulator berechneten prosodischen und segmentalen Information wird im Artikulator eine artikulatorische Gestenstruktur spezifiziert, welche auf akustische Parametersätze abgebildet wird, die der Ansteuerung eines Sprachsynthetisators zur Erzeugung des Sprachsignals dienen. Bei LEVELT (1989) findet die phonetische Spezifizierung der Äußerung noch innerhalb des Formulators statt (s. Abb. 4.2, Phonetische Ausbuchstabierung). Jedoch bedeutet das, daß der Formulator Zugriff auf genuin artikulatorisches Wissen haben müßte. Um diese aus Modularitäts- und Autonomiegesichtspunkten nicht wünschenswerte Konstellation zu vermeiden, wird im SYNPHONics-Modell die Berechnung des phonetisch-artikulatorischen Plans als ein artikulatorinterner Prozeß angesehen. Entsprechend dieser expliziten Trennung von phonologischer und phonetisch-artikulatorischer Planung ist eine Schnittstellenkomponente erforderlich, die aus der phonologischen Repräsentation eine artikulatorische Struktur, den phonetischen Plan, ableitet. Über den tatsächlichen Verlauf der Festlegung der artikulatorischen Ziele bei der menschlichen Sprachproduktion ist sehr wenig bekannt. CROMPTON (1982), LEVELT (1992), LEVELT

& WHEELDON (1994) nehmen an, daß die phonologisch spezifizierte Silbeninformation den Zugriffsschlüssel für den entsprechenden phonetischen Plan zur artikulatorischen Realisierung dieser Silbe darstellt, der in einer Wissensbasis (Syllabary) abgelegt ist. Alternative Vor-

67

Im Gegensatz hierzu nehmen Vertreter der Konkreten Prosodie eine unmittelbare Abbildung grammatischer Merkmale auf akustische Parameter an (s. Sammelband CUTLER & LADD 1983), wodurch sich jedoch die verallgemeinernde, funktionale Darstellung prosodischer Realisierungen als problematisch erweist.

158 Stellungen gehen davon aus, daß statt abstrakter subsegmentaler Information bereits konkrete artikulatorische Gesten oder Gestenziele im Lexikon verankert sind (BROWMAN & GOLDSTEIN 1989, 1990), über die dann der Artikulator unmittelbar angesteuert werden kann. Jedoch werden all diese Theorien kontrovers diskutiert, da sich gegen jede dieser Vorstellungen eine Vielzahl von Gegenargumenten finden lassen (LADEFOGED 1990, CLEMENTS 1992, BAUMANN

1995). Ein weiteres Desideratum eröffnet sich, wenn man die Abbildungsprozesse abstrakter prosodischer Parameter auf konkrete artikulatorische Steuerparameter betrachtet. Auch hier kann man bei der Konzipierung eines Modells weder auf eine elaborierte Theorie noch auf empirisches Datenmaterial zurückgreifen. Im SYNPHONics-Ansatz ergäbe sich eine psycholinguistisch adäquate Artikulatormodellierung und Formulator-Artikulator-Schnittstellengestaltung bei Verwendung eines artikulatorischen Sprachsynthesemodells. Da ein solches Synthesemodul gegenwärtig noch nicht verfügbar ist,68 ist eine Lösung konzipiert worden, die auf die Modellierung ausgewählter prosodierelevanter Prozesse ausgerichtet ist. Diese Modellierung der Überführung abstrakter prosodischer Merkmale auf akustische Parameter wie Grundfrequenz oder Lautdauer führt aufgrund der angestrebten Beschreibungsadäquatheit zu Erkenntnissen, die insbesondere die Einordnung prosodischer Prozesse entweder als abstrakt operierende phonologische oder als konkret parameterspezifizierende artikulatorische Prozesse betreffen. Des weiteren ist diese Konzeption als ein Vorschlag anzusehen, durch eine am menschlichen Sprachproduktionsprozeß orientierte Trennung von abstrakten prosodischen Berechnungen auf Formulatorebene und konkreten prosodischen Parametrisierungen auf Artikulatorebene die Entwicklung qualitativ höherwertiger und leichter zu modifizierender Sprachsynthesesysteme und Ansteuerungsmodule zu ermöglichen. Das Formulator-Artikulator-Schnittstellenmodul zur Überführung der subsegmentalen phonologischen Information in komplexe artikulatorische Gestenziele bildet im SYNPHONICSModell der Phonetisch-Artikulatorische Interpreter (Phonetic-Articulatory Interpreter) (ABELN & GÜNTHER 1993), der auf ein Inventar von artikulatorischen Interpretationsregeln Zugriff hat (Articulatory Mapping Rules) (GÜNTHER et al. 1994a). Da sich bei der Artikulation die Aktivitäten der verschiedenen Artikulatoren (z.B. Zungenkörper- und Lippenbewegungen) überlagern, ist dem phonetischen Interpretationsprozeß eine Komponente zur Modellierung dieser wechselseitigen artikulatorischen Beeinflussungen (ABELN & GÜNTHER 1993) unter Beachtung prosodischer Konstituentengrenzen, insbesondere der Silbengrenzen, nachgeschaltet. Dieses Modul, der Phonetische Constraint-Löser (Phonetic Constraint Solver), hat Zugriff auf eine Sammlung artikulatorischer Constraints (Articulatory Constraints), die zum einen die physiologischen Beschränkungen des menschlichen Artikulationsapparates69 und zum anderen die prosodisch-strukturellen Beschrän68

Erste Ansätze für einen artikulatorischen Synthetisator, der insbesondere auch auf das Phoneminventar des Deutschen abgestimmt ist, jedoch noch keinerlei Möglichkeiten der Steuerung prosodischer Merkmale aufweist, finden sich bei KRÖGER (1993) und WALTHER & KRÖGER (1994).

69

Mit diesem Prozeßschritt wird der Modellierung der Sprachproduktion eine neue Dimension hinzugefügt, da jetzt auch physiologische Beschränkungen der Sprachproduktion in Betracht gezogen werden müssen. Adäquate Modellierungen sind über Feder-Masse-Modellierungen (FOWLER et al. 1980) oder Task-Dynamic-

159 kungen für artikulatorische Ko-Produktionen beschreiben (REICHHART 1994).70 Nach diesen Prozessen liegt eine vollständige artikulatorische Merkmalsrepräsentation des aktuell zu versprachlichenden Äußerungsfragments vor, die die anschließende akustische Parametrisierung determiniert. Abschließend werden die prosodisch spezifizierten artikulatorischen Gestenkomplexe in akustische Sprachsignale gewandelt. Die Berechnung der akustischen Parameter der Äußerung, die den Spezifikationen der prosodischen Merkmale und der artikulatorischen Ziele entsprechen, erfolgt im Phonetisch-Akustischen Parametrisierer (Phonetic-Acoustic Parametrizer). Hierbei werden einerseits über eine Rhythmusplanung die abstrakten Prominenzinformationen (Wortakzent, Satzakzent) und die prosodische Konstituentenstrukturinformation auf Lautdauern abgebildet und andererseits über eine Intonationsplanung die abstrakte Toninformation in Grundfrequenzparameter überführt (s. NIEMEYER 1995). Für die Sprachrhythmusberechnung spielt die im Rahmen der phonologischen Enkodierung festgelegte Silbenstruktur eine entscheidende Rolle, da einem Ansatz von POMPINO-MARSCHALL (1990) folgend die Silben in Abhängigkeit ihrer internen Strukturierung (Onset-Nukleus-Gliederung) die Wahrnehmung des Sprachrhythmus determinieren. Dieses perzeptiv orientierte Konzept wird in der SYNPHONics-Modellierung als Ausgangspunkt für die Rhythmusgenerierung gewählt. Zur Abbildung der artikulatorischen Gestenziele auf die vom Sprachsynthetisator verarbeitbaren akustischen Steuerparameter (Grundfrequenz, Formantfrequenzen, Bandbreiten usw.) greift der Phonetisch-Akustische Parametrisierer auf entprechende Parametersätze (in der Wissensbasis Articulatory/Acoustic-Parameter-Sets) zu und führt zwischen den selegierten Sätzen interpolierende Berechnungen aus, wobei auch die segmentinhärenten mikroprosodischen Beeinflussungen berücksichtigt werden können. Mit den so gewonnenen akustischen Parametersequenzen wird schließlich der Sprachsynthetisator (Speech Synthesizer) zur Erzeugung der lautsprachlichen Äußerung angesteuert. Zur Sprachsynthese kommt ein KLATTbasierter Formantsynthese-Algorithmus zum Einsatz (HIRSCHFELD & KORDON 1994). 71

Damit sei die Vorstellung der Architektur des phonologischen und phonetisch-artikulatorischen Enkodierers im SYNPHONics-Modell beendet. Die Entwicklung der Repräsentationen und Planungsprozesse prosodischer Merkmale und Konstituenten, wie sie im Rahmen der SYNPHONics-Modellierung zur Anwendung kommen, sind Gegenstand des nachfolgenden Kapitels. Zu Darstellungen der möglichen artikulatorischen und akustischen Realisierung der abstrakten prosodischen Spezifikationen sei auf den kurzen Überblick im Kapitel 6 und die oben angeführte Literatur verwiesen. Modellierungen (SALTZMAN & KELSO 1987) erzielbar. Da in der SYNPHONics-Modellierung artikulatorische Prozesse nicht den Untersuchungsgegenstand darstellen, werden solche Ansätze nicht integriert. 70

BERG (1992:90) spricht hier von einer präartikulatorischen Verarbeitungsebene und „der Endphase der Kognition". Aus Modularitätsgesichtspunkten wird dieses Modul in diesem Ansatz als integraler Bestandteil des Artikulatormoduls angesehen.

71

Dieser Spachsynthesealgorithmus wurde uns freundlicherweise vom Institut für Technische Akustik der TU Dresden bereitgestellt.

160

4.4. Zusammenfassung Nach der Vorstellung eines Sprachproduktionsmodells, das wesentliche Aspekte der prosodischen Enkodierung integriert, soll noch einmal zusammenfassend dargestellt werden, auf welchen Prozeßebenen der Sprachproduktion welche prosodierelevanten Berechnungen vorgenommen werden. Das somit erstellte explizite Modell der prosodischen Enkodierung wird im nachfolgenden Kapitel hinsichtlich Verarbeitungseinheiten und Prozeßbeschreibungen näher betrachtet. Es wurde gezeigt, daß die Modellierung der prosodischen Produktionsprozesse und der prosodischen Merkmals- und Strukturrepräsentationen unter der Prämisse einer modularen, rückkopplungsfreien, inkrementellen, weitgehend monotonen Prozeßgestaltung erfolgt, die sich einpaßt in die Modellierung weiterer am Sprachproduktionsprozeß beteiligter Prozesse der konzeptuellen und grammatischen Enkodierung. Die prosodischen Prozesse operieren grundsätzlich auf partiellen Äußerungsstrukturen, und deren Zuordnung zu den verschiedenen Prozeßebenen der Sprachproduktion erfolgt auf der Grundlage theoretisch linguistischer Überlegungen und psycholinguistischer oder phonetischer Befunde. Die oben ausgearbeitete Modellvorstellung über den systematischen Zusammenhang von Sprachproduktion und prosodischen und prosodierelevanten Prozessen wird in Abb. 4.17 mittels einer expliziten Zuordnung der wesentlichen prosodischen Prozesse zu einzelnen Verarbeitungsebenen des Sprachproduktionsprozesses dargestellt. Auf der Ebene der konzeptuellen Planung werden der Sprechakt und die damit in Zusammenhang stehende Einstellung zum propositionalen Gehalt der Äußerung festgelegt und der äußerungsrelevante Kontext aktiviert. Diese Faktoren haben keinen unmittelbaren, sondern einen über das grammatische System vermittelten Einfluß auf die prosodische Realisierung. Bereits auf der ersten Verarbeitungsebene des Formulators, dem Semantischen Enkodierer, werden Berechnungen durchgeführt, die unmittelbar die prosodische Merkmalsspezifizierung beeinflussen. Zum einen findet hier die kontextuell gesteuerte Berechnung der Fokus/Hintergrund-Gliederung statt, und zum anderen wird aus der in der Äußerungssituation verankerten Einstellungsinformation der Satzmodus ermittelt. Es konnte gezeigt werden (s.o. unter Berechnung der Fokus/Hintergrund-Gliederung), daß mit einer konsequenten Modularisierung, z.B. mit der sprachsysteminternen Berechnung von Fokusinformation, die über den Abgleich von CS und CT erfolgt, auf anderweitig angenommene, arbiträre Merkmale (wie z.B. nicht neutral akzentuierbar [ na] bei kontextueller Gegebenheit) verzichtet werden kann. Somit erweist sich Modularisierung als eine Methode, prosodiedeterminierenden Strukturmerkmalen eindeutig eine Ebene deren Spezifikation zuordnen zu können, um indifferente, im Rahmen einer Modellierung nicht rekonstruierbare Verweise auf kontextuelle oder pragmatische Gegebenheiten vermeiden zu können.

161 Konzeptualisierer Sprechakt-/EinstellungsFestlegung

CS/CT-Aktivierung

CS

CT

s

Formulator Semantischer Enkodierer

Fokus-Berechnung, Modus-Berechnung

SEM/SYN-Strukturaufbau, Lizensierung

Fokus-Akzent-Abbildung, Akzentvererbung

SYNPHON Flood Gate

I

4

Prosodischer Strukturaufbau

Prosodischer Enkodierer

4

Akzent-Ton-Abbildung, Grenzton-Festlegung, Metrische Spezifizierung

Artikulator Rhythmus-Planung

fo-Parametrisierung

Sprachsynthese

Akzent -> Lautdauer, Konstituententyp -> Finale Lautlängung Inkrementlänge -> Rhythmus

Ton -> fo-Wert, ' Interpolation t

Parameter -> Signal

Abb. 4.17: Modell des Zusammenhangs von Sprachproduktion und prosodischer Enkodierung (Prosodierelevante Spezifikationen auf den verschiedenen Produktionsebenen) Des weiteren wurde vorgeschlagen, daß bereits auf der Ebene des semantisch-syntaktischen Strukturaufbaus im Rahmen der Strukturlizensierung die Abbildung der Fokusstruktur auf die Akzentstruktur stattfindet. Eine solche Akzentbestimmung ist auch möglich, wenn die syntaktische Konstituentenstruktur nur partiell vorliegt. Diese frühe abstrakt prosodische Merkmalsfestlegung impliziert jedoch nicht, daß zeichenbasierte Grammatikrepräsentationen, wie sie z.B. die HPSG verwendet, in großem Umfang mit prosodischen Merkmalen oder prosodischer Konstituentenstrukturinformation angereichert werden sollten. Es wird gegen eine solche Ausweitung der Repräsentation vor dem Hintergrund argumentiert, daß es sich bei den proso-

162 dischen Konstituenten um bedingt performanzabhängige Strukturen handelt. Die Anreicherung der deklarativen Repäsentationen syntaktischer Konstituentenstrukturen mit Informationen zur prosodischen Phrasenstrukurierung wird als nicht sinnvoll erachtet, da die prosodische Phrasierung abhängig ist vom konkreten Produktionsprozeßverlauf und der jeweiligen Äußerungssituation (z.B. über die Sprechgeschwindigkeit). Stattdessen wird eine prosodische Struktur aufgebaut, die die aktuell zu realisierende Äußerungspartition repräsentiert. Die Ableitung der prosodischen Phrasenstruktur aus dem aktuellen, partiell semantischsyntaktisch spezifizierten Äußerungsfragment findet im SYNPHON-Flood-Gate statt. Diese prosodischen Strukturbildungsprozesse operieren nicht starr auf der Grundlage strukturell orientierter Regeln, sondern berücksichtigen den aktuellen Stand der grammatischen Enkodierung, so daß die Größe der prosodischen Struktureinheiten unmittelbar den Planungsstatus der grammatischen Ebene reflektiert. Die Prozesse des Flood-Gate-Moduls umfassen außerdem die Abbildung weiterer grammatischer Merkmale wie die Information über die satzstrukturelle Einbettung des aktuellen Fragments auf globale prosodische Merkmale (z.B. Grundfrequenzbereich) und den Zugriff auf die korrekte Wortform mit der getrennten prosodischen und subsegmentalen Information. Die tonale Spezifikation des zu artikulierenden Fragmentes erfolgt im Prosodischen Enkodierer. Die konkrete akustische Parametrisierung der prosodischen Merkmale findet auf der Ebene der artikulatorischen Enkodierung statt. Aus der dem Paradigma der Abstrakten Prosodie verpflichteten Trennung von abstrakter prosodischer Enkodierung und konkreter prosodischer Realisierung ergibt sich, daß semantische Merkmale die prosodische Realisierung über eine abstrakte Ebene vermittelt determinieren. Die konkrete akustische Realisierung abstrakter prosodischer Merkmale manifestiert sich in Variationen der Grundfrequenz, Lautdauer und Intensität, wobei hier auch der Phänomenbereich der Mikroprosodie (d.h. segmentinhärente Effekte und Koartikulationseffekte) zu berücksichtigen ist. Die prosodische Phrasierung determiniert die Lautdauer- und Rhythmusplanung. Die abschließende Parameter-Signal-Wandlung und somit die auditiv wahrnehmbare, akustische Realisierung der geplanten Äußerung mit den berechneten prosodischen Merkmalspezifikationen findet im Sprachsynthetisator statt. Mit der hier vor dem Hintergrund der Sprachproduktion vorgenommenen Differenzierung prosodischer Verarbeitungsebenen eröffnet sich ein methodisch klarer Zugang bei zukünftigen Untersuchungen der Funktionen der Prosodie in der sprachlichen Kommunikation, was abschließend diskutiert werden soll: - Gegenstand der theoretischen Linguistik ist u.a. die Untersuchung der relationalen Abhängigkeit zwischen semantischer, syntaktischer und phonologischer Information innerhalb eines sprachlichen Zeichens, wozu die strukturelle Festlegung von Akzentpositionen gehört. Außerdem sind Untersuchungen zur Modus- und Fokusberechnung unter Bezug auf konzeptuelle und kontextuelle Gegebenheiten für prosodische Untersuchungen von Bedeutung. Aussagen in Bezug auf prosodische Realisierungen müssen noch auf einer ausreichend abstrakten Ebene getroffen werden, um nicht prosodieintern bedingte Variationen

163 als grammatisch distinktive Konstellationen zu interpretieren. Aus diesem Grund ist es nicht sinnvoll, bestimmte semantische Merkmale unmittelbar mit tonalen Merkmalen zu assoziieren, wie es oft in theoretisch linguistischen Arbeiten zu finden ist, sondern es sollten grammatische Merkmale (z.B. abstrakte Akzenttypen) und Strukturbeschreibungen gesucht werden, die genügend abstrakt die prosodische Spezifizierung determinieren. Dessen ungeachtet müssen die abstrakten linguistischen Repräsentationsvorschläge mit den realen und oft verworrenen Daten der prosodischen Realisierung (ein Kasusmerkmal manifestiert sich natürlich wesentlich eindeutiger als ein Akzentmerkmal) in Bezug gesetzt werden, was die Zusammenarbeit mit experimentell arbeitenden Phonetikern erfordert. So muß z.B. über Perzeptionsexperimente verifiziert werden, ob ein von der Theorie präskriptiv vorgegebener Hauptakzent eines Satzes auch wirklich als der primäre Akzent eines Satzes wahrgenommen wird. -

Während die Akzentfestlegung rein strukturorientiert, ohne Beachtung realer Prozeßgegebenheiten, erfolgen kann, ist die Erklärung der prosodischen Phrasierung nur unter Bezug auf Verarbeitungsgesichtspunkte möglich. Phrasierungsphänomene sind als semantisch/syntaktisch-phonologische Schnittstellenphänomene anzusehen und bedürfen demnach auch einer methodischen Annäherung sowohl von der semantisch-syntaktischen als auch von der prosodischen Ebene. Die theoretische Linguistik vermittelt Erkenntnisse über den syntaktischen Strukturaufbau (z.B. Basisgenerierung von Verben) und über die syntaktische Merkmalszuweisung (z.B. strukturelle oder lexikalische Kasusvergabe), worüber Einschränkungen möglicher Abfolgen des Strukturaufbaus und der Strukturlizensierung formulierbar sind. Diese Faktoren beeinflussen wesentlich die prosodische Phrasenbildung, da nur vollständig morphosyntaktisch spezifizierte Konstituenten versprachlicht werden können. Aus Sicht der Prosodie wiederum sind Gesetzmäßigkeiten des Auftretens und der Ausprägung prosodischer Grenzmarkierer formulierbar. Auf der Grundlage dieser Daten kann die Kongruenz bzw. Nicht-Kongruenz grammatischer und prosodischer Phrasierungen diskutiert werden. Im Rahmen dieser Schnittstellendiskussion sind ebenso subsegmentale phonologische Prozesse von Belang, da sie z.T. ein sensitives Verhalten bezüglich prosodischer Grenzen aufweisen.

-

Gegenstand der abstrakten Prosodie ist die Abstraktion prosodischer Merkmale aus einem Konglomerat akustischer Parameter im Sprachsignal, die die metrische, tonale und phrasale Struktur eines Äußerung rekonstruierbar beschreiben. Um der abstrahierenden Funktion nachzukommen, müssen bei der kategorialen Beschreibung prosodischer Phänomene die segmentale Basis und das koartikulative und prosodische Umfeld beachtet werden. Zugleich muß die abstrakte Prosodie aber auch ihrer vermittelnden Funktion zwischen Grammatik und Akustik gerecht werden und einen Zusammenhang zwischen prosodischen Merkmalen und der grammatischen Zeichenstruktur herstellen, da es wenig Sinn macht, z.B. Töne zu transkribieren, denen weder eine grammatische noch eine prosodieinterne Funktion zugeordnet werden kann. Es genügt also nicht, daß man z.B. jede beliebige wahrnehmbare bzw. sichtbare Tonbewegung als einen bestimmten Ton transkribiert, wie es oft

164 in den Arbeiten des Tonsequenzansatzes erfolgt,72 sondern es müssen Aussagen über die distinktive Relevanz und grammatische Funktion einer Kontur getroffen werden. - Gegenstand der phonetisch orientierten Prosodie ist die akustische Ausprägung abstrakter prosodischer Merkmale, deren mögliches gegenseitiges Wechselspiel auf der akustischen Ebene und die mikroprosodische Parametrisierung. In engem Zusammenhang hierzu sind auditive Untersuchungen zur kategorialen Wahrnehmung prosodischer Merkmale (BATLINER 1989) zu sehen, um die Relevanz bestimmter akustischer Parameter als das signalphonetische Korrelat linguistischer Konstellationen bestimmen zu können. - Gegenstand psycholinguistischer Untersuchungen sind insbesondere die Prozeßeigenschaften der prosodischen Planung und die Inkrementgrößen und -arten auf den beschriebenen Prozeßebenen. Auf der Grundlage psycholinguistischer Erkenntnisse läßt sich die Einordnung prosodischer Prozesse in den Sprachproduktionsverlauf verifizieren, um so plausiblere Übergabestrukturen und Constraints definieren zu können. Nach der globalen Vorstellung der Einordnung prosodischer Enkodierungsprozesse in ein Sprachproduktionsmodell werden im nachfolgenden konkrete Repräsentationen prosodischer Merkmale und Strukturen und Formulierungen prosodischer Enkodierungsprozesse gegeben. Die darzustellenden Lösungen betreffen insbesondere die formulatorinternen prosodischen Planungsprozesse der Fokus-Akzent-Abbildung, der prosodischen Konstituentenstrukturbildung und der abstrakten prosodischen Enkodierung.

72

Siehe hierzu Fußnote 42 im Kapitel 5.

5. Strukturen und Prozesse der prosodischen Enkodierung

"Prosody is the sauce of the sentence—it adds to, enhances or subtly changes the flavour of the original. And like a good sauce, the realization of a sentence's prosodie structure is a blend of different ingredients none of which can be separately identified in the final product. " CUTLER & I S A R D ( 1 9 8 0 : 2 4 5 )

Nach der Vorstellung einer systematischen Einordnung prosodischer Enkodierungsprozesse in den Prozeßverlauf der Sprachproduktion sollen in diesem Kapitel Lösungen zu folgenden Fragestellungen erarbeitet werden: - Auf welchen prosodischen Konstituenten operieren die verschiedenen prosodischen Planungsprozesse? Wie stellt sich eine Typhierarchie prosodischer Merkmale und Konstituenten als Grundlage einer formalen Rekonstruktion der Domäne prosodischer Phänomene im Rahmen eines merkmalsstrukturbasierten Formalismus dar (s. Abschn. 4.2.3)? - Wie sind die Prozeßschritte und Constraints für die Produktion einer Eingabestruktur des Artikulators aus einer semantisch-syntaktischen Strukturrepräsentation zu formulieren? - Welcher Zusammenhang besteht zwischen semantischen, syntaktischen und prosodischen Konstituenten? Wie können die angenommenen prosodischen Konstituenten anhand des Prozeßverlaufs der Sprachproduktion motiviert werden? Wie bereits bei der Vorstellung des SYNPHONics-Architekturmodells ersichtlich wurde, wird in dieser Arbeit die abstrakte prosodische Spezifizierung einer Äußerung als eine ebenenspezifisch zugeordnete Abfolge formulatorinterner Prozesse aufgefaßt, in deren Ergebnis eine prosodisch strukturierte und mit prosodischen Merkmalen annotierte Eingabestruktur für den Artikulator vorliegt. Die Modellierung prosodischer Strukturen und Prozesse erfolgt wie bereits auf der Ebene der grammatischen Enkodierung im Rahmen des getypten Merkmalsstrukturformalismus ALE. Neben den grundsätzlichen, bereits in Abschnitt 4.2.3 erwähnten Vorteilen der Wahl einer merkmalslogikbasierten Beschreibungssprache für eine komplexe Systemmodellierung, die auch hier bei der Modellierung prosodischer Phänomene zum Tragen kommen, müssen die Paradigmen gegenwärtiger theoretischer Beschreibungen der Phonologie und Prosodie in Betracht gezogen werden. Um den Status informeller, inkohärenter bzw. inkonsistenter Beschreibungen in der phonologischen Theoriebildung und deren implizite Verknüpfung mit Prozeßgesichtspunkten (Regelanordnung, Zwischenrepräsentationsebenen) überwinden zu können, ist es erforderlich, auf eine formale Sprache zurückzugreifen, die eine mathematische Überprüfbarkeit der Datenmodelle und Axiomatisierung der Domäne und eine Operationalisierung der Modellierung zuläßt. Aus Sicht der Prosodie ergibt sich die Notwendigkeit einer formalen Modellierung besonders eindringlich, da, wie oben gezeigt werden konnte, prosodierelevante Berechnungen auf allen Ebenen der Sprachproduk-

166 tion stattfinden. Die strenge Typdisziplin eines getypten Merkmalsstrukturformalismus wie ALE sorgt hier für eine klare Modularisierung und unterstützt die ebenenspezifische Beschreibung prosodischer Prozesse.1 Auf diese Weise ordnet sich der hier vorzustellende Ansatz der prosodischen Merkmals-, Struktur- und Prozeßbeschreibung in die gegenwärtigen Bestrebungen einer formalen, constraint-basierten, monostratalen phonologischen Bes c h r e i b u n g e i n (s. z . B . BIRD 1 9 9 0 , SCOBBŒ 1 9 9 1 , WALTHER & WIESE 1 9 9 3 , BROE 1 9 9 3 , BIRD & KLEIN 1 9 9 4 , CLEMENTS 1 9 9 5 ) .

Die Modellierung der prosodischen Enkodierungsprozesse beruht auf den in Abschnitt 4.2.2 erläuterten Prozeßeigenschaften von SYNPHONICS und auf einer theoretisch-linguistisch und psycholinguistisch motivierten ebenenspezifischen Anordnung dieser Prozesse (s. Abb. 4.17). Somit unterscheidet sich diese Konzeption wesentlich von Systemansätzen, wie z.B. in QUENÉ & KAGER (1992, 1993) beschrieben, die auf derivationellen, nichtmonotonen Regel-

anwendungen und einer nicht formal spezifizierten Modellierung prosodischer Strukturen und Merkmale beruhen. Diese Systeme weisen dadurch eine hohe Komplexität und Interdependenz einzelner prosodischer Regelanwendungen sowie eine ungenügende theoretisch-linguistische Fundierung prosodischer Prozesse2 auf. Der nachfolgende Entwurf prosodischer Struktur- und Regelrepräsentationen zielt auf eine formale Zusammenführung theoretischlinguistischer, phonetischer und psycholinguistischer Erkenntnisse über die prosodische Spezifizierung einer Äußerung in einem Sprachproduktionsmodell ab. Die Modellierung der prosodischen Enkodierungsprozesse weist software-technisch gesehen aufgrund der gewählten Prozeßeigenschaften der Modularität, Rückkopplungsfreiheit und der Formen der Monotonie eine kontrollierte Komplexität und leichte Erweiter- und Modifizierbarkeit auf. Die in der Prosodischen Phonologie erarbeiteten Vorstellungen zur prosodischen Konstituentenstruktur und den entsprechenden syntaktisch-phonologischen Abbildungsrelationen sowie zu den prosodieinternen Prinzipien sind als Theorie einer strukturierenden phonologischen Repräsentation von Äußerungen einzuordnen, auf deren Grundlage Wohlgeformtheitsaussagen über lautsprachliche Realisierungen getroffen werden können. Betrachtet man diese Strukturen aus Sicht der Sprachproduktion, ist es fraglich, ob auch eben diese Strukturen

1

Auch wenn die Repräsentation sprachlichen Wissens in einer Merkmalsmatrixnotation im Rahmen der Phonologie entwickelt wurde (CHOMSKY & HALLE 1968), wurden die neueren Entwicklungen der merkmalsstrukturbasierten Formalismen in der phonologischen Theorie kaum nachvollzogen. So ist es durch die informelle Darstellungsweise und das damit in Zusammenhang stehende Fehlen etwa von Angemessenheitsdefinitionen durchaus üblich, daß Merkmale und deren Wertebereiche ohne Beachtung einer Strukturhierarchie inkohärent oder inkonsistent festgelegt werden.

2

Z . B . stellen DIRKSEN & QUENÉ ( 1 9 9 3 : 1 3 2 ) in B e z u g a u f d a s S y s t e m PROS v o n QUENÉ & KAGER ( 1 9 9 2 ,

1993) fest: "However, while their program PROS is inspired by linguistic theory, it is not an implementation of any linguistic theory in a strict sense. Instead, PROS uses clever rules to mimic the output of more general rules. As a result, the relation between theory and implementation becomes rather murky: there is no way of verifying formally whether or not PROS does what it is designed to do. Instead, the program is evaluated as a black box,..."

167 kognitiv reale Planungseinheiten im Versprachlichungsprozeß darstellen. 3 In gleichem Maße müssen im Rahmen einer kognitiv orientierten Modellierung prosodische Regeln (wie z.B. die der Akzentzuweisung in J A C O B S 1 9 9 1 ) hinterfragt werden, in denen vollständig ausformulierte Satzstrukturen die Planungsdomäne darstellen und nicht auf nur partiell vorliegende Strukturinformation Bezug genommen wird. Im folgenden werden zunächst merkmalsstrukturelle Repräsentationen prosodischer Konstituenten und anschließend ebensolche Repräsentationen für prosodische Merkmale vorgestellt. Während in bisherigen Vorschlägen zur prosodischen Konstituentenbeschreibung strukturorientierte Ansätze verfolgt wurden, sollen hier die prosodischen Strukturen eher in ihrer Funktion als Verarbeitungseinheiten im Sprachproduktionspozeß betrachtet werden. Zum Abschluß werden constraint-basierte Formulierungen der prosodischen Enkodierung auf den Ebenen der grammatischen und der phonologischen Verarbeitung beschrieben, die eine inkrementbasierte, monotone Verarbeitung sicherstellen.

5.1. Formale Repräsentation prosodischer Konstituenten Die Grundlage für eine strukturierte Rekonstruktion einer Domäne bildet eine formale Beschreibung der zu verarbeitenden Daten, die in diesem Kapitel geleistet werden soll. Hierzu werden die Kapitel 3 herausgearbeiteten prosodischen, informell beschriebenen Struktureinheiten im Rahmen eines Merkmalsstrukturformalismus modelliert und so einer Computermodellierung zugänglich gemacht. Diese merkmalstrukturelle Notation zielt auf eine explizite, formale Darstellung der wesentlichen Charakteristiken prosodischer Konstituenten und deren Beziehung zueinander, um auf diese Weise die in der Prosodischen Phonologie vorherrschende informellen und impliziten Beschreibungen zu überprüfen und auf formaler Ebene weiterzuentwickeln. Zur Strukturierung prosodischer Domänen in einer Äußerung soll eine Hierarchieordnung prosodischer Konstituenten dienen. Die Einführung prosodischer Konstituenten liegt jedoch nicht nur in der Modellierung und Beschreibung prosodischer Phänomene begründet, sondern diese Konstituenten spielen, wie bereits in Abschnitt 3.2 dargestellt, als Struktur- und Verarbeitungseinheiten eine wesentliche Rolle in der menschlichen Sprachproduktion. Die erwähnten empirischen Befunde (z.B. zu Sprechfehlern oder zur artikulatorischen Planung) belegen, daß prosodische Konstituenten kognitive Relevanz besitzen, so daß die Repräsentation prosodischer Konstituenten einen genuinen Bestandteil der hier vorgestellten umfassenden Modellierung der Sprachproduktion darstellt. Im folgenden wird eine Hierarchie prosodischer Konstituenten präsentiert, deren Spezifikation sich an

3

Eine unmittelbare prozedurale Interpretation der vorgeschlagenen Abbildungsrelationen an der SyntaxP h o n o l o g i e - S c h n i t t s t e l l e (SELKIRK 1 9 8 4 , NESPOR & VOGEL 1 9 8 6 , INKELAS & ZEC 1 9 9 0 ) e n t s p r ä c h e d e m

Vorgehen von FODOR et al. (1974), die in ihrer auf der Generativen Grammatik basierenden Modellierung der Sprachproduktion die rein strukturorientierten Abbildungsrelationen zwischen syntaktischer, phonetischer und semantischer Repräsentation in prozedurale, zeitbezogene Relationen umgewandelt haben (s.a. d i e K r i t i k in DLTTMAN e t al. 1 9 8 8 ) .

168

den Vorgaben der Prosodischen Phonologie orientiert, jedoch ebenso psycholinguistische, performanzorientierte Gesichtspunkte in Betracht zieht. Die in dieser Arbeit entwickelte Typhierarchie prosodischer Konstituenten (Abb. 5.1) umfaßt wortinterne und phrasale Konstituenten. Als ein allen prosodischen Konstituenten gemeinsames Merkmal wurde definiert, daß sie prosodische Tochterkonstituenten eines jeweils näher zu spezifizierenden Typs dominieren (Merkmal P_DTRS). Wortinterne Konstituententypen sind die Typen Silbe {syllable), Fuß (foot) und Phonologisches Wort (ph_word). Als phrasaler Konstituententyp wird die Phonologische Phrase (ph_phrase) definiert. Der wesentliche Unterschied zwischen diesen beiden Typkategorien besteht darin, daß die wortinternen Konstituenten (außer der Silbe) eine metrisch verzweigende Strukturierung in metrisch starke und metrisch schwache Tochterkonstituenten aufweisen, während die Phonologische Phrase eine multipel verzweigende, metrisch nicht spezifizierte Struktur aufweist. Die metrische Prominenz einer Konstituente wird über das Merkmal METRIC näher spezifiziert (s. Abschn. 5.2.1). Prosodische Konstituenten prosjconst [P_DTRS: p_const_dtrs]

Wortinterne Konstituenten [METRIC: accenUype]

Silbe syllable

Fuß foot

Phonologische Phrase (phrasale Konstituente) ph_phrase

Phonologisches Wort ph_word

Abb. 5.1: Typhierarchie prosodischer Konstituenten (Ausschnitt aus der SYNPHONICS-Typhierarchie)

5.1.1.

Phonem

Wenn auch in dieser Arbeit suprasegmentale Einheiten und Phänomene im Mittelpunkt des Interesses stehen, soll doch auf die Möglichkeiten der formalen Repräsentation segmentaler Information eingegangen werden, da der jeweilige Phonemvorrat die konstituierende Basis für eine Sprache darstellt. Im Rahmen prosodischer Untersuchungen sind segmentale Merkmale von Relevanz, da sich bestimmte prosodische Spezifizierungen nur bei Vorhandensein entsprechender lautlicher Voraussetzungen realisieren lassen. So ist die Realisierung abstrakt spezifizierter Töne über eine Grundfrequenzvariation nur bei Vorhandensein stimmhafter Lautpartitionen möglich, bzw. die wortinterne Realisierung bestimmter Tonkonturen und Konturwendepunkte hängt von der segmentalen Struktur ab (siehe zur Realisierung von L*+H Tönen GARTENBERG & PANZLAFF-REUTER 1991). Dementsprechend muß für eine korrekte Modellierung des Grundfrequenzverlaufs auf der Artikulatorebene Information über die äußerungsinterne Ausdehnung stimmhafter Partitionen bekannt sein. Ebenso ist die Besetzung

169 bestimmter Silbenpositionen von den phonologischen Merkmalen des jeweiligen Segments abhängig. Aus diesen Gründen ist eine Repräsentation der phonologischen Phoneminformation in einer Modellierung prosodischer Phänomene erforderlich. Im Rahmen der SYNPHONics-Modellierung greife ich für die phonologische, subsegmentale Merkmalsrepräsentation auf die phonologische Repräsentationshierarchie von WIESE (1995) zurück, die insbesondere auch phonologische Besonderheiten des Phoneminventars des Deutschen berücksichtigt. Diese der Autosegmentalen Phonologie (spez. MCCARTHY 1988) verpflichtete hierarchische Organisation terminaler phonologischer Merkmale und nicht-terminaler phonologischer Klassenknoten ergibt sich aus der Betrachtung phonologischer und phonetisch-artikulatorischer Regularitäten. So wird z.B. durch die Unterscheidung zwischen einem laryngalen Merkmalspfad und einem supralaryngalen Merkmalspfad die relative Unabhängigkeit laryngaler Spezifikationen von supralaryngalen Merkmalsbelegungen modelliert. Aus der von WIESE (1995) vorgeschlagenen phonologischen Merkmalshierarchie läßt sich die in Abb. 5.2 wiedergegebene merkmalsstrukturelle Notation entwickeln.4 Mittels dieser Merkmalsstruktur vom Typ root lassen sich die phonologischen Merkmale eines jeden Phonems beschreiben und so für die Computersimulation segmentaler Prozesse im SYNPHONICSSystem verwenden. Das Merkmal konsonantisch (CONS_F) gestattet eine globale Kategorisierung des Phonems als Konsonant oder Vokal. Über die Merkmale blockierend und dauernd (OBSTR_F, CONT_F) werden Konsonanten hinsichtlich der Art der Blockierung des Luftstroms während der Artikulation näher spezifiziert. Die Merkmale nasal, laryngal und supralaryngal (NASAL_F, LARY_F, SUPRA_L_T) beschreiben die Aktivitäten der einzelnen Artikulatoren näher. Über die Merkmale LABIAL_T, DENTAL_T, CORONAL_T, DORSAL_T und

RADICAL_T werden die Artikulationsorte der supralaryngalen Lautbildung spezifiziert. Die Verankerung eines Phonems in der prosodischen Konstituentenstruktur gewährleiste ich, indem diese Merkmalsstruktur vom Typ root als Wert der segmentalen Positionen in den Silbenkonstituenten definiert ist (s.u.). Mit dieser komplexen Repräsentation der subsegmentalen Merkmale eines Phonems durch eine Merkmalsstruktur ist eine adäquate Entsprechung dafür gegeben, auch das Phonem als Ganzes und nicht nur einzelne Merkmalsspezifikationen als Verarbeitungseinheit in der Sprachproduktion zu betrachten. Die Annahme, daß Einheiten in der Größe von Phonemen als mentale Einheiten der Sprachproduktion anzusehen sind (s. DITTMANN 1988), wird über Versprecher motiviert, in denen nicht nur einzelne sub-

4

Grundsätzlich bereitet jedoch die Abbildung autosegmentaler Beschreibungen auf formale Repräsentationen Probleme, da bestimmte Knoten in der Hierarchie mit artikulatorischen Gesetzmäßigkeiten begründet werden, eine konsistente Unterscheidung zwischen Merkmal und Wert jedoch ausbleibt. Da subsegmentale Phänomene in der SYNPHONics-Modellierung nicht betrachtet werden, stellt die vorgeschlagene merkmalsstrukturelle Repräsentation eine Variante der Formalisierung dar, die vor allem darauf ausgerichtet ist, eine korrekte Umsetzung in artikulatorische Gestenziele zur angemessenen Sprachsynthese zu ermöglichen.

170 segmentale Merkmale, z.B. Ort des Verschlusses, gestört werden, sondern komplexere Konfigurationen.5 CONS.F: OBSTR_ F: CONT.F: NASAL. F: LARY_ F:

cons_f obstr_f cont_f nasal_/ lary.f

["LABIAL.F: labial_f LABIAL.T: [ R 0 U N D F . MUND F DENTAL.T: CORONAL.T: PLACE.T: SUPRA. L.T:

denlal_f coronal_/

DORSAL. F: dorsal_/ DORSAL.T: FRONT. F: from_/ BACK. F: back _ f RADICAL.T: A/R_/ placent

THIGH. F: ΛΙ«Α_/ TONGUE. POS.T: [LOW. F: low. supra_l_t root

Abb.5.2:

Merkmalsstruktur zur Repräsentation phonologischer Merkmale

Für das SYNPHONics-Modell gehe ich davon aus, daß im Lexem-Lexikon die subsegmentale Merkmalsrepräsentation zu den Phonemen unterspezifiziert vorliegt. Im Rahmen der artikulatorischen Enkodierung werden die abstrakten phonologischen Merkmale auf artikulatorische Gestenziele abgebildet. Erst auf dieser Ebene werden unter Beachtung der prosodischen, insbesondere silbischen Struktur die koartikulativen Effekte der Lautbildung beachtet. So wird z.B. der laryngale Aspirant /h/ hinsichtlich seines laryngalen Merkmalswertes (LARY_T) lexikalisch mit gespreizt (engl, spread) spezifiziert, während die davon unabhängige Festlegung der supralaryngalen Artikulatorziele (von Zungenkörper, -spitze, Lippen) zur korrekten Synthetisatoransteuerung im Artikulator in Bezug auf den vokalischen Kontext erfolgt. Um auf die Abbildung subsegmentaler, phonologischer Merkmale auf artikulatorische Gestenziele verzichten zu können, ist im Rahmen der Artikulatorischen Phonologie die Vorstellung entwickelt worden, daß arikulatorische Gesten die kleinsten phonologischen Beschreibungseinheiten bilden (BROWMAN & GOLDSTEIN 1989). Jedoch bestehen zwischen phonologischen Merkmalen und artikulatorischen Gesten einige fundamentale Unterschiede. Die subsegmentalen Merkmale sind abstrakte, atemporale, diskrete Repräsentationen mit einem oft nur binären Wertevorrat. Artikulatorische Gestenrepräsentationen beschreiben hingegen reale Artikulatorpositionen im Vokaltrakt, besitzen eine zeitliche Dimension und beruhen auf numerischen Berechnungsfunktionen. Diese grundsätzlichen Differenzen lassen es meiner Meinung nach fraglich erscheinen, ob die abstrakten Regularitäten auf der lexikon5

Als ein Beispiel von Versprechern auf Phonemgröße sei hier eine von STEMBERGER (1983:241) belegte Kontamination erwähnt: seech (seek/search). Diese Versprecher sind dadurch charakterisiert, daß Lexeme aus Phonemen zweier verschiedener Worte zusammengesetzt sind, statt daß nur einzelne subsegmentale Merkmale eines bestimmten Phonems vermischt worden wären (s.a. FROMKIN 1971).

171 internen, morphophonologischen Ebene in den konkreten Repräsentationen der Artikulatorischen Phonologie adäquat beschrieben werden können (s. LADEFOGED 1991, CLEMENTS 1992).6

Aufgrund dieser Problemlage greife ich für die SYNPHONics-Modellierung auf die etablierten phonologischen Merkmale zurück. Im Fall von Plosiven müßten z.B. bei einer artikulatorischen Repräsentation im Lexikon mehrere, über temporale Relationen verknüpfte Einträge für die Verschluß- und die Explosionsphase eines Artikulators vorgenommen werden, während die abstrakte, phonologische Repräsentation eine sparsame Notation allein über ein Merkmal dauernd (CONT_F) erlaubt, wodurch zudem bei entsprechender Wertzuweisung (,non_continuant) die distinktive Abgrenzung zu Frikativen implizit gegeben ist. Die spezifizierten phonologischen Merkmalsstrukturen werden im Artikulator von der Schnittstellenkomponente Phonetischer Interpreter auf artikulatorische Gestenziele abgebildet. Erst auf dieser Stufe der Verarbeitung ist Zeit als physikalische Größe von Bedeutung. Während auf der Ebene der formulatorinteraen, phonologischen Enkodierung die zu verarbeitenden Größen abstrakte Informationseinheiten darstellen, über die nur abstrakte temporale Aussagen bezüglich ihrer Simultanität und Präzedenz getroffen werden können, besitzen artikulatorische Beschreibungen inhärent eine zeitliche Dimension. Über die Modularisierung trenne ich in der SYNPHONics-Modellierung zwischen diesen beiden Domänen klar. Während der formulatorinternen Verarbeitung werden zum einen Segmentpositionen subsegmentale Spezifikationen und zum anderen Silbenpositionen bestimmte Tonkonturinformationen strukturell zugewiesen. Die temporale Interpretation dieser Information findet erst auf der Artikulatorebene statt.7 Aus der Merkmalsstruktur in Abbildung 5.2 ist ablesbar, daß die Lautlänge nicht als ein subsegmentales Merkmal angesehen wird. Statt dessen wird die im Deutschen distinktive Vokallänge auf einer in der prosodischen Hierarchieordnung höheren Ebene über strukturelle Positionen kodiert. Diese strukturellen Positionen sind in der prosodischen Konstituente Silbe verankert, deren merkmalsstrukturelle Repräsentation im folgenden beschrieben wird.

5.1.2.

Silbe

Eine zentrale Rolle in der Hierarchie der prosodischen Konstituenten spielt die Silbe. Die Silbe stellt strukturelle Ankerpunkte zum einen für Segmente und zum anderen für abstrakte prosodische Merkmale wie Ton oder Akzent bereit. Im folgenden soll vor dem Hintergrund 6

Ein Ansatz hierzu findet sich z.B. bei MCMAHON et al. (1994). Jedoch wird letztendlich die PhonologiePhonetik-Schnittstelle durch eine Schnittstelle zwischen Lexikalischer und Artikulatorischer Phonologie ersetzt, wobei aber angenommen wird, daß die jeweiligen Constraints einheitlich auf der Grundlage diskreter artikulatorischer Gestenrepräsentationen formulierbar sind. Die Beschreibung eines diachronen Lautwandels in diskreter artikulatorischer Gestenrepräsentation geben BROWMAN & GOLDSTEIN (1991) an.

7

Aus diesen Gründen wird auch auf eine temporale Axiomatisierung der phonologischen Merkmalsbeschreibung, wie es BIRD & KLEIN (1989, 1990) in ihrem Entwurf einer ereignisbasierten Phonologie (Event-based Phonology) vorschlagen, verzichtet. Für eine entsprechende Konzeption einer temporalen, ereignisbasierten axiomatischen Repräsentation artikulatorischer Gesten s. ABELN & GÜNTHER (1993).

172 einer Vielzahl phonologischer, phonetischer und psycholinguistischer Vorschläger zur Silbenstrukturierung das Silbenkonzept für die SYNPHONics-Modellierung herausgearbeitet werden. Die Annahme, daß z.B. die Akzentmarkierung silben- und nicht vokalinhärente Information8 darstellt, läßt sich über Versprecherdaten motivieren, in denen Vokale akzentuierter Silben mit Vokalen nicht-akzenttragender Silben interagieren. Im Beispiel (1) findet zwar eine Vertauschung eines Vokals in einer akzentuierten Silbe (/if) mit einem Vokal in einer nichtakzentuierten Silbe (/of) statt, jedoch bleibt die Akzentposition von dieser Vertauschung unbetroffen. (1)

WohnmiBOL— WohnmoBIL

Da beide Worte trotz der Vokalvertauschung eine Endakzentuierung aufweisen, kann man davon ausgehen, daß das prosodische Merkmal Akzent mit der prosodischen Strukturgröße Silbe assoziert ist und dementsprechend in der merkmalsstrukturellen Repräsentation der Silbe (s. Abb. 5.3) berücksichtigt werden muß. Die Kopplung der tonalen Information mit der Struktureinheit Silbe ergibt sich über den Zusammenhang von Akzent und Akzentton und findet ihre Entsprechung in den allgemeinen, in Abschnitt 3.1.2 beschriebenen Text-TonAssoziationsprinzipien. Auf die besondere Rolle der Silbe in der Sprachproduktion hat u.a. BERG (1992:89 f.) hingewiesen, der nach der Untersuchung silbischer Phänomene bei der Sprachverwendung gesunder Erwachsener (neben Versprechern und Sprachspielen auch Rückwärtssprechen und Wortfindungsschwierigkeiten), beim Spracherwerb und beim Sprachverlust (Aphasien) zumindest für die deutsche Sprache zu dem Schluß kommt, daß aus Sicht der Psycholinguistik die Silbe „auf der kognitiven Ebene als Strukturelement vorliegt] und als Basiseinheit auf einer präartikulatorischen Ebene [fungiert]". Zudem ist bekannt, daß im mentalen Lexemlexikon die Silben noch nicht mit der Phoneminformation der Lexeme assoziiert sind (z.B. DELL 1 9 8 6 ; SHATTUCK-HUFNAGEL 1 9 7 9 , 1 9 8 3 ; MEYER 1 9 9 0 , 1 9 9 1 ; WHEELDON & LEVELT

1995), sondern daß die Information über die silbische Struktur getrennt von der sequentialisierten Repräsentation der Phoneme vorliegt. Zur Assoziation der Phoneme mit der Struktureinheit Silbe ist ein spezieller phonologischer Enkodierungsprozeß (Silbifizierung) erforderlich, der in einer Links-nach-Rechts-Verarbeitungsabfolge den Phonemen eine Silbenposition z u w e i s t (MEYER 1 9 9 0 , 1 9 9 1 ; WHEELDON & LEVELT 1 9 9 5 ) .

Indem die Silbe als kognitives Strukturelement fungiert, muß sie sich zum einen im Rahmen der prosodischen Konstituentenhierarchie unter den übrigen, kognitiv relevanten prosodischen Strukturgrößen einordnen (s.u.), stellt aber zum anderen auch Verankerungspositionen für die subsegmentalen, phonologischen Merkmalsbündel der Phoneme bereit. Jedoch dominiert die Struktureinheit Silbe nicht unmittelbar die Phoneminformation, sondern sie weist, wie bereits in Abschnitt 3.2.1 erwähnt, eine interne, psycholinguistisch verifizierte Strukturierung (z.B. TREIMAN et al. 1995) auf, die sprachabhängig ist und über die in der Silbenphonologie noch keine Einigung herrscht (s. Sammelband EISENBERG et al. 1992). Die Verbindung zwischen den Silbenkonstituenten und den Segmenten wird über eine von der

In den Arbeiten der Generativen Phonologie wurde der Akzent als ein segmentales Merkmal behandelt.

173 autosegmentalen CV-Phonologie (CLEMENTS & KEYSER 1983) eingeführten (engl, skeletal

Skelettreihe

tier) hergestellt, die abstrakte, temporale Platzhalter (engl, slots) zur Ver-

ankerung der segmentalen Information bereitstellt. Mit Hilfe dieser prosodischen Skelettstruktur lassen sich eine Reihe phonologischer und prosodischer Phänomene wie Lautlänge abstrahierend darstellen. Die einzelnen Skelettpositionen werden hinsichtlich C- oder V-Platzhalter unterschieden. V-Positionen auf der Skelettreihe können von silbischen Elementen (Vokalen und silbischen Sonoranten) und C-Positionen von nicht-silbischen Elementen besetzt werden. Deren Abfolgebeschränkungen werden über silbeninterne Constraints festgelegt. Diese CV-Positionen werden in der SYNPHONICS-Modellierung unter der segmentalen Information der Lexeme gespeichert und dienen im Rahmen der Sprachrhythmus- und Lautdauerberechnung im artikulatorinternen Phonetisch-Akustischen Parametrisierer der Lautdauerabschätzung des aktuellen Äußerungsinkrements, indem jeder Skelettplatz für eine erste Näherungsrechnung einer bestimmten Lautdauer entspricht. Die Möglichkeit der Nutzung dieser abstrakten Platzhalterinformationen für die konkrete prosodische Berechnung auf der Artikulatorebene ergibt sich darüber, daß z.B. mittels der Skelettinformation die Vokallänge

ko-

diert wird (z.B. HAYES 1986, WIESE 1988). So werden für lange Vokale (z.B. /i:/) lexikalisch zwei Skelettpositionen bereitgestellt und für kurze Vokale (z.B. Iii) nur eine Position: (2)

a. — V — V — \

(Skelett-Ebene)

b.

/ [ i:]

V I

(rooi-Ebene)

[ι]

Mit der Repräsentation der abstrakten Lautlänge über Skelettpositionen stelle ich in der SYNPHONICS-Modellierung sicher, daß das prosodische und phonologisch distinktive Merkmal Quantität nicht als subsegmentales Merkmal, sondern in adäquater Weise als suprasegmentale Strukturinformation kodiert wird. Im Sinne einer systematischen Trennung von phonologischer und phonetisch-artikulatorischer Ebene behalten somit die oben eingeführten subsegmentalen Merkmale den abstrakten Status nicht-dauerbehafteter Einheiten. Erst im Rahmen der artikulatorischen Planung findet unter Bezug auf diese abstrakte prosodische Strukturinformation die konkrete Lautdauerplanung statt. Außerdem werden entsprechend einem Vorschlag von PRINZ & WIESE (1991) Affrikaten (im weiteren Sinne: /ts/, /tj-/, /pf7, /ps/, /pJV, /ks/, / d y ) in besonderer Weise mit der Skelettreihe in Beziehung gesetzt, indem die Plosiv-Frikativ-Lautfolge nur mit einer Skelettposition assoziiert wird. Auch diese Repräsentation gestattet im Phonetisch-Akustischen Parametrisierer eine korrekte Lautdauergenerierung aus der abstrakten phonologischen Repräsentation, da sich Affrikaten in der Gesamtdauer der Verschluß- und Friktionsphase nicht von der Dauer eines einzelnen Obstruenten unterscheiden (NEPPERT & PÉTURSSON 1986:267 f.). Die lexikalisch bereitgestellten Skelettpositionen werden im Rahmen der postlexikalischen Silbifizierung mit den Silbenkonstituenten assoziiert. Mögliche segmentale Belegungen der C- und V-Positionen lassen sich über phonotaktische Abfolgebeschränkungen festgelegen, die auf universalen und einzelsprachlichen Sonoritätsrestriktionen beruhen. Unter Sonorität

ist

das abstrakte Maß der inhärenten Schallfülle eines Segmentes zu verstehen, wobei es sich eher um ein phonologisches Maß handelt, da der Sonorität keine unmittelbar meßbare artikula-

174 torische oder akustische Größe entspricht. Die Sonoritätshierarchie über die Segmente bzw. Segmentklassen wird entsprechend der einzelsprachlichen phonotaktischen Restriktionen aufgestellt (s. OHALA & KAWASAKI 1984). Sprachuniversal muß die Lautabfolge innerhalb

der Silbe einem Sonoritätsverlaufsprinzip entsprechen, wonach der Sonoritätsgrad der Segmente zum Silbengipfel (dem silbischen Segment) hin monoton ansteigt und danach wieder monoton abfällt, was den symmetrischen Silbenaufbau bewirkt.9 Zur Silbenstruktur soll im folgenden angenommen werden, daß eine Silbe aus den Konstituenten Onset (engl. Onset) und Reim (engl, rime), der wiederum in Nukleus (engl, nucleus) und Koda (engl, coda) verzweigt, bestehen kann. Der Onset umfaßt die Konsonantenabfolge vor dem Vokal, und der Reim beinhaltet die Silbenkernstruktur (Vokal, Diphthong usw.) und die postvokalische Konsonantenabfolge. Dabei gelten der Nukleus sprachuniversell als obligatorische Konstituente und Onset und Koda als optionale Konstituenten.10 METRIC:

accent_type

TUNE: tune 0 _ D T R : o_dtrs N_DTR: n_dtrs P_ DTRS: R_DTR: C_DTR: c_dtrs r_dlrs syll_dtrs syllable

Abb. 5.3: Merkmalsstrukturelle Repräsentation der Konstituente Silbe Die Konstituente Silbe läßt sich aufgrund des strukturierten Aufbaus geeignet in einer merkmalsstrukturellen Notation, wie in Abb. 5.3 wiedergegeben, modellieren. Eine Silbe wird näher beschrieben durch die Merkmale METRIC und TUNE, über die die prosodischen Merkmale Akzent und Tonkontur spezifiziert werden, und durch die prosodischen Tochterkonstituenten der Silbe (Merkmal P_DTRS). Die subsilbische Struktur wird über eine Merkmalsstruktur vom Typ syll_dtrs modelliert, für die die Merkmale 0_DTR und R_DTR definiert sind, die als Wert die Onsetkonstituenten (Typ o_dtrs) bzw. die ihrerseits in Nukleus- und Kodakonstituenten (Typ n_dtrs, c_dtrs) verzweigende Reimkonstituenten (Typ r_dtrs) haben. Die in dieser Arbeit getroffene Festlegung der internen Struktur von Onset, Reim, Nukleus und Koda soll anhand einiger Beispiele motiviert werden. Diese silbenstrukturelle Analyse bildet die Grundlage für die merkmalsstrukturelle Spezifikation der silbeninternen Konstituenten in der SYNPHONics-Modellierung. Allgemein wird in der Silbenphonologie aufgrund phonologischer Regularitäten angenommen, daß im Deutschen der Onset und die Koda jeweils maximal zwei Segmentpositionen dominieren (WIESE 1988, HALL 1992, Yu 1992). Da jedoch die Silbenkonstituenten durchaus mehr Segmente beinhalten können (z.B. /plantjst/ plantschst), ist das Konzept der Extrasilbizität eingeführt worden (HALLE & VERGNAUD 1980), mit dessen Hilfe Segmentabfolgen als wohlgeformt lizensiert werden, indem initiale

9

Für einen darauf beruhenden Silbifizierungsalgorithmus s. WALTHER (1993).

10

NOSKE (1989) sieht ebenso den Silbenonset als eine sprachuniversell obligatorische Konstituente an.

175 und finale Segmente nicht unter einer Silbenkonstituente verankert werden, sondern z.B. direkt unter der Konstituente Phonologisches Wort (WIESE 1 9 8 8 ) . Diesem Vorschlag soll hier nicht gefolgt werden, da damit ein wesentliches Prinzip der prosodischen Dominanzbeziehungen (s. Def. 3.2, Strict Layer Hypothesis) verletzt wird. Statt dessen sollen Vorschläge zur Silbenstrukturierung aufgegriffen bzw. erweitert werden, die einen Verzicht auf das Konzept der Extrasilbizität ermöglichen. Einen Überblick über die unterschiedlichen Komplexitätsgrade der Silbenstruktur im Deutschen, was insbesondere die Anzahl möglicher Konsonanten vor bzw. nach dem Vokal betrifft, geben die Beispiele der monomorphemischen Einsilber in (2) und (3). (2)

Beispiele möglicher Konsonantenabfolgen in Silben vor dem Vokal: a. ah

(3)

b. lau

c. blau

d. Strang

Beispiele möglicher Segmentabfolgen im Silbenreim: a. Klee

b.

flau

f. Tanz

g. Durst

c. ab

d. Aas

h. Worms

i. Herbst

e. Alm

Die Beispiele in (2) zeigen, daß der Onset entweder leer sein kann (2.a) oder eins, zwei oder drei Segmente enthalten kann, wobei einer Analyse von WIESE ( 1 9 9 1 ) folgend, silbeninitiale Konsonantencluster (/Jp/, /ft/, /sk/), Suffrikaten genannt, auf der Skelettstruktur nur einen Platz einnehmen. Mit dieser der Analyse von Affrikaten (Plosiv-Frikativ-Lautfolgen) entlehnten Integration einer biphonemischen Lautfolge unter einen von der Silbenkonstituente vergebenen Skelettplatz, läßt sich für den Onset das Problem der Extrasilbizität umgehen." Damit ergibt sich z.B. für /JtRik/ (Strick) die in Abb. 5.4 wiedergegebene Silbenrepräsentation. σ

If) —m —M

m

M

Abb. 5.4: Silbenstrukturelle Repräsenation des Wortes /JtRik/ (Strick)

11

Aus Sicht der Psycholinguistik ist es unsicher, ob silbeninitiale Kluster wie /st/ grundsätzlich als Suffrikaten zu analysieren sind, also auch dann, wenn kein weiterer Konsonant hinzutritt und damit die beiden Onsetpositionen getrennt belegt werden können. So konnte TREIMAN (1989) bei der Untersuchung zweisegmentiger Onsetstrukturen keinen Performanzunterschied bei der Ausführung von Sprachspielen zwischen reinen Obstruentenclustern wie /st/, /sp/ und Clustern aus Obstruent und Sonorant wie IsV und /sw/ nachweisen. Untersuchungen mit dreisegmentigen Onsetstrukturen wurden jedoch nicht durchgeführt.

176 Wie die Beispiele in (3) zeigen, besitzt der Reim eine wesentlich größere Variabilität hinsichtlich der möglichen segmentalen Füllung als der Onset. Der Silbenreim kann aus einem Langvokal (3.a), einem Diphthong (3.b) und bis zu vier Konsonanten (3.i) bestehen. Der Silbenreim untergliedert sich in die Subkonstituenten Nukleus und Koda. Allgemein anerkannt ist, daß der Nukleus entweder einen einzelnen Vokal beinhaltet (3.c) oder auch verzweigen kann (z.B. 3.a,b) und so die beiden Skelettpositionen der Langvokale und Diphthonge aufnimmt. Dementsprechend muß in der merkmalsstrukturellen Repräsentation der Silbe der oben eingeführte Typ n_dtrs hinsichtlich eines bzw. zweier silbischer Elemente spezifiziert werden (s. Abb. 5.6). Das postvokalische, vokalisierte Irl wie in dort kann nach VATER (1992) ebenso eine Nukleusposition einnehmen wie silbische Sonoranten in nichtakzentuierten Silben (z.B. lachen). Außerdem sei angenommen, daß nichtfinale Nasale und Laterale die bereitgestellte postvokalische Nukleusposition einnehmen können. Eine solche Strukturierung wird von psycholinguistischen Experimentdaten gestützt, da TREIMAN (1984, 1989) mit Wortspielen zur Silbenzerlegung nachweisen konnte, daß postvokalische Sonoranten (/r/-laut, Lateral und z.T. auch Nasale) eine stärkere Kohärenz zum vorangehenden Vokal aufweisen als Obstruentencluster.12 Für die Kodastruktur sehe ich maximal zwei Tochterkonstituenten vor, so daß unter Beachtung der verzweigenden Nukleusstruktur und der Obstruentenclusterbildung von /tj-/, /st/ usw. Worte wie Herbst oder tratschst in der SYNPHONICS-Modellierung ohne das Konzept der Extrasilbizität repräsentiert werden. Damit ergibt sich für das Wort quietschst die in Abb. 5.5 dargestellte Silbenrepräsentation. Abb. 5.6 zeigt die maximal mögliche Strukturierung der subsilbischen Konstituenten in Merkmalsnotation, in der jede Silbenkonstituente zwei Skelettpositionen dominiert.

Onset

Reim

Nukleus

Koda Skelett-Reihe

[k] —[V]

V Λ

— α:] [il] —en—m [t] — m-

root-Reihe

[S] — [t]-

Abb. 5.5: Silbenstrukturelle Repräsentation des Wortes /kvirtjst/ (quietschst)

12

Die Untergliederung der Silbe in Konstituenten wird zudem anhand umfangreicher Versprecheruntersuchungen motiviert (z.B. FROMKIN 1971, SHATTTUCK-HUFNAGEL 1986). Jedoch sind damit oftmals Unsicherheiten verbunden. So ist es z.B bei dem Versprecher (a) unklar, ob eine Vertauschung der vollständigen Silbenreime /lib/ und /aub/ oder nur der Silbennukei /au/ und /Ii/ stattgefunden hat: (a) Hausstilbmauben— Hausstaubmilben

177 METRIC:

accent_type

T U N E : tune 0 _ 1 : c_ slot 0 _ DTR:

0J1:

c_sloi

o_ dtrs

N_L: N_ DTR: P_ DTRS

v_slot

N_2: v_ slot n_ dtrs C_L: c_ slot

C_ DTR:

C_2:

c_slot

c_ dtrs dtrs syll_ dtrs syllable

Abb. 5.6: Maximale merkmalsstrukturelle Repräsentation der Konstituente Silbe Die Merkmalsstruktur in Abb. 5.6 zeigt, daß die gesamte subsegmentale Information eines Wortes über eine vermittelnde, Linearisierungsinformation tragende Skelettrepräsentation (c_slot, v_slot) unter den subsilbischen Konstituenten verankert ist. Auf eine extrasilbische Verankerung von Segmentinformation wird in dieser Modellierung explizit verzichtet. Das Konzept der Extrasilbizität wird von Vertretern der Silbenphonologie (s.o.) für die Kodastrukturierung eingeführt (z.B. WIESE 1988, 1991), da hier davon ausgegangen wird, daß die phonologische Repräsentation der Silbe im Silbenreim maximal drei Strukturplätze dominiert. Folglich müssen Obstruentenendcluster wie /st/ in plantschst oder Herbst außerhalb der Silbenstruktur verankert werden. Zur Verteidigung des Konzepts der Extrasilbizität wird explizit auf die Trennung zwischen einer phonologischen und einer phonetischen Beschreibungsebene der Silbe hingewiesen (WIESE 1991:117) und die Extrasilbizität der phonologischen Theoriebildung zugeordnet. Jedoch erachte ich einen Rückgriff auf ein rein phonologisches Theoriekonstrukt zur Silbenmodellierung im Rahmen des hier gewählten sprachproduktionsbezogenen Ansatzes13 als nicht angemessen, da die Silbe in der menschlichen Sprachproduktion nicht den Status einer Inhaltseinheit wie ein subsegmentales oder prosodisches Merkmal, sondern den Status einer Struktureinheit einnimmt. Die Silbenstruktur wird im Rahmen der phonologischen Enkodierung dynamisch aufgebaut, indem die lexikalisch bereitgestellten Segmentsequenzen unter Anwendung einzelsprachlicher Silbifizierungs-Constraints mit den Silbenkonstituenten assoziiert werden. Aus Sicht der artikulatorischen Phonetik entspricht die Silbe nach HEIKE (1992, s.a. Abschn. 3.2.1) ,4em zeitlichen Erstreckungsbereich (ko-)artikulativer Steuerungsprozesse". Die Aufgabe des SYNPHONics-Formulators, speziell des phonologischen Enkodierers, sehe ich genau darin , diese minimalen, koartikulativen Struktureinheiten zu berechnen und an die Artikulatorkomponente weiterzugeben. Aus diesem Grund ist es angemessen, bei der Festlegung der internen Strukturierung der Konstituente Silbe, ver-

13

Siehe zur Diskussion der S i l b e aus psycholinguistischer Sicht auch BERG ( 1 9 9 2 ) .

178 standen als vermittelnde Struktureinheit (bzw. Verhaltenseinheit) zwischen Phonologie und Phonetik, eine exhaustive Dominanz der benötigten Verankerungsplätze für subsegmentale Strukturinformation vorzusehen und auf ein Konzept wie Extrasilbizität zu verzichten.14 Somit ist mit der psycholinguistisch motivierten, prozeßorientierten Betrachtung der ebenenspezifischen Funktionen der Silbe die Möglichkeit gegeben, phonologische und phonetische Silbenkonzeptionen zusammenzuführen und abzugleichen. Aufgabe des Artikulatormoduls ist es dann, innerhalb der bereitgestellten Struktureinheiten ausführbare artikulatorische Pläne zu berechnen und damit den Artikulator (z.B. ein artikulatorisches Synthesemodul oder wie hier einen Formant-Synthetisator) anzusteuern. Im Rahmen der SYNPHONics-Modellierung bilden die spezifizierten Silbenstrukturen die Einheiten, über die im artikulatorinternen Phonetischen Constraint-Löser koartikulative Berechnungen zur korrekten Syntheseansteuerung ausgeführt werden.15 Des weiteren bildet die Silbenstrukturierung die Grundlage für die Sprachrhythmusberechnung im artikulatorinternen Phonetisch-Akustischen Parametrisierer (s.o).

5.1.3.

Fuß

Die phonologische Konstituente Fuß dominiert entsprechend der prosodischen Konstituentenhierarchie unmittelbar die oben beschriebene Konstituente Silbe. Für die folgende Modellierung nehme ich an, daß die Konstituente Fuß im Deutschen aus einer initialen, metrisch starken Silbe und bis zu drei metrisch schwachen Silben besteht.16 Damit weist der Fuß eine unär bis quarternär verzweigende Struktur auf, und die Silbenabfolge von Lexemen wie spielerisch und trockeneren werden von einem einzigen Fuß dominiert (s. Abb. 3.7). Mit der Annahme einer multipel verzweigenden Struktur wird zwar eine Aussage der Metrischen Phonologie abgeschwächt, daß metrische Bäume binär verzweigende Strukturen darstellen (s. auch Definition 3.1, Metrischer Baum). Jedoch ist es bei den genannten Lexemen weder phonologisch noch phonetisch motivierbar, eine weitere metrische Relation mit einem zusätzlichen Nebenakzent anzunehmen.

14

Auch ist eine Motivierung der Extrasilbizität in Bezug auf phonologische Prozesse (im Sinne der Extraprosodizität, KLPARSKY 1985, WIESE 1991), für die einige Segmente an bestimmten Positionen „unsichtbar" sind, fraglich, da der Status einer Vielzahl komplex zu beschreibender phonologischer Constraints unklar ist und diese eher artikulatorische Constraints darstellen. Aus diesem Grund sollten dann auch diese Regularitäten auf der artikulatorischen Ebene modelliert werden (s. zur Aspiration ABELN & GÜNTHER 1993). So läßt sich z.B. auch die Auslautverhärtung stimmhafter Plosive anhand artikulatorischer Gegebenheiten erklären (abgesunkener pulmonaler Druck, HEIKE 1992).

15

Die Notwendigkeit eines solchen Koartikulationsmoduls auch beim Einsatz eines artikulatorischen Synthetisators zeigen HEIKE & PHILIPP (1985), indem auf einer psycholinguistisch motivierten präartikulatorischen Ebene (BERG 1992) gemäß der phonetischen Konzeption der Silbe als koartikulative Einheit die Spezifizierung aussprechbarer Spracheinheiten vorgenommen wird.

16

Zu den phonologischen Prozessen, die die Annahme der Konstituente Fuß motivieren, s. Abschn. 3.2.2.

179 Die merkmalsstrukturelle Repräsentation der prosodischen Konstituente Fuß zeigt Abb. 5.7. Der Fuß besitzt als prosodische Tochterkonstituenten (Merkmal P_DTRS) Silben, die in einer metrischen Relation zueinander stehen (Merkmale S_DTR, W_DTR). Unter dem Merkmal W_DTR wird in Listennotation (u.U. auch als leere Liste bei einsilbigen Lexemen) die Abfolge der metrisch schwachen Silben repräsentiert.17 Über die Merkmale METRIC und TUNE lassen sich die prosodischen Wertzuweisungen darstellen. Diese Merkmale dienen insbesondere der prosodischen Constraints gehorchenden Vererbung von auf höherer Ebene zugewiesenen Akzent- und Tonmerkmalswerten an entsprechende Silbentöchter. So werden z.B. der einem Wort zugewiesene Fokusakzent über die metrisch starken Tochterkonstituenten (S_DTR) entlang der wortinternen Konstituentenhierarchie an die wortakzenttragende Silbe, das metrisch ausgezeichnete terminale Element (s. Definition 3.2, Designated Terminal Element) einer prosodischen Konfiguration, vererbt.18 Die Anwendung dieser Constraints zur Akzent- und Tonvererbung ist Gegenstand der prosodischen Enkodierung.19 S_ DTR: syllable P_DTRS: W_DTR:

list_of_syllables

syll_syll_struc METRIC: accent_type TUNE: tune foot

Abb. 5.7: Merkmalsstrukturelle Repräsentation der Konstituente Fuß Die prosodische Konstituente Fuß wird vom Phonologischen Wort dominiert, das nachfolgend beschrieben wird.

5.1.4.

Phonologisches Wort

Die merkmalsstrukturelle Modellierung der Konstituente Phonologisches Wort (Abb. 5.8) umfaßt wiederum die Information über die prosodischen Tochterkonstituenten (Merkmal P_DTRS) und die Ton- und Akzentspezifikationen (Merkmale TUNE und METRIC). Bezüglich

der internen Konstituentenstrukturierung sei angenommen, daß das Phonologische Wort unär

17

Entsprechend dieser Listennotation lassen sich Flexionsendungen lexikalisch als Strukturen repräsentieren, in denen nur die metrisch schwache Tochterkonstituente spezifiziert und die metrisch starke Tochterkonstituente noch unspezifiziert ist. In einem hier nicht näher betrachteten morphophonologischen Prozeß kann mittels Listenkonkatenation diese metrische schwache Information an die metrische schwache Fußtochter des Stammwortes angefügt werden.

18

In diesem Sinn ist das Merkmal S_DTR eher als ein Merkmal zu verstehen, das den metrischen Kopf einer wortinternen prosodischen Konstituente kennzeichnet und einer prinzipienbasierten Akzentvererbung dient als der Repräsentation konstituenteninterner metrischer Relationen (da z.B. im Fall einsilbiger Lexeme das Merkmal W_DTR keine Information enthält; GIEGERICH (1983) nimmt für diesen Fall spezielle „NullSilben" an).

19

Zur Formulierung dieser prosodischen Constraints s. Abschn. 5.2.1 (Akzentprinzip) und 5.3.

180 oder binär verzweigt, d.h. daß maximal zwei Füße dominiert werden, die in einer metrischen Relation zueinander stehen (Merkmal S_DTR und W_DTR). Dementsprechend ist das Phonologische Wort als unär bzw. binär verzweigende Struktur definiert. Da das Phonologische Wort im Deutschen die Silbifizierungsdomäne bildet (s. Abschn. 3.2.3), wird zudem die segmentale Information an dieser Konstituente verankert (Merkmal SEGM). Die segmentale Information wird über den Lexemlexikonzugriff bereitgestellt und in einem postlexikalischen Silbifizierungsprozeß mit den oben definierten Silbenpositionen assoziiert. Die Assoziation zwischen Silbenkonstituenten und den subsegmentalen, phonologischen Merkmalen wird über die im Abschnitt 5.1.2 erläuterte Skelettstruktur (Merkmal SKELETAL_POS) vermittelt, um Obstruentencluster (Abb. 5.4, 5.5) und Phänomene wie Vokallänge (Abb. 5.5) oder Ambisilbizität (Abb. 4.6) adäquat modellieren zu können. Über Koindizierung wird wiederum die Verbindung zwischen CV-Skelettposition und dem jeweiligen Wurzelknoten (root) der subsegmentalen Merkmalsstruktur eines silbischen oder nichtsilbischen Phonems (Merkmale VOWEL_ROOT bzw. CONS_ROOT) hergestellt. Die getrennte Repräsentation silbischer und nicht-silbischer Segmente ist universalgrammatischen Vorschlägen der Autosegmentalen Phonologie entlehnt und erlaubt eine adäquate Modellierung morphophonologischer Prozesse (MCCARTHY 1982) und phonologischer Prozesse, die jeweils nur Segmente einer Kategorie betreffen (z.B. Gemination und Metathese, s. GOLDSMITH 1990).

SKELETAL_POS: SEGM: VOWEL_ROOT: a)

CONS_ ROOT:

cv_sbt_list

S KELETAL_ POS :

v_root_list c_root_list

SEGM: VOWEL_ ROOT:

b)

CONS_ ROOT: c_root_l¡st

S_ DTR: foot P_ DTRS: W_DTR: foot

S_ DTR: foot P.DTRS:

foot_struc

foot _ foot _struc

METRIC:

accent_type

TUNE: tune

METRIC:

cv_slot_list v_root_list

accent_type

TUNE: tune ph_word ph_ word

Abb. 5.8: Merkmalsstruktur vom Typ Phonologisches Wort a) - binär verzweigend, b) - unär verzweigend Über morphologische Prozesse wie die Kompositabildung lassen sich aus diesen Konstituenten des Typs Phonologisches Wort komplexere Strukturen bilden. Jedoch erweist es sich als problematisch, den Typ der dadurch entstehenden komplexeren Konstituente festzulegen. Zudem kann die Kompositabildung rekursiv auf bereits gebildete Komposita angewendet werden, so daß entweder eine Vielzahl neuer prosodischer Konstituententypen definiert oder aber Rekursion auf einer bestimmten Ebene der prosodischen Konstituentenhierarchie zugelassen werden müßte. Rekursion wird aber in der von der Prosodischen Phonologie etablierten Konstituentenhierarchie explizit ausgeschlossen (s. Definition 3.2). VOGEL (1990) schlägt für das Ungarische die Klitisierungsgruppe als Konstituente vor, die in einer multipel verzweigenden Struktur Phonologische Worte dominiert (s. Abschn. 3.2.4). WIESE (1995) schlägt binär

181 verzweigende Strukturen vor, in denen entweder Phonologische Phrasen oder rekursiv Phonologische Worte Konstituenten vom Typ Phonologisches Wort dominieren können. Jedoch ergeben sich mit beiden Ansätzen Probleme für eine systematische Repräsentation der internen prosodischen Strukturierung komplexerer Wortbildungen. Zum einen ist die Notwendigkeit der Klitisierungsgruppe für das prosodische System des Deutschen noch völlig unklar, so daß hier auf eine Einführung verzichtet werden soll. Zum anderen ergeben sich bei den Vorschlägen von WIESE (1995) Probleme mit den an die Konstituenten gebundenen Akzentzuweisungsregeln, mit dem prosodischen Status der aufgrund der Binärverzweigung erforderlichen Zwischenebenen sowie mit der Einbindung phrasaler Komposita in Phonologische Phrasen. Da es keine gesicherten phonologischen Evidenzen dafür gibt, daß Komplexbildungen aus Phonologischen Worten im Deutschen eine prosodische Domäne eines eigenen Typs bilden, soll hier auf der Ebene des Phonologischen Wortes rekursiver Strukturaufbau zugelassen werden. Dabei wird auf das Konzept der Komplexitätsebenen aus der Syntaxtheorie (spez. Xbar-Theorie, JACKENDOFF 1977) zurückgegriffen, wonach Konstituenten zu Konstituenten gleichen Typs, jedoch höherer Komplexität, projiziert werden können. In diesem Sinn lassen sich Phonologische Worte zu Phonologischen Worten höherer Komplexität projizieren. Es wird zusätzlich zum Phonologischen Wort eine Projektionsebene mit der Typbezeichnung Phonologische Wortstruktur (ph_word_bar) angenommen. Dieses komplexe Phonologische Wort dominiert in metrisch binär verzweigenden Strukturen unmittelbar Phonologische Wörter oder wiederum Phonologische Wortstrukturen der Projektionsstufe l. 20 Die wiederholte Kombination von komplexen Wortstrukturen erhöht nicht die Projektionsstufe. Die prosodische Konstituentenstruktur des Lexems Fußballspieler oberhalb der Wortebene stellt sich wie in Abb. 5.9 gezeigt dar. ω'

ai Y ω

I fuß

\

ω ω

I ball spieler

Abb. 5.9: Vereinfachte prosodische Konstituentenstruktur des Lexems Fußballspieler (a>=Phonologisches Wort, a>'=Phonologische Wortstruktur der Projektionsstufe 1) Die merkmalsstrukturelle Repräsentation der Konstituente Phonologische Wortstruktur (der Projektionsstufe 1) ist in Abb. 5.10 dargestellt. Über die Typhierarchie wird sichergestellt, daß die prosodischen Tochterkonstituenten (Merkmal P_DTRS) eine einfache oder komplexe Struktur aufweisen können, indem der Typ der Tochterkonstituenten (ph_word_const) sowohl Phonologische Worte als auch Phonologische Wortstrukturen subsumiert.

20

Die Möglichkeit dieser rekursiven Repräsentation findet sich auch bei WIESE (1995), s.a. GÜNTHER (1994).

182 S_DTR: ph_word_const P_DTRS: W_DTR: ph_word_const pw_pw_struc METRIC: accent_type TUNE: tune ph_ word_bar

Abb. 5.10: Phonologische Wortstruktur (Projektionsstufe 1) Dieser Ansatz zeigt, daß strukturell zwischen Phonologischen Worten und darauf beruhenden Komplexbildung unterschieden wird, jedoch keine gesonderte prosodische Konstituente mit eigenen phonologischen Prozessen oder phonetischen Realisierungseinschränkungen eingeführt wird. Die Annahme, daß Komposita phonologisch keinen eigenen Status gegenüber Phonologischen Wörtern einnehmen, läßt sich mittels phonetischer Daten motivieren, die die prosodische Kennzeichnung der Grenzen prosodischer Konstituenten betreffen. HOFHUIS et al. (1995) konnten für das Niederländische21 nachweisen, daß Konstituentengrenzen der Hierarchieebenen Phonologisches Wort, Phonologische Phrase und Äußerung durch die Längung der Laute des finalen Silbenreims gekennzeichnet werden, wobei die Zunahme der Lautlänge mit dem Aufstieg in der Hierarchieordnung einhergeht. Jedoch konnten sie keinen Unterschied zwischen der Lautlängung an komposita-internen Wortgrenzen und finalen Wortgrenzen feststellen, was dafür spricht, daß die Phonologische Wortstruktur keinen eigenen prosodischen Konstituententyp bildet, sondern nur ein Phonologisches Wort höherer Komplexität darstellt. Entsprechend der hier angenommenen prosodischen Konstituentenhierarchie werden die Konstituenten Phonologisches Wort bzw. Phonologische Wortstruktur unmittelbar von der Phonologischen Phrase dominiert. Da keine prosodischen Evidenzen im Deutschen für die Klitisierungsgruppe als prosodische Konstituente zwischen Wort und Phrase vorliegen, wird diese Konstituente hier nicht modelliert. Die grundsätzliche merkmalsstrukturelle Notation dieser Konstituente für Hierarchieordnungen anderer Sprachen ist wiederum über eine verzweigende Strukturierung (Pfade S_DTR, W_DTR) möglich, da sich die Klitisierung durch die Anbindung metrisch schwacher an metrisch starke Wörter auszeichnet.

21

Es erweist sich als sehr problematisch, geeignetes Datenmaterial zur Stützung prosodischer Hypothesen für das Deutsche zu bekommen, da die prosodische Forschung in Deutschland noch ein sehr junges Forschungsfeld darstellt (s.a. KLEIN 1980). Ein vorsichtiger Rückgriff auf die viel reichhaltigere Datenlage des Niederländischen und Englischen ist möglich, da es sich wie beim Deutschen prosodisch um akzentzählende Sprachen ohne lexikalischen Ton handelt. Die intonatorische Realisierung weist jedoch z.T. wesentliche Differenzen auf, worauf weiter unten eingegangen werden soll.

183 5.1.5.

Phonologische Phrase

Nach der Modellierung lexikalischer prosodischer Strukturen werden im folgenden Repräsentationen prosodischer Strukturierungen auf der phrasalen Ebene entwickelt. Für die Existenz phrasaler prosodischer Konstituenten im Deutschen gibt es keine gesicherten phonologischen Erkenntnisse (s. Abschn. 3.2.5), so daß zur Modellierung auf keine allgemein anerkannte Definition zurückgegriffen werden kann. Auf der phrasalen Ebene nehme ich die Konstituente Phonologische Phrase an. Die Phonologische Phrase stellt eine Struktureinheit dar, die unter Bezug auf die vorliegende syntaktische Phrasierung gebildet wird und die Domäne der Sprachrhythmusplanung konstituiert. Diese Einheiten werden an der Schnittstelle zwischen Syntax und Phonologie gebildet und reflektiert entsprechend dem hier gewählten sprachproduktionsbezogenen Ansatz auf besondere Weise den Prozeßverlauf, da ihr Umfang nicht allein durch semantische oder syntaktische Strukturkonstellationen determiniert wird. Die Regeln zur Ableitung phrasaler prosodischer Konstituenten sind keine rein strukturorientiert formulierten Constraints, sondern sind sie performanzorientiert formuliert, indem sie den Umfang der bereits semantischsyntaktisch spezifizierten Äußerungsteile berücksichtigen. Zur Beschreibung der Bildung Phonologischer Phrasen wird in der Prosodischen Phonologie auf syntaktische Strukturkonstellationen Bezug genommen (s. Abschn. 3.2.5). Aufgrund des unklaren Status dieser Konstituente im Deutschen schlägt jedoch KLEINHENZ (1994) vor, auf diese Konstituente zu verzichten und stattdessen zur prosodischen Phrasierung in die vorliegende syntaktische Konstituentenkette prosodische Grenzmarkierungen in Form von Pausen einzufügen. Pausen werden nach KLEINHENZ Z.B. obligatorisch nach fokussierten Konstituenten oder auch nach topikalisierten Konstituenten eingefügt. Hierbei soll es sich um einen phonologischen Prozeß handeln, da die tatsächliche Pausenrealisierung u.a. von der Sprechgeschwindigkeit abhängig gemacht wird. Damit bleibt jedoch die genaue Festlegung prosodischer Grenzen unbestimmt, zumal völlig unklar ist, wie bei komplexen Fokusdomänen, die mehrere Konstituenten umfassen, zu verfahren ist. Außerdem wird durch das Einfügen prosodischer Grenzmarkierungen eine prosodische Strukturierung aufgebaut, der man dann auch einen bestimmten Status zuweisen kann, da sie Phonologische Worte zu einer Domäne zusammenfaßt. Da der Phonologischen Phrase auch von der Psycholinguistik eine wichtige Rolle in der Sprachproduktion zugeschrieben wird, indem sie als eine Einheit angesehen wird, in der im Artikulationspuffer artikulatorische Pläne zur Realisierung einer Äußerungspartition vorgeh a l t e n w e r d e n (STERNBERG et al. 1978, LEVELT 1989), w i r d d i e s e K o n s t i t u e n t e a u c h i m SYN-

PHONICS-Ansatz modelliert. Entsprechend diesem Bezug zum Artikulationsprozeß werden die Phonologische Phrasen hier als determinierende Einheiten des Sprachrhythmus angesehen. Phonologischen Phrasen werden vom Flood-Gate-Modul, der formulatorintemen Schnittstellenkomponente, unter Beachtung des Spezifizierungsgrades des aktuellen Äußerungsinkrements (CUF, s. Abschn. 4.2.4) aus der syntaktischen Strukturrepräsentation abgeleitet. Die genaue Darstellung dieser Abbildung syntaktischer Strukturen auf prosodische Einheiten ist

184 Gegenstand des Abschnitts 5.3.2, da hier die deklarativen Aspekte prosodischer Konstituenten im Mittelpunkt stehen. Als allgemeine Regel soll gelten, daß jede syntaktisch verzweigende Schwesterkonstituente der verbalen Projektionslinie eine eigene Phonologische Phrase bildet. Wie bereits bei der Einführung der prosodischen Konstituentenhierarchie erwähnt (s. Abb. 5.1), wird in dieser Modellierung ein wesentlicher Unterschied zwischen wortinternen und phrasalen prosodischen Konstituenten darin gesehen, daß die phrasalen Konstituenten keine interne, metrisch relationale Strukturierung aufweisen. Damit wird hier explizit die Darstellung prosodischer Verhältnisse mit Hilfe des Metrischen Baums (s. Def. 3.1) auf die wortinternen prosodischen Domänen beschränkt. Von Vertretern der Prosodischen Phonologie wird hingegen versucht, aus der syntaktischen Struktur eine interne metrische Gliederung Phonologischer Phrasen abzuleiten. So schlagen NESPOR &VOGEL (1986:168) zur Festlegung der internen Prominenzverhältnisse vor (s. Abschn. 3.2.5), daß in rechtsverzweigenden syntaktischen Phrasen die am weitesten rechts stehende Konstituente als metrisch stark und die übrigen als metrisch schwach ausgewiesen werden. Jedoch ist eine solche Regel „blind" für Aspekte der Informationsgliederung. Wendet man diese Regel im Deutschen auf eine sich in der Einbettungsrichtung syntaktisch entsprechend verhaltende Determinatorphrase (4) an, die ein mögliches Verbargument und somit eine Phonologische Phrase bilden kann, wird das Lexem Wolf als metrisch stark markiert. (4) einen zahmen WOLF In Abb. 5.11 werden die syntaktische Ausgangsstruktur (5.1 l.a) und entsprechende metrische Repräsentationen (5.11.b-f) dargestellt. Abb. 5.1 l.b zeigt eine flache metrische Strukturrepräsentation, in der das Phonologische Wort Wolf als metrisch stark ausgezeichnet ist und so den Regeln der Prosodischen Phonologie entspricht. Unter der Vorgabe einer strikt binär verzweigenden metrischen Repräsentation ergibt sich die in Abb. 5.1 l.c dargestellte Struktur. Als problematisch erweist sich, wie bereits bei der Konstituente Phonologisches Wort diskutiert, der prosodische Status der aufgrund der Binärverzweigung erforderlichen Zwischenkonstituenten. Die Notwendigkeit einer solchen, hier allgemein als Metrischer Baum (μτ) bezeichneten Konstituente ergibt sich allein aus strukturellen Modellierungsgründen, während die übrigen prosodischen Konstituenten über phonologische oder phonetische Regularitäten sowie über den Verweis auf Verarbeitungsphänomene begründet werden. Aus diesem Grund sehe ich von einer binär verzweigenden Modellierung ab.22

22

Eine phrasale Prominenzstrukturierung in binär verzweigende metrische Bäumen wird von DIRKSEN (1992) vorgenommen, ohne daß eine gesonderte prosodische Konstituentenstruktur aufgebaut wird. Es werden in diesem Ansatz die Ebenen der Semantik, Syntax und Prosodie erheblich miteinander vermischt, so daß die aufgebauten metrischen Strukturen der syntaktischen Struktur in hohem Maße entsprechen. Aus Gründen der Interdependenz von Fokusstruktur, syntaktischer Struktur und Akzentverteilung werden in der SYNPHONICSModellierung die Akzentzuweisungsphänomene als ein auf der grammatischen Ebene zu lösendes Problem angesehen (s. Abschn. 4.2.4, 4.3 und 5.3.1), ohne daß hier bereits eine prosodische Repräsentation in Form eines Metrischen Baums aufgebaut werden müßte. Die für eine korrekte Akzentverteilung als nötig erachtete binäre Strukturierung steht mit der syntaktischen Struktur unmittelbar zur Verfügung. Auf der Ebene der prosodischen Enkodierung, auf der sich keine Notwendigkei einer phrasalen Binärverzweigung zeigt, kann dann auf den Aufbau einer zusätzlichen binären Struktur verzichtet werden, die zudem Konstituentenknoten mit unklarem prosodischen Status enthalten müßte.

185 DP

(a)

(c)

(b)

NP

Det

I

UT

A / \ H

einen

einen zahmen AP

WOLF

NP

I

I

zahmen

Wolf

(d)

S

0)W

einen ZAHMEN Wolf

I WOLF

(f)

(e)

|W

f zahmen