Numerische Mathematik kompakt [2 ed.]
 3834802778, 9783834802774

Citation preview

Zur ersten Auflage: „The author has had the courage to add to the many introductions to numerical mathematics that are on the market another one, and he and the publishing house are to be congratulated to the appealing result of his endeavours. The treatise, based on courses the author has taught, addresses students and practitioners of mathematics and other disciplines applying mathematical methods (e. g. computer science, economics, natural and engineering sciences), and requires for its study and use basic knowledge of mathematical analysis and linear algebra. The presentation is concise (this is the meaning of the word compact in the title), avoiding unnecessary redundancies, but nevertheless is self-contained.“ Zentralblatt der Mathematik Prof. Dr. Rudolf Gorenflo, FU Berlin

„(...) kompakte, schnörkellose Darstellung, die schnell auf Wesentliches kommt (...)“ Prof. Dr. Ansgar Jüngel, Uni Mainz

Aus dem Programm Numerische Mathematik

Numerische Mathematik kompakt von R. Plato Übungsbuch zur Numerischen Mathematik von R. Plato Numerische Mathematik für Anfänger von G. Opfer Elementare Numerische Mathematik von B. Schuppar Numerische Mathematik von M. Bollhöfer und V. Mehrmann Numerik linearer Gleichungssysteme von A. Meister Nichtlineare Optimierung von W. Alt Keine Probleme mit Inversen Problemen von A. Rieder Finanzderivate mit MATLAB® von M. Günther und A. Jüngel

vieweg

Robert Plato

Numerische Mathematik kompakt Grundlagenwissen für Studium und Praxis 3., aktualisierte und verbesserte Auflage

Bibliografische Information Der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über abrufbar.

Priv.-Doz. Dr. Robert Plato E-Mail: [email protected] Online-Service: www.math.tu-berlin.de/numerik/plato/viewegbuch

1. Auflage Juni 2000 2., überarbeitete Auflage September 2004 3., aktualisierte und verbesserte Auflage November 2006 Alle Rechte vorbehalten © Friedr. Vieweg & Sohn Verlag | GWV Fachverlage GmbH, Wiesbaden 2006 Lektorat: Ulrike Schmickler-Hirzebruch | Petra Rußkamp Der Vieweg Verlag ist ein Unternehmen von Springer Science+Business Media. www.vieweg.de

Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlags unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen.

Umschlaggestaltung: Ulrike Weigel, www.CorporateDesignGroup.de Druck und buchbinderische Verarbeitung: MercedesDruck, Berlin Gedruckt auf säurefreiem und chlorfrei gebleichtem Papier. Printed in Germany ISBN-10 3-8348-0277-8 ISBN-13 978-3-8348-0277-4

v

Vorwort zur dritten Auflage F¨ur diese Neuauflage habe ich Aktualisierungen vorgenommen, ein paar stilistische und inhalt¨ ¨ liche Dinge ver¨andert sowie einige elementare Ubungsaufgaben hinzugef¨ugt. Die Anderungen gehen zum gr¨oßten Teil auf Hinweise von Dozenten zur¨uck, die der Verlag Vieweg freundlicherweise an mich weitergeleitet hat und f¨ur die ich mich bedanken m¨ochte. Der auf Seite vii n¨aher beschriebene Onlinesupport mit den L¨osungshinweisen bleibt auch f¨ur diese Neuauflage bestehen.

Berlin, im Oktober 2006

Robert Plato

Vorwort zur zweiten Auflage F¨ur die zweite Auflage ist das Layout etwas ver¨andert worden, und zur Vereinheitlichung der Notation sind einige Umbenennungen erfolgt. Die Literaturhinweise wurden aktualisiert, der Index erweitert und Fehler beseitigt. Die Abschnitte u¨ ber positiv definite Matrizen und das GMRES Verfahren wurden etwas modifiziert, wobei dies auf Anregungen von Prof. Dr. Rembert Reemtsen (TU Cottbus) beziehungsweise G. Fuß (TU Berlin) zur¨uckgeht. Außerdem sind in einigen Kapiteln die einf¨uhrenden Bemerkungen erweitert worden.

Unter der im Vorwort zur ersten Auflage genannten Adresse wird weiterhin ein Online Service ¨ angeboten. Mittlerweile ist ein Ubungsbuch ([79]) entstanden, das vollst¨andige L¨osungswege ¨ zu den meisten der in diesem Buch vorgestellten Ubungsaufgaben sowie zu weiteren Aufgaben enth¨alt. Außerdem werden dort noch ein paar spezielle Anwendungen wie etwa die digitale Audio und Bildkompression etwas eingehender behandelt.

Danken m¨ochte ich der Christian-Albrechts-Universit¨at zu Kiel, wo ich die M¨oglichkeit hatte, die erste Auflage des vorliegenden Buches vier Semester lang in Vorlesungen einzusetzen. Außerdem m¨ochte ich dem DFG Forschungszentrum “Mathematik f¨ur Schl¨usseltechnologien“ (FZT 86) in Berlin f¨ur Unterst¨utzung und dem Vieweg Verlag f¨ur die erneut angenehme Zusammenarbeit danken.

Berlin, im Juni 2004

Robert Plato

vi

Vorwort

Vorwort zur ersten Auflage Das vorliegende Lehrbuch ist hervorgegangen aus zwei jeweils vierst¨undigen Vorlesungen u¨ ber Numerische Mathematik, die ich seit 1997 wiederholt an der Technischen Universit¨at Berlin gehalten habe. Diese Vorlesungen sind in erster Linie von Studierenden der Wirtschafts und Technomathematik und zu einem kleineren Teil von Studierenden des Diplomstudiengangs Mathematik sowie der Physik und Informatik besucht worden. In seiner jetzigen Form richtet sich das Lehrbuch an Studierende und Absolventen der Mathematik sowie benachbarter F¨acher wie Informatik, Natur und Ingenieurwissenschaften an Universit¨aten und Fachhochschulen. In kompakter Form werden zahlreiche grundlegende und f¨ur die Anwendungen wichtige Themenkomplexe aus der Numerischen Mathematik behandelt: •

Interpolation, schnelle Fouriertransformation und Integration,



direkte und iterative L¨osung linearer Gleichungssysteme,



iterative Verfahren f¨ur nichtlineare Gleichungssysteme,



numerische L¨osung von Anfangs und Randwertproblemen bei gew¨ohnlichen Differentialgleichungen,



Eigenwertaufgaben bei Matrizen,



Approximationstheorie und Rechnerarithmetik.

Auf die Behandlung der Numerik partieller Differentialgleichungen sowie der nichtlinearen Optimierung wird aufgrund des angestrebten u¨ berschaubaren Umfangs verzichtet. Das Bestreben dieses Lehrbuchs ist es, die vorliegenden Themen auf m¨oglichst elementare und u¨ bersichtliche Weise zu behandeln. Dies gilt auch f¨ur die Herleitung der Approximationseigenschaften der vorgestellten numerischen Methoden, bei der jeweils lediglich Grundkenntnisse der Analysis und der linearen Algebra vorausgesetzt werden. Außerdem sind f¨ur viele der diskutierten Verfahren die jeweiligen Vorgehensweisen durch Bilder und Schemata veranschaulicht, was das Erlernen der auftretenden Zusammenh¨ange erleichtern sollte. F¨ur zahlreiche der behandelten Verfahren werden die praktisch bedeutungsvollen Aufwandsbetrachtungen angestellt und Pseudocodes angegeben, die sich unmittelbar in Computerprogramme umsetzen lassen. Die et¨ wa 120 vorgestellten Ubungsaufgaben unterschiedlichen Schwierigkeitsgrads sind fast alle im ¨ Ubungsbetrieb verwendet worden und daher praxiserprobt. Ich selbst habe die Vorl¨aufer dieses Lehrbuchs ohne weitere Themenauswahl als Vorlage f¨ur Vorlesungen u¨ ber Numerische Mathematik 1 und 2 verwendet. Dabei wurden die ersten sechs Kapitel in Teil 1 und die Kapitel 7 bis einschließlich 13 in Teil 2 der Vorlesung behandelt. M¨oglich w¨are es aber auch, im ersten Teil die Behandlung des sechsten Kapitels u¨ ber numerische Integration deutlich abzuk¨urzen. Stattdessen k¨onnten dann im ersten Teil beispielsweise noch die Grundlagen u¨ ber Einschrittverfahren zur numerischen L¨osung von Anfangswertproblemen bei gew¨ohnlichen Differentialgleichungen (Kapitel 7) oder Relaxationsverfahren zur iterativen L¨osung linearer Gleichungssysteme (Kapitel 10) vorgestellt werden.

vii

Vorwort

Zu diesem Buch wird ein Online Service angeboten, der unter http://www.math.tu-berlin.de/numerik/plato/viewegbuch ¨ abrufbar ist. Er umfasst L¨osungshinweise zu den vorgestellten Ubungsaufgaben und MATLAB Programme zu einigen der in diesem Buch pr¨asentierten Pseudocodes. Außerdem werden u¨ ber diesen Online Service im Laufe der Zeit Abschnitte u¨ ber weitere in diesem Buch nicht behandelte Themen beziehungsweise eine Liste der eventuell anfallenden Korrekturen angeboten. Anregungen, n¨utzliche Hinweise und Verbesserungsvorschl¨age zu diesem Lehrbuch sind jederzeit willkommen und erreichen mich unter meiner Email Adresse [email protected] Mein Dank gilt meinen Kollegen Prof. Dr. R. D. Grigorieff und Dipl. Math. Etienne Emmrich f¨ur viele n¨utzliche Anregungen, die in der vorliegenden Fassung weitestgehend ber¨ucksichtigt sind. Den Vorlesungsteilnehmern Dipl. Inf. Till Tantau und cand. math. Olivier Pfeiffer sowie einigen weiteren Studierenden sind zahlreiche kleine aber wichtige Verbesserungen zu verdanken. Außerdem danke ich Prof. Dr. Chuck Groetsch, Prof. Dr. Martin Hanke Bourgeois und Prof. Dr. Hans J¨urgen Reinhardt f¨ur die Unterst¨utzung bei der Durchf¨uhrung dieses Buchprojekts und Frau Ulrike Schmickler Hirzebruch vom Verlag Vieweg f¨ur die stets angenehme Zusammenarbeit. Berlin, im Mai 2000

Robert Plato

viii

Inhaltsverzeichnis Vorwort

v

Inhaltsverzeichnis

viii

1 Polynominterpolation 1.1 Allgemeine Vorbetrachtungen und Landausche Symbole . . . . . . . . . . . 1.1.1 Landausche Symbole . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Existenz und Eindeutigkeit bei der Polynominterpolation . . . . . . . . . . . 1.2.1 Die Lagrangesche Interpolationsformel . . . . . . . . . . . . . . . . . 1.2.2 Erste Vorgehensweise zur Berechnung des interpolierenden Polynoms 1.3 Neville– Schema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4 Die Newtonsche Interpolationsformel, dividierte Differenzen . . . . . . . . . 1.5 Der bei der Polynominterpolation auftretende Fehler . . . . . . . . . . . . . 1.6 Tschebyscheff– Polynome . . . . . . . . . . . . . . . . . . . . . . . . . . . – Weitere Bemerkungen und Literaturhinweise . . . . . . . . . . . . . . . . . ¨ – Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . .

1 1 2 3 3 4 5 7 10 12 16 17

2 Splinefunktionen 2.1 Einf¨uhrende Bemerkungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Interpolierende lineare Splinefunktionen . . . . . . . . . . . . . . . . . . . . . 2.2.1 Die Berechnung interpolierender linearer Splinefunktionen . . . . . . . 2.3 Minimaleigenschaften kubischer Splinefunktionen . . . . . . . . . . . . . . . 2.4 Die Berechnung interpolierender kubischer Splinefunktionen . . . . . . . . . . 2.4.1 Vor¨uberlegungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.2 Nat¨urliche Randbedingungen . . . . . . . . . . . . . . . . . . . . . . . 2.4.3 Vollst¨andige Randbedingungen . . . . . . . . . . . . . . . . . . . . . . 2.4.4 Periodische Randbedingungen . . . . . . . . . . . . . . . . . . . . . . 2.4.5 Existenz und Eindeutigkeit der betrachteten interpolierenden kubischen Splines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Fehlerabsch¨atzungen f¨ur interpolierende kubische Splines . . . . . . . . . . . – Weitere Bemerkungen und Literaturhinweise . . . . . . . . . . . . . . . . . . ¨ – Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

20 20 21 21 22 24 24 26 26 27

3 Diskrete Fouriertransformation und Anwendungen 3.1 Diskrete Fouriertransformation . . . . . . . . . . . 3.2 Anwendungen der diskreten Fouriertransformation 3.2.1 Fourierreihen . . . . . . . . . . . . . . . . 3.2.2 Trigonometrische Interpolation, Teil 1 . . .

36 36 37 37 39

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

27 29 33 34

ix

Inhaltsverzeichnis

3.3

– –

3.2.3 Trigonometrische Interpolation, Teil 2 . . . . . . . . . . Schnelle Fourier-Transformation (FFT) . . . . . . . . . . . . . 3.3.1 Einf¨uhrende Bemerkungen . . . . . . . . . . . . . . . . 3.3.2 Der grundlegende Zusammenhang . . . . . . . . . . . . 3.3.3 Bit– Umkehr . . . . . . . . . . . . . . . . . . . . . . . . 3.3.4 Der FFT– Algorithmus in der Situation N = 2q . . . . . 3.3.5 Aufwandsbetrachtungen f¨ur den FFT– Algorithmus . . . 3.3.6 Pseudocode f¨ur den FFT– Algorithmus in der Situation N Weitere Bemerkungen und Literaturhinweise . . . . . . . . . . ¨ Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . = 2q . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

4 L¨osung linearer Gleichungssysteme 4.1 Gestaffelte lineare Gleichungssysteme . . . . . . . . . . . . . . . . . . . . . . 4.1.1 Obere gestaffelte Gleichungssysteme . . . . . . . . . . . . . . . . . . . 4.1.2 Untere gestaffelte Gleichungssysteme . . . . . . . . . . . . . . . . . . 4.2 Der Gauß– Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Einf¨uhrende Bemerkungen . . . . . . . . . . . . . . . . . . . . . . . . 4.2.2 Gauß– Algorithmus mit Pivotsuche . . . . . . . . . . . . . . . . . . . . 4.3 Die Faktorisierung P A = LR . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1 Permutationsmatrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.2 Eliminationsmatrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.3 Die Faktorisierung P A = LR . . . . . . . . . . . . . . . . . . . . . . . 4.4 LR– Faktorisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5 Cholesky– Faktorisierung positiv definiter Matrizen . . . . . . . . . . . . . . . 4.5.1 Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.2 Die Berechnung einer Faktorisierung A = LL f¨ur positiv definite Matrizen A ∈ R N×N . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.3 Eine Klasse positiv definiter Matrizen . . . . . . . . . . . . . . . . . . 4.6 Bandmatrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.7 Normen und Fehlerabsch¨atzungen . . . . . . . . . . . . . . . . . . . . . . . . 4.7.1 Normen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.7.2 Spezielle Matrixnormen . . . . . . . . . . . . . . . . . . . . . . . . . . 4.7.3 Die Konditionszahl einer Matrix . . . . . . . . . . . . . . . . . . . . . 4.7.4 St¨orungsresultate f¨ur Matrizen . . . . . . . . . . . . . . . . . . . . . . 4.7.5 Fehlerabsch¨atzungen f¨ur fehlerbehaftete Gleichungssysteme . . . . . . 4.8 Orthogonalisierungsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 4.8.1 Elementare Eigenschaften orthogonaler Matrizen . . . . . . . . . . . . 4.8.2 Die Faktorisierung A = QR mittels Gram– Schmidt– Orthogonalisierung 4.8.3 Die Faktorisierung A = QS mittels Householder– Transformationen . . 4.8.4 Anwendung 1: Stabile L¨osung schlecht konditionierter Gleichungssysteme Ax = b . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.8.5 Anwendung 2: Lineare Ausgleichsrechnung . . . . . . . . . . . . . . .

40 43 43 43 45 46 49 49 50 50 53 53 53 54 55 55 58 58 59 61 63 66 68 68 71 71 72 73 74 77 80 81 82 83 84 85 86 89 89

x

Inhaltsverzeichnis

– –

Weitere Bemerkungen und Literaturhinweise . . . . . . . . . . . . . . . . . . ¨ Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5 Nichtlineare Gleichungssysteme 5.1 Vorbemerkungen . . . . . . . . . . . . . . . . . . . . . 5.2 Der eindimensionale Fall . . . . . . . . . . . . . . . . . 5.2.1 Ein allgemeines Resultat . . . . . . . . . . . . . 5.2.2 Das Newton– Verfahren im eindimensionalen Fall 5.3 Der Banachsche Fixpunktsatz . . . . . . . . . . . . . . 5.4 Das Newton– Verfahren im mehrdimensionalen Fall . . 5.4.1 Einige Begriffe aus der Analysis . . . . . . . . . 5.4.2 Das Newton– Verfahren und seine Konvergenz . . 5.4.3 Nullstellenbestimmung bei Polynomen . . . . . . – Weitere Bemerkungen und Literaturhinweise . . . . . . ¨ – Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

6 Numerische Integration von Funktionen 6.1 Interpolatorische Quadraturformeln . . . . . . . . . . . . . . . 6.2 Spezielle interpolatorische Quadraturformeln . . . . . . . . . . 6.2.1 Abgeschlossene Newton– Cotes– Formeln . . . . . . . . 6.2.2 Andere interpolatorische Quadraturformeln . . . . . . . 6.3 Der Fehler bei der interpolatorischen Quadratur . . . . . . . . . 6.4 Genauigkeit abgeschlossener Newton– Cotes– Formeln . . . . . 6.4.1 Der Beweis von Lemma 6.15 . . . . . . . . . . . . . . . 6.5 Summierte Quadraturformeln . . . . . . . . . . . . . . . . . . 6.5.1 Summierte Rechteckregeln . . . . . . . . . . . . . . . . 6.5.2 Summierte Trapezregel . . . . . . . . . . . . . . . . . . 6.5.3 Summierte Simpson– Regel . . . . . . . . . . . . . . . . 6.6 Asymptotik der summierten Trapezregel . . . . . . . . . . . . . 6.6.1 Die Asymptotik . . . . . . . . . . . . . . . . . . . . . . 6.7 Extrapolationsverfahren . . . . . . . . . . . . . . . . . . . . . 6.7.1 Grundidee . . . . . . . . . . . . . . . . . . . . . . . . . 6.7.2 Neville– Schema . . . . . . . . . . . . . . . . . . . . . 6.7.3 Verfahrensfehler bei der Extrapolation . . . . . . . . . . 6.8 Gaußsche Quadraturformeln . . . . . . . . . . . . . . . . . . . 6.8.1 Einleitende Bemerkungen . . . . . . . . . . . . . . . . . 6.8.2 Orthogonale Polynome . . . . . . . . . . . . . . . . . . 6.8.3 Optimale Wahl der St¨utzstellen und Gewichte . . . . . . 6.8.4 Nullstellen von orthogonalen Polynomen als Eigenwerte 6.9 Beweis der Asymptotik f¨ur die summierte Trapezregel . . . . . 6.9.1 Bernoulli–Polynome . . . . . . . . . . . . . . . . . . . 6.9.2 Der Beweis von Theorem 6.22 . . . . . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

91 92

. . . . . . . . . . .

97 97 98 98 99 100 103 103 105 107 111 111

. . . . . . . . . . . . . . . . . . . . . . . . .

114 115 116 116 118 118 122 124 126 126 127 128 129 129 130 130 131 132 134 134 135 138 140 142 142 143

xi

Inhaltsverzeichnis

– –

Weitere Bemerkungen und Literaturhinweise . . . . . . . . . . . . . . . . . . 145 ¨ Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145

7 Einschrittverfahren fur ¨ Anfangswertprobleme 7.1 Ein Existenz- und Eindeutigkeitssatz . . . . . . . . . . . . . . . . . . . . . . . 7.2 Theorie der Einschrittverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.1 Ein elementares Resultat zur Fehlerakkumulation . . . . . . . . . . . . 7.3 Spezielle Einschrittverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.1 Einschrittverfahren der Konsistenzordnung p = 1 . . . . . . . . . . . . 7.3.2 Einschrittverfahren der Konsistenzordnung p = 2 . . . . . . . . . . . . 7.3.3 Einschrittverfahren der Konsistenzordnung p = 4 . . . . . . . . . . . . 7.4 Rundungsfehleranalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.5 Asymptotische Entwicklung der Approximationen . . . . . . . . . . . . . . . 7.5.1 Einf¨uhrende Bemerkungen . . . . . . . . . . . . . . . . . . . . . . . . 7.5.2 Herleitung der asymptotischen Entwicklung des globalen Verfahrensfehlers, 1. Teil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.5.3 Herleitung der asymptotischen Entwicklung des globalen Verfahrensfehlers, 2. Teil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.5.4 Asymptotische Entwicklungen des lokalen Verfahrensfehlers . . . . . . 7.6 Extrapolationsmethoden f¨ur Einschrittverfahren . . . . . . . . . . . . . . . . . 7.7 Schrittweitensteuerung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.7.1 Verfahrensvorschrift . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.7.2 Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.7.3 Vorgehensweise bei gegebener Testschrittweite h(k) . . . . . . . . . . . 7.7.4 Bestimmung einer neuen Testschrittweite h(k+1) im Fall δ (k) > ε . . . . 7.7.5 Pseudocode zur Schrittweitensteuerung . . . . . . . . . . . . . . . . . . – Weitere Bemerkungen und Literaturhinweise . . . . . . . . . . . . . . . . . . ¨ – Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

147 147 149 151 152 152 153 155 155 157 157

8 Mehrschrittverfahren fur ¨ Anfangswertprobleme 8.1 Grundlegende Begriffe . . . . . . . . . . . . . . . . . . . . 8.1.1 Mehrschrittverfahren . . . . . . . . . . . . . . . . . 8.1.2 Konvergenz– und Konsistenzordnung . . . . . . . . 8.1.3 Nullstabilit¨at, Lipschitzbedingung . . . . . . . . . . ¨ 8.1.4 Ubersicht . . . . . . . . . . . . . . . . . . . . . . . 8.2 Der globale Verfahrensfehler bei Mehrschrittverfahren . . . 8.2.1 Das Konvergenztheorem . . . . . . . . . . . . . . . 8.2.2 Hilfsresultat 1: Das Lemma von Gronwall . . . . . . 8.2.3 Beschr¨anktheit der Matrixfolge A, A2 , A3 , . . . . . . . 8.2.4 Die Konsistenzordnung linearer Mehrschrittverfahren 8.3 Spezielle lineare Mehrschrittverfahren – Vorbereitungen . . 8.4 Adams– Verfahren . . . . . . . . . . . . . . . . . . . . . .

173 173 173 174 175 176 176 176 179 180 182 183 186

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

158 160 162 163 166 166 166 167 168 169 170 170

xii

Inhaltsverzeichnis

8.5

8.6

8.7 8.8

8.9

– –

8.4.1 Der Ansatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.4.2 Adams– Bashfort– Verfahren . . . . . . . . . . . . . . . . . . . . . . . 8.4.3 Adams– Moulton– Verfahren . . . . . . . . . . . . . . . . . . . . . . . Nystr¨om– und Milne– Simpson– Verfahren . . . . . . . . . . . . . . . . . . . 8.5.1 Der Ansatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.5.2 Nystr¨om– Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.5.3 Milne– Simpson– Verfahren . . . . . . . . . . . . . . . . . . . . . . . . BDF– Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.6.1 Der Ansatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ¨ 8.6.2 Tabellarische Ubersicht u¨ ber spezielle Mehrschrittverfahren . . . . . . . Pr¨adiktor– Korrektor– Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . 8.7.1 Linearer Pr¨adiktor/Linearer Korrektor . . . . . . . . . . . . . . . . . . Lineare homogene Differenzengleichungen . . . . . . . . . . . . . . . . . . . 8.8.1 Die Testgleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.8.2 Existenz und Eindeutigkeit bei linearen homogenen Differenzengleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.8.3 Die komplexwertige allgemeine L¨osung der homogenen Differenzengleichung Lu = 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.8.4 Die reellwertige allgemeine L¨osung der homogenen Differenzengleichung Lu = 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.8.5 Eine spezielle Differenzengleichung . . . . . . . . . . . . . . . . . . . Steife Differenzialgleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . 8.9.1 Einf¨uhrende Bemerkungen . . . . . . . . . . . . . . . . . . . . . . . . 8.9.2 Existenz und Eindeutigkeit der L¨osung bei Anfangswertproblemen f¨ur Differenzialgleichungen mit oberer Lipschitzeigenschaft . . . . . . . . 8.9.3 Das implizite Euler– Verfahren f¨ur steife Differenzialgleichungen . . . . 8.9.4 Steife Differenzialgleichungen in den Anwendungen . . . . . . . . . . Weitere Bemerkungen und Literaturhinweise . . . . . . . . . . . . . . . . . . ¨ Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

9 Randwertprobleme 9.1 Problemstellung, Existenz, Eindeutigkeit . . . . . . . . . . . . . . . 9.1.1 Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . 9.1.2 Existenz und Eindeutigkeit der L¨osung . . . . . . . . . . . . . 9.2 Differenzenverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2.1 Numerische Differenziation . . . . . . . . . . . . . . . . . . . 9.2.2 Der Ansatz f¨ur Differenzenverfahren . . . . . . . . . . . . . . 9.2.3 Das Konvergenzresultat f¨ur Differenzenverfahren . . . . . . . 9.2.4 Vorbereitungen f¨ur den Beweis von Teil (a) des Theorems 9.10 9.2.5 Nachweis der Aussage in Teil (a) von Theorem 9.10 . . . . . . 9.3 Galerkin– Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 9.3.1 Einf¨uhrende Bemerkungen . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

186 186 190 191 191 192 193 195 195 197 197 201 202 202 203 204 208 209 212 212 214 217 219 220 221 226 226 226 227 228 228 230 231 233 237 237 238

Inhaltsverzeichnis

9.4

– –

9.3.2 Eigenschaften des Differenzialoperators Lu = −u  + ru . . . . . . . 9.3.3 Galerkin– Verfahren– ein allgemeiner Ansatz . . . . . . . . . . . . . . 9.3.4 Systemmatrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.3.5 Finite– Elemente– Methode . . . . . . . . . . . . . . . . . . . . . . . . 9.3.6 Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.3.7 Das Energiefunktional . . . . . . . . . . . . . . . . . . . . . . . . . . . Einfachschießverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.4.1 Numerische Realisierung des Einfachschießverfahrens mit dem NewtonVerfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.4.2 Numerische Realisierung des Einfachschießverfahrens mit einer Fixpunktiteration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Weitere Bemerkungen und Literaturhinweise . . . . . . . . . . . . . . . . . . ¨ Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10 Gesamtschritt-, Einzelschritt- und Relaxationsverfahren 10.1 Iterationsverfahren zur L¨osung linearer Gleichungssysteme . . . . . . . . . . . 10.1.1 Hintergrund zum Einsatz iterativer Verfahren bei linearen Gleichungssystemen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.2 Lineare Fixpunktiteration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.2.1 Ein Modellbeispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.3 Einige spezielle Klassen von Matrizen . . . . . . . . . . . . . . . . . . . . . . 10.3.1 Irreduzible Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.4 Das Gesamtschrittverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.5 Das Einzelschrittverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.5.1 Der Betrag einer Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . 10.5.2 Konvergenzergebnisse f¨ur das Einzelschrittverfahren . . . . . . . . . . 10.6 Das Relaxationsverfahren und erste Konvergenzresultate . . . . . . . . . . . . 10.6.1 M– Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.7 Relaxationsverfahren f¨ur konsistent geordnete Matrizen . . . . . . . . . . . . . – Weitere Bemerkungen und Literaturhinweise . . . . . . . . . . . . . . . . . . ¨ – Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 CG– und GMRES– Verfahren 11.1 Vorbetrachtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1.1 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Der Ansatz des orthogonalen Residuums . . . . . . . . . . . . . . . . . . . . . 11.2.1 Existenz, Eindeutigkeit und Minimaleigenschaft . . . . . . . . . . . . . 11.2.2 Der Ansatz des orthogonalen Residuums (11.2) f¨ur gegebene A– konjugierte Basen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.3 Das CG– Verfahren f¨ur positiv definite Matrizen . . . . . . . . . . . . . . . . . 11.3.1 Einleitende Bemerkungen . . . . . . . . . . . . . . . . . . . . . . . . . 11.3.2 Die Berechnung A– konjugierter Suchrichtungen in Kn ( A, b ) . . . . . .

xiii 238 241 244 245 247 249 250 251 252 252 253 257 257 257 258 260 262 262 265 267 267 268 270 272 274 279 280 285 285 286 286 287 288 290 290 290

xiv

Inhaltsverzeichnis

11.3.3 Der Algorithmus zum CG– Verfahren . . . . . . . . . . . . . . . . . . 11.4 Die Konvergenzgeschwindigkeit des CG– Verfahrens . . . . . . . . . . . . . . 11.5 Das CG– Verfahren f¨ur die Normalgleichungen . . . . . . . . . . . . . . . . . 11.6 Arnoldi– Prozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.6.1 Vorbetrachtungen zum GMRES– Verfahren . . . . . . . . . . . . . . . 11.6.2 Arnoldi– Prozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.7 GMRES auf der Basis des Arnoldi– Prozesses . . . . . . . . . . . . . . . . . . 11.7.1 Einf¨uhrende Bemerkungen . . . . . . . . . . . . . . . . . . . . . . . . 11.7.2 Allgemeine Vorgehensweise zur L¨osung des betrachteten Minimierungsproblems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.7.3 Detaillierte Beschreibung der Vorgehensweise zur L¨osung des betrachteten Minimierungsproblems . . . . . . . . . . . . . . . . . . . . . . . . 11.7.4 MATLAB– Programm f¨ur GMRES . . . . . . . . . . . . . . . . . . . . 11.8 Konvergenzgeschwindigkeit des GMRES– Verfahrens . . . . . . . . . . . . . 11.9 Nachtrag 1: Krylovr¨aume . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.10 Nachtrag 2: Programmsysteme mit Multifunktionalit¨at . . . . . . . . . . . . . – Weitere Bemerkungen und Literaturhinweise . . . . . . . . . . . . . . . . . . ¨ – Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Eigenwertprobleme 12.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 12.2 St¨orungstheorie f¨ur Eigenwertprobleme . . . . . . . . . . 12.2.1 Diagonalisierbare Matrizen . . . . . . . . . . . . . 12.2.2 Der allgemeine Fall . . . . . . . . . . . . . . . . . 12.3 Lokalisierung von Eigenwerten . . . . . . . . . . . . . . . 12.4 Variationss¨atze f¨ur symmetrische Eigenwertprobleme . . . 12.5 St¨orungsresultate f¨ur Eigenwerte symmetrischer Matrizen 12.6 Nachtrag: Faktorisierungen von Matrizen . . . . . . . . . 12.6.1 Symmetrische Matrizen . . . . . . . . . . . . . . . 12.6.2 Diagonalisierbare Matrizen . . . . . . . . . . . . . 12.6.3 Schur– Faktorisierung . . . . . . . . . . . . . . . . – Weitere Bemerkungen und Literaturhinweise . . . . . . . ¨ – Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

13 Numerische Verfahren fur ¨ Eigenwertprobleme 13.1 Einf¨uhrende Bemerkungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . ¨ 13.1.1 Ahnlichkeitstransformationen . . . . . . . . . . . . . . . . . . . . . . . 13.1.2 Vektoriteration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.2 Transformation auf Hessenbergform . . . . . . . . . . . . . . . . . . . . . . . ¨ 13.2.1 Householder– Ahnlichkeitstransformationen zur Gewinnung von Hessen-

292 293 296 297 297 297 301 301 302 303 305 307 307 308 309 310 312 312 312 312 314 316 319 321 321 322 322 322 323 323 326 326 326 327 328

bergmatrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328 13.2.2 Der symmetrische Fall . . . . . . . . . . . . . . . . . . . . . . . . . . 330

xv

Inhaltsverzeichnis

13.3 Newton– Verfahren zur Berechnung von Eigenwerten . . . . . . . . . . . . . . 13.3.1 Der nichtsymmetrische Fall. Die Methode von Hyman . . . . . . . . . . 13.3.2 Das Newton– Verfahren zur Berechnung der Eigenwerte tridiagonaler Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.4 Das Jacobi– Verfahren f¨ur symmetrische Matrizen . . . . . . . . . . . . . . . 13.4.1 Approximation der Eigenwerte durch Diagonaleintr¨age . . . . . . . . . 13.4.2 Givensrotationen zur Reduktion der Nichtdiagonaleintr¨age . . . . . . . 13.4.3 Zwei spezielle Jacobi– Verfahren . . . . . . . . . . . . . . . . . . . . . 13.5 Das QR– Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.5.1 Eindeutigkeit und Stetigkeit der QR– Faktorisierung einer Matrix . . . . 13.5.2 Definition des QR– Verfahrens . . . . . . . . . . . . . . . . . . . . . . 13.5.3 Konvergenz des QR– Verfahrens f¨ur betragsm¨aßig einfache Eigenwerte 13.5.4 Praktische Durchf¨uhrung des QR– Verfahrens f¨ur Hessenbergmatrizen . 13.6 Das LR– Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.7 Die Vektoriteration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.7.1 Definition und Eigenschaften der Vektoriteration . . . . . . . . . . . . . 13.7.2 Spezielle Vektoriterationen . . . . . . . . . . . . . . . . . . . . . . . . – Weitere Bemerkungen und Literaturhinweise . . . . . . . . . . . . . . . . . . ¨ – Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 Restglieddarstellung nach Peano 14.1 Einf¨uhrende Bemerkungen . . . . . . . . . . 14.2 Peano– Kerne . . . . . . . . . . . . . . . . . 14.3 Anwendungen . . . . . . . . . . . . . . . . . 14.3.1 Interpolation . . . . . . . . . . . . . . 14.3.2 Numerische Integration . . . . . . . . – Weitere Bemerkungen und Literaturhinweise ¨ – Ubungsaufgaben . . . . . . . . . . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

15 Approximationstheorie 15.1 Einf¨uhrende Bemerkungen . . . . . . . . . . . . . . 15.2 Existenz eines Proximums . . . . . . . . . . . . . . 15.3 Eindeutigkeit eines Proximums . . . . . . . . . . . . 15.3.1 Einige Notationen; streng konvexe Mengen . 15.3.2 Strikt normierte R¨aume . . . . . . . . . . . . 15.4 Approximationstheorie in R¨aumen mit Skalarprodukt 15.4.1 Einige Grundlagen . . . . . . . . . . . . . . 15.4.2 Proxima in linearen Unterr¨aumen . . . . . . . 15.5 Πn−1 – Proxima bzgl. Maximumnormen . . . . . . . 15.6 Anwendungen des Alternantensatzes . . . . . . . . . 15.6.1 Ein Beispiel . . . . . . . . . . . . . . . . . . 15.6.2 Eine erste Anwendung des Alternantensatzes

. . . . . . .

. . . . . . . . . . . .

. . . . . . .

. . . . . . . . . . . .

. . . . . . .

. . . . . . . . . . . .

. . . . . . .

. . . . . . . . . . . .

. . . . . . .

. . . . . . . . . . . .

. . . . . . .

. . . . . . . . . . . .

. . . . . . .

. . . . . . . . . . . .

. . . . . . .

. . . . . . . . . . . .

. . . . . . .

. . . . . . . . . . . .

. . . . . . .

. . . . . . . . . . . .

. . . . . . .

. . . . . . . . . . . .

. . . . . . .

. . . . . . . . . . . .

. . . . . . .

. . . . . . . . . . . .

331 332 334 335 336 336 340 342 342 345 346 349 354 354 354 356 357 357

. . . . . . .

359 359 360 362 362 362 363 363

. . . . . . . . . . . .

365 365 366 367 368 369 371 371 372 375 378 378 378

xvi

Inhaltsverzeichnis

15.6.3 Eine zweite Anwendung des Alternantensatzes . 15.7 Haarsche R¨aume, Tschebyscheff– Systeme . . . . . . 15.7.1 Alternantensatz f¨ur Haarsche R¨aume . . . . . . 15.7.2 Eindeutigkeit des Proximums . . . . . . . . . . 15.7.3 Untere Schranken f¨ur den Minimalabstand . . . – Weitere Bemerkungen und Literaturhinweise . . . . . ¨ – Ubungsaufgaben . . . . . . . . . . . . . . . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

379 380 381 382 382 383 383

16 Rechnerarithmetik 16.1 Zahlendarstellungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16.2 Allgemeine Gleitpunkt– Zahlensysteme . . . . . . . . . . . . . . . . . . . . . 16.2.1 Grundlegende Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . 16.2.2 Struktur des normalisierten Gleitpunkt– Zahlensystems F . . . . . . . .  . . . . . . . 16.2.3 Struktur des denormalisierten Gleitpunkt– Zahlensystems F 16.3 Gleitpunkt– Zahlensysteme in der Praxis . . . . . . . . . . . . . . . . . . . . . 16.3.1 Die Gleitpunktzahlen des Standards IEEE 754 . . . . . . . . . . . . . . 16.3.2 Weitere Gleitpunkt– Zahlensysteme in der Praxis . . . . . . . . . . . . 16.4 Runden, Abschneiden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16.4.1 Runden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16.4.2 Abschneiden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16.5 Arithmetik in Gleitpunkt– Zahlensystemen . . . . . . . . . . . . . . . . . . . 16.5.1 Arithmetische Grundoperationen in Gleitpunkt– Zahlensystemen . . . . 16.5.2 Fehlerakkumulation bei der Hintereinanderausf¨uhrung von Multiplikationen und Divisionen in Gleitpunkt– Zahlensystemen . . . . . . . . . . 16.5.3 Fehlerverst¨arkung bei der Hintereinanderausf¨uhrung von Additionen in einem gegebenen Gleitpunkt– Zahlensystem F . . . . . . . . . . . . . . – Weitere Bemerkungen und Literaturhinweise . . . . . . . . . . . . . . . . . .

385 385 386 386 387 389 390 390 392 392 393 395 396 396

Literaturverzeichnis

402

Index

407

397 399 401

1

1

Polynominterpolation

1.1 Allgemeine Vorbetrachtungen und Landausche Symbole Gegenstand dieses und der beiden nachfolgenden Kapitel sind Problemstellungen der folgenden Art: Aus einer vorab festgelegten Menge von Funktionen Mn bestimme man eine Funktion, die durch gegebene Punkte ( x0 , f0 ), ( x1 , f1 ), . . . , ( xn , fn ) ∈ R 2 verl¨auft. Hierbei ist Mn ⊂ {ψ : I → R } eine problembezogen ausgew¨ahlte Menge von Funktionen, wobei I ⊂ R ein endliches oder unendliches Intervall mit paarweise verschiedenen Stutzstellen ¨ x0 , x1 , . . . , xn ∈ I ist. Solche Problemstellungen werden im Folgenden kurz als (eindimensionale) Interpolationsprobleme bezeichnet. Bemerkung 1.1 Interpolationsprobleme treten in unterschiedlichen Anwendungsbereichen auf. Einige davon werden – ohne weitere Spezifikation der Menge Mn – im Folgenden vorgestellt: •

Durch die Interpolation von zeit oder ortsabh¨angigen Messwerten wird die n¨aherungsweise Ermittlung auch von Daten f¨ur solche Zeiten oder Orte erm¨oglicht, f¨ur die keine Messungen vorliegen.



Die Interpolation l¨asst sich ebenfalls sinnvoll einsetzen bei der effizienten n¨aherungsweisen Bestimmung des Verlaufs solcher Funktionen f : I → R, die nur aufw¨andig auszuwerten sind. Hier wird die genannte Funktion f vorab lediglich an den vorgegebenen St¨utzstellen ausgewertet. Zur n¨aherungsweisen Bestimmung der Funktionswerte von f an weiteren Stellen werden dann ersatzweise die entsprechenden Werte der interpolierenden Funktion aus Mn herangezogen, wobei hier fj = f ( xj ) f¨ur j = 0, 1, . . . , n angenommen wird.



Eine weitere wichtige Anwendung stellt das rechnergest¨utzte Konstruieren (Computer-Aided Design, kurz CAD) dar, das beispielsweise zur Konstruktion von Schiffsr¨umpfen oder zur Festlegung von Schienenwegen verwendet wird. Mathematisch betrachtet geht es hierbei darum, interpolierende Funktionen mit hinreichend guten Glattheitseigenschaften zu verwenden.



Es existieren weitere Anwendungen, deren Modellierung auf andere mathematische Problemstellungen f¨uhren wie etwa die numerische Integration oder die numerische L¨osung von Anfangswertproblemen f¨ur gew¨ohnliche Differenzialgleichungen. Wie sich herausstellen wird, lassen sich hierf¨ur unter Zuhilfenahme der Interpolation numerische Verfahren entwickeln. 

F¨ur jedes der vorzustellenden Interpolationsprobleme sind im Prinzip die folgenden Themenkomplexe von Interesse:

2

Kapitel 1 Polynominterpolation



Existenz und Eindeutigkeit der interpolierenden Funktion aus der vorgegebenen Klasse von Funktionen Mn . Dabei ist es aufgrund der vorliegenden ( n + 1 ) Interpolationsbedingungen naheliegend, f¨ur Mn lineare Funktionenr¨aume der Dimension ( n + 1 ) heranzuziehen.



Stabile Berechnung der Werte der interpolierenden Funktion an einer oder mehrerer Stellen.



Aufwandsbetrachtungen f¨ur jedes der betrachteten Verfahren.



Herleitung von Absch¨atzungen f¨ur den bez¨uglich einer gegebenen hinreichend glatten Funktion f : [ a, b ] → R und der interpolierenden Funktion auf dem Intervall [ a, b ] auftretenden gr¨oßtm¨oglichen Fehler, wobei hier fj = f ( xj ) f¨ur j = 0, 1, . . . , n angenommen wird.

1.1.1 Landausche Symbole Im Folgenden werden zun¨achst die Landauschen Symbole O und O vorgestellt, mit denen sich bei Fehlerabsch¨atzungen und Effizienzbetrachtungen die wichtigen Aussagen herausstellen lassen. Definition 1.2 Gegeben seien zwei Funktionen f, g : R N ⊃ D → R, und x∗ ∈ R N sei ein H¨aufungspunkt der Menge D, es existiere also eine Folge x( 0) , x( 1) , . . . ⊂ D mit maxj=1,...,N |x(jn) − x∗j | → 0 f¨ur n → ∞. (a) Die Notation f ( x ) = O(g ( x ) )

f¨ur D  x → x∗

ist gleichbedeutend mit der Existenz einer Konstanten K ≥ 0 sowie einer Umgebung U = {x ∈ R N : maxj=1,...,N |xj − x∗j | ≤ δ } von x∗ (mit einer Zahl δ > 0), so dass die folgende Absch¨atzung gilt, |f ( x ) | ≤ K|g ( x ) |

f¨ur x ∈ U ∩ D.

(b) Die Notation f (x) =

O(g ( x ) )

f¨ur D  x → x∗

wird verwendet, wenn f¨ur jede Zahl ε > 0 eine Umgebung U ε = {x ∈ R N : maxj=1,...,N |xj − x∗j | ≤ δε } (mit einer von ε abh¨angenden Zahl δ = δε > 0) von x∗ existiert, so dass folgendes gilt, |f ( x ) | ≤ ε|g ( x ) |

f¨ur x ∈ U ε ∩ D.

Im eindimensionalen Fall N = 1 lassen sich diese Notationen auf die Situation x∗ = ∞ u¨ bertragen, wobei nur die angegebenen Umgebungen durch Mengen der Form U = {x ∈ R : x ≥ M } mit Zahlen M ∈ R zu ersetzen sind. Beispiel 1.3 ( 1 ) Wenn die Funktion g in einer Umgebung von x∗ keine Nullstelle besitzt, ist f ( x ) = O(g ( x ) ) f¨ur D  x → x∗ gleichbedeutend mit f ( x )/g ( x ) → 0 f¨ur D  x → x∗ . Gilt zus¨atzlich noch g ( x∗ ) = 0 und ist g an der Stelle x∗ stetig, so impliziert (jeweils f¨ur D  x →

Abschnitt 1.2

3

Existenz und Eindeutigkeit bei der Polynominterpolation

x∗ ) die Aussage f ( x ) = O(g ( x ) ) sinngem¨aß, dass f ( x ) schneller gegen 0 konvergiert als g ( x ) es tut. ( 2 ) Es gilt f ( x ) = O ( 1 ) f¨ur x → x∗ genau dann, wenn f ( x ) in einer Umgebung von x∗

beschr¨ankt ist. Weiter gilt f ( x ) = O( 1 ) f¨ur x → x∗ genau dann, wenn f ( x ) → 0 f¨ur D  x → x∗ (Aufgabe 1.1). 

1.2 Existenz und Eindeutigkeit bei der Polynominterpolation Im weiteren Verlauf dieses Kapitels werden zur Interpolation von ( n+1 ) beliebigen Stutzpunk¨ ten ( x0 , f0 ), ( x1 , f1 ), . . . , ( xn , fn ) ∈ R 2 mit paarweise verschiedenen St¨utzstellen x0 , . . . , xn speziell Funktionen aus der Menge Πn := {P : P ist Polynom vom Grad ≤ n} herangezogen; es wird also ein Polynom P mit den folgenden Eigenschaften gesucht, 

P ∈ Πn , P ( xj ) = fj

f¨ur j = 0, 1, . . . , n.

(1.1)

1.2.1 Die Lagrangesche Interpolationsformel F¨ur den Nachweis der Existenz einer L¨osung des Interpolationsproblems (1.1) lassen sich die folgenden Polynome verwenden. Definition 1.4 Zu gegebenen ( n + 1 ) paarweise verschiedenen St¨utzstellen x0 , x1 , . . . , xn ∈ R sind die ( n + 1 ) Lagrangeschen Basispolynome L0 , L1 , . . . , Ln ∈ Πn folgendermaßen definiert, Lk ( x ) =

n  x − xs xk − xs

f¨ur k = 0, 1, . . . , n.

s=0 s=k

Bemerkung 1.5 Das Lagrangesche Basispolynom Lk gen¨ugt offensichtlich den ( n + 1 ) Interpolationsbedingungen  1 f¨ur j = k, Lk ( xj ) = δkj := 0 f¨ur j = k. Daraus resultiert auch unmittelbar die lineare Unabh¨angigkeit der Lagrangeschen Basispolynome L0 , L1 , . . . , Ln , so dass diese eine Basis des ( n+1 ) dimensionalen Raums Πn der Polynome vom Grad ≤ n bilden.  Das folgende Theorem behandelt die Frage der Existenz und Eindeutigkeit des interpolierenden Polynoms:

4

Kapitel 1 Polynominterpolation

Theorem 1.6 Zu beliebigen ( n + 1 ) St¨utzpunkten ( x0 , f0 ), ( x1 , f1 ), . . . , ( xn , fn ) ∈ R 2 mit paarweise verschiedenen St¨utzstellen x0 , x1 , . . . , xn existiert genau ein interpolierendes Polynom P ∈ Πn (siehe Eigenschaft (1.1)). Es besitzt die Darstellung (Lagrangesche Interpolationsformel) P (x) =

n 

fk Lk ( x ).

(1.2)

k=0

 B EWEIS . (a) Existenz: F¨ur die Funktion P aus (1.2) gilt P ∈ Πn und P ( xj ) = nk=0 fk δjk = fj f¨ur j = 0, 1, . . . , n, wie man sofort nachrechnet. (b) Eindeutigkeit: Wenn auch das Polynom Q ∈ Πn den Interpolationsbedingungen gen¨ugt, wenn also Q( xj ) = fj f¨ur j = 0, 1, . . . , n erf¨ullt ist, so gilt Q − P ∈ Πn und ( Q − P )( xj ) = 0

f¨ur j = 0, 1, . . . , n.

Damit ist Q − P ein Polynom vom Grad ≤ n mit mindestens n + 1 paarweise verschiedenen Nullstellen, so dass (siehe beispielsweise Fischer [26], Abschnitt 1.3) notwendigerweise Q − P ≡ 0 beziehungsweise Q ≡ P gilt.

1.2.2 Eine erste Vorgehensweise zur Berechnung des interpolierenden Polynoms Im Folgenden sollen Algorithmen zur Berechnung der Werte des interpolierenden Polynoms an einer oder mehrerer Stellen angegeben werden, wobei zur jeweiligen Bewertung auch Aufwandsbetrachtungen angestellt werden. Definition 1.7 Jede der Grundoperationen Addition, Subtraktion, Multiplikation und Division sowie die Wurzelfunktion wird im Folgenden als arithmetische Operation bezeichnet. Der jeweils zu betreibende Aufwand eines Verfahrens l¨asst sich u¨ ber die Anzahl der durchzuf¨uhrenden arithmetischen Operationen beschreiben. Der Einfachheit halber bleibt im Folgenden unber¨ucksichtigt, dass ein Mikroprozessor zur Ausf¨uhrung einer Division beziehungsweise zur Berechnung einer Quadratwurzel jeweils etwa vier mal so viel Zeit ben¨otigt wie zur ¨ Durchf¨uhrung einer Addition, einer Subtraktion oder einer Multiplikation ( Uberhuber [102], Abschnitt 5.5). Wie sich herausstellt, ist die folgende Zielsetzung realistisch: Angestrebtes Ziel ist die Herleitung von Verfahren, f¨ur die das zu ( n+ 1 ) St¨utzpunkten geh¨orende interpolierende Polynom P ( siehe (1.1) ) nach einer Anlaufrechnung mit O( n2 ) arithmetischen Operationen an jeder Stelle x ∈ R in O( n ) arithmetischen Operationen ausgewertet werden kann. Hierbei sind Ausdr¨ucke der Form “O( nq )“ eine Kurzform f¨ur “O( nq ) f¨ur n → ∞“.

(1.3)

Abschnitt 1.3

5

Neville– Schema

Eine erste Variante zur Bestimmung eines interpolierenden Polynoms mit dem in (1.3) angestrebten maximalen Aufwand basiert auf der folgenden Darstellung f¨ur die Lagrangeschen Basispolynome, Lk ( x ) =

n  x − xs xk − xs

s=0 s=k

=

κk q ( x ), x − xk

mit κk =

k = 0, 1, . . . , n, n  s=0 s=k

1 , xk − xs

(1.4) q( x ) =

n 

( x − xs ).

s=0

Die Zahlen κ0 , κ1 , . . . , κn , die auch als Stutzkoeffizienten ¨ bezeichnet werden, lassen sich mit einem Aufwand von insgesamt O( n2 ) arithmetischen Operationen ermitteln. Sind diese Koeffi n zienten einmal berechnet, so l¨asst sich f¨ur jede Zahl x ∈ R der Wert P ( x ) = q ( x ) k=0 κk fk /  ( x − xk ) in O ( n ) arithmetischen Operationen bestimmen, wie man sich leicht u ¨ berlegt. Diese Vorgehensweise zur Berechnung von P ( x ) l¨asst sich also mit in (1.3) angestrebten maximalen Aufwand realisieren und hat zudem den praxisrelevanten Vorteil, dass die in der Anlaufrechnung berechneten Koeffizienten κ0 , κ1 , . . . , κn nicht von den St¨utzwerten f0 , f1 , . . . , fn abh¨angen. Bei einem Wechsel der St¨utzwerte f0 , f1 , . . . , fn unter gleichzeitiger Beibehaltung der St¨utzstellen x0 , x1 , . . . , xn ist also eine erneute Anlaufrechnung nicht erforderlich. Bemerkung 1.8 Die Entwicklung des interpolierenden Polynoms P ∈ Πn als Linearkombination der Lagrangeschen Basispolynome in Kombination mit der in diesem Abschnitt 1.2.2 beschriebenen Vorgehensweise zur Auswertung von P ( x ) f¨uhrt jedoch f¨ur nahe bei St¨utzstellen liegende Zahlen x zu Instabilit¨aten, was zur¨uckzuf¨uhren ist auf auftretende Br¨uche mit betragsm¨aßig kleinen Nennern und Z¨ahlern.  Andererseits f¨uhrt der Ansatz P ( x ) = nk=0 ak xk als Linearkombination der Monome zusammen mit den Interpolationsbedingungen auf ein lineares Gleichungssystem, dessen L¨osung sich als zu aufw¨andig und zu empfindlich gegen¨uber Rundungsfehlern erweist.  In Abschnitt 1.4 wird eine Darstellung des interpolierenden Polynoms bez¨uglich einer anderen Basis behandelt, mit der sich das interpolierende Polynom P mit dem in (1.3) angegebenen maximalen Aufwand stabil berechnen l¨asst.

1.3 Neville–Schema Die L¨osung f¨ur das Interpolationsproblem (1.1) kann schrittweise aus den interpolierenden Polynomen zu m = 0, 1, . . . St¨utzpunkten berechnet werden, wie sich im Folgenden herausstellt. Einerseits wird dieses Resultat f¨ur den Beweis der wesentlichen Aussage des nachfolgenden Abschnitts ben¨otigt, andererseits erh¨alt man dabei eine allgemein beliebte Vorgehensweise zur Auswertung des interpolierenden Polynoms an einigen wenigen Stellen. Definition 1.9 Seien k, m ∈ N0 . Zu den ( m + 1 ) St¨utzpunkten ( xk , fk ), ( xk+1 , fk+1 ), . . . , ( xk+m , fk+m ) bezeichne Pk,k+1,...,k+m dasjenige (eindeutig bestimmte) Polynom vom Grad ≤ m

6

Kapitel 1 Polynominterpolation

mit der Eigenschaft Pk,k+1,... ,k+m( xj ) = fj

f¨ur j = k, k + 1, . . . , k + m.

(1.5)

F¨ur die vorgestellten Polynome Pk,k+1,...,k+m besteht die folgende Rekursionsbeziehung: Theorem 1.10 Seien ( x0 , f0 ), ( x1 , f1 ), . . . , ( xn , fn ) vorgegebene St¨utzpunkte. F¨ur die Interpolationspolynome Pk,k+1,... ,k+m (mit k ≥ 0 und m ≥ 0 mit k + m ≤ n) aus (1.5) gilt die Rekursionsformel Pk ( x ) ≡ fk , (1.6) ( x − xk )Pk+1,...,k+m ( x ) − ( x − xk+m )Pk,...,k+m−1 ( x ) Pk,k+1,... ,k+m ( x ) = , m ≥ 1. (1.7) xk+m − xk B EWEIS . Die Identit¨at (1.6) ist wegen Pk ∈ Π0 und Pk ( xk ) = fk offensichtlich richtig. Es bezeichne Q( x ) die rechte Seite von (1.7), und Q = Pk,k+1,...,k+m ist dann nachzuweisen, was im Folgenden geschieht. Es gilt Pk+1,...,k+m ∈ Πm−1 und Pk,...,k+m−1 ∈ Πm−1 und demnach Q ∈ Πm . Weiter gilt Q( xk ) =

0 − ( xk − xk+m )fk xk+m − xk

= fk ,

Q( xk+m ) =

( xk+m − xk )fk+m − 0 xk+m − xk

= fk+m ,

und f¨ur j = k + 1, k + 2, . . . , k + m − 1 gilt Q( xj ) =

( xj − xk )fj − ( xj − xk+m )fj xk+m − xk

( −xk + xk+m )fj xk+m − xk

=

= fj .

Aufgrund der Eindeutigkeit des interpolierenden Polynoms (Theorem 1.6) gilt daher notwendigerweise die Identit¨at Q = Pk,k+1,... ,k+m . Die sich f¨ur die Werte Pk,k+1,...,k+m ( x ) aus der Rekursionsformel (1.7) ergebenden Abh¨angigkeiten sind in Schema 1.1 dargestellt, das als Neville Schema bezeichnet wird.

f0 = P0 ( x ) f1 = P1 ( x )



P01 ( x )

f2 = P2 ( x ) .. .



P12 ( x ) .. .

→ P012 ( x ) .. .. . .

fn−1 = Pn−1 ( x ) → Pn−2,n−1 ( x ) → fn = Pn ( x )

···

· · · P0...n−1 ( x )

···

· · · P1...n ( x ) → P0...n ( x )



→ Pn−1,n ( x ) →



Schema 1.1 Neville–Schema

Abschnitt 1.4

7

Die Newtonsche Interpolationsformel, dividierte Differenzen

Die Eintr¨age in Schema 1.1 lassen sich beispielsweise spaltenweise jeweils von oben nach unten berechnen. Wie bereits erw¨ahnt wird das resultierende Verfahren zur Auswertung des interpolierenden Polynoms P ( x ) = P0...n ( x ) an einzelnen Stellen x verwendet, wobei jeweils 7n2 /2 + O( n ) arithmetische Operationen anfallen, wie man leicht nachz¨ahlt. Beispiel 1.11 Man betrachte folgende St¨utzpunkte, j xj fj

0 1 0 1 1 3

2 3 2

F¨ur x = 2 sind die Werte des Neville Schemas in Schema 1.2 angegeben. f0 = P0 ( 2 ) = 1 f1 = P1 ( 2 ) = 3

P01 ( 2 ) = 5

f2 = P2 ( 2 ) = 2

P12 ( 2 ) = 5/2

P012 ( 2 ) = 10/3

Schema 1.2 Neville–Schema zu Beispiel 1.11 Die Eintr¨age in Schema 1.2 ergeben sich dabei folgendermaßen: P01 ( 2 ) =

( 2 − 0 )P1 ( 2 ) − ( 2 − 1 )P0 ( 2 ) 1−0

=

2·3−1·1 1

P12 ( 2 ) =

( 2 − 1 )P2 ( 2 ) − ( 2 − 3 )P1 ( 2 ) 3−1

=

1 · 2 − (−1) · 3 2

P012 ( 2 ) =

= 5, 5

= 2,

( 2 − 0 )P12 ( 2 ) − ( 2 − 3 )P01 ( 2 ) 2 · 5/2 − (−1) · 5 = 3−0 3

=

10 . 3



1.4 Die Newtonsche Interpolationsformel, dividierte Differenzen In diesem Abschnitt wird eine weitere Darstellung des interpolierenden Polynoms behandelt. Hierf¨ur werden die folgenden Basispolynome ben¨otigt. Definition 1.12 Zu gegebenen paarweise verschiedenen ( n+ 1 ) St¨utzstellen x0 , x1 , . . . , xn ∈ R sind die speziellen ( n + 1 ) Newtonschen Basispolynome folgendermaßen erkl¨art: 1,

x − x0 ,

( x − x0 )( x − x1 ), . . . . . . , ( x − x0 )( x − x1 ) . . . ( x − xn−1 ).

Das gesuchte interpolierende Polynom P ∈ Πn mit P ( xj ) = fj f¨ur j = 0, 1, . . . , n (vergleiche (1.1)) soll nun als Linearkombination der Newtonschen Basispolynome dargestellt werden,

8

Kapitel 1 Polynominterpolation

also in der Form P ( x ) = a0 + a1 ( x − x0 ) + a2 ( x − x0 )( x − x1 ) + . . .



. . . + an ( x − x0 )( x − x1 ) . . . ( x − xn−1 )

(1.8)

mit noch zu bestimmenden Koeffizienten a0 , a1 , . . . , an . Sind die Koeffizienten a0 , a1 , . . . , an erst einmal bestimmt, so kann f¨ur jede Zahl x = ξ das Polynom (1.8) mit dem Horner Schema

P(ξ ) =







. . . an ( ξ − xn−1 ) + an−1 ( ξ − xn−2 ) + . . . + a1 ( ξ − x0 ) + a0

ausgewertet werden, wobei die (insgesamt 3n) arithmetischen Operationen von links nach rechts auszuf¨uhren sind. Bemerkung 1.13 Die Koeffizienten a0 , a1 , . . . , an k¨onnen im Prinzip aus den Gleichungen f0 = P ( x0 ) = a0 , f1 = P ( x1 ) = a0 + a1 ( x1 − x0 ), f2 = P ( x2 ) = a0 + a1 ( x2 − x0 ) + a2 ( x2 − x0 )( x2 − x1 ), .. .. .. . . . gewonnen werden, wobei allerdings n3 /3 + O( n2 ) arithmetische Operationen anfallen, wie man sich leicht u¨ berlegt. Im Folgenden soll eine g¨unstigere Vorgehensweise vorgestellt werden, die eine Berechnung dieser Koeffizienten mit den angestrebten O( n2 ) arithmetischen Operationen erm¨oglicht.  Definition 1.14 Zu gegebenen St¨utzpunkten ( x0 , f0 ), ( x1 , f1 ), . . . , ( xn , fn ) ∈ R 2 sind die dividierten Differenzen folgendermaßen erkl¨art: f [ xk ] := fk , k = 0, 1, . . . , n, [ f xk+1 , . . . , xk+m ] − f [ xk , . . . , xk+m−1 ] f [ xk , . . . , xk+m ] := , xk+m − xk f¨ur 0 ≤ k, m ≤ n mit k + m ≤ n. Bemerkung 1.15 1. Die dividierte Differenz f [ xk , . . . , xk+m ] h¨angt neben den St¨utzstellen xk , xk+1 , . . . , xk+m auch von den St¨utzwerten fk , fk+1, . . . , fk+m ab. 2. Werden die Stutzwerte ¨ etwa mit gj anstelle fj bezeichnet, so wird f¨ur die dividierten Differenzen naheliegenderweise die Bezeichnung g [ xk , . . . , xk+m ] verwendet. 3. F¨ur die Berechnung aller dividierten Differenzen zu den St¨utzpunkten ( x0 , f0 ), ( x1 , f1 ), . . . , ( xn , fn ) ∈ R 2 sind lediglich 3n( n + 1 )/2 arithmetische Operationen erforderlich.  Die Abh¨angigkeiten zwischen den dividierten Differenzen sind in Schema 1.3 dargestellt.

Abschnitt 1.4

9

Die Newtonsche Interpolationsformel, dividierte Differenzen

f0 = f [ x0 ] f1 = f [ x1 ]



f [ x0 , x1 ]

f2 = f [ x2 ] .. .



f [ x1 , x2 ] .. .

→ f [ x0 , x1 , x2 ] .. .. . .

fn−1 = f [ xn−1 ] → f [ xn−2 , xn−1 ] → fn = f [ xn ]

···

· · · f [ x0 , . . . , xn−1 ]



→ f [ xn−1 , xn ] →

···

· · · f [ x1 , . . . , xn ] → f [ x0 , . . . , xn ]

Schema 1.3 Abh¨angigkeiten zwischen den dividierten Differenzen Beispielsweise gilt f [ x0 , x1 ] = f [ x0 , x1 , x2 ] =

f [ x1 ] − f [ x0 ] , x1 − x0

f [ x1 , x2 ] =

f [ x2 ] − f [ x1 ] , x2 − x1

f [ x1 , x2 ] − f [ x0 , x1 ] . x2 − x0

Das nachfolgende Theorem liefert die wesentliche Aussage dieses Abschnitts 1.4. Theorem 1.16 (Newtonsche Interpolationsformel) F¨ur das interpolierende Polynom P ∈ Πn zu gegebenen ( n + 1 ) St¨utzpunkten ( x0 , f0 ), ( x1 , f1 ), . . . , ( xn , fn ) ∈ R 2 gilt P ( x ) = f [ x0 ] + f [ x0 , x1 ]( x − x0 ) + . . . . . . + f [ x0 , . . . , xn ]( x − x0 )( x − x1 ) · · · ( x − xn−1 ).

(1.9)

B EWEIS . Dieser wird per vollst¨andiger Induktion u¨ ber n gef¨uhrt. Die Aussage ist sicher richtig f¨ur n = 0 und beliebige St¨utzpunkte ( x0 , f0 ), und es sei nun angenommen, dass sie richtig ist f¨ur n ∈ N0 und beliebige St¨utzpunkte ( x0 , f0 ), ( x1 , f1 ), . . . , ( xn , fn ) ∈ R 2 . Im Folgenden seien ( n + 2 ) St¨utzpunkte ( x0 , f0 ), ( x1 , f1 ), . . . , ( xn+1 , fn+1 ) ∈ R 2 gegeben, und P ∈ Πn+1 bezeichne das zugeh¨orige interpolierende Polynom. Mit der Notation aus Definition 1.9 gilt dann P − P0,... ,n ∈ Πn+1 , P ( xj ) − P0,...,n ( xj ) = 0

f¨ur j = 0, 1, . . . , n,

und damit gilt P ( x ) − P0,...,n ( x ) = a( x − x0 ) · · · ( x − xn ) beziehungsweise P ( x ) = P0,...,n ( x ) + a( x − x0 ) · · · ( x − xn )

(1.10)

10

Kapitel 1 Polynominterpolation

¨ mit einer geeigneten Konstanten a ∈ R ( Ubungsaufgabe; folgt aus der Eindeutigkeit des interpolierenden Polynoms (Theorem 1.6)). Nach Induktionsvoraussetzung gilt 

P0,...,n ( x ) = f [ x0 ] + f [ x0 , x1 ]( x − x0 ) + . . . . . . + f [ x0 , . . . , xn ]( x − x0 )( x − x1 ) · · · ( x − xn−1 ),

(1.11)

so dass wegen (1.10), (1.11) noch a = f [ x0 , . . . , xn+1 ]

(1.12)

nachzuweisen ist. Zu diesem Zweck verwendet man entsprechend Theorem 1.10 die Identit¨at P (x) =

( x − x0 )P1,...,n+1 ( x ) − ( x − xn+1 )P0,...,n ( x )

xn+1 − x0

(1.13)

und f¨uhrt in (1.13) einen Koeffizientenvergleich durch. Wegen der Identit¨at (1.10) ist klar, dass a der f¨uhrende Koeffizient von P ist, es gilt also P = Q + axn+1 f¨ur ein gewisses Polynom Q ∈ Πn . Andererseits ist nach Induktionsvoraussetzung bekannt, dass das Polynom P1,...,n+1 den f¨uhrenden Koeffizienten f [ x1 , . . . , xn+1 ] sowie P0,...,n den f¨uhrenden Koeffizienten f [ x0 , . . . , xn ] besitzt; wegen (1.13) besitzt P also tats¨achlich den f¨uhrenden Koeffizienten a =

f [ x1 , . . . , xn+1 ] − f [ x0 , . . . , xn ] xn+1 − x0

def

= f [ x0 , . . . , xn+1 ],

was identisch mit (1.12) ist und den Beweis komplettiert.

1.5 Der bei der Polynominterpolation auftretende Fehler Das folgende Theorem liefert f¨ur hinreichend glatte Funktionen eine Darstellung des bei der Polynominterpolation auftretenden Fehlers. Theorem 1.17 Die Funktion f : [ a, b ] → R sei ( n + 1 ) mal differenzierbar und sei P ∈ Πn das Polynom mit P ( xj ) = f ( xj ) f¨ur j = 0, 1, . . . , n. F¨ur jedes x ∈ [ a, b ] gilt dann die Fehlerdarstellung f (x) − P (x)

=

ω ( x ) f (n+1) ( ξ ) , ( n + 1 )!

(1.14)

mit einer Zwischenstelle ξ = ξ ( x ) ∈ [ a, b ] und ω ( x ) := ( x − x0 ) · · · ( x − xn ). B EWEIS . Falls x = xj f¨ur ein j gilt, so verschwinden beide Seiten der Gleichung (1.14). Sei nun x ∈ {x0 , x1 , . . . , xn } und sei ψ ( x ) := f ( x ) − P ( x ) − K ω ( x ),

Abschnitt 1.5

11

Der bei der Polynominterpolation auftretende Fehler

wobei die Konstante K so gew¨ahlt sei, dass ψ( x ) = 0 erf¨ullt ist. Im Folgenden soll eine spezielle Darstellung f¨ur die Konstante K hergeleitet werden. Hierzu beobachtet man, dass die Funktion ψ in dem Intervall [ a, b ] mindestens ( n+2 ) paarweise verschiedene Nullstellen x0 , . . . , xn , x besitzt. Eine wiederholte Anwendung des Theorems von Rolle zeigt: Die Funktion ψ  besitzt in dem Intervall [ a, b ] mindestens ( n + 1 ) paarweise verschiedene Nullstellen, die Funktion ψ  besitzt in [ a, b ] mindestens noch n paarweise verschiedene Nullstellen, und eine Fortf¨uhrung dieses Arguments liefert die Existenz einer Nullstelle ξ der Funktion ψ (n+1) in dem Intervall [ a, b ]. Nun gilt aber (∗)

P ( n+1) ≡ 0,

ω (n+1) ≡ ( n + 1 )!,

wobei man die Identit¨at (∗) aufgrund des Umstands erh¨alt, dass ω ∈ Πn+1 den f¨uhrenden Koeffizienten eins besitzt. Insgesamt erh¨alt man ψ ( n+1) ( ξ ) = f (n+1) ( ξ ) − K ( n + 1 )! = 0 beziehungsweise K = komplettiert.

f

(n+1) (

ξ) , ( n+1 )!

was den Nachweis f¨ur die angegebene Fehlerdarstellung (1.14)

Der Fehlerdarstellung (1.14) kann man unmittelbar entnehmen, dass beliebig oft differenzierbare Funktionen f : [ a, b ] → R mit gleichm¨aßig beschr¨ankten Ableitungen durch interpolierende Polynome gut approximiert werden (siehe das nachfolgende Theorem). Vorbereitend wird f¨ur eine Unterteilung  ∆ = a = x(0∆) < x(1∆) < . . . < x(n∆( ∆) ) = b des vorgegebenen Intervalls [ a, b ] das nachfolgende Maß f¨ur die Feinheit der Unterteilung ∆ eingef¨uhrt, ||∆|| :=

∆) max {x(j∆) − x(j−1 }.

1≤j≤n( ∆ )

Man beachte, dass das folgende Theorem auch f¨ur Intervallunterteilungen ∆( 0) , ∆(1) , . . . mit der Eigenschaft ||∆(m) || → 0 f¨ur m → ∞ g¨ultig ist. Theorem 1.18 Die Funktion f : [ a, b ] → R sei unendlich oft differenzierbar mit maxx ∈ [ a, b ] |f (s) ( x ) | ≤ M f¨ur s = 0, 1, . . ., mit einer endlichen Konstanten M. Weiter sei ∆(0) , ∆(1) , . . . eine Folge von Unterteilungen des Intervalls [ a, b ] mit nm := n(∆( m) ) → ∞ f¨ur m → ∞. Dann konvergiert die zugeh¨orige Folge der interpolierenden Polynome Pm ∈ Πnm (welche bez¨uglich der Unterteilung ∆( m ) die zugeh¨origen Funktionswerte von f interpolieren) gleichm¨aßig gegen die Funktion f . B EWEIS . Mit der Notation aus Theorem 1.17 gilt maxx ∈ [ a, b ] |ω ( x ) | ≤ ( b − a )nm +1 und somit max |Pm ( x ) − f ( x ) |

x ∈ [ a, b ]



M

( b − a )nm +1 ( nm

+ 1 )!

→ 0

f¨ur m → ∞.

12

Kapitel 1 Polynominterpolation

Gleichm¨aßige Konvergenz der Interpolationspolynome erh¨alt man auch unter geringeren Differenzierbarkeitsannahmen an die Funktion f (siehe Maess [66], Band 2). Im Allgemeinen kann man jedoch nicht erwarten, dass eine fest vorgegebene stetige Funktion auf einem kompakten Intervall umso besser durch ein interpolierendes Polynom approximiert wird, je feiner nur die Unterteilung der St¨utzstellen gew¨ahlt wird. Diese Aussage wird in dem folgenden Theorem 1.19 pr¨azisiert, das hier ohne Beweis angegeben wird und insbesondere f¨ur Intervallunterteilungen ∆(0) , ∆(1) , . . . mit ||∆( m) || → 0 f¨ur m → ∞ von Bedeutung ist. Theorem 1.19 (Faber) Zu jeder Folge von Unterteilungen ∆(0) , ∆(1) , . . . des Intervalls [ a, b ] gibt es eine stetige Funktion f : [ a, b ] → R, so dass die Folge der Polynome Pm ∈ Πn(∆(m) ) (welche bez¨uglich der Unterteilung ∆( m) die zugeh¨origen Funktionswerte von f interpolieren) f¨ur m → ∞ nicht gleichm¨aßig gegen die Funktion f konvergieren. Eine weitere, ohne Differenzierbarkeitsannahmen auskommende Fehlerdarstellung zur Polynominterpolation wird durch dividierte Differenzen erm¨oglicht: Theorem 1.20 Mit den Notationen von Theorem 1.17 mit einer beliebigen Funktion f : [ a, b ] → R gilt im Fall x ∈ {x0 , . . . , xn } die folgende Darstellung f¨ur den Interpolationsfehler, f ( x ) − P ( x ) = f [x0 , . . . , xn , x] ω ( x ). B EWEIS . Mit xn+1 := x gilt aufgrund von Theorem 1.16 die Darstellung P0,...,n+1 ( x )

=

P0,...,n ( x ) + f [x0 , . . . , xn , x] ω ( x )   = P (x)

f¨ur x ∈ R,

und mit der Identit¨at f ( x ) = P0,...,n+1( x ) folgt dann die Aussage des Theorems. Als Konsequenz aus den Theoremen 1.17 und 1.20 erh¨alt man den folgenden Mittelwertsatz f¨ur h¨ohere Ableitungen: Korollar 1.21 Zu jeder n mal differenzierbaren Funktion f : [ a, b ] → R und paarweise verschiedenen St¨utzstellen x0 , x1 , . . . , xn ∈ [ a, b ] existiert eine Zwischenstelle ξ = ξ ( x ) ∈ [ a, b ] mit f [ x0 , . . . , xn ] =

f (n) ( ξ ) , n!

wobei die St¨utzwerte durch fj = f ( xj ) f¨ur j = 0, 1, . . . , n festgelegt sind. B EWEIS . F¨ur n = 0 ist die Aussage trivialerweise richtig, und f¨ur n ≥ 1 folgt sie unmittelbar aus einem Vergleich der rechten Seiten in den Theoremen 1.17 und 1.20, angewandt mit den St¨utzstellen x0 , . . . , xn−1 und f¨ur x = xn .

1.6 Tschebyscheff–Polynome In diesem Abschnitt wird unter anderem der Frage nachgegangen, f¨ur welche St¨utzstellen x0 , x1 , . . . , xn ∈ [ a, b ] der Ausdruck maxx∈[ a, b ] | ( x − x0 ) . . . ( x − xn ) | am kleinsten wird, es ist also

Abschnitt 1.6

13

Tschebyscheff– Polynome

eine L¨osung des Minimax-Problems max | ( x − x0 ) . . . ( x − xn ) | → min

f¨ur x0 , x1 , . . . , xn ∈ [ a, b ]

x ∈ [ a, b ]

zu bestimmen. Die Darstellung (1.14) l¨asst bei einer solchen “optimalen“ Wahl der St¨utzstellen (falls diese zudem paarweise verschieden sind) einen minimalen Fehler bei der Polynominterpolation erwarten. Die Untersuchungen werden zun¨achst auf das Intervall [ a, b ] = [ –1, 1 ] beschr¨ankt; auf die allgemeine Situation f¨ur [ a, b ] wird am Ende dieses Abschnitts eingegangen. Es stellt sich im Folgenden heraus, dass solche optimalen St¨utzstellen x0 , x1 , . . . , xn ∈ [ –1, 1 ] durch die Nullstellen des ( n + 1 ) ten Tschebyscheff Polynoms der ersten Art gegeben sind. Definition 1.22 Die Tschebyscheff Polynome der ersten Art sind folgendermaßen erkl¨art, Tn ( t ) = cos ( n arccos t ),

t ∈ [ –1, 1 ]

( n = 0, 1, . . . ).

(1.15)

Theorem 1.23 F¨ur die Funktionen T0 , T1 , . . . aus (1.15) gelten die folgenden Aussagen: (a) Tn ( cos θ ) = cos nθ

f¨ur θ ∈ [ 0, π ]

( n = 0, 1, . . . ).

(b) F¨ur t ∈ [ –1, 1 ] gilt T0 ( t ) = 1, T1 ( t ) = t und Tn+1 ( t ) = 2tTn ( t ) − Tn−1 ( t ),

n = 1, 2, . . . ,

(1.16)

und Fortsetzung des Definitionsbereichs des Tschebyscheff Polynoms Tn auf ganz R mittels dieser Rekursionsformel liefert Tn ∈ Πn .

(1.17)

(c) Der f¨uhrende Koeffizient von Tn ist f¨ur n ≥ 1 gleich 2n−1 . (d)

max |Tn ( t ) | = 1.

t ∈ [ −1, 1 ]

(e) Das Tschebyscheff Polynom Tn besitzt in dem Intervall [ –1, 1 ] insgesamt ( n + 1 ) Extrema: Tn ( s(kn) ) = ( –1 )k

f¨ur s(kn) := cos

 kπ  n

,

k = 0, 1, . . . , n.

(1.18)

(f) Das Tschebyscheff Polynom Tn besitzt n einfache Nullstellen, die allesamt in dem Intervall [ –1, 1 ] liegen: Tn ( t(kn) ) = 0

f¨ur t(kn) := cos

 ( 2k − 1 )π  2n

,

k = 1, 2, . . . , n.

(1.19)

B EWEIS . Die Aussage (a) ist offensichtlich richtig, und die Darstellungen f¨ur T0 und T1 in (b) ergeben sich sofort aus Teil (a). F¨ur die Herleitung der Rekursionsformel (1.16) wird das folgende Additionstheorem ben¨otigt, cos x + cos y = 2cos

x+y 2

cos

x−y 2

f¨ur x, y ∈ R.

(1.20)

14

Kapitel 1 Polynominterpolation

F¨ur t = cos θ erh¨alt man dann mit (1.20) sowie Teil (a) dieses Theorems die folgenden Identit¨aten, 2tTn ( t ) − Tn−1 ( t ) = 2cos θ cos [ nθ ] − cos [ ( n − 1 )θ ]

=

cos [( n + 1 )θ ] = Tn+1 ( t ).

Teil (c) folgt unmittelbar aus der Rekursionsformel (b), und schließlich sind (d), (e) und (f) offensichtlich richtig. Das nachfolgende Theorem liefert die wesentliche Aussage dieses Abschnitts 1.6. Theorem 1.24 F¨ur n ∈ N0 und mit der Notation aus (1.19) gilt die folgende Optimalit¨atseigenschaft:   n+1)  min max | ( t − y0 ) . . . ( t − yn ) | = max  (t − t(1n+1) ) . . . (t − t(n+1 ) (1.21) y0 ,...,yn ∈ [ −1, 1 ] t ∈ [ −1, 1 ]

t ∈ [−1,1]

=

1 . 2n

(1.22)

B EWEIS . Als Erstes beobachtet man, dass mit Tn+1 entsprechend (1.15) die Darstellung  1  n+1) ( t ) = (t − t(1n+1) ) . . . (t − t(n+1 T ) (1.23) 2n n+1 gilt, was sich unmittelbar aus Theorem 1.23, Teil (c) und (f) ergibt. Die Identit¨at (1.22) folgt damit aus maxt∈[ −1, 1 ] |Tn+1 ( t ) | = 1 (Theorem 1.23, Teil (d)). Bei der Identit¨at (1.21) ist die Absch¨atzung “≤“ offensichtlich, und im Folgenden soll die Absch¨atzung “≥“ durch eine Widerspruchsannahme nachgewiesen werden. Angenommen, es gibt Zahlen y0 , y1 , . . . , yn ∈ [ − 1, 1 ], so dass 1 > 2n

max |ω ( t ) |,

ω ( t ) := ( t − y0 ) . . . ( t − yn )

t ∈ [ −1, 1 ]

(1.24)

gilt. Dann besitzt das Polynom 1

P := 2n Tn+1 − ω ( n + 1 ) Nullstellen in [ –1, 1 ], denn es liegen ( n + 1 ) Vorzeichenwechsel vor, wie sich bei Betrachtung der ( n + 2 ) aufsteigend angeordneten Extrema1 von Tn+1 zeigt,   

1 T 2n n+1 1 T 2n n+1 1 T 2n n+1

  

(s(0n+1) ) =

1 , 2n

(s(1n+1) ) =



(s(2n+1) ) =

1 , 2n

.. . beziehungsweise allgemein 1

diese sind in (1.18) angegeben

1 , 2n

1 2n

ω(s(0n+1) )




ω(s(2n+1) )

< 2n .. .

1

1 2n

=⇒ P(s(0n+1) )

> 0,

=⇒ P(s(1n+1) )

< 0,

=⇒ P(s(2n+1) )

> 0,

.. .

.. .

Abschnitt 1.6

15

Tschebyscheff– Polynome n+1) P(s(kn+1) )P(s(k−1 ) < 0

f¨ur k = 1, 2, . . . , n + 1.

Nun sind sowohl Tn+1 /2 als auch ω jeweils Polynome vom Grad = n+1 und besitzen beide den f¨uhrenden Koeffizienten 1, so dass notwendigerweise P ∈ Πn gilt. Jedes Polynom vom Grad n mit n + 1 paarweise verschiedenen Nullstellen muss jedoch identisch verschwinden, daher gilt P ≡ 0 beziehungsweise  1  T ≡ ω, 2n n+1 n

was einen Widerspruch zur Annahme (1.24) darstellt. In Bild 1.1 ist der Verlauf des optimalen Polynoms vom Grad 10 dargestellt, und zum Vergleich ist noch das Polynom ∈ Π10 mit a¨ quidistanten Nullstellen und f¨uhrendem Koeffizienten 1 abgebildet. Man beachte, dass sich bei dem optimalen Polynom die Abst¨ande der einzelnen Nullstellen zueinander zu den beiden R¨andern des Intervalls [ –1, 1 ] hin verringern, was zu der Vermeidung von Oszillationen am Rand f¨uhrt.

0.00852 0.00682 0.00511 0.00341 0.00170 -0.00000 -0.00170 -0.00341 -0.00511 -0.00682 -0.00852 -1.0

-0.8

-0.6

-0.4

-0.2

0.0

0.2

0.4

0.6

0.8

1.0

  (n+1) Bild 1.1 Darstellung von nk=0 (x − xk ) und n+1 ) (letztere gestrichelt) f¨ur gleichk=1 (x − tk (n+1) abst¨andige Nullstellen xk beziehungsweise Tschebyscheff– Nullstellen tk ; f¨ur n = 10

Der Fall [ a, b ] = [ –1, 1 ] ist damit abgehandelt, und abschließend werden allgemeine Intervalle [ a, b ] ⊂ R betrachtet. Das nachfolgende Theorem2 ist eine leichte Folgerung aus Theorem 1.24

verbunden mit der folgenden affin linearen Transformation, ψ : [ –1, 1 ] → [ a, b ], 2

t →

1 ( ( b − a )t + a + b). 2

das auch noch bei anderen mathematischen Problemen zur Anwendung kommt

(1.25)

16

Kapitel 1 Polynominterpolation

Theorem 1.25 Mit der Funktion ψ aus (1.25) gilt die folgende Optimalit¨atseigenschaft, max | ( x − x0 ) . . . ( x − xn ) |

min

x0 ,...,xn ∈ [ a, b ] x ∈ [ a, b ]

  n+1)  )) max  (x − ψ ( t(1n+1) ) ) . . . (x − ψ ( t(n+1

=

x ∈ [ a, b ]

( b − a )n+1

=

2 · 4n

(1.26) (1.27)

.

B EWEIS . Die Identit¨at (1.27) ergibt sich folgendermaßen,   max  (x − ψ ( t(n+1) ) ) . . . (x − ψ ( t( n+1) ) )  1

x∈[ a, b ]

= = (∗)

=

n+1

  n+1) max  (ψ ( t ) − ψ(t(1n+1) )) . . . (ψ ( t ) − ψ(t(n+1 )) 

t∈[ −1, 1 ]

 b − a n+1 2

  n+1)  max  (t − t(1n+1) ) . . . (t − t(n+1 )

t ∈ [ −1, 1 ]

 b − a n+1 1 2

2n

( b − a )n+1 , 2 · 4n

=

wobei man die Identit¨at (∗) aus Theorem 1.24 erh¨alt. Die Ungleichung “≤“ in (1.26) ist offensichtlich richtig, und zum Beweis der Ungleichung “≥“ in (1.26) seien nun x0 , x1 , . . . , xn ∈ [ a, b ] beliebig. Dann gibt es eindeutig bestimmte Zahlen y0 , y1 , . . . , yn ∈ [ –1, 1 ] mit ψ ( yj ) = xj f¨ur j = 0, 1, . . . , n, und wie im ersten Teil des Beweises erh¨alt man     max | ( x − x0 ) . . . ( x − xn ) | = max  ψ ( t ) − ψ ( y0 ) . . . ψ ( t ) − ψ ( yn )  x ∈ [ a, b ]

t ∈ [ −1, 1 ]

= (∗)



 b − a n+1 2

max | ( t − y0 ) . . . ( t − yn ) |

t ∈ [ −1, 1 ]

( b − a )n+1 , 2 · 4n

wobei sich die Ungleichung (∗) erneut mit Theorem 1.24 ergibt. Abschließend werden in Bild 1.2 anhand einer Beispielfunktion die interpolierenden Polynome f¨ur gleichabst¨andige und f¨ur “optimal“ gew¨ahlte St¨utzstellen dargestellt.

Weitere Themen und Literaturhinweise Thematisch eng verwandt ist die Hermite Interpolation (Aufgabe 1.3), die beispielsweise in Deuflhard/Hohmann [21], Mennicken/Wagenf¨uhrer [68], Opfer [76], Schaback/Wendland [88], Schwarz/Kl¨ockner [90], Stoer [95], Weller [106] und in Werner [107] eingehend behandelt wird. Thematisch ebenfalls verwandt ist die rationale Interpolation, die beispielsweise in [68], [90], [95] und in [106] vorgestellt wird. Die Spline Interpolation und die trigonometrische Interpolation sind Gegenstand der beiden folgenden Kapitel, und spezielle Darstellungen f¨ur die (vektorwertige) Polynominterpolation bez¨uglich a¨ qudistanter St¨utzstellen sind in Abschnitt 8.3 angegeben.

¨ Ubungsaufgaben

17

1.846

1.000

1.636

0.899

1.426

0.799

1.216

0.698

1.006

0.598

0.796

0.497

0.586

0.397

0.376

0.296

0.165

0.196 0.095

-0.045

-0.005

-0.255 -5

-4

-3

-2

-1

0

1

2

3

4

-5

5

-4

-3

-2

-1

0

1

2

3

4

5

Bild 1.2 (Klassisches Beispiel von Runge) Interpolation der Funktion f (x) = 1/(1 + x2 ), x ∈ [−5, 5] (gestrichelt) f¨ur a¨ quidistante St¨utzstellen (links) beziehungsweise solchen St¨utzstellen, die sich aus linear transformierten Tschebyscheff– Nullstellen (rechts) ergeben; es ist n = 6. Man beachte die unterschiedlichen Skalierungen in den beiden Teilabbildungen links und rechts.

¨ Ubungsaufgaben Aufgabe 1.1 F¨ur drei gegebene Funktionen f, g, h : R N ⊃ D → R und einen H¨aufungspunkt x∗ ∈ R N von D zeige man Folgendes: (a) f ( x ) =

O (g ( x ) )

f¨ur D  x → x∗

f ( x ) = O(g( x ) ) f¨ur D  x → x∗ .

=⇒

(b) f ( x ) = O(g( x ) ), g( x ) = O(h( x ) ) f¨ur D  x → x∗ =⇒ f ( x ) = O(h( x ) ) f¨ur D  x → x∗ . (c) f ( x ) =

O (1 1)

f¨ur D  x → x∗

(d) O(f ( x ) ) O(g( x ) ) = (e) O( O(f ( x ) )) =

O ((f

⇐⇒

f ( x ) → 0 f¨ur D  x → x∗ .

g )( x ) ) f¨ur D  x → x∗ .

O (O(f ( x ) ))

=

O (f ( x ) )

f¨ur D  x → x∗ .

Aufgabe 1.2 Man zeige Folgendes: f¨ur gegebene paarweise verschiedene St¨utzstellen x0 , x1 , . . . , xn ∈ R ist die Abbildung R n+1 → Πn , (f0 , f1 , . . . , fn ) → P (wobei P das jeweilige Interpolationspolynom gem¨aß (1.1) bezeichnet) linear. Aufgabe 1.3 (Hermite Interpolation) Man zeige: zu paarweise verschiedenen reellen Zahlen x0 , x1 ,  . . . , xr sowie nichtnegativen ganzen Zahlen m0 , m1 , . . . , mr ∈ N0 mit rj=0 mj = n + 1 und vorgegebenen Zahlen fj(ν ) ∈ R f¨ur ν = 0, 1, . . . , mj − 1 und j = 0, 1, . . . , r existiert genau ein Polynom P ∈ Πn mit P ( ν ) ( xj ) = fj(ν )

f¨ur

ν = 0, 1, . . . , mj − 1, j = 0, 1, . . . , r.

Aufgabe 1.4 Zu paarweise verschiedenen reellen Zahlen x0 , x1 , . . . , xn weise man f¨ur die zugeh¨origen Lagrangeschen Basispolynome Folgendes nach: (a)

n  k=0

Lk ( x ) ≡ 1;

18

Kapitel 1 Polynominterpolation

(b) n 

Lk ( 0 ) xsk

⎧ ⎨

=



k=0

f¨ur s = 0, f¨ur 1 ≤ s ≤ n, f¨ur s = n + 1.

1 0 ( –1 )n x0 x1 · · · xn

Aufgabe 1.5 Zu den drei St¨utzpunkten ( xj , tan 2 ( xj )) f¨ur j = 0, 1, 2 mit den St¨utzstellen x0 = π/6, x1 = π/4 und x2 = π/3 berechne man unter Verwendung des Schemas von Neville das zugeh¨orige Interpolationspolynom. Aufgabe 1.6 Zu gegebenen paarweise verschiedenen St¨utzstellen x0 , x1 , . . . , xn ∈ R und St¨utzwerten f0 , f1 , . . . , fn ∈ R weise man f¨ur die zugeh¨origen dividierten Differenzen Folgendes nach, n 

f [ x0 , . . . , xn ] =

fj

j=0

n 

( xj − xs ).

s=0 s=j

Aufgabe 1.7 Seien ( x0 , f0 ), ( x1 , f1 ), . . . , ( xn , fn ) ∈ R 2 und ( y0 , g0 ), ( y1 , g1 ), . . . , ( yn , gn ) ∈ R 2 St¨utzpunkte mit zugeh¨origen dividierten Differenzen f [ x0 , . . . , xn ] und g[ y0 , . . . , yn ]. Man zeige: Wenn {(xj , fj ), j = 0, 1, . . . , n } = {(yj , gj ), j = 0, 1, . . . , n } erf¨ullt ist, so gilt f [ x0 , . . . , xn ] = g[ y0 , . . . , yn ]. Aufgabe 1.8 Man bestimme in der Newtonschen Darstellung das Interpolationspolynom zu den folgenden St¨utzpunkten: j

0

1

2

3

4

xj

-5

-2

-1

0

1

fj

17

8

21

42

35

Im Folgenden bezeichnet C [ a, b ] die Menge der stetigen Funktionen f : [ a, b ] → R, und f¨ur r = 1, 2, . . . bezeichnet C r [ a, b ] die Menge der r fach stetig differenzierbaren Funktionen f : [ a, b ] → R. Aufgabe 1.9 Man zeige, dass es zu jeder Funktion f ∈ C [ a, b ] und paarweise verschiedenen St¨utzstellen x0 , x1 , . . . , xn ∈ [ a, b ] sowie f¨ur ε > 0 ein Polynom P gibt mit max |P ( x ) − f ( x ) | ≤ ε,

x ∈ [ a, b ]

P ( xj ) = f ( xj )

f¨ur j = 0, 1, . . . , n.

Aufgabe 1.10 Seien ϕ0 , ϕ1 , . . . , ϕn : C [ a, b ] → R lineare Funktionale und V ⊂ C [ a, b ] ein ( n + 1 ) dimensionaler linearer Teilraum. (a) Man zeige, dass die verallgemeinerte Interpolationsaufgabe bestimme v ∈ V

mit ϕj ( v ) = ϕj ( f )

f¨ur j = 0, 1, . . . , n

(1.28)

genau dann f¨ur jedes f ∈ C [ a, b ] eindeutig l¨osbar ist, wenn die Funktion f = 0 nur v = 0 als verallgemeinerte Interpolierende besitzt. (b) Sei die verallgemeinerte Interpolationsaufgabe (1.28) f¨ur jede Funktion f ∈ C [ a, b ] eindeutig l¨osbar und Ln : C [ a, b ] → V der zugeh¨orige Interpolationsoperator, das heißt, Ln f = v. Man weise nach, dass

¨ Ubungsaufgaben

19

Ln eine lineare Abbildung ist und f¨ur f ∈ C [ a, b ] gilt Ln f = f

⇐⇒

f ∈ V.

Aufgabe 1.11 F¨ur paarweise verschiedene St¨utzstellen x0 , x1 , . . . , xn ∈ [ a, b ] bezeichne Ln : C [ a, b ] → Πn den “Polynominterpolations Operator“, das heißt, ( Ln f )( xj ) = f ( xj )

f¨ur j = 0, 1, . . . , n

Man weise Folgendes nach:  sup ||Ln f ||∞ : f ∈ C [ a, b ], ||f ||∞ = 1

(f ∈ C [ a, b ] ). 

=

max x∈[ a, b ]

n  n     x − xs  xj − xs

 ,

j=0 s=0 s=j

wobei ||ψ ||∞ := max{|ψ ( x ) | : x ∈ [ a, b ] } die Maximumnorm bezeichnet. Aufgabe 1.12 Die Tschebyscheff Polynome der zweiten Art Un ∈ Πn sind definiert durch U0 ( x ) := 1,

U1 ( x ) := 2x,

Un+1 := 2xUn ( x ) − Un−1 ( x ),

n = 1, 2, . . . .

sin ( ( n + 1 )ϑ ) f¨ur ϑ ∈ ( 0, π ), n = 0, 1, . . . . sin ϑ (b) F¨ur n = 0, 1, . . . berechne man die beiden Werte Un ( 1 ) und Un ( –1 ).

(a) Man zeige Un ( cos ϑ ) =

(c) Man zeige Tn ( x ) = nUn−1 ( x ) f¨ur x ∈ [ –1, 1 ], n = 1, 2, . . . . Aufgabe 1.13 (Numerische Aufgabe) Mit einem Polynom vom Grad ≤ n interpoliere man die Funktion f ( x ) := 1/(25x2 + 1), x ∈ [ –1, 1 ], •

in a¨ quidistanten Punkten xj = −1 + 2j/n,

j = 0, 1, . . . , n,



in den Nullstellen tj,n+1 , j = 1, 2, . . . , n + 1 des ( n + 1 ) ten Tschebyscheff Polynoms Tn+1 .

Man w¨ahle hierbei n = 10 und erstelle jeweils einen Ausdruck des Funktionsverlaufs.

20

2

Splinefunktionen

2.1 Einfuhrende ¨ Bemerkungen Bei der Polynominterpolation auf a¨ quidistanten Gittern stellt sich mit wachsender St¨utzstellenzahl typischerweise ein oszillierendes Verhalten ein. Dies wird bei der in dem vorliegenden Abschnitt betrachteten Interpolation mittels Splinefunktionen vermieden. F¨ur deren Einf¨uhrung sei  ∆ = a = x0 < x1 < . . . < xN = b (2.1) eine fest gew¨ahlte Zerlegung des Intervalls [ a, b ], wobei man die St¨utzstellen x0 , x1 , . . . , xN aus historischen Gr¨unden auch als Knoten bezeichnet. Definition 2.1 Eine Splinefunktion der Ordnung ∈ N zur Zerlegung ∆ ist eine Funktion s ∈ C −1 [ a, b ], die auf jedem Intervall [ xj−1 , xj ] mit einem Polynom ten Grades u¨ bereinstimmt. Der Raum dieser Splinefunktionen wird mit S∆, bezeichnet, es gilt also  S∆, = s ∈ C −1 [ a, b ] : s|[ xj−1 , xj ] = pj |[ xj−1 , xj ] f¨ur ein pj ∈ Π ( j = 1, . . . , N ) . Anstelle Splinefunktion wird oft auch die Bezeichnung Spline verwendet. Bemerkung 2.2 Es ist offensichtlich S∆, mit den u¨ blichen Verkn¨upfungen ein linearer Raum. F¨ur dessen Dimension gilt dimS∆, = N + , wie durch Abz¨ahlen der Freiheitsgrade intuitiv klar wird.  In Bild 2.1 und Bild 2.2 sind Beispiele f¨ur lineare sowie quadratische Splines angegeben. 6

6 .... ... ... ... ..... ..... ... ... ....... ..................... ... ... . . ........... ...... ... .. ..... ...... .......... ... ....... ............... ... ............ ................ .......

0

a = x0 x1 x2 x3

-

x4 x5 = b

Bild 2.1 Ein linearer Spline auf [a, b]

0

.......................... ....... .. ..... .. ..... ... ..................... ..... . ..... . .... ... . . . .... ... .. .. ..... ... .. ... ... .. ... . . . ... ... ... . . . ... . . . .... ..... . . . . ...... . .....................

a = x0 x1 x2 x3

-

x4 x5 = b

Bild 2.2 Ein quadratischer Spline auf [a, b]

Im Folgenden werden f¨ur interpolierende Splinefunktionen der Ordnung = 1 (lineare Splines genannt) und Splinefunktionen der Ordnung = 3 (kubische Splines) Algorithmen zur Berechnung sowie Fehlerabsch¨atzungen hergeleitet. Splines der Ordnung = 2 (quadratische Splines) spielen in der Praxis eine geringere Rolle und werden hier nicht behandelt.

Abschnitt 2.2

21

Interpolierende lineare Splinefunktionen

2.2 Interpolierende lineare Splinefunktionen 2.2.1 Die Berechnung interpolierender linearer Splinefunktionen Thema dieses Abschnitts ist die Berechnung linearer Splinefunktionen s ∈ S∆,1 mit der Interpolationseigenschaft s( xj ) = fj

f¨ur j = 0, 1, . . . , N,

(2.2)

wobei die Werte f0 , f1 , . . . , fN ∈ R vorgegeben sind. F¨ur jeden Index j ∈ {0, 1, . . . , N − 1} besitzt eine solche Funktion s auf dem Intervall [ xj , xj+1 ] die lokale Darstellung s( x ) = aj + bj ( x − xj )

f¨ur x ∈ [ xj , xj+1 ],

(2.3)

und die Interpolationsbedingungen sj ( xj ) = fj und sj ( xj+1 ) = fj+1 ergeben unmittelbar aj = fj ,

bj =

fj+1 − fj . xj+1 − xj

(2.4)

Die Interpolationsbedingungen legen die Koeffizienten in dem allgemeinen Ansatz (2.3) in eindeutiger Weise fest und liefern den interpolierenden linearen Spline. Als Folgerung erh¨alt man: Theorem 2.3 (Existenz und Eindeutigkeit des interpolierenden linearen Splines) Zu der Zerlegung ∆ = {a = x0 < x1 < . . . < xN = b} und Werten f0 , f1 , . . . , fN ∈ R gibt es genau einen linearen Spline s ∈ S∆,1 mit der Interpolationseigenschaft (2.2). Er besitzt die lokale Darstellung (2.3) (2.4). Mit der Notation ||u||∞ :=

max |u( x ) |,

u ∈ C [ a, b ],

x ∈ [ a, b ]

gilt f¨ur den Fehler bei der linearen Spline Interpolation Folgendes: Theorem 2.4 Zu einer Funktion f ∈ C 2 [ a, b ] sei s ∈ S∆,1 der zugeh¨orige interpolierende lineare Spline (siehe (2.2)). Dann gilt ||s − f ||∞



1 ||f  ||∞ h2max 8

mit hmax :=

max {xj+1 − xj }.

j=0,...,N −1

B EWEIS . F¨ur jeden Index j ∈ {1, 2, . . . , N } stimmt die Splinefunktion s auf dem Intervall [ xj−1 , xj ] mit demjenigen Polynom P ∈ Π1 u ¨ berein, f¨ur das P ( xj−1 ) = f ( xj−1 ) und P ( xj ) = f ( xj ) gilt, und Theorem 1.17 u¨ ber den Fehler bei der Polynominterpolation liefert dann |s( x ) − f ( x ) | ≤ ≤

( x − xj−1 )( xj − x ) 2 h2max ||f  ||∞ 8

max

ξ ∈ [ xj−1 , xj ]

|f  ( ξ ) |

f¨ur x ∈ [ xj−1 , xj ].

Daraus folgt die angegebene Fehlerabsch¨atzung. Bemerkung 2.5 Die wesentliche Aussage in Theorem 2.4 stellt ||s − f ||∞ = O(h2max ) dar. 

22

Kapitel 2

Splinefunktionen

2.3 Minimaleigenschaften kubischer Splinefunktionen Im weiteren Verlauf wird die Interpolation mittels kubischer Splinefunktionen behandelt. Vor Behandlung der zugeh¨origen grundlegenden Themen wie Existenz, Eindeutigkeit, Berechnung und auftretender Fehler wird im vorliegenden Abschnitt zun¨achst eine f¨ur die Anwendungen wichtige Minimaleigenschaft interpolierender kubischer Splines vorgestellt (siehe Korollar 2.8 unten). Hierzu bezeichne im Folgenden Zb 1/2 |u( x ) |2 dx , u ∈ C [ a, b ]. ||u||2 := a

Lemma 2.6 (Holladay) Wenn eine Funktion f ∈ C 2 [ a, b ] und eine kubische Splinefunktion s ∈ S∆,3 in den Knoten u¨ bereinstimmen, s( xj ) = f ( xj ) so gilt ||f  − s  ||22

f¨ur j = 0, 1, . . . , N,

x=b ||f  ||22 − ||s  ||22 − 2( [ f  − s  ]s  )( x ) x=a .

=

(2.5) (2.6)

B EWEIS . Nach Definition von || · ||2 gilt ||f  − s  ||22 =

Z b a

|f  ( x ) − s  ( x ) |2 dx

=

Z b

= ||f  ||22 − 2

a

||f  ||22 − 2

Z b a

(f  s  )( x ) dx + ||s  ||22

([f  − s  ]s  )( x ) dx − ||s  ||22 ,

(2.7)

so dass man sich noch speziell mit dem mittleren Ausdruck in (2.7) zu befassen hat. F¨ur j = 1, 2, . . . , N liefert partielle Integration Z x j xj−1

( [ f  − s  ]s  )( x ) dx

=



 x=xj [f  − s  ]s  ( x ) 

x=xj−1



Z x j xj−1



 [f  − s  ]s  ( x ) dx

Z x  x=xj −0 j [f − s]s  ( x ) x=x +0 + x ([f − s]s( 4) )( x ) dx, j−1 j−1

 

  = 0 = 0 wobei der vorletzte Term aufgrund der Identit¨at (2.5) verschwindet, und das letzte Integral ver....... wird als schwindet, da s(4) ≡ 0 auf den Teilintervallen ( xj−1 , xj ) gilt. Das Symbol Unterf¨uhrungszeichen verwendet, es fungiert also als Platzhalter f¨ur den dar¨uber stehenden Ausdruck. Anschließende Summation u¨ ber j = 1, 2, . . . , N liefert aufgrund der Stetigkeit der Funktionen f  , s  , s  auf dem Intervall [ a, b ] die folgende Teleskopsumme und damit die Aussage des Lemmas, N  Z b     [f  − s  ]s  ( xj ) − [f  − s  ]s  ( xj−1 ) ([f  − s  ]s  )( x ) dx =

=



.......

a



j=1

=



   [f  − s  ]s  ( b ) − [f  − s  ]s  ( a ).

Unter gewissen zus¨atzlichen Bedingungen vereinfacht sich die Aussage von Lemma 2.6:

Abschnitt 2.3

Minimaleigenschaften kubischer Splinefunktionen

23

Theorem 2.7 Gegeben seien eine Funktion f ∈ C 2 [ a, b ] und ein kubischer Spline s ∈ S∆,3 , die in den Knoten u¨ bereinstimmen, vergleiche (2.5). Dann gilt die Identit¨at ||f  ||22 − ||s  ||22

=

||f  − s  ||22 ,

(2.8)

sofern eine der drei folgenden Bedingungen erf¨ullt ist: (a)

s  ( a ) = s  ( b ) = 0;

(b)

s  ( a ) = f  ( a ),

s  ( b ) = f  ( b );

(c)

f  ( a ) = f  ( b ),

s  ( a ) = s  ( b ),

s  ( a ) = s  ( b ).

x=b B EWEIS . In jedem der F¨alle (a) (c) verschwindet in (2.6) der Ausdruck ([f  − s  ]s  )( x ) x=a , und die Identit¨at (2.6) geht dann u¨ ber in die Identit¨at (2.8).

Korollar 2.8 Zu gegebenen Werten f0 , f1 , . . . , fN ∈ R hat ein interpolierender kubischer Spline s ∈ S∆,3 mit s  ( a ) = s  ( b ) = 0 unter allen hinreichend glatten interpolierenden Funktionen die geringste Kr¨ummung, es gilt also ||s  ||2 ≤ ||f  ||2 f¨ur jede Funktion f ∈ C 2 [ a, b ] mit f ( xj ) = fj f¨ur j = 0, 1, . . . , N. B EWEIS . Die angegebene Absch¨atzung ergibt sich unmittelbar aus Theorem 2.7 f¨ur Splines mit der Eigenschaft (a) dort. Die in Korollar 2.8 angegebene Absch¨atzung gilt mit den entsprechenden Modifikationen in den zugeh¨origen Voraussetzungen auch f¨ur solche kubischen Splines, die den Bedingungen (b) oder (c) in Theorem 2.7 gen¨ugen.

Bemerkung 2.9 ( 1 ) Man weist u¨ ber die Eigenschaft (2.8) leicht nach, dass jede der Bedingungen (a), (b) oder (c) in Theorem 2.7 die Eindeutigkeit des interpolierenden kubischen Splines impliziert (Aufgabe 2.3). ( 2 ) Es stellt ||f  ||2 lediglich eine Approximation an die mittlere Kr¨ummung der Funktion f

dar. Genauer ist die Kr¨ummung von f in einem Punkt x gegeben durch f  ( x )/(1 + f  ( x )2 )3/2 . ( 3 ) Die in Korollar 2.8 vorgestellte Minimaleigenschaft stellt den Grund daf¨ur dar, dass in

der Praxis (beispielsweise bei der Konstruktion von Schiffsr¨umpfen oder der Festlegung von Schienenwegen) f¨ur die Interpolation oftmals kubische Splinefunktionen verwendet werden.  In Bild 2.3 ist eine kubische Splinefunktion dargestellt.

24

Kapitel 2

6

0

Splinefunktionen

........... ...... ....... ... .... ... ... ... ... ... ... . . ... ... . . ... ... ... . . . ... ... . ... .. . ... . ... ... . . ... ... . ... . ... .. . . . .... . . ..... . . . . ..... . . . . . .. ....... ........................................................... ......................... ......... .........

a = x0

x1

x3 = b

x2

-

Bild 2.3 Ein kubischer Spline auf [a, b] zu den Knoten a = x0 < x1 < x2 < x3 = b

2.4 Die Berechnung interpolierender kubischer Splinefunktionen 2.4.1 Voruberlegungen ¨ In dem vorliegenden Abschnitt wird die Berechnung interpolierender kubischer Splines behandelt. Ausgehend von dem lokalen Ansatz s( x ) = aj + bj ( x − xj ) + cj ( x − xj )2 + dj ( x − xj )3 f¨ur x ∈ [ xj , xj+1 ],

 (2.9)

j = 0, 1, . . . , N − 1,

f¨ur eine Funktion s : [ a, b ] → R soll in diesem Abschnitt die Frage behandelt werden, wie man die Koeffizienten aj , bj , cj und dj f¨ur j = 0, 1, . . . , N − 1 zu w¨ahlen hat, damit die Funktion s auf dem Intervall [ a, b ] zweimal stetig differenzierbar ist1 und dar¨uber hinaus in den Knoten vorgegebene Werte f0 , f1 , . . . , fN ∈ R interpoliert, s( xj ) = fj

f¨ur j = 0, 1, . . . , N.

(2.10)

Das nachfolgende Lemma reduziert das genannte Problem auf die L¨osung eines linearen Gleichungssystems, wobei die folgende Notation verwendet wird, hj := xj+1 − xj

f¨ur j = 0, 1, . . . , N − 1.

(2.11)

Lemma 2.10 Falls N + 1 reelle Zahlen s0 , s1 , . . . , sN ∈ R den folgenden N − 1 gekoppelten Gleichungen 

hj−1 sj−1

+ 2( hj−1 +

hj )sj

+

hj sj+1

=

fj+1 − fj 6 hj

=: gj 

fj − fj−1 − 6 hj−1

f¨ur j = 0, 1, . . . , N − 1 1

und somit tats¨achlich ein kubischer Spline ist

(2.12)

Abschnitt 2.4

25

Die Berechnung interpolierender kubischer Splinefunktionen

gen¨ugen, so liefert der lokale Ansatz (2.9) mit den Setzungen cj :=

sj , 2

bj :=

fj+1 − fj hj

aj := fj ,

sj+1 − sj , 6hj

dj :=

(2.13)

hj  (s + 2sj ), 6 j+1



(2.14)

f¨ur j = 0, 1, . . . , N − 1 eine kubische Splinefunktion s ∈ S∆,3 , die die Interpolationsbedingungen (2.10) erf¨ullt. B EWEIS . Mit den Notationen pj ( x ) = aj + bj (x − xj ) + cj ( x − xj )2 + dj ( x − xj )3 ∈ Π3 (j = 0, 1, . . . , N − 1) erh¨alt man f¨ur j = 0, 1, . . . , N − 1 die folgenden Identit¨aten, pj ( xj ) = aj = fj ,  ( xj+1 ) pj+1

= 2cj+1

sj+1

=

=

sj + 6dj hj

=

pj ( xj+1 )

(j ≤ N − 2)

beziehungsweise pj ( xj+1 ) = aj + bj hj + cj h2j + dj h3j = fj

sj+1 − sj 2 sj 2 h + hj 2 j 6

......

(∗)

=

fj+1 ,

wobei die Identit¨at (∗) eine Folgerung aus (2.14) darstellt. Die Stetigkeit der ersten Ableitung s  erh¨alt man so,  ( xj ) = bj−1 + 2cj−1 hj−1 + 3dj−1 h2j−1 pj−1

(∗∗)

=

bj

=

pj ( xj )

( j = 1, 2, . . . , N − 1 ),

wobei (∗∗) aus den Setzungen (2.13) (2.14) und aus (2.12) resultiert. Bemerkung 2.11 ( 1 ) In der in Lemma 2.10 beschriebenen Situation bezeichnet man die N +1 reellen Zahlen s0 , s1 , . . . , sN ∈ R als Momente. Diese stimmen mit den zweiten Ableitungen der Splinefunktion s in den Knoten xj u¨ berein, sj = s  ( xj )

f¨ur j = 0, 1, . . . , N.

( 2 ) Mit Lemma 2.10 wird klar, dass sich die Koeffizienten in der Darstellung (2.9) unmittelbar aus den N + 1 Momenten s0 , . . . , sN ergeben. Diese N + 1 Momente gen¨ugen den N − 1 Bedingungen dieses Lemmas, womit also zwei Freiheitsgrade vorliegen. Aufgrund der Bedingungen (a) (c) in Theorem 2.7 werden noch drei M¨oglichkeiten diskutiert, wof¨ur abk¨urzend

s0 := s  ( x0 ),

sN := s  ( xN )

gesetzt wird: Naturliche ¨ Randbedingungen :

s0 = sN = 0;

Vollst¨andige Randbedingungen :

s0 = f0 ,

sN = fN

Periodische Randbedingungen :

s0 = sN ,

s0 = sN .

f¨ur gegebene f0 , fN ∈ R;

26

Kapitel 2

Splinefunktionen

Die Bezeichnung “nat¨urliche Randbedingung“ ist durch Korollar 2.8 gerechtfertigt. ( 3 ) Division von (2.12) durch 3( hj−1 + hj ) f¨uhrt auf die a¨ quivalente Gleichung hj−1 hj 2 s + sj + s 3 3( hj−1 + hj ) j−1 3( hj−1 + hj ) j+1

=

2

fj+1 − fj fj − fj−1 − 2 , hj ( hj−1 + hj ) hj−1 ( hj−1 + hj )

(2.15)

bei der die linke Seite eine Approximation an sj und die rechte Seite eine Differenzenapproximation an f  ( xj ) darstellt. Mehr hierzu finden Sie im Beweis von Lemma 2.15.  In den folgenden Unterabschnitten 2.4.2 2.4.4 sollen die Bedingungen (2.12) f¨ur die Momente zusammen mit den unterschiedlichen Randbedingungen in Matrix Vektor Form angegeben werden.

2.4.2 Naturliche ¨ Randbedingungen Die nat¨urlichen Randbedingungen s0 = sN = 0 f¨uhren zusammen mit (2.12) auf das folgende Gleichungssystem: ⎛ ⎞ + h ) h 0 . . . 0 2(h 0 1 1 ⎜ ⎟ ⎜ ⎟⎛ ⎛ ⎞ ⎞ ⎜ ⎟ .. .. ⎜ ⎟  . . g h 2(h + h ) h s 1 1 2 2 ⎜ ⎜ 1 ⎟ ⎟⎜ 1 ⎟ ⎜ ⎜ ⎟ ⎟ ⎟⎜ ⎜ ⎜ . ⎟ ⎟⎜ . ⎟ .. .. ⎜ ⎜ ⎟ ⎟ ⎟ ⎜ . . 0 0 h2 ⎜ ⎟ ⎜ .. ⎟ = ⎜ .. ⎟ . ⎜ ⎟ ⎟ ⎜ ⎟⎜ ⎜ ⎟⎝ ⎠ ⎝ ⎠ .. ⎜ ⎟ .. .. .. . . . ⎜ ⎟ sN −1 hN −2 . gN −1 ⎜ ⎟ ⎝ ⎠ 0 ... 0 hN −2 2(hN −2 + hN −1 )

2.4.3 Vollst¨andige Randbedingungen Die vollst¨andigen Randbedingungen !

f0

=

s0

=

b0 ,

fN

= sN

=

bN −1 + 2cN −1 hN −1 + 3dN −1h2N −1

!

f¨uhren mit (2.13) (2.14) auf die beiden zus¨atzlichen Bedingungen 2h0 s0 + h0 s1 = −6f0 + 6 hN −1 sN −1 + 2hN −1 sN = 6fN − 6

f1 − f0 h0

=: g0 ,

fN − fN −1 hN −1

=: gN .

(2.16) (2.17)

Abschnitt 2.4

27

Die Berechnung interpolierender kubischer Splinefunktionen

Diese Bedingungen (2.16) (2.17) f¨uhren zusammen mit (2.12) auf das folgende Gleichungssystem: ⎛ ⎞ h0 0 ... ... ⎜ 2h0 ⎜ ⎜ ⎜ .. . ⎜ h0 2(h0 + h1 ) h1 ⎜ ⎜ ⎜ .. .. .. ⎜ 0 . . . h1 ⎜ ⎜ ⎜ . .. .. .. .. ⎜ .. . . . . ⎜ ⎜ ⎜ . .. .. ⎜ .. . 2(hN −2 + hN −1 ) . ⎜ ⎜ ⎝ 0 ... ... 0 hN −1

0 .. . .. . 0 hN −1

⎟ ⎟ ⎟ ⎟⎛ ⎞ ⎛ ⎞ ⎟ ⎟ ⎟ ⎜ s0 ⎟ ⎜ g0 ⎟ ⎟⎜ ⎟ ⎜ ⎟ ⎟⎜ ⎟ ⎜ . ⎟ ⎟ ⎜ .. ⎟ ⎟ ⎟⎜ . ⎟ = ⎜ ⎜ .. ⎟ . ⎟⎜ ⎟ ⎜ ⎟ ⎟⎝ ⎠ ⎝ ⎠ ⎟  ⎟ s gN N ⎟ ⎟ ⎟ ⎟ ⎠

(2.18)

2hN −1

2.4.4 Periodische Randbedingungen Die periodischen Randbedingungen b0

=

s0 = sN !

=

bN −1 + 2cN −1 hN −1 + 3dN −1h2N −1 ,

s0 = sN !

f¨uhren mit (2.13) (2.14) auf die zus¨atzliche Bedingung 2(hN −1 + h0 )s0 + h0 s1 + hN −1 sN −1

=

f − f0

6 1h 0

− 6

fN − fN −1 hN −1

=: g0 . (2.19)

Diese Bedingung (2.19) f¨uhrt zusammen mit (2.12) auf das folgende Gleichungssystem: ⎛ ⎞ ⎜ 2(hN −1 + h0 ) h0 0 ⎜ ⎜ ⎜ ⎜ h0 2(h0 + h1 ) h1 ⎜ ⎜ ⎜ . ⎜ 0 h1 . . ⎜ ⎜ ⎜ .. .. .. ⎜ . . . ⎜ ⎜ ⎜ .. ⎜ . 0 ⎜ ⎜ ⎝ hN −1 0 ...

...

0

hN −1

..

.

..

.

..

.

.. .

..

.

..

.

0

..

.

..

.

hN −2

0

0 hN −2 2(hN −2 + hN −1 )

⎟ ⎟ ⎟ ⎟⎛ ⎞ ⎞ ⎛ ⎟ ⎟  ⎟ ⎜ s0 ⎟ ⎜ g0 ⎟ ⎟⎜ ⎟ ⎟ ⎜ ⎟⎜ ⎟ ⎜ . ⎟ ⎟ ⎜ .. ⎟ ⎟ ⎜ . = ⎟⎜ . ⎟ ⎜ . ⎟. ⎟⎜ ⎜ ⎟ ⎟ ⎟⎝ ⎝ ⎠ ⎠ ⎟ ⎟ s g N −1 N −1 ⎟ ⎟ ⎟ ⎟ ⎠

2.4.5 Existenz und Eindeutigkeit der betrachteten interpolierenden kubischen Splines F¨ur den Beweis der Existenz und Eindeutigkeitsaussage f¨ur interpolierende kubische Splines wird das nachfolgende Lemma ben¨otigt. Es wird hier in der n¨otigen Allgemeinheit formuliert

28

Kapitel 2

Splinefunktionen

wird, so dass es nochmals im Beweis des wichtigen Lemmas 2.15 angewandt werden kann. Vorbereitend wird die folgende Notation eingef¨uhrt, ||z ||∞ :=

max |zj |,

z ∈ RN .

j=1,...,N

Definition 2.12 Eine Matrix A = (ajk ) ∈ R N×N heißt strikt diagonaldominant, falls Folgendes gilt, N 

|ajk | < |ajj |

f¨ur j = 1, 2, . . . , N.

k=1 k=j

Lemma 2.13 Jede strikt diagonaldominante Matrix A = (ajk ) ∈ R N×N ist regul¨ar und es gilt ||x||∞



 max

j=1,...,N

N 

|ajj | −

|ajk |

−1

||Ax||∞

f¨ur x ∈ R N .

(2.20)

k=1 k=j

B EWEIS . F¨ur den Vektor x ∈ R N sei der Index j ∈ {1, 2, . . . , N } so gew¨ahlt, dass |xj | = ||x||∞ gilt. Dann berechnet man ||Ax||∞ ≥ |(Ax)j |

=

  N   ajk xk  



|ajj ||xj | −

k=1

≥ |ajj ||xj | −

N 

N 

|ajk ||xk |

k=1 k=j

|ajk |||x||∞

=



|ajj | −

k=1 k=j

N 

 |ajk | ||x||∞

k=1 k=j

beziehungsweise ||x||∞





|ajj | −

N 

|ajk |

−1

||Ax||∞ ,

k=1 k=j

was die Ungleichung (2.20) nach sich zieht. Die Regularit¨at der Matrix A folgt umgehend aus dieser Absch¨atzung (2.20). Offensichtlich ist jede der in den drei Abschnitten 2.4.2 2.4.4 betrachteten Matrizen strikt diagonaldominant. Als unmittelbare Folgerung aus dieser Beobachtung sowie den Lemmata 2.10 und 2.13 erh¨alt man Folgendes: Korollar 2.14 Zur Zerlegung ∆ und den Werten f0 , f1 , . . . , fN ∈ R gibt es jeweils genau einen interpolierenden kubischen Spline mit nat¨urlichen beziehungsweise vollst¨andigen (hier sind zus¨atzlich Zahlen f0 , fN ∈ R vorgegeben) beziehungsweise periodischen Randbedingungen.

Abschnitt 2.5

29

Fehlerabsch¨atzungen f¨ur interpolierende kubische Splines

2.5 Fehlerabsch¨atzungen fur ¨ interpolierende kubische Splines Das folgende Lemma liefert eine Absch¨atzung f¨ur die Differenz der Momente von s und f in den Knoten xj . Dabei werden wegen der einfacheren Vorgehensweise nur kubische Splines mit nat¨urlichen Randbedingungen betrachtet. Vergleichbare Aussagen lassen sich auch f¨ur kubische Splines mit vollst¨andigen oder periodischen Randbedingungen nachweisen (siehe beispielsweise Oevel [75], Mennicken/Wagenf¨uhrer [68] und Stoer [95]). Lemma 2.15 Zu einer gegebenen Funktion f ∈ C 4 [ a, b ] mit f  ( a ) = f  ( b ) = 0 bezeichne s ∈ S∆,3 den interpolierenden kubischen Spline2 mit nat¨urlichen Randbedingungen. Dann gilt max

j=1,...,N −1

|s  ( xj ) − f  ( xj ) | ≤

3 (4) ||f ||∞ h2max , 4

mit hmax :=

max {xj+1 − xj }.

j=0,...,N −1

B EWEIS . Die Darstellung (2.15) f¨ur die Momente bedeutet in Matrixschreibweise ⎞ ⎛  ⎞ ⎛ s1 g1  ⎟ ⎟ ⎜ ⎜ B ⎝ ... ⎠ = ⎝ ... ⎠ , sN −1

(2.21)

gN −1 

wobei  gj die rechte Seite von (2.15) bezeichnet, und die Matrix B ∈ R (N −1)×(N −1) besitzt die folgende Form, ⎞ ⎛ 2 h1 ⎟ ⎜ 0 ... ... 0 ⎟ ⎜ 3 3(h0 + h1 ) ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ . . 2 h h 1 2 .. .. ⎟ ⎜ ⎟ ⎜ 3( h1 + h2 ) 3 3( h1 + h2 ) ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ .. .. .. .. .. ⎟ ⎜ . . . . . 0 ⎟ ⎜ ⎟, B := ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ . . . . . .. .. .. .. .. ⎟ ⎜ 0 ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ .. .. hN −3 hN −2 ⎟ ⎜ 2 . . ⎟ ⎜ 3 3( hN −3 + hN −2 ) 3( hN −3 + hN −2 ) ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎠ ⎝ hN −2 2 0 ... ... 0 3( hN −2 + hN −1 )

3

mit der Notation hj = xj+1 − xj . Im Folgenden werden die Abbildungseigenschaften der Matrix B sowie die rechte Seite des Gleichungssystems (2.21) eingehender untersucht. 2

zur Zerlegung ∆ = { a = x0 < . . . < xN = b } und den St¨utzwerten fj = f ( xj ) f¨ur j = 0, 1, . . . , N

30

Kapitel 2

Splinefunktionen

1. Durch Taylorentwicklung der Funktion f  um den Punkt xj erh¨alt man die folgenden Darstellungen, f  ( xj−1 ) = f  ( xj ) − hj−1 f (3) ( xj ) +

h2j−1 (4) f (ξj ), 2

(2.22)

h2j ( 4) f ( ξj ), 2

f  ( xj+1 ) = f  ( xj ) + hj f (3) ( xj ) +

(2.23)

mit geeigneten Zwischenstellen ξj und ξj . Die Gleichung (2.22) wird dann mit hj−1 /(3(hj−1 + hj )) und die Gleichung (2.23) mit dem Faktor hj /(3(hj−1 + hj )) multipliziert. Die beiden Ergebnisse werden anschließend addiert und resultieren in der folgenden Approximation an die zweite Ableitung f  ( xj ), hj−1 hj 2 f  ( xj−1 ) + f  ( xj ) + f  ( xj+1 ) 3 3( hj−1 + hj ) 3( hj−1 + hj )

Rj := δj :=

=

f  ( xj ) + Rj + δj ,

1 (h − hj−1 )f (3) ( xj ), 3 j

 3  1 h f (4) (ξj ) + h3j f (4) ( ξj ) , 6( hj−1 + hj ) j−1

beziehungsweise in Matrixschreibweise ⎛ ⎞ ⎛ f  ( x1 ) f  ( x1 ) ⎟ ⎜ ⎜ . .. .. B⎝ ⎠ = ⎝ .  (





⎟ ⎜ ⎠ + ⎝

 (

f xN −1 )

R1 .. .

f xN −1 )

j = 1, 2, . . . , N − 1, ⎞



δ1 .. .

⎟ ⎜ ⎠ + ⎝

RN −1

⎞ ⎟ ⎠.

(2.24)

δN −1

2. Weiter ergibt eine Taylorentwicklung der Funktion f um den Punkt xj die folgenden Darstellungen: f ( xj+1 ) = f ( xj ) + hj f  ( xj ) +

h3j (3) h2j  h4j (4) ( xj ) + ( xj ) + f f f (ηj ), 2 6 24

f ( xj−1 ) = f ( xj ) − hj−1 f  ( xj ) +

h2j−1 2

f  ( xj ) −

h3j−1 6

f (3) ( xj ) +

h4j−1 24

(2.25)

f (4) ( ηj ), (2.26)

mit geeigneten Zwischenstellen ηj , ηj ∈ [ a, b ]. Eine Multiplikation der Gleichung (2.25) mit dem Faktor 2/hj sowie Multiplikation der Gleichung (2.26) mit dem Faktor 2/hj−1 und jeweils anschließende Aufl¨osung nach Termen mit f ( xj−1 ), f ( xj ) und f ( xj+1 ) f¨uhrt auf die Gleichungen 2

f ( xj+1 ) − f ( xj ) hj

= 2f  ( xj ) + hj f  ( xj ) +

f ( xj ) − f ( xj−1 ) hj−1

=

−2

h3j (4) h2j (3) f ( xj ) + f ( ηj ), 3 12

− 2f  ( xj ) + hj−1 f  ( xj ) −

h3j−1 h2j−1 (3) f ( xj ) + 12 f (4) ( ηj ), 3

und eine Addition dieser beiden Gleichungen sowie die anschließende Division durch hj−1 + hj resultiert in der folgenden Differenzenapproximation an die zweite Ableitung f  ( xj ), 

=  gj 

fj+1 − fj fj − fj−1 2 − 2 hj (hj−1 + hj ) hj−1 (hj−1 + hj )

= f  ( xj ) + Rj + δj ,

δj :=

j = 1, . . . , N − 1,

 3 (4)  1 h f ( ηj ) + h3j−1 f (4) ( ηj ) , 12( hj−1 + hj ) j

Abschnitt 2.5

31

Fehlerabsch¨atzungen f¨ur interpolierende kubische Splines

beziehungsweise in Vektorschreibweise ⎛ ⎜ ⎝



f  (x1 ) .. .

⎟ ⎠

⎛ =





g1 .. .

⎜ ⎝



⎟ ⎜ ⎠ − ⎝

gN −1 

f (xN −1 )

R1 .. .





⎟ ⎜ ⎠ − ⎝

RN −1

δ1 .. .

δN −1

⎞ ⎟ ⎠.

(2.27)

Verwendung der Identit¨at (2.27) auf der rechten Seite von (2.24) und anschließende Subtraktion des Resultats von der Gleichung (2.21) f¨uhrt auf eine Fehlerdarstellung der Form ⎛



f  (x1 ) − s  (x1 ) .. .

⎜ B⎝ 

⎞ δ1 − δ1 ⎟ ⎜ .. ⎠. ⎝ .  δN −1 − δN −1 ⎛

⎟ ⎠

=



f (xN −1 ) − s (xN −1 )

Die Matrix B ist offensichtlich strikt diagonaldominant und somit aufgrund von Lemma 2.13 regul¨ar, und mehr noch erh¨alt man mit der Identit¨at hj hj+1 2 − − 3 3( hj + hj+1 ) 3( hj + hj+1 )

1 , 3

=

j = 1, 2, . . . , N − 1,

die Absch¨atzung  max |f  ( xj ) − s  ( xj ) | ≤ 3 max |δ1 | + | δ1 |, . . . , |δN −1 | + | δN −1 |

j=0,...,N

3

≤ 4 h2max ||f (4) ||∞ , wobei in (∗) die Absch¨atzung |δj | + | δj |



3 3 1 hj−1 + hj ||f (4) ||∞ 4 hj−1 + hj



1 2 h ||f (4) ||∞ , 4 max

j = 1, 2, . . . , N − 1,

eingeht. Dies komplettiert den Beweis des Lemmas. Im folgenden Theorem werden die Approximationseigenschaften interpolierender kubischer Splines vorgestellt. Man beachte, dass die wesentliche Voraussetzung (2.28) f¨ur den Fehler der zweiten Ableitungen in den Knoten typischerweise erf¨ullt ist (siehe Lemma 2.15 und die davor angestellten Bemerkungen). Theorem 2.16 Sei f ∈ C 4 [ a, b ], und sei s ∈ S∆,3 ein interpolierender kubischer Spline3 . Weiter bezeichne hj = xj+1 − xj f¨ur j = 0, 1, . . . , N − 1 und hmax =

max

j=0,...,N −1

hj ,

hmin =

min

j=0,...,N −1

hj .

Falls max |s  ( xj ) − f  ( xj ) |

j=0,...,N



C||f (4) ||∞ h2max

erf¨ullt ist mit einer Konstanten C > 0, so gelten mit der Zahl c := 3

(2.28)

hmax  1 C + die folgenden hmin 4

zur Zerlegung ∆ = { a = x0 < . . . < xN = b } und den St¨utzwerten fj = f ( xj ) f¨ur j = 0, 1, . . . , N

32

Kapitel 2

Splinefunktionen

Absch¨atzungen f¨ur jedes x ∈ [ a, b ]: |s( x ) − f ( x ) | ≤

c||f (4) ||∞ h4max ,

(2.29)

|s ( x ) − f ( x ) | ≤ 2

.......

h3max ,

(2.30)

|s  ( x ) − f  ( x ) | ≤ 2

......

h2max ,

(2.31)

......

hmax





|s ( x ) − f (3)

wobei der Ausdruck

.......

(3)

(x) | ≤

2

( x = xj ),

(2.32)

hier jeweils f¨ur den Faktor c||f (4) ||∞ steht.

B EWEIS . Man weist zun¨achst die Fehlerabsch¨atzung (2.32) f¨ur die dritten Ableitungen nach. Per Definition ist s  auf jedem Intervall [ xj , xj+1 ] affin linear, mithin gilt f¨ur j = 0, 1, . . . , N − 1 s( 3 ) ( x ) ≡

s  ( xj+1 ) − s  ( xj ) hj

f¨ur xj < x < xj+1 .

(2.33)

Eine Taylorentwicklung von f  um den Punkt x ∈ [ xj , xj+1 ] liefert f  ( xj+1 ) = f  ( x ) + ( xj+1 − x )f ( 3) ( x ) + f  ( xj ) = f  ( x ) + ( xj − x )f (3) ( x ) +

( xj+1 − x )2 (4) f ( αj ), 2

( x − xj )2 (4) f ( βj ) 2

mit gewissen Zwischenstellen αj , βj ∈ [ xj , xj+1 ]. Subtraktion der letzten beiden Gleichungen und anschließende Division durch hj liefert f (3) ( x ) =

f  ( xj+1 ) − f  ( xj ) ( xj+1 − x )2 (4) ( x − xj )2 (4) − f ( αj ) + f ( βj ), hj 2hj 2hj

(2.34)

und die Subtraktion “(2.33) (2.34)“ ergibt s( 3 ) ( x ) − f ( 3 ) ( x ) =

s  ( xj+1 ) − f  ( xj+1 ) s  ( xj ) − f  ( xj ) ( xj+1 − x )2 f (4) ( αj ) − ( x − xj )2 f (4) ( βj ) − + hj hj 2hj

und somit |s(3) ( x ) − f (3) ( x ) | ≤ ||f (4) ||∞ ≤

 2  h2 1 Chmax + Ch2max + max 2 min{ h0 , . . . , hN −1 }

hmax  1 2C + ||f (4) ||∞ hmax , hmin 2



 = 2c



wobei eine Absch¨atzung der Form ( xj+1 − x )2 + ( x − xj )2

= ( xj+1 − xj )2 − 2( xj+1 − x )( x − xj ) ≤ ( xj+1 − xj )2



h2max

f¨ur x ∈ [ xj , xj+1 ] eingeht. Die Fehlerabsch¨atzung (2.32) f¨ur die dritten Ableitungen ist damit nachgewiesen.

33

Weitere Themen und Literaturhinweise

Die weiteren Fehlerabsch¨atzungen ergeben sich nun durch Integration. Zur Absch¨atzung der zweiten Ableitungen (2.31) w¨ahlt man zu einer gegebenen Zahl x ∈ [ a, b ] den n¨achstgelegenen Knoten xj , womit |x−xj | ≤ hmax /2 gilt. Der Hauptsatz der Differenzial- und Integralrechnung liefert s  ( x ) − f  ( x )

s  ( xj ) − f  ( xj ) +

=

Z x xj

s(3) ( y ) − f (3) ( y ) dy

und somit |s  ( x ) − f  ( x ) |



C||f (4) ||∞ h2max + 2c||f (4) ||∞ |x − xj |hmax



2c||f (4) ||∞ h2max ,

wobei noch die Eigenschaft hmax /hmin ≥ 1 beziehungsweise C ≤ c verwendet wurde. Damit ist auch (2.31) f¨ur die zweiten Ableitungen nachgewiesen. Zur Absch¨atzung (2.30) der ersten Ableitungen beachte man, dass die St¨utzstellen a = x0 < x1 < . . . < xN = b Nullstellen der Funktion s−f sind und somit die Funktion s  −f  in jedem Teilintervall [ xj−1 , xj ] eine Nullstelle yj besitzt. W¨ahlt man zu einem gegebenen Punkt x ∈ [ a, b ] die n¨achstgelegene Nullstelle yj , so gilt |x − yj | ≤ hmax , und der Hauptsatz der Differenzial- und Integralrechnung liefert Z x    |s  ( x ) − f  ( x ) | =  y s  ( y ) − f  ( y ) dy  ≤ 2c||f (4) ||∞ h2max |x − yj | j

≤ 2c||f (4) ||∞ h3max . Damit ist auch die Fehlerabsch¨atzung (2.30) f¨ur die ersten Ableitungen nachgewiesen. Abschließend wird der Fehler s −f betrachtet. F¨ur beliebiges x ∈ [ a, b ] und den n¨achstgelegenen Knoten xj erh¨alt man Zx    |s( x ) − f ( x ) | =  s  ( y ) − f  ( y ) dy  ≤ 2c||f (4) ||∞ h3max |x − xj | x j

≤ c||f (4) ||∞ h4max , womit auch die Fehlerabsch¨atzung (2.29) nachgewiesen ist. Bemerkung 2.17 (a) Die wesentliche Aussage in Theorem 2.16 ist ||s − f ||∞ = O(h4max ) f¨ur Zerlegungen ∆ mit hmax /hmin ≤ K, wobei K eine von der Zerlegung ∆ unabh¨angige Konstante bezeichnet. Diese Bedingung an den Quotienten hmax /hmin stellt eine Uniformit¨atsbedingung an ∆ dar. (b) Konvergenz ||s − f ||∞ → 0 f¨ur hmax → 0 mit hmax /hmin ≤ K erh¨alt man auch unter geringeren Differenzierbarkeitseigenschaften. F¨ur gleichm¨aßig stetige Funktionen f : [ a, b ] → R wird ein entsprechendes Resultat in Mennicken/Wagenf¨uhrer [68], Band 2 nachgewiesen. 

Weitere Themen und Literaturhinweise Von einer gewissen Bedeutung sind in diesem Zusammenhang B Splines der Ordnung ∈ N0 , bei denen es sich um spezielle nichtnegative und mit einem kompakten Tr¨ager versehene4 Splinefunktionen der Ordnung aus den R¨aumen S∆, handelt. Beispielsweise kann man 4

das heißt, diese verschwinden außerhalb eines endlichen Intervalls

34

Kapitel 2

Splinefunktionen

mit ausgew¨ahlten B Splines der Ordnung eine Basis f¨ur S∆, erzeugen. Auf die Einf¨uhrung von B Splines wird hier im Sinne der angestrebten u¨ berschaubaren Darstellung verzichtet (ein paar weitere Anmerkungen finden Sie noch in Abschnitt 9.3.5) und stattdessen auf die folgende Auswahl von Lehrb¨uchern verwiesen: de Boor [4], Deuflhard/Hohmann [21], Kress [60], Oevel [75], Mennicken/Wagenf¨uhrer [68], Schaback/Wendland [88], Schwarz/Kl¨ockner [90], Stoer [95], Weller [106] und Werner [107]. Weiter ist in diesem Zusammenhang die B´ezierInterpolation zu nennen, die beispielsweise in [60], [88], [90], [106] und [107] behandelt wird.

¨ Ubungsaufgaben Aufgabe 2.1 Im Folgenden bezeichnet ∆ = {a = x0 < x1 < . . . < xN = b}

(2.35)

wieder eine Zerlegung des Intervalls [ a, b ]. Weiter seien f0 , f1 , . . . , fN ∈ R gegebene St¨utzwerte, und s 1 [ a, b ] den Raum sei die zugeh¨orige interpolierende lineare Splinefunktion. Im Folgenden bezeichnet C∆ derjenigen stetigen Funktionen f : [ a, b ] → R, die st¨uckweise stetig differenzierbar sind. Man zeige Folgendes: 1 [ a, b ] mit f ( x ) = f f¨ (a) F¨ur jede Funktion f ∈ C∆ j j ur j = 0, 1, . . . , N gilt:

(i) ||f  − s  ||22 = ||f  ||22 − ||s  ||22 . (ii) F¨ur eine beliebige (bzgl. ∆ ) lineare Splinefunktion ψ gilt ||f  − s  ||2 ≤ ||f  − ψ  ||2 . (b) Die interpolierende lineare Splinefunktion s l¨ost das Variationsproblem ||f  ||2 → min

1[ f¨ur f ∈ C∆ a, b ]

mit f ( xj ) = fj

f¨ur j = 0, 1, . . . , N.

Aufgabe 2.2 Gegeben seien eine Zerlegung (2.35) des Intervalls [ a, b ] und St¨utzwerte f0 , f1 , . . . , fN ∈ R. (a) Man weise nach, dass es f¨ur jede Zahl f0 ∈ R genau einen interpolierenden quadratischen Spline s gibt, der der Zusatzbedingung s  ( x0 ) = f0 gen¨ugt. Man gebe einen Algorithmus zur Berechnung von s an. (b) Gesucht ist nun der interpolierende quadratische Spline s mit periodischen Randbedingungen s  ( x0 ) = s  ( xN ). Man treffe Aussagen u¨ ber Existenz und Eindeutigkeit von s. Aufgabe 2.3 Man weise die Aussage im ersten Teil von Bemerkung 2.9 nach. Aufgabe 2.4 Auf dem Intervall [ –1, 1 ] seien die Knoten x0 = −1, x1 = 0 und x2 = 1 gegeben. Welche Eigenschaften eines nat¨urlichen kubischen Splines bez¨uglich der zugeh¨origen Zerlegung besitzt die folgende Funktion, und welche besitzt sie nicht?  f (x)

=

( x + 1 ) + ( x + 1 )3 4 + ( x − 1 ) + ( x − 1 )3

f¨ur −1 ≤ x ≤ 0, f¨ur 0 < x ≤ 1.

¨ Ubungsaufgaben

35

Aufgabe 2.5 Gegeben seien die St¨utzpunkte k

0

1

2

3

4

5

xk

-3

-2

-1

0

1

2

fk

9

4

1

0

1

4

Man stelle das zugeh¨orige lineare Gleichungssystem f¨ur die Momente der interpolierenden kubischen Splinefunktion mit nat¨urlichen Randbedingungen auf. Aufgabe 2.6 Gegeben seien eine a¨ quidistante Zerlegung ∆ = {0 = x0 < x1 < . . . < xN = 1} des Intervalls [ 0, 1 ], es gilt also xk = xk−1 + h f¨ur k = 1, 2, . . . , N , mit h = 1/N . Man betrachte auf diesem Intervall die Funktion f ( x ) = sin ( 2πx ) und die dazugeh¨orende interpolierende kubische Splinefunktion s ∈ S∆,3 mit nat¨urlichen Randbedingungen. Wie groß muss die Zahl N gew¨ahlt werden, damit auf dem gesamten Intervall die Differenz zwischen s und f betragsm¨aßig kleiner als 10−12 ausf¨allt? Aufgabe 2.7 Gegeben sei eine zweimal stetig differenzierbare Funktion f : [ a, b ] → R und eine Zerlegung (2.35) des gegebenen Intervalls. F¨ur den zugeh¨origen interpolierenden linearen Spline s ∈ S∆,1 weise man mit Hilfe der Taylorschen Formel die folgende Fehlerabsch¨atzung nach: |s  ( x ) − f  ( x ) |



1  ||f ||∞ hmax 2

f¨ur

x ∈ [ a, b ],

x ∈ {x0 , x1 , . . . , xN },

wobei hmax := maxj=0,...,N −1 {xj+1 − xj } den maximalen Knotenabstand bezeichnet. Aufgabe 2.8 (Numerische Aufgabe) Zur Interpolation beliebig verteilter Punkte ( x0 , f0 ), ( x1 , f1 ), . . . , ( xn , fn ) ∈ R 2 in der Ebene lassen sich kubische Splinekurven verwenden: Man bestimmt eine interpolierende kubische Splinefunktion s1 zu den Werten ( t0 , x0 ), ( t1 , x1 ), . . . , ( tn , xn ) ∈ R 2 und eine zweite

interpolierende kubische Splinefunktion s2 zu den Werten ( t0 , f0 ), ( t1 , f1 ), . . . , ( tn , fn ) ∈ R 2 . Hierbei w¨ahlt man " tj = tj−1 + ( xj − xj−1 )2 + ( fj − fj−1 )2 f¨ur j = 1, 2, . . . , N. t0 = 0, Die gew¨unschte interpolierende kubische Splinekurve ist dann (s1 ( t ), s2 ( t ) ) mit t ∈ [ 0, tN ]. Diesen Ansatz wende man auf die folgenden Punkte an: j

0

1

2

3

4

5

6

7

8

xj

1.5

0.9

0.6

0.35

0.2

0.1

0.5

1.0

1.5

fj

0.75

0.9

1.0

0.8

0.45

0.2

0.1

0.2

0.25

Dabei sollen die interpolierenden kubischen Splinefunktionen s1 und s2 nat¨urliche Randbedingungen erf¨ullen. Man erstelle einen Ausdruck des sich ergebenden Kurvenverlaufs.

36

3

Diskrete Fouriertransformation und Anwendungen

In diesem Abschnitt wird zun¨achst die diskrete Fouriertransformation einf¨uhrend behandelt und anschließend werden einige Anwendungen pr¨asentiert. Schließlich wird ein Verfahren zur “schnellen“ diskreten Fouriertransformation vorgestellt. Zu den vorzustellenden Anwendungen der diskreten Fouriertransformation geh¨ort auch die trigonometrische Interpolation, was den Grund daf¨ur darstellt, dass das vorliegende Thema hier behandelt wird.

3.1 Diskrete Fouriertransformation Definition 3.1 Zu einem gegebenem Datensatz von N komplexen Zahlen f0 , f1 , . . . , fN −1 ∈ C bezeichnet der Datensatz d0 , d1 , . . . , dN −1 komplexer Zahlen definiert durch dk =

N −1 1  fj e−ijk2π/N , N

k = 0, 1, . . . , N − 1

(i =



−1)

(3.1)

j=0

die diskrete Fouriertransformierte von f0 , f1 , . . . , fN −1 . Es wird auch die folgende Notation verwendet, F [f0 , . . . , fN −1 ] := [d0 , . . . , dN −1 ].

(3.2)

In Matrix Vektorschreibweise ergibt sich die diskrete Fouriertransformierte durch die Multiplikation ⎛ ⎞ ⎞ ⎛ d0 f0 1 ⎝ pp ⎠ ⎝ ppp ⎠ = , (3.3) V p N dN −1 fN −1 wobei die Matrix V ∈ CN×N konjugiert komplex ist zu der symmetrischen Matrix ⎞ ⎛ ppp 1 1 1 1 ⎟ ⎜ ⎟ ⎜ ⎜1 ω 2 N −1 ⎟ p p p ω ω ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ kj 4 p p p ω 2(N −1) ⎟ ∈ CN×N , ω := ei2π/N . V := (ω )k,j=0..N −1 = ⎜ 1 ω 2 ω ⎟ ⎜ ⎟ ⎜p (3.4) pp pp p pp ⎟ ⎜ pp p p p pp ⎟ ⎜ ⎠ ⎝ 2 1 ω N −1 ω 2(N −1) p p p ω (N −1) Im Folgenden bezeichnet AH ∈ CN×M die zu einer gegebenen Matrix A ∈ CM×N konjugiert  komplexe und transponierte Matrix, AH = A . Im Fall v = ( v1 , . . . , vN ) ∈ CN beispielsweise bedeutet dies v H = ( v 1 , . . . , vN ).

Abschnitt 3.2

37

Anwendungen der diskreten Fouriertransformation

Lemma 3.2 F¨ur die Spaltenvektoren der Matrix V in (3.4), v (k ) := (1, ω k , ω 2k , . . . , ω (N −1)k ) ∈ CN , 

gilt

f¨ur k = , f¨ur k =

,

N 0

(v ( k ) )H v () =

k = 0, 1, . . . , N − 1, k, = 0, 1, . . . , N − 1;

(3.5)

die Spaltenvektoren von V sind also paarweise orthogonal zueinander. B EWEIS . Im Fall k = erh¨alt man wegen |ω | = 1 (v ( k ) )H v (k )

=

N −1 

=

ω ks ω ks

s=0

N −1 

1

=

N,

s=0

und im Fall k = ergibt sich (v ( k ) )H v () =

N −1 

=

ω ksω s

s=0

N −1 

ω (−k )s

=

s=0

ω (−k )N − 1 = ω (−k ) − 1

=

ei(−k )2π − 1 ei(−k )2π/N − 1

N −1 

(ω (−k ) )s

s=0

=

0,

wobei der Nenner f¨ur k, ∈ {0, 1, . . . , N − 1} mit k = nicht verschwindet. Als unmittelbare Folgerung aus Lemma 3.2 erh¨alt man das folgende Korollar. Korollar 3.3 1. (Diskrete Fourierrucktransformation) ¨ F¨ur die Matrix V ∈ CN×N aus (3.4) gilt  1 −1 V = V. N Jeder Datensatz f0 , f1 , . . . , fN −1 komplexer Zahlen l¨asst sich also aus seiner diskreten Fouriertransformierten F [f0 , . . . , fN −1 ] = [d0 , . . . , dN −1 ] mittels fj =

N −1 

dk eijk2π/N ,

j = 0, 1, . . . , N − 1,

(3.6)

k=0

zur¨uckgewinnen. Es wird auch die folgende Notation verwendet, F −1[d0 , . . . , dN −1 ] = [f0 , . . . , fN −1 ]. N −1  −1 1 2 2 2. Mit der Notation aus (3.1) gilt N k=0 |dk | = N j=0 |fj | .

3.2 Anwendungen der diskreten Fouriertransformation 3.2.1 Fourierreihen Jede Riemann integrierbare Funktion f : [ 0, L ] → R mit f ( 0 ) = f ( L ) l¨asst sich in eine Fourierreihe entwickeln, f (x) =

a0 2

+

∞  k=1

 2πx   2πx 

+ bk sin k , ak cos k L

L

(3.7)

38

Kapitel 3

Diskrete Fouriertransformation und Anwendungen

mit den reellen Fourierkoeffizienten ak =

2 L

Z L 0

 2πy  dy, f ( y ) cos k

bk =

L

2 L

Z L 0

 2πy  dy, f ( y ) sin k L

(3.8)

f¨ur k = 0, 1, . . . . Dabei konvergiert die Reihe in (3.7) im quadratischen Mittel. Mit der Eulerschen Formel √  2πx   2πx  e±ik2πx/L = cos k ± isin k , i = −1 (k ∈ Z), L

L

erh¨alt man die komplexe Fourierentwicklung f (x) =

∞ 

ck eik2πx/L

(3.9)

k=−∞

mit den komplexen Fourierkoeffizienten ck =

1 L

Z L 0

f ( y )e−ik2πy/L dy,

k ∈ Z.

(3.10)

Zwischen den Koeffizienten in (3.8) und (3.10) besteht der folgende Zusammenhang (f¨ur k ∈ N0 ): ck =

ak − ibk , 2

ak = ck + c−k ,

c−k =

ak + ibk , 2

bk = i( ck − c−k ).

Im Folgenden wird erl¨autert, wie man aus den ersten Fourierkoeffizienten einer hinreichend glatten periodischen Funktion – unter Anwendung der diskreten Fourierr¨ucktransformation – an a¨ quidistanten Punkten N¨aherungen f¨ur die Funktionswerte gewinnen kann. Theorem 3.4 Es sei f ∈ C 2 [ 0, L ] und f ( 0 ) = f ( L ), und es bezeichne  L j = 0, 1, . . . , N − 1 h = N . xj := jh, Mit den komplexen Fourierkoeffizienten aus (3.10) gilt dann die folgende Fehlerdarstellung: ⎫ ⎪ F −1 [c0 , . . . , cN −1 ] = [f ( x0 ), . . . , f ( xN −1 ) ] + [δ0 , . . . , δN −1 ] ⎬ 1/2  N −1 (3.11) 2 3/2 ⎪ mit |δj | = O(h ).⎭ j=0

Ein einfacher Beweis wird auf Seite 128 aus dem Kapitel 6 u¨ ber numerische Integration vorgestellt. Beispiel 3.5 Die digitale Datenubertragung ¨ liefert ein Beispiel f¨ur die praktische Anwendbarkeit der Eigenschaft (3.11). Hier ist es etwas vereinfacht dargestellt so, dass zu einem analogen Signal f die Fourierkoeffizienten ck ermittelt werden, was mithilfe von Filtern (Hochpass-, Tiefpassfilter etc.) geschieht. Die so gewonnenen Fourierkoeffizienten ck werden anschließend an den gew¨unschten Zielort u¨ bermittelt, an dem aus diesen ck dann wieder das analoge Signal f

Abschnitt 3.2

Anwendungen der diskreten Fouriertransformation

39

zur¨uckgewonnen werden muss. Beziehung (3.11) zeigt, wie Letzteres n¨aherungsweise geschehen kann. In diesem Zusammenhang spielen die Begriffe Gl¨attung und Datenkompression eine Rolle. Zieht man n¨amlich zur Approximation einer Funktion f Partialsummen der rechten Seite von (3.9) heran, so werden dabei u¨ blicherweise hochfrequente Anteile von f vernachl¨assigt, was einer Gl¨attung der Funktion f gleichkommt. Dies l¨asst sich auch als Datenkompression interpretieren, da nur ein Teil der Fourierkoeffizienten bei der approximativen Rekonstruktion von f verwendet wird. 

3.2.2 Trigonometrische Interpolation, Teil 1 Zur Interpolation auf einem gegebenen Intervall [ 0, L ] mit L > 0 werden im Folgenden trigonometrische Polynome von der folgenden Form herangezogen, p( x ) =

N −1 

dk eik2πx/L ,

x ∈ R.

(3.12)

k=0

Theorem 3.6 Zu a¨ quidistanten St¨utzstellen xj = jL/N ∈ [ 0, L ] und beliebigen St¨utzwerten fj ∈ C f¨ur j = 0, 1, . . . , N − 1 mit N ∈ N besitzt das trigonometrische Polynom p aus (3.12) die Interpolationseigenschaft p( xj ) = fj ,

j = 0, 1, . . . , N − 1,

(3.13)

genau dann, wenn F [f0 , . . . , fN −1 ] = [d0 , . . . , dN −1 ] erf¨ullt ist. B EWEIS . Die Interpolationsbedingungen (3.13) ausgeschrieben bedeuten fj =

N −1 

dk eijk2π/N ,

j = 0, 1, . . . , N − 1,

k=0

was mit (3.6) u¨ bereinstimmt beziehungsweise F −1 [d0 , . . . , dN −1 ] = [f0 , . . . , fN −1 ] bedeutet. Daraus ergibt sich unmittelbar die Aussage. Das trigonometrische Polynom p aus (3.12) mit der Interpolationseigenschaft (3.13) besitzt allerdings aufgrund eines oszillierenden Verhaltens schlechte Approximationseigenschaften. Dies wird anhand des folgenden Beispiels verdeutlicht. In Abschnitt 3.2.3 wird allgemein beschrieben, warum dieses Verhalten nicht u¨ berraschend ist. Beispiel 3.7 Man betrachte die Funktion f : [ 0, 1 ] → R definiert durch  f (x) =

x,

0 ≤ x ≤ 1/2,

1 − x,

1/2 ≤ x ≤ 1.

(3.14)

F¨ur zwei verschiedene Werte von N sind in Bild 3.1 die zugeh¨origen trigonometrischen Inter polationspolynome dargestellt.

40

Kapitel 3

Diskrete Fouriertransformation und Anwendungen

Bild 3.1 Darstellung der Funktionen f, Re p und Im p; links f¨ur N = 4, rechts f¨ur N = 16

3.2.3 Trigonometrische Interpolation, Teil 2 Zur Gewinnung interpolierender trigonometrischer Funktionen mit gleichzeitig guten Approximationseigenschaften werden im Folgenden trigonometrische Funktionen von der Form r( x ) =

N/2−1



dk eik2πx/L

(3.15)

k=−N/2

verwendet f¨ur gerade Zahlen N ∈ N. Eine Umindizierung f¨uhrt auf =: p( x )   r( x )

=

N −1 

dk−N/2 ei(k−N/2)2πx/L

=

k=0

N −1 

dk−N/2 eik2πx/L e−iN πx/L ,

(3.16)

k=0

mit einem trigonometrischen Polynom p von der Form (3.12). Wegen e−iN πxj /L = e−ijπ = ( –1 )j erh¨alt man zusammen mit Theorem 3.6 unmittelbar das folgende Resultat. Theorem 3.8 Zu a¨ quidistanten St¨utzstellen xj = jL/N ∈ [ 0, L ] und St¨utzwerten fj ∈ C f¨ur j = 0, 1, . . . , N − 1 mit N ∈ N gilt f¨ur die Funktion r aus (3.15) die Interpolationseigenschaft r ( xj ) = fj ,

j = 0, 1, . . . , N − 1,

(3.17)

genau dann, wenn F [ ( –1 )0 f0 , ( –1 )1 f1 , . . . , ( –1 )N −1 fN −1 ]

=

[d−N/2 , . . . , dN/2−1 ]

(3.18)

erf¨ullt ist. Ergeben sich die St¨utzwerte fj aus den Werten einer hinreichend glatten periodischen Funktion an den St¨utzstellen xj , so besitzt die trigonometrische Funktion r aus (3.15) mit der Interpolationseigenschaft (3.17) auf dem gesamten Intervall [ 0, L ] gute Approximationseigenschaften, die in Theorem 3.10 unten pr¨azisiert sind. Zun¨achst werden die Approximationseigenschaften anhand des folgenden Beispiels dargestellt.

Abschnitt 3.2 6

1/2

6

........ ............ ............. ...... ... ...... .......... ..... ... .... .... ... ... .... .... .... .... .... .... ... ....... . .... ... . .... ... ... ...... . . .... .... . .. .... ... ......... . .... ... ....... . ....... . ....... ......... . . ..... ..... .... . . . ....... ...... . . ....... . . ....... ....... . . . . .. ... .... ......... ... ... . . ... .... ... .... . . ... .... . . . ... .... .... ..... . . .... ... ... ..... . .... ..... . . . ..... .... .... ........ . . ...... ... ....... .... ............... . . . ........... ..........

1/2

f (x)

0

1/2

1

r( x )

. ............ ......... ............. .... ...... .... .... ..... .... ..... ...... . . . ..... ..... . . ..... . . . ..... .... . ... . . ..... .... . . .... . ..... ..... . . . ..... .... . ..... . . . . ..... .... . . .... . ..... .... . . . .... .... .... . . . . ..... .... . ..... . . . .. ...... ...... ...... . . .... .... . . . .... .... . ....... . . . .......... ....... . . . . ..... . ...

f (x)

r( x )

0

41

Anwendungen der diskreten Fouriertransformation

-

0

0

1/2

-

1

Bild 3.2 Darstellung der Funktionen f und r; links f¨ur N = 4, rechts f¨ur N = 16 Beispiel 3.9 F¨ur die Funktion f : [ 0, 1 ] → R aus (3.14) sind in Bild 3.2 f¨ur zwei Werte von N jeweils die interpolierenden trigonometrischen Funktionen r aus (3.15), (3.17) dargestellt.  Im Folgenden werden die Approximationseigenschaften der interpolierenden trigonometrischen Funktion r beschrieben. Theorem 3.10 Die Funktion f : R → C sei m mal stetig differenzierbar und periodisch der 'L L¨ange L, und es bezeichne ||g ||2 = ( 0 |g ( x ) |2 dx)1/2 . Dann gilt f¨ur die trigonometrische Funktion r aus (3.15) mit der Interpolationseigenschaft (3.17) (mit fj = f ( xj ) ) die Fehlerabsch¨atzung ||r − f ||2



cm (||f ||2 + ||f (m) ||2 )N −m

mit einer gewissen Konstanten cm > 0. B EWEIS . F¨ur einen elementaren Beweis unter expliziter Angabe der Konstanten cm siehe Saranen/Vainikko [87]. Bemerkung 3.11 Es soll hier nochmals das interpolierende trigonometrische Polynom aus Abschnitt 3.2.2 betrachtet werden. Interpoliert ein solches trigonometrisches Polynom p von der Form (3.12) auf dem Intervall [ 0, L ] an den a¨ quidistanten St¨utzstellen xj = jL/N, j = 0, 1, . . . , N −1, eine gegebene m mal stetig differenzierbare und L periodische Funktion f : R → C, so ist die Funktion r ( x ) := p( x ) e−iN πx/L von der Form (3.15) und interpoliert an den genannten St¨utzstellen die Funktion f ( x ) e−iN πx/L . Die letztgenannte Funktion oszilliert jedoch typischerweise stark. Genauer gilt   m   dm m   −iN π s (m−s) −iN πx/L −iN πx/L (x) , ) = e f m (f ( x ) e s dx L s=0

wobei auf der rechten Seite dieser Gleichung der Term N m dominiert und Theorem 3.10 hier somit lediglich ||p − f ||2

=

||r − f e−iN πx/L ||2 = O(1 1)

erwarten l¨asst. Dies wird durch Beispiel 3.7 best¨atigt. Mit dem n¨achsten Beispiel wird der Effekt der Datengl¨attung demonstriert.



42

Kapitel 3

Diskrete Fouriertransformation und Anwendungen

Beispiel 3.12 F¨ur die Funktion f : [ 0, 1 ] → R aus (3.14) ist in Bild 3.3 der mittels der interpolierenden trigonometrischen Funktion (3.15) (3.17) gewonnene Effekt der Datengl¨attung1 veranschaulicht.  6

1/2

0

6

f (x)..................................

. .. ...... ....... .... .... ...... ...... . . ...... ..... .... ....... ....... . ....... ....... ...... . ... ..... ........ ... .... ....... ....... ......

0

... . ...... ....... ....... ...... . ... ...... ...... ... .. .... ....... ...... . .. ....... ....... .... .. .. ...... ... ....... ...... ...... . ... ...... .....

1/2

1/2

-

1

0

Re....r..... ( x )

. ... ..... ... ... ... ... .... ... ........ .... . . . . . . . ...... . .... ..... . . ... ... . ... . ... ... . . .... ....... .... . . . . . . ...... ...... ... . . . ... ... ... . . ... ... . ... . ..... ... . . . . ....... ... ...... ....... . . ... ... ... . . ... ... . ... . ... ... . . .... .... ............ ................. ................. ................. ................. ................. ................. ................. ...................... ........... ........... ........... ........... ........... ........... .......... ..........

Im r ( x )

0

1/2

-

1

Bild 3.3 Links die Funktion f aus (3.14) mit kleinen aber hochfrequenten St¨orungen, und rechts die interpolierende trigonometrische Funktion r f¨ur N = 16

Interpolierende reelle trigonometrische Polynome Zur Interpolation der St¨utzpunkte ( xj , fj ) mit a¨ quidistanten St¨utzstellen xj = jL/N ∈ [ 0, L ] und reellen Zahlen fj ∈ R f¨ur j = 0, 1, . . . , N −1, werden im Folgenden reelle trigonometrische Polynome der Form T ( x ) = A0 + 2

N/2−1



k=1

Ak cos

 k2πx  L

+ Bk sin

 k2πx   L

+ AN/2 cos

 N πx  L

(3.19)

herangezogen mit geraden Zahlen N. Hierzu werden die folgenden Koeffizienten betrachtet: Ak =

N −1  jk2π  1  ∈ R, fj cos N N

Bk =

j=0

N −1  jk2π  1  ∈ R, fj sin N N j=0

(3.20)

k = 0, 1, . . . , N/2.

Offensichtlich ist das trigonometrische Polynom T in (3.19) mit Koeffizienten Ak , Bk wie in (3.20) reellwertig. Das folgende triviale Lemma wird beim Beweis des nachfolgenden Theorems 3.14 ben¨otigt und gibt dar¨uber hinaus an, wie man die Zahlen in (3.20) mithilfe der diskreten Fouriertransformierten aus (3.18) erh¨alt. Lemma 3.13 Zwischen den Zahlen Ak , Bk , k = 0, 1, . . . , N − 1, in (3.20) einerseits und der diskreten Fouriertransformierten aus (3.18) andererseits bestehen die Zusammenh¨ange d0 = A0 , dk = Ak − iBk ,

1

siehe Beispiel 3.5

d−N/2 = AN/2 , d−k = Ak + iBk ,

k = 1, 2, . . . , N/2 − 1. (3.21)

Abschnitt 3.3

43

Schnelle Fourier-Transformation (FFT )

B EWEIS . Entsprechend (3.18) gilt N −1 1 

dk−N/2 = N

( –1 )j fj e−ijk2π/N ,

k = 0, 1, . . . , N − 1,

j=0

beziehungsweise dk

=

N −1 1  ( –1 )j fj e−ijk2π/N e−ijπ N   j=0

=

= (−1)j

N −1  jk2πx 

 jk2πx  1  f − i sin , j cos N N N j=0

k = −N/2, . . . , N/2 − 1,

woraus die angegebenen Identit¨aten unmittelbar folgen. Das folgende Theorem beschreibt die Interpolationseigenschaften des trigonometrischen Polynoms T aus (3.19) (3.20). Theorem 3.14 F¨ur die trigonometrische Funktion r aus (3.15) (3.17) und das trigonometrische Polynom T aus (3.19) (3.20) gilt Re r ( x ) = T ( x ) sowie T ( xj ) = fj f¨ur j = 0, 1, . . . , N − 1. B EWEIS . Mit der trigonometrischen Funktion r aus (3.15) gilt r( x )

=

d0 +

N/2−1



dk eik2πx/L + d−k e−ik2πx/L



+ d−N/2 e−iN πx/L

k=1 (∗)

=

A0 +

N/2−1



(Ak − iBk )eik2πx/L + (Ak + iBk )e−ik2πx/L



+ AN/2 e−iN πx/L

k=1

=

A0 + 2

N/2−1



k=1

Ak cos

 k2πx  L

+ Bk sin

 k2πx 

L

+ AN/2 e−iN πx/L ,

wobei in (∗) noch Lemma 3.13 herangezogen wurde. Aus dieser Darstellung f¨ur r ergeben sich unmittelbar die beiden Aussagen des Theorems.

3.3 Schnelle Fourier-Transformation (FFT) 3.3.1 Einfuhrende ¨ Bemerkungen In diesem Abschnitt wird ein Verfahren zur “schnellen Fouriertransformation“ (Fast Fourier Transform, kurz FFT) vorgestellt. Dieses Verfahren nutzt die spezielle Form der Transformation (3.1) aus und ben¨otigt dabei lediglich O(N log 2 ( N ) ) komplexe Multiplikationen, wobei log 2 den Logarithmus zur Basis 2 bezeichnet. Man beachte, dass die Berechnung der diskreten Fouriertransformierten (3.1) mittels einer Matrix Vektor Multiplikation entsprechend (3.3) insgesamt N 2 komplexe Multiplikationen erfordert.

3.3.2 Der grundlegende Zusammenhang Von grundlegender Bedeutung f¨ur den FFT Algorithmus ist das folgende Resultat.

44

Kapitel 3

Diskrete Fouriertransformation und Anwendungen

Theorem 3.15 Aus den diskreten Fouriertransformierten der beiden (komplexen) Datens¨atze g0 , g1 , . . . , gM −1 und gM , gM +1, . . . , g2M −1 der L¨angen M l¨asst sich die diskrete Fouriertransformierte des Datensatzes g0 , gM , g1, gM +1 , . . . , gM −1 , g2M −1 der L¨ange 2M folgendermaßen bestimmen:   1 −ikπ/M F F k [g0 , g1 , . . . , gM −1 ] + e k [gM , gM +1 , . . . , g2M −1 ] 2 

=

Fk [g0 , gM , g1, gM +1 , p p , gM −1 , g2M −1 ]

f¨ur k = 0, 1, . . . , M − 1, 

1 Fk [g0 , g1 , . . . , gM −1 ] + e−ikπ/M Fk [gM , gM +1, . . . , g2M −1 ] 2

=

FM +k [g0 , gM , g1 , gM +1 , . . . , gM −1 , g2M −1 ]

f¨ur k = 0, 1, . . . , M − 1,

Hierbei bezeichnen Fk beziehungsweise FM +k die k te beziehungsweise ( M + k ) te Komponente von F . B EWEIS . F¨ur k = 0, 1, . . . , M − 1 gilt Fk [g0 , gM , g1, gM +1 , . . . , gM −1, g2M −1 ]  M  −1 M −1  1 = gj e−i2jk2π/2M + gM +j e−i( 2j+1)k2π/2M 2M

=

1 2M

j=0

 M −1

j=0

gj e−ijk2π/M + e−ikπ/M

j=0

M −1 

 gM +j e−ijk2π/M ,

j=0

Die zweite Gleichung in Theorem 3.15 erh¨alt man v¨ollig analog, wobei noch e−ij (k+M )2π/2M

=

e−ijk2π/2M e−ijπ

=

( –1 )j e−ijk2π/2M

ber¨ucksichtigt wird. F¨ur den Fall N = 2q mit N ∈ N kann die in Theorem 3.15 vorgestellte Eigenschaft genutzt werden, um die diskrete Fouriertransformierte eines komplexen Datensatzes f0 , . . . , fN −1 zu bestimmen. Dies soll zun¨achst anhand des nachfolgenden Beispiels erl¨autert werden. Beispiel 3.16 In Schema 3.1 ist f¨ur den Spezialfall N = 23 dargestellt, wie man f¨ur r = 0, 1, 2 ausgehend von der Stufe r mit den diskreten Fouriertransformierten von Datens¨atzen der L¨ange 2r zu den diskreten Fouriertransformierten von Datens¨atzen der L¨ange 2r+1 in der Stufe r + 1 gelangt. Im Folgenden wird beschrieben, wie man in der Stufe 0 die angegebene Zuordnung f0 , f4 , f2 , f6 , f1 , f5 , f3 , f7 auf die Positionen 0 7 erh¨alt; f¨ur jede einzelne Positionsnummer n ∈ {0, 1, . . . , 7} wird die jeweilige Bin¨ardarstellung n = b2 22 + b1 21 + b0 20 ermittelt und in dieser anschließend die Reihenfolge der Bin¨arziffern umgedreht. Die zugeh¨orige Dezimalzahl b0 22 + b1 21 + b2 20 liefert dann den gesuchten Index von f . Dieses Vorgehen der Bit Umkehr ist in Tabelle 3.1 dargestellt. Die Begr¨undung daf¨ur, warum dieses Vorgehen die richtige Zuordnung liefert, wird in Abschnitt 3.3.4 nachgereicht.  F¨ur die Berechnung von F [f0 , f1 , . . . , fN −1 ] l¨asst sich das Ergebnis aus Theorem 3.15 sowohl rekursiv (ohne Bit Umkehr) als auch iterativ umsetzen. Im Folgenden soll der iterative Weg verfolgt werden, bei dem weniger Speicherplatz erforderlich ist. Die allgemeine Vorgehensweise hierzu ist in Definition 3.21 weiter unten beschrieben. Vorbereitend wird die Bit Umkehr eingehender behandelt.

Abschnitt 3.3

Stufe 0

f0

f4

f2

f6

f1

f5

f3

f7

















F[f0 ]

F[f4 ]

F[f2 ]

F[f6 ]

F[f1 ]

F[f3 ]

F[f7 ]

Stufe 1





F[f0 , f4 ]



F[f5 ]



F[f2 , f6 ]

Stufe 2

45

Schnelle Fourier-Transformation (FFT )





F[f1 , f5 ]



F[f3 , f7 ]

F[f0 , f2 , f4 , f6 ]





F[f1 , f3 , f5 , f7 ]





F[f0 , f1 , f2 , f3 , f4 , f5 , f6 , f7 ]

Stufe 3

Schema 3.1 Darstellung der schnellen Fouriertransformation im Fall N = 23 Position Dezimal  Bin¨ar 0 000 1 001 2 010 3 011 4 100 5 101 6 110 7 111

Index von f Bin¨ar revers  Dezimal 000 0 100 4 010 2 110 6 001 1 101 5 011 3 111 7

Tabelle 3.1 Darstellung der Bit– Umkehr im Fall N = 23 . Die Positionsangaben und Indizes betreffen von links aus gesehen die erste Zeile in Schema 3.1.

3.3.3 Bit– Umkehr Im Folgenden wird die Bit Umkehr in der allgemeinen Situation N = 2q betrachtet. q−1  Definition 3.17 F¨ur q ∈ N0 sei n = ardarstellung einer Zahl =0 b 2 die eindeutige Bin¨ n ∈ Mq = {0, 1, . . . , 2q − 1} mit Bin¨arziffern (Bits) b ∈ { 0, 1}. Die durch σq : Mq → Mq ,

q−1 

b 2 →

=0

q−1 

bq−1− 2

=0

definierte Abbildung bezeichnet man als Bit Umkehr. Die Situation q = 0 in Definition 3.17 wird dabei lediglich aus technischen Gr¨unden zugelassen und bedeutet M0 = {0} und σ0 ( 0 ) = 0.

46

Kapitel 3

Bemerkung 3.18 Es gilt offensichtlich  q−1   σq b 2

Diskrete Fouriertransformation und Anwendungen

q−1 

=

=0

b 2q−1− .



=0

Das folgende Theorem liefert eine Vorgehensweise, mit der sich die Bit Umkehr effizient realisieren l¨asst. Die Werte σq ( 0 ), σq ( 1 ), . . . , σq ( 2q − 1 ) k¨onnen damit mittels zwei geschachtelter for Schleifen und ohne Durchf¨uhrung von Multiplikationen berechnet werden. Theorem 3.19 F¨ur die Bit Umkehr σq : Mq → Mq gilt σq ( 2r + n ) = σq ( n ) + 2q−1−r ,

n = 0, 1, . . . , 2r − 1, r = 0, 1, . . . , q − 1.

B EWEIS . Sei r ∈ {0, 1, . . . , q − 1}. F¨ur n ∈ {0, 1, . . . , 2r − 1} existiert eine eindeutige Bin¨ardarstellung von der Form r−1 

n = und dann gilt n + 2r =

b 2 ,

=0

r−1

 r =0 b 2 + 2 beziehungsweise

σq ( n + 2r )

=

r−1  =0



b 2q−1− + 2q−1−r .



= σq ( n )



F¨ur das Verst¨andnis der Funktionsweise der Bit Umkehr in der allgemeinen Situation N = 2q ist noch das folgende Resultat von Bedeutung. Lemma 3.20 Die Bit Umkehr σq : Mq → Mq ist bijektiv mit σq−1 = σq . Weiter gilt f¨ur r = 0, 1, . . .: σr ( n ) = σr+1 ( 2n ), 2 + σr ( n ) = σr+1 ( 2n + 1 ), r

n ∈ Mr , ......

.

B EWEIS . Ist elementar und wird hier nicht gef¨uhrt (Aufgabe 3.7).

3.3.4 Der FFT– Algorithmus in der Situation N = 2q Ausgehend von beliebigen gegebenen komplexen Zahlen g0 , g1 , . . . , gN −1 ∈ C mit N = 2q

mit q ∈ N

Abschnitt 3.3

47

Schnelle Fourier-Transformation (FFT )

f¨uhrt der in Theorem 3.15 beschriebene Zusammenhang auf die in dem folgenden Algorithmus 3.21 beschriebenen Vorgehensweise. Wie sich herausstellen wird (siehe Korollar 3.25), stimmt der sich dabei ermittelte Vektor d[q,0] ∈ CN mit der diskreten Fouriertransformierten F [gσq (0) , . . . , gσq (2q −1) ] u¨ berein. Damit wird dann auch unmittelbar klar, wie man die Zahlen g0 , g1 , . . . , gN −1 ∈ C letztlich zu w¨ahlen hat, so dass der Vektor d[q,0] ∈ CN tats¨achlich mit der zu bestimmenden diskreten Fouriertransformierten F [f0 , . . . , fN −1 ] eines gegebenen Datensatzes von N komplexen Zahlen f0 , . . . , fN −1 u¨ bereinstimmt. Algorithmus 3.21 (FFT) Ausgehend von Zahlen d[0,j] = gj ∈ C, j = 0, . . . , 2q − 1 bestimme man f¨ur Stufen r = 1, 2, . . . , q in der r ten Stufe insgesamt 2q−r Vektoren der L¨ange 2r q−r −1]

d[r,0] , d[r,1] , . . . , d[r,2

r

∈ C2

aus den Datens¨atzen der jeweils vorhergehenden Stufe r − 1 gem¨aß der folgenden Vorschrift:   1 [r+1,j] [r,2j] [r,2j+1] dk := 2 dk + θ( r )k dk ,   1 [r+1,j] ...... ...... , k = 0, . . . , 2r − 1, − d2r +k := 2

j = 0, . . . , 2q−r−1 − 1, r = 0, . . . , q − 1, r

mit den Zahlen θ( r ) := e−iπ/2 , r = 0, 1, . . . , q − 1.



Bemerkung 3.22 In Schema 3.2 ist die Vorgehensweise beim FFT Algorithmus schematisch  dargestellt.

Mit dem nachfolgenden Theorem werden die Eintr¨age der im Zuge des FFT Algorithmus auftretenden Vektoren angegeben. Theorem 3.23 Es gilt d[r,j] = F [gj 2r + σr (0) , gj 2r

+ σr (1) ,

. . . , gj 2r

+ σr (2r −1) ],

j = 0, 1, . . . , 2q−r − 1, (3.22) r = 0, 1, . . . , q.

B EWEIS . Es wird vollst¨andige Induktion u¨ ber r angewandt. Die Aussage (3.22) ist sicher richtig f¨ur r = 0, und im Folgenden sei (3.22) richtig f¨ur ein 0 ≤ r ≤ q − 1. Dann berechnet man unter Ber¨ucksichtigung von 2j 2r = j 2r+1 Folgendes, [r+1,j]

dk

mit



=

1 Fk [g2j 2r 2

=

Fk [gs0 , . . . , gs2r+1−1 ]

, p p , g2j 2r + σr (0)

+ σr (2r −1)

] + θ( r )k Fk [g(2j+1) 2r

, p p , g(2j+1) 2r + σr (2r −1) ] + σr (0)



48

Kapitel 3

g0

g1

g2

g3

... ...

||

||

||

||

[0,0]

[0,1]

[0,2]

[0,3]

Stufe 0 d

d

d



d

||

||

d

d



[0,2q −1]

d



[1,2q−1 −1]

d

d



d

||

d





g2q −1

|| [0,2q −2]

[1,2q−1 −2]

...

[2,0]

 [2,2q−2 −1]

...

d

ppp

g2q −2

[0,2q −3]



d

g2q −3

[0,2q −4]

...

[1,1]

d

Stufe 2

g2q −4



[1,0]

Stufe 1

Diskrete Fouriertransformation und Anwendungen

 ..

pp

.

 [q−1,0]

Stufe q − 1

p

d

[q−1,1]

d

 d[q,0]

Stufe q

Schema 3.2 Schema zur Vorgehensweise beim FFT– Algorithmus σr+1 (2k)

s2k := j 2 s2k+1 :=

r+1

......

  + σr ( k ) , + 2r + σr ( k ),

 

k = 0, 1, . . . , 2r − 1,

σr+1 (2k+1) [r+1,j]

unter Ber¨ucksichtigung von Lemma 3.20. Die angegebene Darstellung f¨ur d2r +k ergibt sich durch die gleiche Rechnung, mit θ( r )k ersetzt durch −θ( r )k . Dies komplettiert den Beweis des Theorems. Bemerkung 3.24 Wenn man f¨ur eine fixierte Zahl r alle in (3.22) auftretenden Argumente gj 2r + σr (k ) (f¨ur k = 0, . . . , 2r − 1, j = 0, . . . , 2q−r − 1) aufreiht mit j als a¨ ußerem Laufindex, so findet sich an der Position j 2r + k die Zahl gj 2r + σr ( k ) , deren Index man aus j 2r + k ∈ Mq durch Bit Umkehr der ersten (zu den kleinsten Potenzen der Basis 2 geh¨orenden) r Bits erh¨alt.  F¨ur N = 8 ist die Situation in Tabelle 3.2 dargestellt. Unter Beachtung von σq ◦ σq = id erh¨alt man als wesentliche Schlussfolgerung aus Theorem 3.23 das folgende Resultat: Korollar 3.25 Der FFT Algorithmus liefert d[q,0] = F [gσq (0) , . . . , gσq (2q −1) ]. Die Setzung gk = fσq (k ) , k = 0, 1, . . . , 2q − 1, f¨uhrt somit auf d[q,0] = F [f0 , . . . , f2q −1 ]. Die Bit Umkehr liefert also tats¨achlich die anf¨anglich richtige Zuordnung der Zahlen f0 , f1 , . . . , fN −1 ∈ C auf die Positionen 0 bis N − 1.

Abschnitt 3.3

49

Schnelle Fourier-Transformation (FFT )

Stufe r

Position der Argumente 0

1 pp p

0

g000

1

g000

g001

2

g000

3

g000

g001

2 pp p pp p

3

g010

pp p

4

g011

g010

g011

g010

g001

g011

g100

g010

g110

pp p pp p pp p

g100

5 pp p

g101

g100

g101

g100 g001

6 pp p pp p

g110

7 pp p

g111

g110

g111

g110

g101

g111

g101

g011

g111

Tabelle 3.2 Stufenweise Auflistung der Argumente aus (3.22) gem¨aß der in Bemerkung 3.24 angegebenen Reihenfolge am Beispiel N = 23 . Die Indizes der Zahlen sind in Bin¨ardarstellung angegeben.

3.3.5 Aufwandsbetrachtungen fur ¨ den FFT– Algorithmus Theorem 3.26 Bei der schnellen Fouriertransformation zur Bestimmung der diskreten Fouriertransformierten eines Datensatzes der L¨ange N = 2q fallen nicht mehr als N log 2 ( N )/2 + O(N ) komplexe Multiplikationen an. ¨ B EWEIS . F¨ur r ∈ {0, 1, . . . , q − 1} fallen beim Ubergang von der r ten zur ( r + 1 ) ten Stufe des FFT Algorithmus die folgenden komplexen Multiplikationen an: •



r −1

ausgehend von θ( r ) erfordert die Berechnung der Zahlen θ( r )2 , θ( r )3 , . . . , θ( r )2 gesamt 2r − 2 (≤ 2r ) komplexe Multiplikationen;

∈ C ins-

r+1

zur Bestimmung des Vektors d[r+1,j] ∈ C2 aus den beiden Vektoren d[r,2j] , d[r,2j+1] ∈ r C2 sind 2r komplexe Multiplikationen erforderlich, und dies jeweils f¨ur die Indizes j = 0, . . . , 2q−r−1 − 1. Dies summiert sich zu 2r × 2q−r−1 = 2q−1 komplexen Multiplikationen auf.

¨ Beim Ubergang von der r ten zur ( r + 1 ) ten Stufe des FFT Algorithmus fallen demnach weniger als 2q−1 +2r komplexe Multiplikationen an. Ber¨ucksichtigt man noch die zu Beginn des FFT Algorithmus notwendigen q − 2 (≤ q ) komplexen Multiplikationen θ( r ) = θ( r + 1 )2 , r = q − 2, q − 3, . . . , 1, so erh¨alt man abschließend f¨ur den gesamten FFT Algorithmus die folgende obere Schranke f¨ur die erforderliche Zahl komplexer Multiplikationen: q−1 

(2q−1 + 2r ) + q

r=0



q2q−1 + 2q + q

=

N log 2 ( N ) + O(N ). 2

3.3.6 Pseudocode fur ¨ den FFT– Algorithmus in der Situation N = 2q Abschließend wird der FFT Algorithmus in Form eines Pseudocodes angegeben. Algorithmus 3.27 Sei N = 2q .

50

Kapitel 3

f ( k ) = fk , d( k ) = dk ,

Eingabe Ausgabe

for k = 0 : (N − 1)

k = 0, . . . , N − 1

M=

θ=

d( k ) = f (σq ( k ) )/N

end

(** ¨ Ubergang Stufe r → Stufe r + 1 **)

e−iπ/M ;

(** M  Datensatzl¨ ange(r) **)

for k = 0 : ( M − 1 ) for j = 0 :

(** reeller oder komplexer Datensatz **) (** diskrete Fouriertransformierte **)

......

for r = 0 : (q − 1) 2r ;

Diskrete Fouriertransformation und Anwendungen

(** k  Position in den Datens¨ atzen **)

2q−r−1

−1

(** 2q−r−1  (Anzahl Datens¨ atze)(r + 1) **)

x = θ k d(2jM + M + k ); d(2jM + M + k ) = d(2jM + k ) − x; d(2jM + k )

= d(2jM + k ) + x;

end end end



Weitere Themen und Literaturhinweise Die diskrete Fouriertransformation geht zur¨uck auf Cooley/Tukey [11] und wird beispielsweise in Bollh¨ofer/Mehrmann [5], Deuflhard/Hohmann [21], Hanke-Bourgeois [49], Oevel [75] und in Schwarz/Kl¨ockner [90] einf¨uhrend behandelt. In [49], [75] sowie in Plato [79] werden auch die in der Bildverarbeitung bedeutungsvolle zweidimensionale diskrete Fourier- beziehungsweise Cosinustransformation und deren Modifikationen f¨ur die Datenkompression beziehungsweise die Digitalisierung beschrieben. Diskrete Fouriertransformationen f¨ur die trigonometrische Interpolation auf nicht¨aquidistanten Gittern werden in Potts / Steidl /Tasche [81] behandelt.

¨ Ubungsaufgaben Aufgabe 3.1 F¨ur gerades N seien ( N + 1 ) St¨utzstellen x0 < x1 < . . . < xN und St¨utzwerte f0 , f1 , . . . , fN ∈ C gegeben, mit xN − x0 < 2π. Man zeige Folgendes: (a) Es gibt genau ein trigonometrisches Polynom der Form T (x) =

N/2  A0 + (Ak cos kx + Bk sin kx), 2

(3.23)

k=1

mit komplexen Koeffizienten Ak und Bk , das die Interpolationsbedingungen T ( xj ) = fj f¨ur j = 0, 1, . . . , N erf¨ullt. (b) Sind die St¨utzwerte f0 , f1 , . . . , fN alle reell, so sind es auch alle Koeffizienten Ak , Bk des zugeh¨origen interpolierenden trigonometrischen Polynoms der Form (3.23).

¨ Ubungsaufgaben

51

Aufgabe 3.2 Sei N gerade. Man zeige: (a) F¨ur reelle Zahlen x1 , x2 , . . . , xN ist die Funktion N 

t( x ) =

x − xs 2

sin

s=1

ein trigonometrisches Polynom von der Form (3.23) mit reellen Koeffizienten Ak , Bk . (b) Man zeige mithilfe von Teil (a) der vorliegenden Aufgabe, dass das interpolierende trigonometrische Polynom zu den St¨utzstellen in Aufgabe 3.1 und zu den St¨utzwerten f0 , f1 , . . . , fN identisch ist mit N 

T (x) =

k=0

fk t ( x ), tk ( xk ) k

mit

tk ( x ) :=

N  s=0 s=k

sin

x − xs . 2

Hinweis zu (a): F¨ur U n := span { 1, sin x, cos x, . . . , sin n x, cos n x } weise man Folgendes nach: •

f¨ur beliebige Zahlen b, c ∈ R gilt w( x ) := sin



g1 ∈ U m , g2 ∈ U n

=⇒

x−c x−b sin ∈ U 1; 2 2

g1 g2 ∈ U m+n .

Aufgabe 3.3 Es bezeichne nun D2 : CN → CN die folgende lineare Abbildung: D2 c := (−cj−1 + 2cj + cj+1 )j=0,..,N −1,

mit

c = ( c0 , c1 , . . . , cN −1 ), c−1 := cN −1 ,

cN := c0 ,

und außerdem sei M = diag (λ0 , λ1 , . . . , λN −1 ) ∈ CN×N

mit λk := 4sin2 ( kπ/N ) ∈ R f¨ur k = 0, 1, . . . , N − 1.

Man zeige Folgendes: D2 = F −1 M F, ( D2 − λI )−1

= F −1 ( M − λI )−1 F

(λ ∈ C,

λ = λk f¨ur k = 0, 1, . . . , N − 1).

Hierbei bezeichnet F : CN → CN die diskrete Fouriertransformation. Aufgabe 3.4 (a) Zu einem gegebenen Datensatz f0 , f1 , . . . , fN −1 komplexer Zahlen sei der Datensatz d˜0 , d˜1 , . . . , d˜N −1 komplexer Zahlen definiert durch N −1 γ  d˜k = k fj e−i(2j+1)kπ/N

N

f¨ur k = 0, 1, . . . , N − 1

(3.24)

j=0

mit gegebenen Koeffizienten γk = 0 f¨ur k = 0, 1, . . . , N − 1. Man zeige fj =

N −1  k=0

d˜k i(2j+1)kπ/N e γk

f¨ur j = 0, 1, . . . , N − 1.

(b) Zu einem gegebenen Datensatz f0 , f1 , . . . , fn−1 reeller Zahlen mit n ∈ N sei der transformierte Datensatz d0 , d1 , . . . , dn−1 reeller Zahlen definiert durch dk =

n−1  ( 2j + 1 )kπ  γk  fj cos n 2n j=0

f¨ur k = 0, 1, . . . , n − 1

(3.25)

52

Kapitel 3

Diskrete Fouriertransformation und Anwendungen

mit gegebenen Koeffizienten γk = 0 f¨ur k = 0, 1, . . . , n − 1. Man zeige: d

fj = γ0 + 2 0

n−1  k=1

 ( 2j + 1 )kπ  dk cos γk 2n

f¨ur j = 0, 1, . . . , n − 1.

(3.26)

Hinweis: Man verwende Teil (a) dieser Aufgabe mit den Setzungen N = 2n und fN −1−j = fj f¨ur j = 0, 1, . . . , n − 1 beziehungsweise γN −k = γk f¨ur k = 1, 2, . . . , n und zeige f¨ur diese Situation noch d˜N −k = −d˜k f¨ur k = 1, 2, . . . , n. Aufgabe 3.5 F¨ur n ∈ N sei f0 , f1 , . . . , fn−1 ein gegebener Datensatz reeller Zahlen. (a) Man zeige, dass mit den Koeffizienten dk aus (3.25) f¨ur das trigonometrische Polynom d

p( θ ) = γ0 + 2 0 Folgendes gilt: p

 2j + 1  π = fj 2n

n−1  k=1

dk cos kθ γk

(3.27)

f¨ur j = 0, 1, . . . , n − 1.

n) , fj ) f¨ur j = 0, 1, . . . , n − 1, (b) Es sei P ∈ Πn−1 das Interpolationspolynom zu den St¨utzpunkten ( t(j+1 (n) ( ) ( ) wobei tj+1 = cos ( 2j + 1 π / 2n ) die Nullstellen des Tschebyscheff Polynoms Tn der ersten Art vom Grad n bezeichnet. Man zeige, dass mit den Koeffizienten dk aus (3.25) Folgendes gilt:

d

P ( x ) = γ0 + 2 0

n−1  k=1

dk T ( x ). γk k

(3.28)

Aufgabe 3.6 (Numerische Aufgabe) (FFT ) Man berechne entsprechend der Vorgehensweise in Teil (b) der Aufgabe 3.5 das Interpolationspolynom P ∈ Πn−1 zu den beiden Funktionen f ( x ) = x1/3 ,

x ∈ [ 0, 64 ]

bzw.

f ( x ) = log ( x ),

x ∈ ( 0, 1 ]

f¨ur die Werte n = f¨ur m = 2, 4, . . . , 10 und mit den St¨utzstellen aus Teil (b) der Aufgabe 3.5, wobei hierf¨ur das Intervall [ –1, 1 ] affin linear auf [ 0, 64 ] beziehungsweise [ 0, 1 ] zu transformieren ist. 2m

Die Koeffizienten d0 , d1 , . . . , dn−1 (mit den Faktoren γk = 2 f¨ur k = 0, 1, . . . , n − 1) des Interpolationspolynoms P in der Darstellung (3.28) berechne man mit der schnellen Fouriertransformation. Man berechne außerdem den auftretenden Fehler an (den linear zu transformierenden) Stellen xj = −1+j /10  ( ) f¨ur j = 1, 2, . . . , 20. Zur Auswertung von P ( x ) = d0 /2 + n−1 k=1 dk Tk x verwende man die folgende Variante des Horner Schemas: bn := bn+1 := 0, P(x)

=

bk := 2x bk+1 − bk+2 + dk

( b0 − b2 )/2.

Man weise noch die Richtigkeit der Identit¨at (3.29) nach. Aufgabe 3.7 Man beweise Lemma 3.20.

f¨ur k = n − 1, n − 2, . . . , 0, (3.29)

53

4

L¨osung linearer Gleichungssysteme

In diesem Abschnitt werden Verfahren zur L¨osung linearer Gleichungssysteme Ax = b vorgestellt, wobei A = ( ajk ) ∈ R N×N eine gegebene Matrix und b = ( bj ) ∈ R N ein gegebener Vektor ist. Solche Gleichungssysteme treten in zahlreichen Anwendungen auf, wovon eine bereits aus Kapitel 2 u¨ ber Splinefunktionen bekannt ist.

4.1 Gestaffelte lineare Gleichungssysteme Typischerweise u¨ berf¨uhrt man lineare Gleichungssysteme Ax = b in eine gestaffelte Form, die dann einfach nach den Unbekannten aufzul¨osen ist. Solche gestaffelten linearen Gleichungssysteme werden zun¨achst kurz behandelt. Definition 4.1 Matrizen L, R ∈ R N×N der Form ⎞ ⎛ 11 0 ppp 0 ⎟ ⎜ ⎟ ⎜ pp ⎟ ⎜ pp p p ⎟ ⎜ 21 22 ⎟, L = ⎜ ⎟ ⎜ p pp ⎜ pp p 0 ⎟ ⎟ ⎜ ⎠ ⎝ p p p p p p N N N 1

⎛ r11

⎜ ⎜ ⎜ ⎜0 R = ⎜ ⎜ p ⎜ pp ⎜ ⎝ 0

r12

ppp

⎟ ⎟ ⎟ ⎟ ⎟, ⎟ ppp ⎟ ⎟ ⎠ pp p

r22 pp

⎞ r1N

p

pp

ppp

0

p

rN N

heissen untere beziehungsweise obere Dreiecksmatrizen. Es sind die Matrizen L beziehungsweise R regul¨ar genau dann, wenn det ( L ) =  beziehungsweise det ( R ) = N j=1 rjj = 0 gilt.

N

j=1 jj

= 0

4.1.1 Obere gestaffelte Gleichungssysteme F¨ur die obere Dreiecksmatrix R = ( rjk ) ∈ R N×N mit rjk = 0 f¨ur j > k ist das entsprechende gestaffelte Gleichungssystem Rx = z f¨ur einen gegebenen Vektor z ∈ R N von der Form r11 x1 + r12 x2 + · · · + r1N xN

=

z1

r22 x2 + · · · + r2N xN

=

z2

pp p

pp p

pp

p

p pp

rN N xN

= zN

dessen L¨osung z ∈ R N f¨ur regul¨ares R zeilenweise von unten nach oben durch jeweiliges Aufl¨osen nach der Unbekannten auf der Diagonalen berechnet werden kann, siehe Schema 4.1.

54

Kapitel 4 L¨osung linearer Gleichungssysteme

for j = N : −1 : 1



xj =

N 

zj −

rjk xk

 rjj ;

end

k=j+1

Schema 4.1 Rekursive Aufl¨osung eines oberen gestaffelten Gleichungssystems Rx = z Theorem 4.2 F¨ur die Aufl¨osung eines oberen gestaffelten Gleichungssystems sind N 2 arithmetische Operationen erforderlich. B EWEIS . In den Stufen j = N, N − 1, . . . , 1 der Schleife aus Schema 4.1 sind zur Berechnung der Unbekannten xj je N −j Multiplikationen und genauso viele Subtraktionen sowie eine Division durchzuf¨uhren, insgesamt erh¨alt man die folgende Anzahl von arithmetischen Operationen,

N + 2

N 

(N − j )

=

N + 2

j=1

N −1 

m

=

N + ( N − 1 )N

=

N 2.

m=1

4.1.2 Untere gestaffelte Gleichungssysteme F¨ur die untere Dreiecksmatrix L = ( jk ) ∈ R N×N mit jk = 0 f¨ur j < k ist das entsprechende gestaffelte Gleichungssystem Lx = b mit einem gegebenen Vektor b ∈ R N von der folgenden Form, 11 x1

=

b1

21 x1 + 22 x2

=

b2

pp p

pp p

=

bN

pp p

pp p

pp

p

N 1 x1 + N 2 x2 + · · · + N N xN

Dessen L¨osung x ∈ R N kann f¨ur eine regul¨are Matrix L zeilenweise von oben nach unten durch jeweiliges Aufl¨osen nach der Unbekannten auf der Diagonalen berechnet werden:

for j = 1 : N

xj =



bj −

j−1 

jk xk



jj ;

end

k=1

Schema 4.2 Aufl¨osung eines regul¨aren unteren gestaffelten Gleichungssystems Lx = b

Dabei sind genauso viele arithmetische Operationen durchzuf¨uhren wie im Fall des oberen gestaffelten Gleichungssystems, n¨amlich N 2 (vergleiche Theorem 4.2).

Abschnitt 4.2

55

Der Gauß– Algorithmus

4.2 Der Gauß–Algorithmus 4.2.1 Einfuhrende ¨ Bemerkungen Seien wieder A = (ajk ) ∈ R N×N eine gegebene Matrix sowie b = (bj ) ∈ R N ein gegebener Vektor. Im Folgenden wird der Gauß Algorithmus beschrieben, der das Gleichungssystem Ax = b in ein a¨ quivalentes oberes gestaffeltes Gleichungssystem Rx = z u¨ berf¨uhren soll, dessen L¨osung x ∈ R N dann leicht berechnet werden kann. In der ersten Stufe des Gauß Algorithmus wird das gegebene Gleichungssystem a11 x1 + a12 x2 + · · · + a1N xN

=

b1

a21 x1 + a22 x2 + · · · + a2N xN

=

b2

pp p

pp p

pp p

aN 1 x1 + aN 2 x2 + · · · + aN N xN

pp p

= bN

durch Zeilenoperationen in ein a¨ quivalentes Gleichungssystem der Form a11 x1 + a12 x2 + · · · + a1N xN

=

b1

2) a(222) x2 + · · · + a(2N xN

=

b(22)

pp p

pp p

a(N2)2 x2 + · · · + a(N2)N xN

pp p

=

b(N2)

⎫ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎬ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎭

(4.1)

u¨ berf¨uhrt. Falls a11 = 0 gilt, so kann dieses erreicht werden mit Zeilenoperationen neue Zeile j := alte Zeile j − j1 · alte Zeile 1,

j = 2, 3, . . . , N,

oder explizit (aj1 − j1 a11 ) x1 + (aj2 − j1a12 ) x2 + · · · + (ajN − j1 a1N ) xN

 

 

  ( 2) ( 2) ! =: a =: a = 0 j2 jN

=

bj − j1b1   =: b(j2)

mit der Setzung j1 :=

aj1 , a11

j = 2, 3, . . . , N.

Nach diesem Eliminierungsschritt verf¨ahrt man im n¨achsten Schritt ganz analog mit dem System der unteren N − 1 Gleichungen in (4.1). Diesen Eliminierungsprozess sukzessive durchgef¨uhrt auf die jeweils entstehenden Teilsysteme liefert zu Ax = b a¨ quivalente Gleichungssysteme A( s) x = b( s) , (s)

wobei sich A

∈R

N ×N

(s)

und b

s = 1, 2, . . . , N,

∈ R in der Reihenfolge N

56

Kapitel 4 L¨osung linearer Gleichungssysteme

A = A(1)

→ A(2)



...



A(N ) =: R

b = b( 1)





...



b(N ) =: z

b( 2)

ergeben mit Matrizen und Vektoren von der speziellen Form ⎞ ⎛ ( 1) ( 1) (1) a a · · · · · · · · · a 12 1N ⎟ ⎜ 11 ⎟ ⎜ ⎜ ( 2) 2) ⎟ ⎟ ⎜ a22 · · · · · · · · · a(2N ⎟ ⎜ ⎟ ⎜ pp ⎟ ⎜ pp p p ⎟ ⎜ ⎟ ∈ R N×N , A(s) = ⎜ ⎟ ⎜ (s) ⎟ (s) ⎜ ass · · · asN ⎟ ⎜ ⎟ ⎜ ⎜ pp ⎟ pp ⎜ ⎟ p p ⎜ ⎟ ⎝ ⎠ a(Ns)s · · · a(Ns)N

⎞ (1) b ⎜ 1 ⎟ ⎜ ⎟ ⎜ (2) ⎟ ⎜ b2 ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ pp ⎟ ⎜ p ⎟ N ⎟ = ⎜ ⎜ ⎟ ∈ R . (4.2) ⎜ b( s) ⎟ ⎜ s ⎟ ⎜ ⎟ ⎜ p ⎟ ⎜ pp ⎟ ⎜ ⎟ ⎝ ⎠ b(Ns) ⎛

b(s)

Hierbei wird vorausgesetzt, dass die auftretenden Diagonalelemente allesamt nicht verschwinden, a(sss) = 0 f¨ur s = 1, 2, . . . , N, da anderweitig der Gauß Algorithmus abbricht beziehungsweise die Matrix R singul¨ar ist. Algorithmus 4.3 Ein Pseudocode f¨ur den Gauß Algorithmus ist in dem folgenden Schema 4.3 angegeben. Dabei werden zur Illustration noch die Indizes (1) , ( 2) , . . . mitgef¨uhrt. In jeder Implementierung werden dann entsprechend die Eintr¨age der urspr¨unglichen Matrix A sowie in dem Vektor b u¨ berschrieben. for s = 1 : N − 1

(**

for j = s + 1 : N  js = a(jss) a(sss) ;   ( s+1) s+1) aj,s+1 , . . . , a(jN

A(s) → A( s+1) , b( s) → b( s+1)

**)

Zeile j

**)

(**

− js bs ;   s)  s) s) s) a(j,s+1 , . . . , a(jN − js a(s,s+1 , . . . , a(sN ;

( s+1 )

bj =



= bj

(s)

(s)

end end Schema 4.3 Gauß– Algorithmus



Theorem 4.4 F¨ur den Gauß Algorithmus in Schema 4.3 sind  1  2N 3  1 + O N 3 arithmetische Operationen erforderlich.

(4.3)

Abschnitt 4.2

57

Der Gauß– Algorithmus

B EWEIS . In der s ten Stufe des Gauß Algorithmus sind ( N − s )2 + ( N − s ) Multiplikationen und ebenso viele Additionen durchzuf¨uhren und außerdem sind ( N −s ) Divisionen erforderlich, so dass insgesamt 2

N −1  s=1

s2 + 3

N −1 

(N

=

s

s=1

− 1 )N ( 2N − 1 ) 3N ( N − 1 ) + 3 2

=





2N 3 1 1 + O 3 N



arithmetische Operationen anfallen. Das folgende Theorem liefert eine Klasse von Matrizen A ∈ R N×N , f¨ur die der Gauß Algorithmus durchf¨uhrbar ist. Theorem 4.5 Ist die Matrix A = (ajk ) ∈ R N×N strikt diagonaldominant, so ist der Gauß Algorithmus zur L¨osung von Ax = b durchf¨uhrbar. B EWEIS . Es wird mit vollst¨andiger Induktion u¨ ber s = 1, 2, . . . , N − 1 nachgewiesen, dass die Matrizen ⎞ ⎛ (s) (s) · · · a a sN ⎟ ⎜ ss ⎟ ⎜ ⎜ pp (s) ( N −s+1 )×( N −s+1 ) pp ⎟ (4.4) B = ⎜ p p ⎟ ∈ R ⎟ ⎜ ⎠ ⎝ a(Ns)s · · · a(Ns)N strikt diagonaldominant sind. F¨ur B ( 1) = A ist dies nach Voraussetzung richtig, und wir nehmen nun an, dass f¨ur ein 1 ≤ s ≤ N − 2 die Matrix B ( s) strikt diagonaldominant ist. Dann gilt insbesondere a(sss) = 0, somit ist der Gauß Eliminationsschritt auf B (s) anwendbar und liefert die Matrix B (s+1) = (a(jks+1) )s+1≤j,k≤N ∈ R (N −s)×(N −s) mit 

s+1) s+1) , . . . , a(jN a(j,s+1



=

mit den Koeffizienten



s) s) a(j,s+1 , . . . , a(jN

 js = a(jss) a(sss) ,



 s)  s) − js a(s,s+1 , . . . , a(sN ,

j = s + 1, . . . , N,

j = s + 1, s + 2, . . . , N.

Man erh¨alt nun die strikte Diagonaldominanz der Matrix B (s+1) : f¨ur j = s + 1, . . . , N ergibt sich N 

|a(jks+1) | ≤

k=s+1 k=j

N 

|a(jks) | + | js |

k=s+1 k=j

= |ajj | − | js ||asj | was den Beweis komplettiert.

|a(sks) |

k=s+1 k=j

< |a(jjs) | − |a(jss) | + (s)

N 

(s)

|a(jss) |  |ass | (s)



|a(sss) | − |a(sjs) |

|a(jjs+1) |,



58

Kapitel 4 L¨osung linearer Gleichungssysteme

4.2.2 Gauß– Algorithmus mit Pivotsuche Zu Illustrationszwecken betrachten wir f¨ur ε ∈ R die regul¨are Matrix ( ) ε 1 . Aε = 1 0 F¨ur jeden Vektor b ∈ R 2 ist der Gauß Algorithmus zur Staffelung von A0 x = b nicht durchf¨uhrbar, und f¨ur 0 = ε ≈ 0 erh¨alt man in der ersten Stufe des Gauß Algorithmus zur Staffelung von Aε x = b das Element 21 = 1/ε, was bei der Berechnung der L¨osung zugeh¨origer Gleichungssysteme zu Fehlerverst¨arkungen f¨uhren kann. Zur Vermeidung solcher numerischen Instabilit¨aten bietet sich die folgende Vorgehensweise an: ¨ Algorithmus 4.6 (Gauß Algorithmus mit Pivotstrategie). Im Folgenden wird der Ubergang (s) ( s+1 ) A →A um eine Pivotstrategie erg¨anzt. (a) Man bestimme zun¨achst einen Index p ∈ {s, s + 1, . . . , N } mit    (s)   aps  ≥  a( s)  f¨ur j = s, s + 1, . . . , N. js Das Element a(pss) wird als Pivotelement bezeichnet.  (s)    (s) =  (b) Transformiere A( s) → A ajk ∈ R N×N sowie b(s) → b( s) = b(js) ∈ R N durch Vertauschung der p ten und der s ten Zeile von A( s) beziehungsweise b(s) : 

s)  a(pss) , . . . ,  a(pN

b( s) = b( s) , s p



=



b( s) p

 s) a(sss) , . . . , a(sN , =



s)  a(sss) , . . . ,  a(sN



=



 s) a(pss) , . . . , a(pN ,

b(ss) ,

die anderen Eintr¨age bleiben unver¨andert. (s) → A(s+1) , b( s) → b( s+1) geht wie bisher so (c) Der nachfolgende Eliminationsschritt A ( s+1 ) die Form (4.2) erh¨alt.  vonstatten, dass die Matrix A Die in Algorithmus 4.6 vorgestellte Pivotsuche wird etwas genauer auch als Spaltenpivotsuche bezeichnet. Es existieren noch andere Privotstrategien (siehe Aufgabe 4.7).

4.3 Die Faktorisierung P A = LR Typischerweise ist f¨ur eine gegebene regul¨are Matrix A ∈ R N×N das Gleichungssystem Ax = b f¨ur unterschiedliche rechte Seiten b zu l¨osen. Dies kann effizient mit einer Faktorisierung der Form P A = LR geschehen, wobei P ∈ R N×N eine Permutationsmatrix1 sowie L ∈ R N×N eine untere beziehungsweise R ∈ R N×N eine obere Dreiecksmatrix ist: man hat f¨ur jede rechte Seite b jeweils nur nacheinander die beiden gestaffelten Gleichungssysteme Lz = P b,

Rx = z,

zu l¨osen. Eine solche Faktorisierung P A = LR gewinnt man mit dem Gauß Algorithmus mit 1

f¨ur deren Einf¨uhrung siehe den nachfolgenden Abschnitt 4.3.1

Abschnitt 4.3

Die Faktorisierung P A = LR

59

Spaltenpivotsuche; man hat nur die auftretenden Zeilenpermutationen und Zeilenoperationen geeignet zu verwenden. Die genaue Vorgehensweise wird am Ende dieses Abschnitts 4.3 beschrieben.

4.3.1 Permutationsmatrix Es werden nun Permutationsmatrizen betrachtet, mit denen sich Zeilen und Spaltenvertauschungen beschreiben lassen. Definition 4.7 Man bezeichnet P ∈ R N×N als Permutationsmatrix, falls f¨ur eine bijektive Abbildung π : {1, . . . , N } → {1, . . . , N } (Permutation genannt) Folgendes gilt, ⎞



⎟ ⎜ P = ⎝eπ(1) . . . eπ(N ) ⎠ ,

(4.5)

wobei ek ∈ R N den k ten Einheitsvektor bezeichnet, das heißt, der k te Eintrag des Vektors ek ist gleich eins und die anderen Eintr¨age sind gleich null. Beispiel 4.8 Die folgende Matrix stellt eine Permutationsmatrix dar: ⎛ ⎞ 0 1 0 0 ⎜ ⎟ ⎜0 0 1 0⎟ 4×4 ⎟ P = ⎜ ⎜1 0 0 0⎟ ∈ R . ⎝ ⎠ 0 0 0 1 Lemma 4.9 F¨ur eine Permutationsmatrix P ∈ R N×N Darstellung ⎛ e π −1 ( 1) ⎜ ⎜ pp P = ⎜ p ⎝ e π −1 ( N ) B EWEIS . F¨ur k = 1, 2, . . . , N gilt ⎛ e π −1 ( 1) ⎜ ⎜ pp ⎜ p ⎝  eπ−1 ( N )





⎟ ⎜ ⎟ ⎟ ek = ⎜ ⎝ ⎠



mit zugeh¨origer Permutation π gilt die ⎞ ⎟ ⎟ ⎟. ⎠

e π −1 ( 1) ek pp p

⎞ ⎟ ⎟ = eπ(k ) . ⎠

e π −1 ( N ) ek

Bei einer Permutationsmatrix treten also in jeder Zeile beziehungsweise jeder Spalte jeweils genau eine Eins und sonst nur Nullen auf.

60

Kapitel 4 L¨osung linearer Gleichungssysteme

Theorem 4.10 Sei P ∈ R N×N eine Permutationsmatrix und π die zugeh¨orige Permutation. F¨ur Vektoren a1 , a2 , . . . , aN ∈ R M mit M ∈ N gilt ⎛ ⎜ ⎜ P⎜ ⎝

a 1 pp p





⎜ ⎟ ⎜ ⎟ ⎟ = ⎜ ⎝ ⎠

a N

a π −1 ( 1) pp p







⎟ ⎟ ⎟, ⎠

⎜ ⎜ ⎟ ⎟ ⎜ ⎜ ⎟ ⎟ ⎜a1 . . . aN ⎟ P = ⎜aπ( 1) . . . aπ( N ) ⎟ . ⎝ ⎝ ⎠ ⎠





a π −1 ( N ) (4.6)

B EWEIS . Die erste Identit¨at erh¨alt man wie folgt, ⎞ ⎛ a 1 ⎟ ⎜ N N ⎟ ⎜   pp ⎟ = eπ( j ) a = e a P⎜ p j π −1 (  ) ⎟ ⎜ ⎠ ⎝ j=1 =1 a N

⎛ =

und die angegebene Spaltenpermutation folgt so: ⎞ ⎛ ⎟ ⎜ ⎟ ⎜ ⎜a . . . a ⎟ P N⎟ ⎜ 1 ⎠ ⎝

=

N  k=1

ak e π −1 ( k )

=

⎜ ⎜ ⎜ ⎜ ⎝



a π −1 (1)

⎟ ⎟ ⎟, ⎟ ⎠

pp p

a π −1 (N )



⎛ N 

aπ() e 

=1

=

⎟ ⎜ ⎟ ⎜ ⎟ ⎜a ⎜ π(1) . . . aπ( N ) ⎟ . ⎠ ⎝

Bemerkung 4.11 F¨ur eine gegebene Matrix A bewirkt also eine Multiplikation mit einer Permutationsmatrix von links eine Permutation der Zeilen von A, und eine Multiplikation mit einer Permutationsmatrix von rechts bewirkt eine Permutation der Spalten von A. In numerischen Implementierungen erfolgt die Abspeicherung einer Permutationsmatrix mit der zugeh¨origen Permutation π in Form eines Vektors (π −1 ( 1 ), . . . , π −1 ( N ) ) ∈ R N oder (π ( 1 ), . . . , π ( N ) ) ∈  RN . Als unmittelbare Konsequenz aus der zweiten Identit¨at in (4.6) erh¨alt man noch das folgende Resultat. Korollar 4.12 Die Menge der Permutationsmatrizen P ∈ R N×N bildet zusammen mit der Matrizenmultiplikation eine Gruppe: f¨ur Permutationen π1 , π2 : {1, . . . , N } → {1, . . . , N } gilt ⎛

⎞⎛



⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ eπ2 (1) . . . eπ2 (N ) ⎟ ⎜ eπ1 (1) . . . eπ1 (N ) ⎟ ⎝ ⎠⎝ ⎠

⎛ =



⎟ ⎜ ⎟ ⎜ ⎜ eπ2 ◦π1 (1) . . . eπ2 ◦π1 (N ) ⎟ . ⎝ ⎠

Abschnitt 4.3

Die Faktorisierung P A = LR

61

Eine wichtige Rolle spielen im Folgenden elementare Permutationsmatrizen. Definition 4.13 Eine elementare Permutationsmatrix ist von der Form (4.5) mit einer Elementarpermutation π : {1, . . . , N } → {1, . . . , N }, die zwei Zahlen vertauscht und die restlichen Zahlen unver¨andert l¨asst, das heißt, es gibt Zahlen 1 ≤ q, r ≤ N mit π ( q ) = r,

π ( r ) = q,

π( j ) = j

f¨ur j ∈ {q, r }.

(4.7)

Bemerkung 4.14 Es sei P ∈ R N×N eine elementare Permutationsmatrix mit zugeh¨origer Elementarpermutation π von der Form (4.7). Dann gilt ⎛1 ⎜ ⎜ ⎜ ⎜ ⎜ P = ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

pp

⎞ p

⎟ ⎟ ⎟ ← Zeile q ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ← Zeile r ⎟ ⎠

1 0

1 1 p pp

1

1 0 1 p pp

1

und es gilt π −1 = π sowie P −1 = P .



4.3.2 Eliminationsmatrizen Es werden nun Eliminationsmatrizen betrachtet. Es wird sich herausstellen, dass sich mit solchen Matrizen Zeilenoperationen beschreiben lassen. Definition 4.15 Jede Matrix von der Form ⎛ ⎞ 1 ⎜ pp ⎟ ⎜ ⎟ p ⎜ ⎟ ⎜ ⎟ 1 ⎜ ⎟ × ⎜ ⎟ ∈ RN N p p ⎜ ⎟ − p s+1,s ⎜ ⎟ pp ⎜ pp ⎟ p p ⎠ ⎝ − N s 1

(4.8)

mit s ∈ {1, 2, . . . , N − 1} heißt Eliminationsmatrix vom Index s. Bemerkung 4.16 1. Eine Eliminationsmatrix vom Index s unterscheidet sich von der Einheitsmatrix also nur in der s ten Spalte, und dort auch nur unterhalb der Diagonalen. 2. Die prinzipielle Vorgehensweise bei den Zeilenoperationen der s ten Stufe des Gauß Algorithmus wird durch Multiplikation mit einer Eliminationsmatrix vom Index s beschrieben: f¨ur

62

Kapitel 4 L¨osung linearer Gleichungssysteme

Vektoren ak ∈ R N , k = 1, 2, . . . , N gilt ⎛ ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

1



pp

⎛ ⎟ p ⎟⎜ ⎟⎜ 1 ⎟⎜ ⎟⎜ pp ⎟⎜ − s+1,s p ⎝ pp pp ⎟ p ⎠ p − N s 1



a 1

⎟ ⎟ ⎟ ⎟ ⎟ ⎠

pp p

=

a N



a 1

⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟. ⎟ ⎟ ⎟ ⎟ ⎟ ⎠

pp p

a s  a s+1 − s+1,s as

pp p

 a N − N s as

3. Bei der Herleitung der Abbildungseigenschaften von Eliminationsmatrizen Fs der Form (4.8) ist die folgende Darstellung hilfreich, Fs = I − fs e s,

mit fs =



0, . . . , 0, s+1,s, . . . , N s



∈ RN ,

(4.9)

wobei I ∈ R N×N die Einheitsmatrix und es ∈ R N den s ten Einheitsvektor bezeichnet. 4. Eine Eliminationsmatrix wird auch als Gauß Transformation oder gelegentlich als Frobeniusmatrix bezeichnet.  Die beiden folgenden Lemmata liefern Hilfsmittel f¨ur den Beweis von Theorem 4.19 u¨ ber die Faktorisierung P A = LR. Lemma 4.17 F¨ur s = 1, 2, . . . , N − 1 sind Eliminationsmatrizen Fs vom Index s regul¨ar, und mit der Notation (4.8) f¨ur Fs gilt ⎛ Fs−1

⎜ ⎜ ⎜ = ⎜ ⎜ ⎜ ⎝ ⎛

F1−1 · · · FN−1−1

1

⎞ pp

p

⎟ ⎟ ⎟ 1 ⎟ pp ⎟ s+1,s p ⎟ pp pp ⎠ p p N s 1

1

⎜ ⎜ 21 1 ⎜ ⎜ p = ⎜ pp 32 1 ⎜ p pp p p ⎜ pp p p ⎝

pp

p

f¨ur s = 1, 2, . . . , N − 1,

⎞ ⎟ ⎟ ⎟ ⎟ ⎟. ⎟ ⎟ ⎠

N 1 N 2 p p p N,N −1 1

B EWEIS . Mit der Notation (4.9) f¨ur Fs berechnet man  (I + fs e s ) (I − fs es )   = Fs

=

   I + fs e s − fs es − fs (es fs ) es  

= 0∈R

=

I,

Abschnitt 4.3

Die Faktorisierung P A = LR

63

woraus die Regularit¨at von Fs sowie die angegebene Darstellung f¨ur die Matrix Fs−1 folgt. Im Folgenden soll nun mit vollst¨andiger Induktion F1−1 · · · Fs−1 = I +

s 

fk e k,

s = 1, 2, . . . , N − 1,

(4.10)

k=1

nachgewiesen werden, was im Fall s = N − 1 gerade die letzte Darstellung des Lemmas liefert. Die Darstellung in (4.10) ist sicher richtig f¨ur s = 1, und wir nehmen nun an, dass sie richtig ist f¨ur ein 1 ≤ s ≤ N − 2. Dann erh¨alt man wie behauptet −1 F1−1 · · · Fs+1 =



I +

s 

  I + fs+1 e fk e k s+1

k=1

= I +

=0∈R

fs+1 e s+1

+

s 

fk e k

s 

+

k=1

   fk (e k fs+1 ) es+1 .

k=1

Lemma 4.18 Sei Fs eine Eliminationsmatrix vom Index s in der Darstellung (4.9), und sei P eine elementare Permutationsmatrix mit zugeh¨origer Elementarpermutation π von der Form (4.7) mit Zahlen s + 1 ≤ q, r ≤ N. Dann entsteht P Fs P aus Fs durch Vertauschen der Eintr¨age q und r in der s ten Spalte, das heißt, P Fs P

=

I − ( P fs )e s.

B EWEIS . Die Aussage ergibt sich unmittelbar: P Fs P =

P 2 − ( P fs )( e s P ),   = I = e s

wobei sowohl Bemerkung 4.14 als auch die zweite Identit¨at in (4.6) f¨ur M = 1 sowie die Tatsache q, r ≥ s + 1 ber¨ucksichtigt sind.

4.3.3 Die Faktorisierung P A = LR Vorbereitend wird die bereits vorgestellte Vorgehensweise beim Gauß Algorithmus mit Spaltenpivotstrategie2 als Folge spezieller Matrix Operationen beschrieben: es werden sukzessive Matrizen A( s+1) 2

=

Fs Ps A(s)

f¨ur s = 1, 2, . . . , N − 1

siehe hierzu Schema 4.3, Algorithmus 4.6 sowie Bemerkung 4.16

64

Kapitel 4 L¨osung linearer Gleichungssysteme

mit ⎞



Fs

⎜ ⎜ ⎜ ⎜ ⎜ ⎜ = ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

1 pp

p

1 − s+1,s p p p pp p

pp

p

− N s ⎛

Ps

⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ = ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

1

js =

⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟, ⎟ ⎟ ⎟ ⎟ ⎠

p s s =

a(jss) a(pss)s

,

j = s + 1, . . . , N,

a(sss) , a(pss)s

(4.11)

1 ⎞

pp

j = ps ,

p

1 0

1 1

pp

p

1 1

0 1

pp

p

1

⎛ ⎟ ∗ ··· ··· ··· ⎜ ⎟ ⎜ .. ⎟ . ⎜ ⎟ ← Zeile s ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ∗ ··· ⎟ A(s) = ⎜ ⎜ ⎟ ⎜ ⎟ a(sss) ⎜ ⎟ ⎜ ⎟ ← Zeile ps pp ⎜ ⎟ p ⎟ ⎝ ⎠ (s) aN s

⎞ ∗ ⎟ .. ⎟ . ⎟ ⎟ ⎟ ··· ∗ ⎟ ⎟ , (4.12) s) ⎟ ⎟ · · · a(sN ⎟ pp ⎟ p ⎟ ⎠ · · · a(Ns)N ···

berechnet, wobei ps ≥ s die Position derjenigen Zeile aus der Matrix A( s) mit dem Pivotelement bezeichnet. Es kann nun die Faktorisierung P A = LR explizit angegeben werden. Theorem 4.19 Mit den Notationen (4.11) (4.12) gilt f¨ur P = PN −1 · · · P1 , R = A(N ) sowie ⎛ ⎞ ⎞ ⎛ ⎛ ⎞ 0 0 1 p p ⎜ pp ⎟ ⎜ pp ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎜ 21 1 ⎟ ⎟ ⎜ 0 ⎟ ⎜ 0 ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎜ pp  ⎟ ⎟ ⎟ L = ⎜ p 32 1 ⎟ , mit ⎜ 1 ⎟ := PN −1 . . . Ps+1 ⎜ ⎜ 1 ⎟ , (4.13) ⎜  ⎜ ⎟ ⎟ ⎜ ⎟ p p ⎜ s+1,s ⎟ ⎜ p ⎟ pp pp p p p ⎜ s+1,s ⎟ p ⎝ p ⎝ pp ⎠ ⎠ ⎝ ppp ⎠ p N 1 N 2 p p p N,N −1 1 N s N s die Identit¨at P A = LR. B EWEIS . F¨ur s = 1, 2, . . . gilt: A(2) = F1 P1 A

=

F1 (P1 A),

(3)

= F2 P2 A

=

(4)

= F3 P3 A

=

A

A

(2) (3)

=I

  F2 P2 (F1 P2 P2 P1 A) = F2 (P2 F1 P2 )(P2 P1 A)   F3 P3 F2 P3 P3 P2 F1 P2 P3 P3 P2 P1 A     =I

= F3 (P3 F2 P3 )(P3 P2 F1 P2 P3 )(P3 P2 P1 A),

=I

Abschnitt 4.3

Die Faktorisierung P A = LR

65

und so weiter, was schließlich auf R = A(N ) = FN −1 · · · F1 P A f¨uhrt mit den Eliminationsmatrizen



Fs = PN −1 · · · Ps+1 Fs Ps+1 · · · PN −1

(∗)

=

⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

(4.14)



1 pp

p

⎟ ⎟ ⎟ ⎟ ⎟ 1 ⎟, ⎟ p − s+1,s p p ⎟ ⎟ pp pp ⎟ p p ⎠ − N s 1

s = 1, . . . , N − 1,

wobei in der Identit¨at (∗) noch Lemma 4.18 ber¨ucksichtigt ist. Eine Umformung von (4.14) liefert dann die Identit¨at P A = ( F1−1 · · · FN−1−1 )R

(∗∗)

=

LR,

wobei in (∗∗) noch Lemma 4.17 eingeht. Dies komplettiert den Beweis. Bemerkung 4.20 In praktischen Implementierungen werden die frei werdenden Anteile des unteren Dreiecks der Matrix A sukzessive u¨ berschrieben mit den Eintr¨agen der unteren Dreiecksmatrix L, und in dem oberen Dreieck der Matrix A ergeben sich die Eintr¨age der Dreiecksmatrix R. Die Permutationsmatrix P l¨asst sich einfach in Form eines Buchhaltungsvektors r ∈ R N berechnen: es gilt ⎛

b1



p P ⎝ pp ⎠ bN

⎛ =

br1





⎝ ppp ⎠ brN

r1





1



⎝ ppp ⎠ := P ⎝ ppp ⎠ , rN N

f¨ur



was man unmittelbar aus Theorem 4.10 erschließt.

Beispiel 4.21 (Oevel [75]) Die durch Theorem 4.19 vorgegebene Vorgehensweise soll anhand der Matrix ⎛

0

⎜ ⎜ ⎜2 A = ⎜ ⎜ ⎜1 ⎝ 1

0

1

2

2

2

2

2

3

1



⎟ ⎟ 2⎟ ⎟ ∈ R 4×4 ⎟ 2⎟ ⎠ 6

exemplarisch vorgestellt werden. Nach Anh¨angen des f¨ur die Speicherung der Zeilenpermutationen zust¨andigen Buchhaltungsvektors geht man so vor (unterhalb der Treppe ergeben sich

66

Kapitel 4 L¨osung linearer Gleichungssysteme

sukzessive die Eintr¨age der unteren Dreiecksmatrix L aus (4.13)): ⎛

0

0

⎜ ⎜i ⎜2 2 ⎜ ⎜ ⎜1 2 ⎝ 1 2



1

1

2 3

2

2

⎜ ⎜ 1/2 Elimination ⎜ ⎜ −→ ⎜ ⎜ 0 ⎝ 1/2

2

2

0

1

1i 1

2

2

2

2 2

0 1











2

0

1

2

2

2

3

2

2





2

⎜ ⎟ ⎜ ⎜ ⎟ ⎜ ⎜ 3 ⎟ Elimination ⎜ 1/2 ⎜ ⎟ ⎜ −→ ⎜ ⎟ ⎜ ⎜ 1 ⎟ ⎜ 0 ⎝ ⎠ ⎝ 4 1/2

⎟ ⎟ 1 1⎟ ⎟, ⎟ i ⎟ 1 1 ⎠ 1 4

2

⎜ ⎟ ⎜ ⎜ ⎟ ⎜ ⎜ 1 ⎟ Zeilentausch ⎜ 1/2 ⎜ ⎟ ⎜ −→ ⎜ ⎜ ⎟ ⎜ 0 ⎜ 3 ⎟ ⎝ ⎠ ⎝ 1/2 4 ⎛



2

2

⎜ ⎜ ⎜0 ⎜ ⎜ ⎜1 ⎝ 1

Zeilentausch −→



⎟ ⎟ 1⎟ ⎟, ⎟ 1⎟ ⎠ 5

1

1

1

⎜ ⎟ ⎜ ⎟ ⎜ 2 ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ 3 ⎟ ⎝ ⎠ 4

⎟ ⎟ 2⎟ ⎟, ⎟ 2⎟ ⎠ 6

2

⎜ ⎜ 0 Elimination ⎜ ⎜ −→ ⎜ ⎜ 1/2 ⎝ 1/2 ⎛





2





2

1

1

0

1

1

2

2

2

1

1

0

1

1

1

2



⎟ ⎟ 1⎟ ⎟, ⎟ 1⎟ ⎠ 5

2



⎜ ⎟ ⎜ ⎟ ⎜ 1 ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ 3 ⎟ ⎝ ⎠ 4

⎟ ⎟ 1⎟ ⎟, ⎟ 2⎟ ⎠ 6

2

2





⎜ ⎟ ⎜ ⎟ ⎜ 3 ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ 1 ⎟ ⎝ ⎠ 4 ⎛



2

2



⎜ ⎟ ⎜ ⎟ ⎜ 3 ⎟ ⎜ ⎟, ⎜ ⎟ ⎜ 1 ⎟ ⎝ ⎠ 4

⎟ ⎟ 1⎟ ⎟, ⎟ 1⎟ ⎠ 3

wobei das jeweils gew¨ahlte Pivotelement ∗ eingekreist dargestellt ist, ∗i. Es ergibt sich somit das folgende Resultat: ⎛



1

⎜ ⎜ ⎜ 1/2 L = ⎜ ⎜ ⎜ 0 ⎝ 1/2

⎟ ⎟ ⎟ ⎟, ⎟ ⎟ ⎠

1 0

1

1

1

⎛ ⎜ ⎜ ⎜ R = ⎜ ⎜ ⎜ ⎝

1

2

2

2

1

1 1

2



⎟ ⎟ 1⎟ ⎟, ⎟ 1⎟ ⎠ 3



b1





b2



⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎜ b3 ⎟ ⎜ b2 ⎟ ⎟ ⎜ ⎟. ⎜ P⎜ ⎟ = ⎜ ⎟ ⎜ b1 ⎟ ⎜ b3 ⎟ ⎝ ⎠ ⎠ ⎝ b4 b4 

4.4 LR–Faktorisierung In gewissen Situationen ist es m¨oglich und zwecks Bewahrung etwaiger Bandstrukturen der Matrix A auch w¨unschenswert, auf eine Pivotstrategie zu verzichten und eine LR Faktorisierung

Abschnitt 4.4

67

LR – Faktorisierung

von der Form ⎛

A

⎜ ⎜ ⎜ ⎜ 21 ⎜ ⎜ p ⎜ pp ⎜ ⎝ N 1

=



⎞⎛ 1

⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎠⎝

1 pp

p

pp

ppp

N,N −1

p

r11

r12

ppp

rN N

⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ppp ⎟ ⎟ ⎠ pp p

r22 pp

p

1

(4.15)

rN N

zu bestimmen. Ein direkter Ansatz zur Bestimmung einer solchen LR Faktorisierung besteht darin, das Gleichungssystem (4.15) als N 2 Bestimmungsgleichungen f¨ur die N 2 gesuchten Gr¨oßen rjk ( j ≤ k ) und jk ( j > k ) aufzufassen: min{j,k}

ajk =



j, k = 1, 2, . . . , N.

js rsk ,

(4.16)

s=1

Dabei gibt es verschiedene Reihenfolgen, mit denen man aus den Gleichungen in (4.16) die Eintr¨age von L und R berechnen kann. Beispielsweise f¨uhrt eine Berechnung der Zeilen von R und der Spalten von L entsprechend der Parkettierung nach Crout ⎛ ⎜ 1a ⎜ ⎜ 1b ⎜ ⎜ ⎜ ⎜↓ ⎜ ⎜ ⎜ ⎜ ⎝





⎟ ⎟ ⎟ 2a → ⎟ ⎟ ⎟ ⎟ 2b 3a → ⎟ ⎟ ↓ 3b 4a → ⎟ ⎟ ⎠ ↓ 4b 5

(4.17)

auf den in Schema 4.4 beschriebenen Algorithmus zur Bestimmung der LR Faktorisierung. for n = 1 : N for k = n : N for j = n + 1 : N

rnk = ank − jn =



n−1 

ns rsk ;

s=1

ajn −

n−1 

js rsn

end  rnn ;

end

s=1

end Schema 4.4 LR– Faktorisierung nach Crout Wie man leicht abz¨ahlt, fallen bei diesem Algorithmus insgesamt (2N 3 /3)(1 + O( 1/N ) ) arithmetische Operationen an (Aufgabe 4.10).

68

Kapitel 4 L¨osung linearer Gleichungssysteme

4.5 Cholesky–Faktorisierung symmetrischer, positiv definiter Matrizen 4.5.1 Grundbegriffe Gegenstand des vorliegenden Abschnitts sind die in der folgenden Definition betrachteten Matrizen. Definition 4.22 Eine Matrix A ∈ R N×N heißt symmetrisch, falls A = A gilt. Sie heißt positiv definit, falls xAx > 0 f¨ur alle 0 = x ∈ R N gilt. Beispielsweise sind die bei der kubischen Spline Interpolation auftretenden Systemmatrizen zur Berechnung der Momente symmetrisch und positiv definit. Einzelheiten dazu werden in Abschnitt 4.5.3 nachgetragen. F¨ur positiv definite Matrizen wird nun eine der LR Faktorisierung a¨ hnliche Faktorisierung mit einem geringeren Speicherplatzbedarf vorgestellt. Wir beginnen mit einem vorbereitenden Lemma. Lemma 4.23 Die Matrix A ∈ R N×N sei symmetrisch: Dann gilt: (a) Die Matrix A ist positiv definit genau dann, wenn alle Eigenwerte von A positiv sind. (b)

......

⎛ ⎜ arr ⎜ p ⎜ pp ⎜ ⎝ asr

genau dann, wenn alle Hauptuntermatrizen ⎞ ars ⎟ ⎟ pp ppp ⎟ ∈ R (s−r+1)×(s−r+1) p ⎟ ⎠ p p p ass ppp

f¨ur 1 ≤ r ≤ s ≤ N

(4.18)

von A positiv definit sind. (c) Ist die Matrix A positiv definit, so gilt det ( A ) > 0. B EWEIS . (a) Ist die Matrix A positiv definit und λ ∈ R ein Eigenwert von A, so gilt f¨ur einen beliebigen Eigenvektor 0 = x ∈ R N von A zum Eigenwert λ Folgendes: 0 < xAx = λ xx  > 0

¨ und damit λ > 0. F¨ur den Nachweis der anderen Richtung der Aquivalenz ben¨otigen wir die f¨ur symmetrische Matrizen A existierende Faktorisierung A = UDU 

U ∈ R N×N regul¨ar,

U −1 = U ,

D = diag (λ1 , . . . , λN ) ∈ R N×N .

 (4.19)

Die Zahlen λ1 , . . . , λN ∈ R sind dabei gerade die entsprechend ihrer Vielfachheit gez¨ahlten Eigenwerte der Matrix A, und diese seien nun allesamt als positiv angenommen. Dann ist die Matrix D positiv definit, denn es gilt

Abschnitt 4.5

69

Cholesky– Faktorisierung positiv definiter Matrizen

zDz =

N 

f¨ur 0 = z = ( zj ) ∈ R N .

λj zj2 > 0

j=1

Damit gilt auch xAx = (U x)D ( U x ) > 0

f¨ur 0 = x ∈ R N ,

so dass die Matrix A ebenfalls positiv definit ist. (b) Falls alle Hauptuntermatrizen von A positiv definit sind, so ist insbesondere auch die Ma¨ trix A positiv definit. F¨ur den Nachweis der anderen Richtung der betrachteten Aquivalenz ( s−r+1 )×( s−r+1 ) eine sei nun die Matrix A als positiv definit angenommen, und es sei B ∈ R Hauptuntermatrix der Form (4.18). Die Matrix B ist offensichtlich symmetrisch, und sei nun N 0 = x = ( xj )sj=r ∈ R s−r+1. F¨ur z = ( zj )N j=1 ∈ R mit  r ≤ j ≤ s, xj , zj = 0, sonst gilt dann z = 0 und xBx

=

s 

ajk xj xk

N 

=

j,k=r

ajk zj zk

=

zAz > 0.

j,k=1

(c) Hier zieht man eine Faktorisierung von der Form (4.19) heran und erh¨alt daraus wie angegeben det ( A )

=

det ( U −1 ) det ( D ) det ( U )

=

det ( D )

=

N 

λj > 0.

j=1

Theorem 4.24 Die Matrix A ∈ R N×N sei symmetrisch und positiv definit. Dann gibt es genau eine untere Dreiecksmatrix L = ( jk ) ∈ R N×N mit jj > 0 f¨ur alle j und A = LL.

(4.20)

Die Faktorisierung (4.20) wird als Cholesky Faktorisierung von A bezeichnet. B EWEIS . Der Beweis wird mit vollst¨andiger Induktion u¨ ber N gef¨uhrt. F¨ur N = 1 ist eine positiv definite Matrix A = (α) ∈ R 1×1 eine positive Zahl α > 0, die eindeutig in der Form √ α, α = · , = geschrieben werden kann. Wir nehmen nun an, dass f¨ur eine ganze Zahl N ≥ 1 die Aussage des Theorems richtig ist mit N − 1 anstelle N und betrachten dann eine symmetrische, positiv definite Matrix A ∈ R N×N . Diese l¨asst sich in der Form ⎞ ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

AN −1

b

⎟ ⎟ b ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ aN N

70

Kapitel 4 L¨osung linearer Gleichungssysteme

partitionieren mit einem Vektor b ∈ R N −1 und einer Matrix AN −1 ∈ R (N −1)×(N −1) , die nach Lemma 4.23 positiv definit ist. Nach Induktionsvoraussetzung gibt es eine eindeutig bestimmte untere Dreiecksmatrix LN −1 = ( jk ) ∈ R (N −1)×(N −1) mit jj > 0 f¨ur j = 1, 2, . . . , N − 1 und AN −1 = LN −1 L N −1 . Die gesuchte Matrix L ∈ R N×N setzt man nun in der Form ⎛ ⎞ ⎜ ⎜ ⎜ ⎜ L = ⎜ ⎜ ⎜ ⎝

⎟ ⎟ 0⎟ ⎟ ⎟ ⎟ ⎟ ⎠ α

LN −1

c

an mit dem Ziel, einen Vektor c ∈ R N −1 und eine Zahl α > 0 so zu bestimmen, dass ⎞ ⎛ ⎞⎛ ⎛

A

=

⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

AN −1

b

⎟ ⎟ b ⎟ ⎟ ⎟ ⎟ ⎟ ⎠

!

=

⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

⎟⎜ ⎟⎜ ⎜ 0⎟ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎠⎝ α

LN −1

aN N

c

L N −1 0

⎞ ⎟ ⎟ c⎟ ⎟ ⎟ ⎟ ⎟ ⎠ α (4.21)

gilt. Gleichheit in (4.21) liegt genau dann vor, wenn LN −1 c = b 

c c + α2 = aN N

(4.22)

gilt, und die erste dieser beiden Gleichungen besitzt sicher genau eine L¨osung c = L−1 N −1 b, da ( N −1 )×( N −1 ) als untere Dreiecksmatrix mit nichtverschwindenden Diagonaleintr¨agen LN −1 ∈ R regul¨ar ist. Auch die zweite Gleichung (4.22) besitzt eine L¨osung α ∈ C, mit der dann die Faktorisierung (4.21) g¨ultig ist. Wir zeigen abschließend α2 > 0; dann kann in (4.22) in eindeutiger Weise α > 0 gew¨ahlt werden. Wegen (4.21) gilt ⎛ ⎞ ⎞ ⎛ det ( A )

=

⎜ ⎜ ⎜ det ⎜ ⎜ ⎝

LN −1 c

⎜ ⎟ ⎜ 0⎟ ⎜ ⎟ ⎟ det ⎜ ⎜ ⎟ ⎝ ⎠ α

L N −1 0

⎟ c⎟ ⎟ ⎟ ⎟ ⎠ α

=

det ( LN −1 )2 α2

und wegen det ( A ) > 0 (siehe Lemma 4.23) sowie der Regularit¨at von LN −1 folgt wie behauptet α2 > 0. Bemerkung 4.25 Der im Beweis von Theorem 4.24 vorgestellte Algorithmus zur Berechnung einer Faktorisierung A = LL wird als Quadratwurzelverfahren bezeichnet. 

Abschnitt 4.5

71

Cholesky– Faktorisierung positiv definiter Matrizen

4.5.2 Die Berechnung einer Faktorisierung A = LL fur ¨ positiv definite N N Matrizen A ∈ R ×

In einem direkten Ansatz zur Bestimmung einer solchen LL Faktorisierung fasst man die Matrix Gleichung (4.20) als N ( N + 1 )/2 Bestimmungsgleichungen f¨ur die N ( N + 1 )/2 gesuchten Eintr¨age jk ( j ≥ k ) auf: k 

ajk =

1 ≤ k ≤ j ≤ N.

js ks ,

(4.23)

s=1

Spaltenweise Berechnung der Eintr¨age der unteren Dreiecksmatrix L ∈ R N×N aus den Gleichungen in (4.23) f¨uhrt auf den in Schema 4.5 beschriebenen Algorithmus. for n = 1 : N n−1   2 1/2 nk ; nn = ann − k=1

jn =

for j = n + 1 : N



ajn −

n−1 

jk nk

 nn ;

end

k=1

end Schema 4.5 LL– Faktorisierung Theorem 4.26 Zur Berechnung einer Cholesky Faktorisierung sind insgesamt (N 3 /3)(1 + O( N1 )) arithmetische Operationen durchzuf¨uhren. B EWEIS . Nach Schema 4.5 summiert sich die Zahl der genannten Operationen zu N  

2n − 1 +

n=1

( 2n − 1 )



j=n+1

= −

N  n=1

=

N 

(N + 1 − n) + 2

=

N  

( N + 1 − n )( 2n − 1 )



n=1 N 

( N + 1 − n )n = −

n=1

N(N + 1) N ( N + 1 )( 2N + 1 ) ( 2N + 1 ) − 2 2 6

N  n=1

=

n + 2( N + 1 )

N  n=1

 1  N3  1 + O . 3 N

n−2

N 

n2

n=1

4.5.3 Eine Klasse positiv definiter Matrizen Zu Beginn des vorliegenden Abschnitts 4.5 wurde bereits darauf hingewiesen, dass beispielsweise die bei der kubischen Spline Interpolation auftretenden Systemmatrizen zur Berechnung der Momente symmetrisch und positiv definit sind. In diesem Abschnitt wird hierf¨ur noch der Nachweis geliefert. Wir beginnen mit einem vorbereitenden Lemma.

72

Kapitel 4 L¨osung linearer Gleichungssysteme

Lemma 4.27 Die Matrix A ∈ R N×N sei symmetrisch und strikt diagonaldominant, und sie besitze ausschließlich positive Diagonaleintr¨age. Dann ist die Matrix A positiv definit. B EWEIS . Gem¨aß Teil (a) von Lemma 4.23 gen¨ugt es nachzuweisen, dass alle Eigenwerte der Matrix A positiv sind. Zun¨achst stellt man fest, dass zu jedem Eigenwert λ ∈ R der Matrix A = ( ajk ) notwendigerweise ein Index j ∈ {1, 2, . . . , N } mit |ajj − λ| ≤

N 

|ajk |

(4.24)

k=1 k=j

existieren muss3, da ansonsten die Matrix A − λI strikt diagonaldominant und damit regul¨ar w¨are. Aus der Absch¨atzung (4.24) erh¨alt man dann die Aussage des Lemmas, ajj − λ ≤ |ajj − λ| ≤

N 

|ajk |

λ ≥ ajj −

bzw.

k=1 k=j

N 

|ajk | > 0.

k=1 k=j

Beispiel 4.28 In Abschnitt 2.4 ab Seite 24 sind Verfahren zur Berechnung interpolierender kubischer Splinefunktionen mit nat¨urlichen, vollst¨andigen beziehungsweise periodischen Randbedingungen vorgestellt worden. Die dabei jeweils entstehenden linearen Gleichungssysteme zur Berechnung der Momente beinhalten Systemmatrizen, die den Bedingungen von Lemma 4.27 gen¨ugen und somit positiv definit sind. Diese linearen Gleichungssysteme lassen sich also jeweils mit einer Cholesky Faktorisierung l¨osen. 

4.6 Bandmatrizen Bei der Diskretisierung von gew¨ohnlichen oder partiellen Differenzialgleichungen oder auch der Berechnung der Momente kubischer Splinefunktionen ergeben sich lineare Gleichungssysteme Ax = b, bei denen A = ( ajk ) ∈ R N×N eine Bandmatrix ist, das heißt, es gilt ajk = 0 f¨ur k < j − p oder k > j + q mit gewissen Zahlen p, q: ⎛



a11 p p p a1,q+1

⎜ ⎜ pp p ⎜ p pp ⎜ ⎜ ⎜ ap+1,1 ⎜ A = ⎜ ⎜ pp p ⎜ ⎜ ⎜ ⎜ ⎝

pp

pp

pp

p

pp

p

p

p

aN,N −p 3

⎟ ⎟ ⎟ ⎟ ⎟ pp ⎟ p ⎟ ⎟ . aN −q,N ⎟ ⎟ ⎟ ⎟ p pp p ⎟ p p ⎠ p p p aN N

Diese Eigenschaft wird nochmals in Theorem 12.9 auf Seite 316 verwendet.

(4.25)

Abschnitt 4.7

73

Normen und Fehlerabsch¨atzungen

Bei solchen Problemstellungen l¨asst sich der zu betreibende Aufwand bei allen in diesem Kapitel angesprochenen Methoden verringern. (Ausgenommen sind Pivotstrategien, da sich hier die Bandstruktur nicht auf die Faktorisierung u¨ bertr¨agt.) Exemplarisch soll das Vorgehen f¨ur Bandmatrizen am Beispiel der LR Faktorisierung demonstriert werden: der Ansatz ⎛ ⎞ ⎞ ⎛ ⎛ 1 ⎞ a11 p p p a1,q+1 ⎜ p p ⎟ ⎟ r11 p p p r1,q+1 ⎜ p p p pp ⎜ p pp ⎟ ⎟⎜ ⎜ 21 p p ⎟ pp pp ⎜ ⎟ ⎟⎜ ⎜ ⎟ p p ⎜ ⎟ ⎟ ⎜ p p p p p ⎜ ⎟ p pp pp ⎟⎜ ⎜ ap+1,1 ⎟ ⎜ p pp pp ⎟ pp ⎟⎜ ⎜ ⎟ = ⎜ r p N −q,N ⎟ ⎟⎜ ⎜ ⎟ ⎜ pp pp pp pp ⎟ aN −q,N ⎟ p p p p ⎟⎜ ⎜ ⎜ p+1,1 p ⎟ pp ⎟⎝ ⎜ ⎟ ⎜ p pp ⎠ p pp pp pp pp pp ⎟ ⎜ ⎜ ⎟ p p p p p p p ⎠ ⎝ ⎠ ⎝ rN N aN,N −p p p p aN N N,N −p p p p N,N −1 1 beziehungsweise in Komponentenschreibweise min{j,k}

ajk =



js rsk ,

s=s0

j = 1, . . . , N, k = max{1, j − p}, . . . , min{j + q, N }, s0 := max{1, j − p, k − q }

f¨uhrt bei einer Parkettierung wie in (4.17) auf den in Schema 4.6 angegebenen Algorithmus zur Bestimmung der LR Faktorisierung der Bandmatrix A. for n = 1 : N for k = n : min{n + q, N } s0 = max{1, n − p, k − q };

rnk = ank −

n−1 

ns rsk ;

s=s0

end for j = n + 1 : min{n + p, N } s0 = max{1, j − p, n − q };

jn =



ajn −

n−1 

js rsn



rnn ;

s=s0

end end Schema 4.6 LR– Faktorisierung f¨ur Bandmatrizen

4.7 Normen und Fehlerabsch¨atzungen In diesem Abschnitt soll der Einfluss von St¨orungen4 der Matrix A ∈ R N×N beziehungsweise des Vektors b ∈ R N auf die L¨osung des linearen Gleichungssystems Ax = b untersucht werden, f¨ur die Einzelheiten sei auf Abschnitt 4.7.5 verwiesen. Zuvor werden in den nun folgenden Abschnitten 4.7.1 4.7.4 die n¨otigen Voraussetzungen geschaffen. 4

Solche St¨orungen k¨onnen durch Mess oder Rundungsfehler verursacht werden.

74

Kapitel 4 L¨osung linearer Gleichungssysteme

Dabei werden zun¨achst allgemeiner Vektoren aus KN beziehungsweise Matrizen aus KN×N zugelassen, wobei entweder K = R oder K = C ist. Dies erm¨oglicht sp¨ater die Herleitung von Schranken sowohl f¨ur Nullstellen von Polynomen als auch f¨ur Eigenwerte von Matrizen.

4.7.1 Normen Definition 4.29 Sei V ein beliebiger Vektorraum u¨ ber K. Eine Abbildung || · || : V → R + heißt Norm, falls Folgendes gilt: ||x + y || ≤

||x|| + ||y ||

(x, y ∈ V )

(Dreiecksungleichung );

(x ∈ V,

(positive Homogenit¨at);

||αx||

=

|α|||x||

||x||

=

0

⇐⇒

x = 0

α ∈ K)

(x ∈ V ).

Eine Norm || · || : KN → R + wird auch als Vektornorm bezeichnet, und entsprechend wird eine Norm || · || : KN×N → R + auch Matrixnorm genannt. y

...................................................................................... .............. ........ ... ........ ....... .... ....... .... . ....... . ........ .... . . . . . . . . . ...... .... ....... ... ....... .... ........ ... ....... .... ....... ... ....... . . . . . . . . . ... ....... .... ......... .... ........ ... ....... .......... .......

x

x + y

Bild 4.1 Illustration der Dreiecksungleichung

Lemma 4.30 F¨ur eine Norm || · || : V → R + gilt die umgekehrte Dreiecksungleichung    ||x|| − ||y ||  ≤ ||x − y ||, x, y ∈ V. B EWEIS . Zum einen gilt ||x|| = ||x − y + y || ≤ ||x − y || + ||y || und somit ||x|| − ||y ||



||x − y ||.

(4.26)

||x − y ||,

(4.27)

Vertauschung von x und in y in (4.26) liefert dann ||y || − ||x||



und (4.26) (4.27) zusammen liefern die umgekehrte Dreiecksungleichung. Korollar 4.31 Eine Norm || · || : V → R + ist stetig, das heißt, f¨ur beliebige Folgen ( xn ) ⊂ V und Elemente x ∈ V folgt aus der Konvergenz ||xn − x|| → 0 f¨ur n → ∞ auch ||xn || → ||x|| f¨ur n → ∞. Im Folgenden werden einige spezielle Vektornormen vorgestellt.

Abschnitt 4.7

75

Normen und Fehlerabsch¨atzungen

Theorem 4.32 Durch ||x||2

=

 N

|xk |2

1/2

(euklidische Norm);

k=1

||x||∞

=

||x||1

=

max |xk |

(Maximumnorm);

k=1..N N 

|xk |

(x ∈ KN );

(Summennorm );

k=1

sind jeweils Normen auf KN definiert. B EWEIS . Der Nachweis daf¨ur, dass die Maximum- und Summennorm tats¨achlich die Normeigenschaften erf¨ullen, ist elementar und wird an dieser Stelle nicht gef¨uhrt. F¨ur die euklidische Norm resultiert die Dreiecksungleichung aus der Cauchy Schwarzschen Ungleichung: f¨ur x, y ∈ KN gilt = ||x||22

||x + y ||22 = ( x + y )H ( x + y )

=

 xH x

≤ 2|| x ||2 || y ||2

  + 2Re xH y +

= ||y ||22

 yHy

≤ (||x||2 + ||y ||2 )2 , wobei Re z den Realteil einer komplexen Zahl z ∈ C bezeichnet. Man kann zeigen, dass je zwei verschiedene Normen || · ||, ||| · ||| : KN → R + a¨ quivalent in dem Sinne sind, dass es Konstanten c1 , c2 > 0 gibt mit c1 ||x||



|||x|||



c2 ||x||,

x ∈ KN .

Konkret gelten f¨ur die in Theorem 4.32 aufgef¨uhrten Vektornormen die folgenden Absch¨atzungen: √

||x||∞ ≤

||x||2



N ||x||∞ ,

||x||∞ ≤

||x||1

||x||2 ≤

||x||1

≤ N||x||∞ , √ ≤ N ||x||2 .

(4.28) (4.29) (4.30)

Die (nicht zu verbessernden) Absch¨atzungen in (4.28) (4.29) erh¨alt man leicht, und die erste Absch¨atzung in (4.30) erh¨alt man wie folgt (wobei o.B.d.A. x = 0 angenommen sei): y :=

x || x ||1

;

||x||2

=

||x||1 ||y ||2



1/2

||x||1 ||y ||1

=

||x||1 .

Die zweite Absch¨atzung in (4.30) schließlich folgt aus der Cauchy Schwarzschen Ungleichung: ||x||1 =

N  k=1

1 · |xk |



1/2  1/2   N N 1 |xk |2 k=1

=



N||x||2 .

k=1

Somit werden f¨ur große Zahlen N ∈ N die jeweils zweiten Absch¨atzungen in (4.28) (4.30) praktisch bedeutungslos aufgrund der Gr¨oße der auftretenden Koeffizienten.

76

Kapitel 4 L¨osung linearer Gleichungssysteme

Bemerkung 4.33 Allgemeiner ist f¨ur jedes 1 ≤ p < ∞ durch  1/p N ||x||p := |xk |p , x ∈ KN , k=1

eine Norm auf KN definiert mit der Eigenschaft limp→∞ ||x||p = ||x||∞ f¨ur x ∈ KN .



Im Folgenden werden drei spezielle Matrixnormen vorgestellt. Dabei erh¨alt nur die letzte der drei Normen eine besondere Indizierung, f¨ur die beiden anderen werden sp¨ater eigene Bezeichnungen vergeben (siehe Theorem 4.40). Theorem 4.34 Durch ||A|| ||A|| ||A||F

= = =

max

j=1..N

max

k=1..N

  N

N  k=1 N 

|ajk |

(Zeilensummennorm );

|ajk |

(Spaltensummennorm );

j=1

|ajk |2

1/2

(A = (ajk ) ∈ KN×N )

(Frobeniusnorm )

j,k=1

sind jeweils Normen auf KN×N definiert. B EWEIS . Der Nachweis daf¨ur, dass die Zeilen beziehungsweise die Spaltensummennorm tats¨achlich die Normeigenschaften erf¨ullen, ist elementar und wird an dieser Stelle nicht gef¨uhrt. Jede Matrix A ∈ KN×N l¨asst sich als Vektor der L¨ange N 2 auffassen, und die Frobeniusnorm f¨allt dann mit der euklidischen Vektornorm in Theorem 4.32 zusammen, so dass die Frobeniusnorm tats¨achlich auch die Normeigenschaften erf¨ullt. Definition 4.35 Eine Matrixnorm || · || : KN×N → R + nennt man (a) submultiplikativ, falls ||AB ||



||A||||B ||



 A, B ∈ KN×N ;

(b) mit einer gegebenen Vektornorm || · || : KN → R + vertr¨aglich, falls   ||Ax|| ≤ ||A||||x|| A ∈ KN×N , x ∈ KN .

Definition 4.36 Sei || · || : KN → R + eine Vektornorm. Die induzierte Matrixnorm ist definiert durch ||A||

=

max

0=x∈K N

|| Ax || , || x ||

A ∈ KN×N .

(4.31)

Aufgrund der positiven Homogenit¨at der Vektornorm gilt ||A|| = maxx∈KN , || x ||=1 ||Ax|| f¨ur jede Matrix A ∈ KN×N . Wegen der Kompaktheit der Sph¨are {x ∈ KN : ||x|| = 1} sowie der Stetigkeit der Norm5 wird das Maximum in (4.31) tats¨achlich angenommen. 5

siehe Korollar 4.31

Abschnitt 4.7

77

Normen und Fehlerabsch¨atzungen

Die wesentlichen Eigenschaften induzierter Matrixnormen sind im Folgenden zusammengefasst: Theorem 4.37 Die durch eine Vektornorm induzierte Matrixnorm besitzt die in Definition 4.29 angegebenen Normeigenschaften, und sie ist sowohl submultiplikativ als auch vertr¨aglich mit der zugrunde liegenden Vektornorm. Es gilt ||I || = 1. B EWEIS . Die Normeigenschaften der induzierten Matrixnorm sind leicht nachzupr¨ufen, gleiches gilt f¨ur die Vertr¨aglichkeit. Zum Nachweis der Submultiplikativit¨at seien nun || · || : KN → R + die Vektornorm mit induzierter Matrixnorm || · || : KN×N → R + . F¨ur A, B ∈ KN×N und x ∈ KN mit Bx = 0 gilt dann || ABx || || x ||

=

|| A( Bx ) || || Bx || || Bx || || x ||



||A||||B ||,

und im Fall 0 = x ∈ KN , Bx = 0 gilt sicher auch 0 = ||ABx||/||x|| ≤ ||A||||B ||, so dass man insgesamt ||AB || ≤ ||A||||B || erh¨alt. Die Identit¨at ||I || = 1 schließlich ist unmittelbar klar.

4.7.2 Spezielle Matrixnormen Definition 4.38 F¨ur jede Matrix B ∈ KN×N bezeichnet σ ( B ) = {λ ∈ C : λ ist Eigenwert von B }, rσ ( B ) =

max |λ|

λ∈σ(B)

das Spektrum von B beziehungsweise den Spektralradius von B. Theorem 4.39 (a) F¨ur eine Matrix A ∈ CN×N und die durch eine Vektornorm induzierte Matrixnorm || · || : CN×N → R + gilt ||A|| ≥ rσ ( A ).

(4.32)

(b) Ist A ∈ R N×N und sind alle Eigenwerte von A reell, so gilt die Ungleichung (4.32) auch f¨ur reelle Matrixnormen || · || : R N×N → R + . B EWEIS . (a) Sei 0 = x ∈ CN Eigenvektor zum Eigenwert λ ∈ C einer Matrix A ∈ CN×N , Ax = λx. Mit der zugeh¨origen Vektornorm || · || : CN → R + gilt dann ||A||



|| Ax || || x ||

=

|λ| || x || || x ||

=

|λ|.

(b) In der vorliegenden Situation folgt die Behauptung wie in Teil (a) dieses Beweises, wobei dann jeweils “C“ durch “R“ zu ersetzen ist. Mit dem folgenden Theorem werden f¨ur die durch die Vektornormen || · ||∞ und || · ||1 jeweils induzierten Matrixnormen handliche Darstellungen geliefert.

78

Kapitel 4 L¨osung linearer Gleichungssysteme

Theorem 4.40 F¨ur A = ( ajk ) ∈ KN×N gilt ||A||∞ ||A||1

=

N 

max

j=1..N

=

max

k=1 N 

k=1..N

|ajk |

(Zeilensummennorm, siehe Theorem 4.34);

|ajk |

(Spaltensummennorm,

.......

).

j=1

B EWEIS . Es wird zun¨achst die angegebene Darstellung f¨ur ||A||∞ nachgewiesen. F¨ur x ∈ KN gilt     N N N     ||Ax||∞ = max  ajk xk  ≤ max |ajk ||xk | ≤ max |ajk | ||x||∞ , j=1..N

j=1..N

k=1

j=1..N

k=1

k=1

und f¨ur den Nachweis der umgekehrten Absch¨atzung sei j ∈ {1, 2, . . . , N } beliebig aber fest. F¨ur x = ( xk ) ∈ KN mit  xk

|ajk |/ajk ,

=

falls ajk = 0,

1,

(k = 1, 2, . . . , N )

sonst,

gilt dann ||x||∞ = 1 und somit ||A||∞



||Ax||∞

  N   ajk xk   k=1  



=

N 

|ajk |,

(4.33)

k=1

= | ajk |

und aufgrund der freien Wahl des Indexes j ∈ {1, 2, . . . , N } in der Absch¨atzung (4.33) folgt die Darstellung f¨ur ||A||∞ . Nun soll die Darstellung f¨ur ||A||1 nachgewiesen werden. F¨ur x ∈ KN gilt ||Ax||1 =

N   N  



j=1



  ajk xk 

N  N 



max

k=1..N

N  N 

=

j=1 k=1

k=1



|ajk ||xk |

N 

|ajk |

 N

j=1

|xk |

j=1

k=1

=

k=1

 max

k=1..N

N 

 |ajk | |xk |



|ajk | ||x||1 ,

j=1

und f¨ur den Nachweis der umgekehrten Absch¨atzung sei n ∈ {1, 2, . . . , N } beliebig aber fest. Mit dem n ten Einheitsvektor en = ( δkn )k ∈ KN erh¨alt man wegen ||en ||1 = 1 somit ||A||1



||Aen ||1

=

N   N  



j=1

k=1

  ajk δkn 

=

N 

|ajn |,

(4.34)

j=1

und aufgrund der freien Wahl des Indexes n ∈ {1, 2, . . . , N } in der Absch¨atzung (4.34) folgt die Darstellung f¨ur ||A||1 . Im Folgenden k¨onnen die Betrachtungen wieder auf den reellen Fall beschr¨ankt werden6 , K = R. Als unmittelbare Konsequenz aus Theorem 4.40 erh¨alt man: 6

siehe die einf¨uhrenden Bemerkungen in diesem Abschnitt 4.7

Abschnitt 4.7

79

Normen und Fehlerabsch¨atzungen

Korollar 4.41 F¨ur Matrizen A ∈ R N×N gilt ||A||∞ = ||A||1 ,

||A||1 = ||A||∞ .

Das folgende Theorem liefert f¨ur die durch die euklidische Vektornorm || · ||2 induzierte Matrixnorm eine alternative Darstellung. Theorem 4.42 F¨ur A ∈ R N×N gilt ||A||2

=

rσ ( AA )1/2

(Spektralnorm ).

B EWEIS . Es ist AA ∈ R N×N eine symmetrische, positiv semidefinite Matrix, so dass es ein vollst¨andiges System u1 , . . . , uN ∈ R N von orthonormalen Eigenvektoren von AA gibt, das heißt, AAuk

=

k = 1, 2, . . . , N,

λk u k ,



u k u

= δk . Sei nun x ∈ R N mit ||x||2 = 1 mit {λ1 , . . . , λN } = σ ( A A ) ⊂ [ 0, ∞ ), und beliebig. Wegen der Orthonormalit¨at der Eigenvektoren erh¨alt man mit der Darstellung x = N k=1 ck uk Folgendes, ||Ax||22

=

xAAx

=

N 

λk c2k

(∗)



k=1



max λk

k=1,...,N

N 

c2k

=

rσ ( AA )||x||22 ,

k=1

und in (∗) wird Gleichheit angenommen f¨ur einen Eigenvektor x zu einem maximalen Eigenwert von AA. Die Bezeichnung “Spektralnorm“ begr¨undet sich in der folgenden Identit¨at (4.35) f¨ur symmetrische Matrizen: Theorem 4.43 Sei A ∈ R N×N eine symmetrische Matrix, A = A. Dann gilt ||A||2 = rσ ( A ).

(4.35)

F¨ur jede andere durch eine Vektornorm induzierte Matrixnorm || · || : R N×N → R + gilt rσ ( A ) ≤ ||A||.

B EWEIS . Wegen σ ( A2 ) = {λ2 : λ ∈ σ ( A ) } gilt rσ ( A2 ) = rσ ( A )2 und daher 1/2  ||A||2 = rσ ( AA )1/2 = rσ ( A2 )1/2 = rσ ( A )2 = rσ ( A ) . Der zweite Teil des Theorems folgt nun mit Theorem 4.39. Beispiel 4.44 Die symmetrische Matrix * A =

1 3 3 2

+

(4.36)

80

Kapitel 4 L¨osung linearer Gleichungssysteme

√ √ besitzt die Eigenwerte λ1/2 = (3 ± 37 )/2, so dass ||A||2 = (3 + 37)/2 ≈ 4.541 gilt. Weiter gilt ||A||1 = ||A||∞ = 5. Nebenbei zeigt dieses Beispiel, dass die in (4.28) angegebene Absch¨atzung ||x||∞ ≤ ||x||2 , x ∈ R N , sich nicht auf die jeweils induzierten Matrixnormen u¨ bertr¨agt. Als ein weiteres Beispiel betrachte man die nichtsymmetrische Matrix A ∈ R 2×2 definiert durch * A =

0 0

1 1

+

*

* 

=⇒

A A =

Hier gilt ||A||1 = 2 und rσ ( A ) = 1 = ||A||∞ sowie ||A||2 = “A = A“ in Theorem 4.43 nicht verzichtet werden kann.



0 0

0 2

++ .

2, so dass auf die Voraussetzung 

Das folgende Theorem liefert einfache Absch¨atzungen f¨ur die Spektralnorm. Theorem 4.45 F¨ur jede Matrix A ∈ R N×N gelten die beiden folgenden Absch¨atzungen, 1/2  ||A||2 ≤ ||A||∞ ||A||1 , ||A||2 ≤ ||A||F .

B EWEIS . Die erste Absch¨atzung erh¨alt man als Korollar zu Theorem 4.43, ||A||2 = rσ ( AA )1/2

||AA||2

1/2

=

≤ (||A||∞ ||A||∞ )1/2

(∗∗)

=

(∗)



||AA||1/2 ∞

(||A||1 ||A||∞ )1/2 ,

wobei (∗) aus Theorem 4.43 und (∗∗) aus Korollar 4.41 folgt. Die zweite Absch¨atzung resultiert aus der Cauchy Schwarzschen Ungleichung, ||Ax||2 =

  1/2   N   N N   N N 2 1/2  ajk xk  ≤ |ajk |2 |xs |2 = ||A||F ||x||2 j=1

k=1

j=1

k=1

s=1

f¨ur x ∈ R N .

4.7.3 Die Konditionszahl einer Matrix Bei Stabilit¨atsuntersuchungen f¨ur lineare Gleichungssysteme spielt der nachfolgende Begriff eine besondere Rolle. Definition 4.46 Sei A ∈ R N×N eine regul¨are Matrix und || · || : R N×N → R + eine Matrixnorm. Die Zahl cond( A )

=

||A||||A−1 ||

wird als Konditionszahl der Matrix A bezeichnet. Das folgende Theorem liefert eine alternative Darstellung der Konditionszahl, die unter anderem eine geometrische Deutung erm¨oglicht (siehe Bemerkung 4.48).

Abschnitt 4.7

81

Normen und Fehlerabsch¨atzungen

Theorem 4.47 Sei A ∈ R N×N eine regul¨are Matrix und || · || : R N → R + eine Vektornorm. F¨ur die induzierte Konditionszahl gilt dann    cond( A ) = max ||Ax|| min ||Ax|| . (4.37) || x ||=1

|| x ||=1

B EWEIS . Die Darstellung (4.37) erh¨alt man wie folgt, ||A−1 || = =

max

0=y∈R N



|| A−1 y || || y ||

min

x∈R N ,|| x ||=1

(∗)

=

||Ax||

max

−1

0=x∈R N

|| x || || Ax ||

=

max

x∈R N ,|| x ||=1

1 || Ax ||

,

wobei die Identit¨at (∗) aus der Substitution y = Ax resultiert. Bemerkung 4.48 Die Konditionszahl cond( A ) gibt also die Bandbreite an, um die sich die Vektorl¨ange bei Multiplikation mit der Matrix A a¨ ndern kann. Aus der Darstellung (4.37) ergibt sich zudem die Ungleichung cond( A ) ≥ 1. 

4.7.4 St¨orungsresultate fur ¨ Matrizen Lemma 4.49 F¨ur die durch eine Vektornorm induzierte Matrixnorm || · || : R N×N → R + und jede Matrix B ∈ R N×N mit ||B || < 1 ist die Matrix I + B regul¨ar und es gilt || ( I + B )−1 ||



1 . 1 − || B ||

B EWEIS . Die umgekehrte Dreiecksungleichung liefert f¨ur x ∈ R N || ( I + B )x|| = ||x + Bx||



≥ ||x|| − ||B ||||x||

||x|| − ||Bx|| =

(1 − ||B ||)||x||,

was die Regularit¨at der Matrix I + B impliziert. Die Substitution y = ( I + B )x in der vorangegangenen Absch¨atzung liefert dann auch ||y ||



(1 − ||B ||)|| ( I + B )−1 y ||,

y ∈ RN ,

was den Nachweis von Lemma 4.49 komplettiert. Als eine Konsequenz aus Lemma 4.49 erh¨alt man die Offenheit der Menge der regul¨aren Matrizen und die Stetigkeit der Matrixinversion. Korollar 4.50 Sei || · || : R N×N → R + die durch eine Vektornorm induzierte Matrixnorm, und . .. A ∈ R N×N sei eine regul¨are Matrix. F¨ur jede Matrix .............. A ∈ R N×N mit ||.............. A|| < 1/||A−1 || ist die . . . Matrix A + .............. A regul¨ar, und || ( A + ..............A )−1 || ≤ ...

1 . ... || A−1 ||−1 − ||............. A ||

|| ( A + .............. A )−1 − A−1 || ≤ c||.............. A|| ...

...

...

f¨ur ||.............. A|| ≤

1 , 2|| A−1 ||

mit c = 2||A−1 ||2 .

82

Kapitel 4 L¨osung linearer Gleichungssysteme

...

...

...

B EWEIS . Wegen ||A−1.............. A|| ≤ ||A−1 ||||.............. A|| < 1 ist nach Lemma 4.49 die Matrix A + .............. A = ... ... ... A(I + A−1............. A) regul¨ar, und mit der Darstellung ( A + .............A )−1 = ( I + A−1............. A )−1 A−1 erh¨alt man zudem || ( A + ..............A )−1 || ...



|| A−1 || ... 1 − || A−1.............. A ||

|| A−1 || . ... 1 − || A−1 || ||.............. A ||



Die zweite Absch¨atzung des Korollars folgt unmittelbar aus der ersten Absch¨atzung zusammen mit der Darstellung ( A + ..............A )−1 − A−1 ...

||

= || ≤

......

−( A + ..............A )−1 ..............AA−1 , ...

...

|| A−1 || . ||.............. A||. ... || − ||............. A ||

−1 −1

|| A

Korollar 4.51 Sei || · || : R N×N → R + die durch eine Vektornorm induzierte Matrixnorm, und A ∈ R N×N sei eine regul¨are Matrix. (a) F¨ur jede Matrix B ∈ R N×N gilt: (b) Es gilt 1 cond( A )



min

B ist singul¨ar

=⇒

1 || A−1 ||



||A − B ||;

 ||A − B || : B ∈ R N×N ist singul¨ar . ||A||

(4.38)

B EWEIS . Aussage (a) ergibt sich durch Negation der ersten Aussage in Korollar 4.50, und Division in (a) durch ||A|| liefert Aussage (b). Bemerkung 4.52 1. Wegen der Stetigkeit der Matrixnorm (siehe Korollar 4.31) sowie der Abgeschlossenheit der Menge der singul¨aren Matrizen aus R N×N (siehe Korollar 4.50) wird das Minimum in (4.38) tats¨achlich auch angenommen. 2. Durch die Aussage (b) in Korollar 4.51 wird klar, dass 1/cond( A ) eine untere Schranke f¨ur den relativen Abstand der Matrix A zur Menge der singul¨aren Matrizen darstellt. 

4.7.5 Fehlerabsch¨atzungen fur ¨ fehlerbehaftete Gleichungssysteme Es k¨onnen nun die zentralen Theoreme dieses Abschnitts 4.7 formuliert werden. Theorem 4.53 (Fehlerbehaftete rechte Seiten) Mit || · || seien gleichzeitig sowohl eine Vektornorm auf R N als auch die induzierte Matrixnorm auf R N×N bezeichnet. Es sei A ∈ R N×N eine regul¨are Matrix, und b, x ∈ R N und .............. b, .............. x ∈ R N seien Vektoren mit Ax = b,

A( x + ............ x ) = b + ............. b.

(4.39)

Dann gelten f¨ur den absoluten beziehungsweise den relativen Fehler die folgenden Absch¨atzungen, ||................ x|| ≤ ||A−1 ||||............... b||,

..

.

||.............. b || ||............. x || ≤ cond( A ) . || x || || b ||

(4.40)

Abschnitt 4.8

83

Orthogonalisierungsverfahren

B EWEIS . Aus (4.39) folgt unmittelbar A.............. x = .............. b beziehungsweise .............. x = A−1.............. b, woraus die erste Absch¨atzung in (4.40) resultiert. Aus dieser Absch¨atzung wiederum ergibt sich die zweite Absch¨atzung in (4.40), .

||............... x || || x ||

Ax=b



||A−1 ||

.

||.............. b || || Ax || || b || || x ||



..

cond( A )

||.............. b || . || b ||

Bemerkung 4.54 F¨allt also die Konditionszahl einer Matrix A groß aus (cond( A )  1), so tut dies auch in (4.40) die obere Schranke f¨ur den relativen Fehler in der L¨osung der fehlerbehafteten Version des linearen Gleichungssystems Ax = b. In einem solchen Fall spricht man von schlecht konditionierten Gleichungssystemen Ax = b.  Vergleichbares wie in Theorem 4.53 gilt auch im Fall fehlerbehafteter Matrizen: Theorem 4.55 (Fehlereinfl¨usse in der rechten Seite und der Matrix) Mit || · || seien gleichzeitig sowohl eine Vektornorm als auch die induzierte Matrixnorm bezeichnet, A ∈ R N×N sei eine . . regul¨are Matrix, und .............. A ∈ R N×N sei eine Matrix mit ||.............. A|| < ||A−1 ||−1. . . Dann gilt f¨ur beliebige Vektoren b, x ∈ R N und ............. b, ............. x ∈ R N mit (A +

Ax = b,

...... .........

A ) ( x + ................ x ) = b + ............. b,

(4.41)

die Absch¨atzung .

||............... x || || x ||



 C

.

.

||.............. A || ||.............. b || + || A || || b ||



mit C =

1 1 cond( A )



|| ........ A || || A ||

.

B EWEIS . Aus (4.41) folgt unmittelbar (A +

. ...... ..........

A )................ x

=

..... ...........

.

b − ................ Ax, ...

und Korollar 4.50 liefert nun (neben der Regularit¨at der Matrix A + .............. A) die Absch¨atzung  ...  . 1 || ........... b|| + || ...............A||||x|| . || .............. x|| ≤ ..... −1 −1 .. .. || A

||

− ||...... A ||

Anschließende Division durch ||x|| liefert wegen ||b|| ≤ ||A||||x|| die Aussage des Theorems.

4.8 Orthogonalisierungsverfahren In diesem Abschnitt soll f¨ur eine gegebene Matrix A ∈ R M×N , 1 ≤ N ≤ M, eine Faktorisierung der Form A = QS

(4.42)

bestimmt werden mit einer orthogonalen Matrix Q, Q ∈ R M×M ,

Q−1 = Q,

(4.43)

84

Kapitel 4 L¨osung linearer Gleichungssysteme

und S ist eine verallgemeinerte obere Dreiecksmatrix, ⎞ ⎛ ⎞ ⎛ ................................... ⎜ ⎟ R ............................... .......................... ⎜ ⎟ ........ × × S = ⎜ ⎟ ∈ R M N , R = ⎝ .................................................... ⎠ ∈ R N N , .... ⎝ ⎠ 0

0 = ( 0 ) ∈ R ( M −N )×N . (4.44)

Eine solche Faktorisierung (4.42) erm¨oglicht beispielsweise die stabile L¨osung von regul¨aren aber eventuell schlecht konditionierten linearen Gleichungssystemen Ax = b (f¨ur M = N ); mehr hierzu in Abschnitt 4.8.4. Auch die stabile L¨osung von Ausgleichsproblemen ||Ax−b||2 → min, x ∈ R N , ist mit einer solchen Faktorisierung m¨oglich. Details hierzu finden Sie in Abschnitt 4.8.5.

4.8.1 Elementare Eigenschaften orthogonaler Matrizen Vorbereitend werden einige Eigenschaften orthogonaler Matrizen vorgestellt. Lemma 4.56 Sei Q ∈ R M×M eine orthogonale Matrix. Dann ist auch Q eine orthogonale Matrix, und es gilt ||Qx||2

=

||x||2

=

||Qx||2 ,

x ∈ RM ,

das heißt, Q und Q sind isometrisch bez¨uglich der euklidischen Vektornorm. B EWEIS . Es gilt (Q)−1 = (Q−1 )−1 = Q = (Q), somit ist auch Q eine orthogonale Matrix. Des Weiteren besitzt die Matrix Q die Isometrieeigenschaft:    1/2 ||Qx||2 = x Q Qx = (xx)1/2 = ||x||2 .   =I

Diese beiden Aussagen ergeben dann die Identit¨at ||Qx||2 = ||x||2 . Bezogen auf die euklidische Vektornorm || · ||2 a¨ ndert sich die Konditionszahl einer quadratischen regul¨aren Matrix nicht bei Multiplikation mit einer orthogonalen Matrix: Korollar 4.57 Sei A ∈ R N×N regul¨ar, und Q ∈ R N×N sei eine orthogonale Matrix. Dann gilt cond2 ( QA ) = cond2 ( A ). B EWEIS . Nach Lemma 4.56 gilt ||QAx||2 = ||Ax||2 f¨ur x ∈ R N , was unmittelbar auf ||A||2 = ||QA||2 f¨uhrt. Weiter gilt nach Lemma 4.56 auch ||A−1 Q||2

= (∗)

=

max

|| A−1 Qx ||2 || x ||2

max

|| A−1 y ||2 || y ||2

0=x∈R N

0=y∈R N

=

max

0=x∈R N

|| A−1 Qx ||2 || Qx ||2

= ||A−1 ||2 ,

wobei (∗) mit der Substitution y = Qx folgt. Insgesamt erh¨alt man daraus cond2 ( QA )

=

||QA||2 ||A−1 Q−1 ||2  = Q

=

||A||2 ||A−1 ||2

=

cond2 ( A ).

Abschnitt 4.8

85

Orthogonalisierungsverfahren

Das folgende Resultat wird in Abschnitt 4.8.3 u¨ ber die Gewinnung einer Faktorisierung A = QS mittels spezieller und hintereinander auszuf¨uhrender Transformationen ben¨otigt. Lemma 4.58 F¨ur orthogonale Matrizen Q1 , Q2 ∈ R M×M ist auch Q1 Q2 eine orthogonale Matrix. −1   B EWEIS . Es gilt (Q1 Q2 )−1 = Q−1 = Q 2 Q1 = (Q1 Q2 ) . 2 Q1

4.8.2 Die Faktorisierung A = QR mittels Gram– Schmidt– Orthogonalisierung F¨ur eine quadratische regul¨are Matrix A ∈ R N×N nimmt der Ansatz (4.42) (4.44) die folgende Form an, A = QR

(4.45)

mit einer orthogonalen Matrix Q ∈ R N×N und der oberen Dreiecksmatrix R ∈ R N×N . Mit den Notationen ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ r11 p p p r1N ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎜ pp ⎟ pp (4.46) A = ⎜ a1 . . . aN ⎟ , Q = ⎜ q1 . . . qN ⎟ , R = ⎜ p p ⎟ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ rN N (mit Vektoren ak , qk ∈ R N ) f¨uhrt der Ansatz (4.45) auf die folgenden Forderungen, ak =

k  j=1

k = 1, 2, . . . , N,

rjk qj ,

q1 , . . . , qN ∈ R N

paarweise orthonormal.

(4.47) (4.48)

Im Folgenden wird beschrieben, wie man mittels einer Gram Schmidt Orthogonalisierung eine solche Faktorisierung (4.47) (4.48) gewinnt. Algorithmus 4.59 (Gram Schmidt Orthogonalisierung f¨ur eine regul¨are Matrix A ∈ R N×N ) Hier geht man schrittweise f¨ur k = 1, 2, . . . , N so vor: ausgehend von bereits gewonnenen orthonormalen Vektoren q1 , q2 , . . . , qk−1 ∈ R N mit span {a1 , . . . , ak−1 }

=

span {q1 , . . . , qk−1 } =: Mk−1,

bestimmt man in Schritt k ≥ 1 das Lot von ak auf den linearen Unterraum Mk−1 ⊂ R N , qk := ak −

k−1 

(a k qj )qj ,

(4.49)

j=1

und nach der Normierung qk :=

qk || qk ||2

(4.50)

86

Kapitel 4 L¨osung linearer Gleichungssysteme

sind die Vektoren q1 , . . . , qk ∈ R N paarweise orthonormal mit span {a1 , . . . , ak }

=

span {q1 , . . . , qk }.



Der Gleichung (4.49) entnimmt man unmittelbar die Darstellung ak

=

|| qk ||2 qk +   =: rkk

k−1  j=1

( a k qj ) qj ,

k = 1, 2, . . . , N,

  =: rjk

(4.51)

und mit den Notationen aus (4.50) beziehungsweise (4.51) erh¨alt man nach Abschluss der Gram Schmidt Orthogonalisierung die gesuchte Faktorisierung (4.47) (4.48)7 . Der in Algorithmus 4.59 beschriebene Orthogonalisierungsprozess ist jedoch unter Umst¨anden nicht gutartig (wenn etwa || qk ||2 klein ausf¨allt), so dass zur Bestimmung einer QR Faktorisierung andere Methoden vorzuziehen sind (mehr hierzu im folgenden Abschnitt 4.8.3).

4.8.3 Die Faktorisierung A = QS mittels Householder– Transformationen Gegenstand dieses Abschnitts 4.8.3 ist die Bestimmung einer Faktorisierung der Form A = QS entsprechend (4.43) (4.44) mittels Householder Transformationen, wobei wieder der allgemeine Fall A ∈ R M×N mit M ≥ N ≥ 1 zugelassen wird. In dem folgenden Unterabschnitt werden die n¨otigen Vorbereitungen getroffen. Voruberlegungen ¨ Lemma 4.60 F¨ur eine Matrix H = I − 2ww ∈ R s×s

mit

w ∈ Rs ,

ww = 1

(4.52)

mit s ≥ 1 gilt Folgendes: H = H H2 = I 

H H = I

(H ist symmetrisch)   H ist involutorisch

(4.54)

(H ist orthogonal).

(4.55)

(4.53)

B EWEIS . Die Identit¨aten (4.53) (4.54) ergeben sich wie folgt, H = I − 2( ww)

=

I − 2ww

H2 = (I − 2ww)(I − 2ww)

=

=

H,

= 1

  I − 2ww − 2ww + 4w ( ww ) w

und die Identit¨at (4.55) folgt unmittelbar aus (4.53) (4.54). 7

beziehungsweise in Matrixschreibweise und mit der Notation aus (4.46) die Faktorisierung A = QR

=

I,

Abschnitt 4.8

87

Orthogonalisierungsverfahren

Definition 4.61 Eine Abbildung Rs → Rs , mit einer Matrix H ∈ R Transformation.

s×s

x → Hx

der Form (4.52) mit s ≥ 1 bezeichnet man als Householder

Eine Householder Transformation mit einer Matrix H ∈ R s×s der Form (4.52) bewirkt aufgrund der Identit¨at x − 2( wx )w = x − ( wx )w − ( wx )w eine Spiegelung von x an der Hyperebene {z ∈ R s : zw = 0}. F¨ur den Fall s = 2 ist dies in Bild 4.2 veranschaulicht. 

x − 2(w x)w

   {z : z w = 0}

 rH  OC HH HHrx − (wx)w C C H r........H . C .............. HH Hr x *  C   C    C ........  ... .. .. 0C HrH ...  j w  

Bild 4.2 Darstellung der Householder– Spiegelung f¨ur den zweidimensionalen Fall Bei der sukzessiven Triangulierung einer Matrix mittels Householder Transformationen (siehe unten) ist in jedem Teilschritt (f¨ur unterschiedliche Werte von s) ein Vektor w ∈ R s , ||w ||2 = 1, so zu bestimmen, dass die zugeh¨orige Householder Transformation einen gegebenen Vektor x ∈ R s in ein Vielfaches des ersten Einheitsvektors e1 = ( 1, 0, . . . , 0 ) ∈ R s abbildet. Das folgende Lemma gibt einen solchen Vektor w ∈ R s an. Lemma 4.62 Gegeben sei ein Vektor 0 = x ∈ R s mit x ∈ span {e1 }. F¨ur w

=

x + σe1 || x + σe1 ||2

mit

σ = ±||x||2 ,

(4.56)

gilt ||w ||2 = 1,

(4.57)

(I − 2ww)x = −σe1 .

(4.58)

B EWEIS . Wegen x ∈ span {e1 } verschwindet der Nenner in (4.56) nicht, so dass w ∈ R s wohldefiniert ist und offensichtlich (4.57) gilt. F¨ur den Nachweis der Identit¨at (4.58) berechnet man ||x + σe1 ||22

=

2 ||x||22 + 2σe 1x + σ

=

2( x + σe1 )x.

Daraus erh¨alt man 2wx

=

2( x + σe1 )x || x + σe1 ||2

=

||x + σe1 ||2,

88

Kapitel 4 L¨osung linearer Gleichungssysteme

was zusammen mit (4.56) die Darstellung 2w wx

=

x + σe1

liefert. Dies stimmt mit der Identit¨at (4.58) u¨ berein. Bemerkung 4.63 Der Vektor w ∈ R s in (4.56) entsteht also aus x ∈ R s durch eine Modifikation des ersten Eintrags von x sowie einer anschließenden Normierung. Zur Vermeidung von Stellenausl¨oschungen wird in (4.56) σ = sgn( x1 )||x||2 gew¨ahlt. Hier bezeichnet f¨ur eine Zahl y∈R  sgn( y ) =

falls y ≥ 0,

1, −1,



sonst.

Triangulierung mittels Householder– Transformationen Im Folgenden wird beschrieben, wie man ausgehend von der Matrix A = A( 1) ∈ R M×N sukzessive Matrizen der Form ⎞ ⎛ (k ) (k ) (k ) a a · · · · · · · · · a 11 12 1N ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ p p pp pp ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ (k ) (k ) ⎟ ⎜ a · · · · · · a k−1,k−1 k−1,N ⎟ ⎜ × k = 2, 3, . . . , N∗ , A(k ) = ⎜ ⎟ ∈ RM N , ⎟ ⎜ (k ) (k ) ⎟ ⎜ a · · · a kk kN ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ pp pp ⎟ ⎜ p p ⎟ ⎜ ⎠ ⎝ (4.59) (k ) (k ) aM k · · · aM N bestimmt, so dass dann schließlich A( N∗ ) = S gilt mit einer verallgemeinerten oberen Dreiecksmatrix S ∈ R M×N von der Form (4.44). Hierbei wird die Bezeichnung  N, falls M = N, N∗ = N + 1, falls M > N, verwendet. Die Matrizen in (4.59) werden dabei f¨ur k = 1, 2, . . . , N∗ − 1 sukzessive durch Transformationen der Form ⎞ ⎛ ( k+1 )

A

k A , = H (k )

⎜ ⎜ k = ⎜ H ⎜ ⎜ ⎝

Ik−1 0

0 Hk

⎟ ⎟ ⎟ ⎟, ⎟ ⎠

Hk

=

IM −(k−1) − 2wk w k,

wk ∈ R M −(k−1) , ||wk ||2 = 1,

gewonnen, wobei wieder Is ∈ R s×s die Einheitsmatrix bezeichnet, und der Vektor wk ∈ R M −(k−1) ist so zu w¨ahlen, dass

Abschnitt 4.8

89

Orthogonalisierungsverfahren



a(kkk )





⎜ ⎟ ⎜ ⎟ Hk ⎜ ppp ⎟ ⎝ ⎠ (k ) aM k

=

−σk



⎟ ⎜ ⎜ 0 ⎟ ⎜ p ⎟ ⎜ pp ⎟ ⎠ ⎝ 0

gilt; die genaue Form von wk ∈ R M −k+1 und σk ∈ R entnimmt man Lemma 4.62. Nach Lemma 1 , . . . , H  N∗ −1 orthogonal und symmetrisch, so dass man mit 4.60 sind die Matrizen H S

=

N∗ −1 H N∗ −2 · · · H 1 A, H

Q

2 · · · H 1 H N∗ −1 , H

=

die gew¨unschte Faktorisierung A = QS erh¨alt, wobei Q nach Lemma 4.58 tats¨achlich eine Orthogonalmatrix ist. Bemerkung 4.64 (a) Praktisch geht man f¨ur k = 1, 2, . . . , N∗ − 1, so vor, dass man das Diagonalelement a(kkk+1) gesondert abspeichert und in der Matrix A( k+1) den frei werdenden Platz in der k ten Spalte unterhalb der Diagonalen dazu verwendet, den Vektor wk abzuspeichern. (b) Die n¨otigen Matrixmultiplikationen der Form ( I − 2ww)B

=

B − wv,

v := 2wB

f¨uhrt man so aus, dass zun¨achst der Vektor v berechnet und anschließend die Matrix B modifiziert (“aufdatiert“ ) wird. 

4.8.4 Anwendung 1: Stabile L¨osung schlecht konditionierter Gleichungssysteme Ax = b F¨ur eine regul¨are aber eventuell schlecht konditionierte Matrix A ∈ R N×N erm¨oglicht eine Faktorisierung der Form A = QR mit einer orthogonalen Matrix Q ∈ R N×N und einer oberen Dreiecksmatrix R ∈ R N×N eine stabile L¨osung zugeh¨origer linearer Gleichungssysteme. Dies liegt daran, dass f¨ur einen gegebenen Vektor b ∈ R N das Gleichungssystem Ax = b a¨ quivalent ist zu dem gestaffelten Gleichungssystem Rx = Qb, wobei die Matrix R bez¨uglich der Norm || · ||2 keine schlechtere Konditionszahl als die Matrix A aufweist und die Norm des Vektors Qb nicht gr¨oßer als die des Vektors b ist:8 cond2 ( R ) = cond2 ( QA )

=

cond2 ( A ),



||Q b||2 = ||b||2 .

4.8.5 Anwendung 2: Lineare Ausgleichsrechnung Lineare (unrestringierte) Ausgleichsprobleme sind von der Form ||Ax − b||2 → min 8

siehe Lemma 4.56 und Korollar 4.57 f¨ur die Einzelheiten

f¨ur x ∈ R N ,

(4.60)

90

Kapitel 4 L¨osung linearer Gleichungssysteme

mit gegebener Matrix A ∈ R M×N und gegebenem Vektor b ∈ R M . Zun¨achst soll ein konkretes lineares Ausgleichsproblem vorgestellt werden. Beispiel 4.65 Im Folgenden ist diejenige Gerade in R 2 gesucht, die im quadratischen Mittel den geringsten vertikalen Abstand zu vorgegebenen St¨utzpunkten ( yj , fj ) ∈ R 2 , j = 1, 2, . . . , M besitzt, mit paarweise verschiedenen reellen Zahlen y1 , y2 , . . . , yM ; diese bezeichnet man als Ausgleichsgerade. Wegen der allgemeinen Darstellung { cy + d : y ∈ R} mit gewissen Koeffizienten c, d ∈ R f¨ur Geraden in R 2 lautet das zu l¨osende Minimierungsproblem folglich M 

(cyj + d − fj )2 → min,

c, d ∈ R,

(4.61)

j=1

das man in der Form (4.60) schreiben kann, ,⎛ ⎞ ⎛ ⎞, , y 1 ( ) f1 , , , 1 ,⎜ p ⎟ ⎟, ⎜ c pp ⎟ , ⎜ pp ⎜ ppp ⎟ , → min − p ,⎝ ⎠ ⎝ ⎠, d , , , yM 1 fM ,

f¨ur c, d ∈ R.

2

Von allgemeinerer Form ist das Problem, Koeffizienten a0 , . . . , aN −1 ∈ R so zu bestimmen, dass  −1 k f¨ur das Polynom p( y ) = N k=0 ak y der Ausdruck M 

( p( yj ) − fj )2

(4.62)

j=1

minimal wird (mit M ≥ N ). Die zugeh¨orige L¨osung bezeichnet man als Ausgleichspolynom. Dieses Problem kann ebenfalls in der Form (4.60) geschrieben werden: ,⎛ ⎞⎛ ⎞ ⎛ ⎞, , , N −1 0 1 , , y . . . y y a 1 ,⎜ 1 1 ⎟⎜ 0 ⎟ ⎜ f1 ⎟ , ,⎜ p ⎟ ⎟ ⎟ , ⎜ ⎜ pp pp pp , ⎜ pp ⎟ ⎜ ppp ⎟ − ⎜ ppp ⎟ , → min f¨ur a0 , a1 , . . . , aN −1 ∈ R. p p p ,⎜ ⎟⎜ ⎟ ⎜ ⎟, ,⎝ ⎠⎝ ⎠ ⎝ ⎠, , , N −1 0 1 , yM yM . . . yM aN −1 fM , 2

F¨ur einen kleinen Grad N − 1 und eine große St¨utzpunkteanzahl M tritt bei dem Ausgleichspolynom u¨ blicherweise nicht ein solches oszillierendes Verhalten auf, wie man es von dem interpolierenden Polynom (vom Grad ≤ M − 1) zu erwarten hat.  Mit dem nachfolgenden Theorem wird klar, wie mittels Faktorisierungen der Form A = QS lineare Ausgleichsprobleme effizient gel¨ost werden k¨onnen. Theorem 4.66 F¨ur die Matrix A ∈ R M×N , 1 ≤ N ≤ M, mit maximalem Rang N sei eine Faktorisierung A = QS gegeben mit einer orthogonalen Matrix Q ∈ R M×M und der verallgemeinerten oberen Dreiecksmatrix S ∈ R M×N entsprechend (4.44), ⎞ ⎛ ) ( ................................... ............................... .......................... R . .. . . . . . ∈ R M×N , R = ⎝ .................................................. ⎠ ∈ R N×N , 0 = ( 0 ) ∈ R ( M −N )×N . S = ..... . 0 Zu gegebenem Vektor b ∈ R M sei Qb wie folgt partitioniert,

91

Weitere Themen und Literaturhinweise

* Qb =:

y1

+ ∈ RM ,

y2

y1 ∈ R N ,

y2 ∈ R M −N .

Dann ist f¨ur einen Vektor x∗ ∈ R N Folgendes a¨ quivalent: es l¨ost x∗ das lineare Ausgleichsproblem ||Ax − b||2 → min

f¨ur x ∈ R N ,

genau dann, wenn Rx∗ = y1 erf¨ullt ist. B EWEIS . F¨ur einen beliebigen Vektor x ∈ R N gilt ||Ax −

b||22



= ||QSx − QQ = ||Rx −

y1 ||22

b||22

+



= ||Sx − Q

b||22

,( , , = , ,

R

)

( x−

0

) ,2 , , , y2 ,

y1

2

||y2 ||22 ,

woraus die Aussage des Theorems folgt: ||Ax − b||2



||y2 ||2 ;

||Ax − b||2

=

||y2 ||2

⇐⇒

Rx = y1 .

Weitere Themen und Literaturhinweise Der Gauß Algorithmus zur L¨osung linearer Gleichungssysteme l¨asst sich auch mit der (numerisch allerdings aufw¨andigen) Totalpivotsuche durchf¨uhren (Aufgabe 4.7). Mehr Einzelheiten zu der in Abschnitt 4.6 behandelten LR Faktorisierung f¨ur Bandmatrizen werden beispielsweise in Schwarz/Kl¨ockner [90], Weller [106] und Werner [107] vorgestellt. Untersuchungen zu den Auswirkungen von St¨orungen symmetrischer positiv definiter Matrizen auf ihre Cholesky Faktorisierung findet man in Higham [52]. Eine QR Faktorisierung f¨ur Bandmatrizen wird in Oevel [75] vorgestellt. Bei der Analyse schlecht konditionierter linearer Gleichungssysteme l¨asst sich die Singul¨arwertzerlegung einer Matrix verwenden (Aufgabe 4.16). Weitere Einzelheiten zu diesem Thema werden beispielsweise in Baumeister [2], Engl / Hanke /Neubauer [23], Golub /Van Loan [32], H¨ammerlin/Hoffmann [45], Horn/Johnson [55], Kress [60], Louis [63] und in Rieder [82] behandelt. Zur stabilen L¨osung schlecht konditionierter linearer Gleichungssysteme bietet sich die Verwendung von Regularisierungsverfahren an ([2], [23], [45], [60], [63], [82], Groetsch [39] und Hofmann [54]). Auch u¨ ber Matrix¨aquilibrierungen l¨asst sich eine Reduktion der Konditionszahl erzielen (Aufgabe 4.18 und Schaback/Wendland [88]). Erw¨ahnenswert ist auch der Algorithmus von Strassen, mit dem sich der numerische Aufwand bei der Multiplikation zweier N × N Matrizen (von normalerweise O(N 3 ) arithmetischen Operationen) auf O(N log 2 7 ) ≈ O(N 2.807 ) arithmetische Operationen reduzieren l¨asst (siehe Strassen [97] ¨ beziehungsweise [45], [52] und Uberhuber [102]). Mittels verfeinerter Techniken kann man den Aufwand weiter reduzieren; der aktuelle Stand ist O(N 2.38 ) arithmetische Operationen (Pan [77]). Speziell auf Parallel und Vektorrechner zugeschnittene Verfahren finden Sie in Golub /Ortega [34], Schwandt [89] und in [88] und [90].

92

Kapitel 4 L¨osung linearer Gleichungssysteme

¨ Ubungsaufgaben Aufgabe 4.1 Man l¨ose das lineare Gleichungssystem * −4 + * + 1 x1 10 1 1 x2

=

* + 1 2

einmal mit dem Gauß Algorithmus ohne Pivotsuche und einmal mit dem Gauß Algorithmus inklusive Pivotsuche. Dabei verwende man jeweils eine dreistellige dezimale Gleitpunktarithmetik. (Hierbei ist nach jeder Operation das Zwischenergebnis auf drei g¨ultige Dezimalstellen zu runden. ) Aufgabe 4.2 Zur L¨osung eines linearen Gleichungssystems Ax = b mit einer Tridiagonalmatrix ⎛

A

=



a a ⎜ 11 12 ⎜ ⎜ a21 p p p p p p ⎜ ⎜ pp pp ⎜ p p ⎜ ⎜ ⎜ pp ⎜ p ⎝

⎟ ⎟ ⎟ ⎟ ⎟ pp ⎟ ∈ R N×N p ⎟ ⎟ ⎟ pp aN −1,N ⎟ p ⎠ aN,N −1 aN N

(es gilt ajk = 0 f¨ur k ≤ j − 2 oder k ≥ j + 2) vereinfache man den Gauß Algorithmus in geeigneter Weise und gebe die zugeh¨orige Anzahl der arithmetischen Operationen an. Aufgabe 4.3 Es sei A = ( ajk ) ∈ R N×N eine Bandmatrix von der Form (4.25) auf Seite 72. Zur L¨osung von linearen Gleichungssystemen Ax = b mit einer solchen Bandmatrix A gebe man einen modifizierten Gauß Algorithmus an, der mit h¨ochstens p( 3 + 2q )( N − 1 ) arithmetischen Operationen auskommt. Aufgabe 4.4 Zur L¨osung eines linearen Gleichungssystems Ax = b mit einer Matrix A ∈ R N×N wird der Gauß Algorithmus betrachtet. (a) Man zeige: ist die Matrix A symmetrisch, so sind auch die Matrizen B (1) , B (2) , . . . , B (N ) aus (4.4) auf Seite 57 allesamt symmetrisch. (b) Man zeige weiter: ist die Matrix A symmetrisch und positiv definit, so sind auch die Matrizen B (1) , B (2) , . . . , B (N ) aus (4.4) alle symmetrisch und positiv definit und der Gauß Algorithmus ist durchf¨uhrbar. (c) Man gebe einen auf symmetrische Matrizen zugeschnittenen Gauß Algorithmus an und berechne die dabei anfallende Zahl der arithmetischen Operationen. Aufgabe 4.5 Die Matrix A = ( ajk ) ∈ R N×N sei diagonaldominant, das heißt, |ajj | ≥

N 

|ajk |

f¨ur j = 1, 2, . . . , N,

k=1 k=j

und außerdem sei die Matrix A regul¨ar. Man weise nach, dass der Gauß Algorithmus ohne Pivotwahl durchf¨uhrbar ist. Aufgabe 4.6 Sei P ∈ R N×N eine Permutationsmatrix und π die zugeh¨orige Permutation. Man zeige: (a) Die Spaltenvektoren von P sind paarweise orthonormal zueinander, P −1 = P . (b) Mit der Darstellung (4.5) gilt

¨ Ubungsaufgaben

93 ⎛



⎜ ⎟ P −1 = ⎝eπ−1 (1) . . . eπ−1 (N ) ⎠ .

Aufgabe 4.7 (Numerische Aufgabe) Man schreibe einen Code, der den Gauß Algorithmus einmal ohne Pivot , einmal mit Spaltenpivot und schließlich mit Totalpivotsuche durchf¨uhrt. Bei letzterem ¨ werden – ausgehend von der Notation in Algorithmus 4.6 – beim Ubergang A(s) → A(s+1) zun¨achst Indizes p, q ∈ {s, s + 1, . . . , N } mit  (s)     a  ≥  a( s) , j, k = s, s + 1, . . . , N, pq jk bestimmt und a(pqs) als Pivotelement verwendet. Man teste das Programm anhand des Beispiels Ax = b mit ajk = bj

=

1 , j+k−1

j, k = 1, 2, . . . , N,

1 , j+N −1

j = 1, 2, . . . , N.

F¨ur N = 50, 100, 200 und jede Pivotstrategie gebe man die Werte x10j , j = 1, 2, 3, . . . , N/10 aus. Aufgabe 4.8 Man zeige: Eine Matrix A ∈ R N×N besitzt eine LR Faktorisierung genau dann, wenn die Hauptuntermatrizen von A von der Form ⎛ ⎞ a11 p p p a1n p ⎟ ⎜ pp p p n×n f¨ur n = 1, 2, . . . , N p pp ⎠ ∈ R ⎝ p an1 p p p ann alle regul¨ar sind. Aufgabe 4.9 Sei A = (ajk ) ∈ R N×N symmetrisch und positiv definit. Man zeige Folgendes: (a) ajj > 0, (b)

a2jk

< ajj akk ,

j = 1, 2, . . . , N , j, k = 1, 2, . . . , N,

j = k,

(c) der betragsm¨aßig gr¨oßte Eintrag von A liegt auf der Hauptdiagonalen. Aufgabe 4.10 Man rechne nach, dass bei der Berechnung einer LR Faktorisierung einer gegebenen Matrix A ∈ R N×N gem¨aß der Parkettierung von Crout insgesamt ( 2N 3 /3 ) (1 + O( 1/N ) ) arithmetische Operationen anfallen. Aufgabe 4.11 Man zeige Folgendes: (a) Die Menge der skalierten (die Diagonaleintr¨age sind alle = 1) unteren Dreiecksmatrizen L ∈ R N×N bildet bez¨uglich der Matrixmultiplikation eine Untergruppe in R N×N . (b) Die Menge der regul¨aren oberen Dreiecksmatrizen R ∈ R N×N bildet bez¨uglich der Matrixmultiplikation eine Untergruppe in R N×N . (c) Die Darstellung A = LR einer nichtsingul¨aren Matrix A ∈ R N×N als Produkt einer skalierten unteren Dreiecksmatrix L und einer regul¨aren oberen Dreiecksmatrix R ist eindeutig (sofern sie existiert).

94

Kapitel 4 L¨osung linearer Gleichungssysteme

Aufgabe 4.12 Gegeben sei die Matrix



1

2

3

−4



⎜ ⎟ ⎜ 2 8 6 −14 ⎟ ⎜ ⎟ ⎜ ⎟ 6 a −15 ⎠ ⎝ 3 −4 −14 −15 30 mit einem reellen Parameter a. Man berechne die zugeh¨orige LR Faktorisierung beziehungsweise gebe an, f¨ur welchen Wert des Parameters a diese nicht existiert. Aufgabe 4.13 Die Matrix A ∈ R N×N sei symmetrisch und positiv definit. Man gebe einen Algorithmus zur Gewinnung einer Faktorisierung A = R R an. Hierbei bezeichnet R = ( rjk ) ∈ R N×N eine obere Dreiecksmatrix mit rjj > 0 f¨ur alle j. Man begr¨unde zudem die Durchf¨uhrbarkeit dieses Verfahrens. Aufgabe 4.14 Es sei A = (ajk ) ∈ R N×N eine symmetrische, positiv definite Bandmatrix der Bandbreite m, das heißt, ajk = 0 f¨ur j, k mit |j − k | ≥ m. Man weise nach, dass in der Cholesky Faktorisierung A = LL die untere Dreiecksmatrix L eine Bandmatrix der Bandbreite m ist. Aufgabe 4.15 Gegeben seien die Matrizen ( ) 101 99 A = , 99 101

( B =

101

99

−99 101

) .

(a) Berechne die Konditionszahlen cond∞ ( A ) und cond∞ ( B ). (b) F¨ur die Vektoren

      δ 1 δ ..... .....  .......... b = ........... b = 1 , δ , −δ mit einer kleinen reellen Zahl δ > 0 l¨ose man die Gleichungssysteme b =

Ax = b,

.

.

A( x + ............. x ) = b + .............. b, .

A( x + ............ x  ) = b + ............ b. .

Man vergleiche die jeweiligen relativen Fehler ||............... x||∞ /||x||∞ und ||.............. x  ||∞ /||x||∞ mit der allgemeinen Fehlerabsch¨atzung ||.............. x||/||x|| ≤ cond( A ) ||.............. b||/||b||. Aufgabe 4.16 F¨ur diese Aufgabe verwende man das folgende Theorem u¨ ber die Singul¨arwertzerlegung einer Matrix: Theorem 4.67 Zu einer nichtsingul¨aren Matrix A ∈ R N×N gibt es orthonormale Matrizen U, V ∈ R N×N und eine Diagonalmatrix Σ = diag (σ1 , . . . , σN ) ∈ R N×N (mit σ1 ≥ σ2 ≥ . . . ≥ σN > 0), so dass A = V Σ U .

(a) Man zeige: f¨ur jeden Vektor x ∈ R N gilt ausgehend von der Darstellung als LinearkombinatiN N der Matrix on x = k=1 ck uk der paarweise orthonormalen Spaltenvektoren u1 , u2 , . . . , uN ∈ R ×N N U ∈R Folgendes: Ax =

N 

ck σk vk ,

k=1

wobei v1 , v2 , . . . , vN ∈ R N die paarweise orthonormalen Spaltenvektoren der Matrix V ∈ R N×N bezeichnen.

¨ Ubungsaufgaben

95

(b) Man gebe die Werte von ||A||2 , ||A−1 ||2 sowie cond2 ( A ) u¨ ber die Singul¨arwerte der Matrix A an. (c) Zur L¨osung von .

.

A(x + ............... x) = b + .............. b .

gebe man mithilfe der Matrix U diejenigen Vektoren b ∈ R N beziehungsweise .............. b ∈ R N an, die in den Absch¨atzungen ||b||2 ..... ...........

|| x||2 ..... .........

|| x||2 ||x||2



||A||2 ||x||2 ,



||A−1 ||2 ||............... b||2 ,



cond2 ( A )

.

.

||.............. b ||2 , || b ||2

Gleichheit ergeben. Aufgabe 4.17 F¨ur eine regul¨are Matrix A ∈ R N×N sei B ∈ R N×N eine N¨aherung f¨ur A−1 und || · || : R N×N → R eine beliebige submultiplikative Matrixnorm. Man zeige: || A−1 − B || || A−1 ||

≤ min{||AB − I ||, ||BA − I ||},

||BA − I || ≤ cond( A )||AB − I || Zu Testzwecken betrachte man die beiden Matrizen ⎛



⎜ 9999 9998 ⎟ A = ⎝ ⎠, 10000 9999



cond( A )2 ||BA − I ||.





⎜ 9999.9999 −9997.0001 ⎟ ⎜ ⎟ B = ⎜ ⎟, ⎝ ⎠ −10001 9998

und berechne die Matrizen BA − I ∈ R N×N sowie AB − I ∈ R N×N . Aufgabe 4.18 (a) Es sei B = (bjk ) ∈ R N×N eine regul¨are Matrix, die zudem zeilen¨aquilibriert ist, das heißt, N 

|bjk | = 1,

j = 1, 2, . . . , N.

k=1

Man zeige, dass f¨ur jede regul¨are Diagonalmatrix D ∈ R N×N die folgende Absch¨atzung gilt, cond∞ ( B ) ≤ cond∞ ( DB ). (b) Sei A ∈ R N×N eine regul¨are Matrix. Man zeige: es gibt eine Diagonalmatrix D ∈ R N×N , so dass DA zeilen¨aquilibriert ist, und dann gilt cond∞ ( DA ) ≤ cond∞ ( A ).

Aufgabe 4.19 Es sei A = ( ajk ) ∈ R N×N eine regul¨are Matrix. Zeige mithilfe der QR Faktorisierung die Hadamardsche Determinantenabsch¨atzung n  n 1/2  | det ( A ) | ≤ |ajk |2 . k=1

j=1

96

Kapitel 4 L¨osung linearer Gleichungssysteme

Aufgabe 4.20 Man zeige f¨ur eine nichtsingul¨are Matrix A ∈ R N×N und Vektoren u, v ∈ R N : (a) Im Fall vA−1 u = −1 gilt die Sherman Morrison Formel (A + uv)−1 = A−1 −

A−1 uvA−1 . 1 + vA−1 u

(b) Im Fall vA−1 u = −1 ist die Matrix A + uv singul¨ar. Aufgabe 4.21 Transformieren Sie die Matrix ⎛

0 ⎜0 ⎜ A = ⎜ ⎝1 0

1 0 0 0

⎞ 0 1⎟ ⎟ ⎟ 1⎠ 1

mittels Householder Transformationen auf obere Dreiecksgestalt. Aufgabe 4.22 (Numerische Aufgabe) Man schreibe einen Code zur L¨osung eines linearen Gleichungssystems mittels Householdertransformationen. Man teste das Programm anhand des Beispiels Ax = b mit ⎛ ⎞ ⎛ ⎞ 1 + δ δ 0 ··· 0 1 ⎜ ⎟ ⎜ ⎟ .. ⎜ .. ⎟ δ ⎜ ⎟ . ⎜ −1 δ . 1⎟ ⎜ ⎟ ⎜ ⎟ −1 + δ ⎜ ⎟ ⎜ ⎟ ×N . . N ⎟ ∈ RN , .. . . 0 1⎟ ∈ R A = ⎜ −1 , b = ⎜ .. ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ . ⎜ .. ⎟ .. ⎜ ⎟ ⎜ . ⎟ . δ 1 ⎝ 3 − N + δ⎠ ⎝ ⎠ −1 −1 · · · −1 1 2−N mit N = 20 und δ = 0.1. Man gebe den L¨osungsvektor x = (x1 , x2 , . . . , xN ) aus.

97

5

Nichtlineare Gleichungssysteme

5.1 Vorbemerkungen Im Folgenden sei F : R N → R N eine gegebene Funktion und x∗ ∈ R N eine Nullstelle von F , F ( x∗ ) = 0, die es zu bestimmen gilt. Typischerweise l¨asst sich ein solches nichtlineares Gleichungssystem nur approximativ l¨osen, was im Folgenden mittels Iterationsverfahren der Form xn+1 = Φ( xn )

f¨ur n = 0, 1, . . .

(5.1)

geschehen soll mit einer geeigneten stetigen Iterationsfunktion Φ : R N → R N . Dabei soll die Abbildung Φ so beschaffen sein, dass Konvergenz im folgenden Sinne vorliegt. Definition 5.1 Sei Φ : R N → R N eine Iterationsfunktion. Das Verfahren (5.1) zur Bestimmung von x∗ ∈ R N heißt (lokal) konvergent, wenn eine Zahl δ > 0 existiert, so dass f¨ur alle Startwerte x0 ∈ B( x∗ ; δ ),

B( x∗ ; δ ) := {y ∈ R N : ||y − x∗ || < δ }

gilt ||xn − x∗ || → 0

f¨ur n → ∞.

(5.2)

Hier bezeichnet || · || : R N → R eine nicht n¨aher spezifizierte Vektornorm. Bemerkung 5.2 Da die Iterationsfunktion Φ : R N → R N als stetig in x∗ vorausgesetzt ist, handelt es sich aufgrund der Konvergenz (5.2) bei x∗ ∈ R N notwendigerweise um einen Fixpunkt von Φ, Φ( x∗ ) = x∗ , denn x∗

=

lim xn+1

n→∞

=

lim Φ( xn )

n→∞

=

  Φ lim xn n→∞

=

Φ( x∗ ).

Daher bezeichnet man das Verfahren (5.1) als Fixpunktiteration.



Mehr noch als Konvergenz (5.2) ist w¨unschenswert, dass das Verfahren (5.1) eine m¨oglichst hohe Konvergenzordnung im Sinne der folgenden Definition besitzt. Definition 5.3 Sei Φ : R N → R N eine Iterationsfunktion mit Fixpunkt x∗ ∈ R N . Das Verfahren (5.1) heißt (lokal) konvergent von (mindestens) der Ordnung p ≥ 1, wenn ein δ > 0 existiert, so dass f¨ur alle Startwerte x0 ∈ B( x∗ ; δ ) gilt ||xn+1 − x∗ ||



C||xn − x∗ ||p

f¨ur n = 0, 1, . . .,

(5.3)

98

Kapitel 5

Nichtlineare Gleichungssysteme

mit einer Konstanten 0 ≤ C < ∞, wobei im Fall p = 1 noch C < 1 gefordert wird. Bei Konvergenz der Ordnung p = 1 beziehungsweise p = 2 spricht man dann von (mindestens) linearer beziehungsweise quadratischer Konvergenz. Das Verfahren (5.1) heißt konvergent von genau der Ordnung p, wenn es konvergent von der Ordnung p ist und keine h¨ohere Konvergenzordnung besitzt. Bemerkung 5.4 (a) Lineare Konvergenz impliziert f¨ur x0 ∈ B( x∗ ; δ ) ||xn − x∗ ||



C n ||x0 − x∗ ||,

n = 0, 1, . . .

(5.4)

mit einer Konstanten 0 < C < 1. Insbesondere ist das Verfahren also lokal konvergent. (b) Ein Verfahren der Konvergenzordnung p > 1 besitzt f¨ur jedes 1 ≤ q ≤ p formal auch die niedrigere Konvergenzordnung q: f¨ur Startwerte   1/(p−1) 1 x0 ∈ B( x∗ ; δ), δ := min δ, 2C mit C aus (5.3), erh¨alt man induktiv ||xn − x∗ || ≤ 2−n ||x0 − x∗ || f¨ur n = 0, 1, . . ., somit liegt lineare Konvergenz vor. Weiter berechnet man ≤ δ p−q   ||xn+1 − x∗ || ≤ C ||xn − x∗ ||p = C ||xn − x∗ ||||xn − x∗ ||q ≤ δ p−q C ||xn − x∗ ||q

f¨ur n = 0, 1, . . .,

was die angegebene Konvergenzordnung 1 < q ≤ p liefert. (c) Je h¨oher die Konvergenzordnung eines Verfahrens, desto schneller werden die Iterierten den gesuchten Wert x∗ approximieren, denn f¨ur Zahlen 0 ≤ q < p sowie Startwerte x0 hinreichend nahe bei x∗ und n hinreichend groß gilt ||xn − x∗ ||  1 und damit ||xn − x∗ ||p  ||xn − x∗ ||q . 

5.2 Der eindimensionale Fall 5.2.1 Ein allgemeines Resultat Das folgende Theorem befasst sich mit Verfahren (5.1) im eindimensionalen Fall N = 1 und liefert Konvergenzresultate f¨ur hinreichend gute Startwerte x0 . Theorem 5.5 Sei Φ : R → R eine Iterationsfunktion mit Fixpunkt x∗ ∈ R, die zudem in x∗ insgesamt p mal differenzierbar sei mit p ∈ N. Weiter sei ⎧ ⎫ ⎨ Φ(k ) ( x∗ ) = 0, k = 1, 2, . . . , p − 1, falls p ≥ 2 ⎬ ⎩

|Φ  ( x∗ ) | < 1,

falls p = 1



erf¨ullt. Dann ist das Verfahren (5.1) lokal mindestens konvergent von der Ordnung p. Wenn weiterhin Φ( p) ( x∗ ) = 0 gilt, so liegt die genaue Konvergenzordnung p vor.

Abschnitt 5.2

99

Der eindimensionale Fall

B EWEIS . Eine Taylorentwicklung der Funktion Φ im Punkt x∗ liefert Φ( x ) =

p  Φ(k ) ( x∗ ) ( x − x∗ )k + k!

O (|x

− x∗ |p )

k=0

= Φ( x∗ ) +  

Φ( p) ( x∗ ) ( x − x∗ )p + p!

O (|x

− x∗ |p )

f¨ur x → x∗ ,

= x∗

und somit Φ( x ) − x∗ ( x − x∗ )p



Φ( p) ( x∗ ) p!

f¨ur x → x∗ .

(5.5)

Folglich existiert zu jedem ε > 0 eine Zahl δ > 0 mit |Φ( x ) − x∗ |







|Φ( p) ( x∗ ) | + ε |x − x∗ |p p!

f¨ur x ∈ B( x∗ ; δ ),

(5.6)

wobei im Fall p = 1 noch ε > 0 so klein zu w¨ahlen ist, dass die Ungleichung |Φ  ( x∗ ) | + ε < 1 erf¨ullt ist. Wenn man nun   -  1 1/(p−1) . |Φ(p) ( x∗ ) | x0 ∈ B(x∗ ; δ) , C := + ε δ := min δ, p!

2C

1

∈ B( x∗ ; δ) f¨ur n = 1, 2, . . ., und (5.6) liefert dann die angegebene

w¨ahlt , so gilt auch xn Konvergenzordnung ≥ p. Unter der Zusatzbedingung Φ( p) ( x∗ ) = 0 gibt es wegen der Konvergenzaussage (5.5) f¨ur 0 < ε < |Φ(p) ( x∗ ) |/p! eine Zahl δ > 0 mit  (p) ( )  |Φ x∗ | − ε |x − x∗ |p f¨ur x ∈ B( x∗ ; δ ), |Φ( x ) − x∗ | ≥ p! was die genaue Konvergenzordnung p liefert.

5.2.2 Das Newton– Verfahren im eindimensionalen Fall Zur Bestimmung einer Nullstelle x∗ ∈ R einer gegebenen Funktion f : R → R wird im Folgenden das Newton Verfahren xn+1 = xn −

f ( xn ) f  ( xn )

=: Φ( xn ),

n = 0, 1, . . .

(5.7)

betrachtet. Die geometrische Bedeutung des Newton Verfahrens ist in Bild 5.1 veranschaulicht. In dem nachfolgenden Theorem wird unter verschiedenen Voraussetzungen jeweils die Konvergenzordnung von Verfahren (5.7) angegeben2 . Theorem 5.6 Die Funktion f : R → R besitze eine Nullstelle x∗ ∈ R und sei in einer Umgebung von x∗ hinreichend oft differenzierbar. (a) Im Fall f  ( x∗ ) = 0 konvergiert das Newton Verfahren (5.7) mindestens quadratisch. (Falls f  ( x∗ ) = 0 gilt, so ist es sogar konvergent von der Ordnung ≥ p = 3.) 1 2

vergleiche hierzu die Argumentation in Teil (b) der Bemerkung 5.4 unter Heranziehung von Theorem 5.5

100

Kapitel 5

Nichtlineare Gleichungssysteme

.. ... .... .... ..... .... . . . . ... ..... ..... ..... ..... ...... ...... . . . . . .... ...... ...... ...... ...... ......... ........... . . . . . .... .. .......... ....... ... ....... ... ....... ... ........................................................... .. ....... .. ........ ....... . . . . . . ........ ...... ........ ........ ........ ........ .. . . .. . . . .. . . .. ... ........ .............. ......... ......... ............ .......... ...... ..... .. .... ...... ........... ...... ... . . . . . . . . . ...... ..... ...... ...... ...... ........ ........... ........... ............ ............

f (x)

x0

x2

x1

x

Bild 5.1 Veranschaulichung der Vorgehensweise beim Newton– Verfahren (b) Ist hingegen x∗ eine m fache Nullstelle von f mit einer Zahl m ≥ 2, gilt also f ( x ) = ( x − x∗ )m g ( x ),

g ( x∗ ) = 0,

und ist die Funktion g zweimal differenzierbar in x∗ , so ist die Iterationsfunktion Φ aus (5.7) differenzierbar in x∗ mit 1 (5.8) Φ  ( x∗ ) = 1 − m . Das Newton Verfahren (5.7) ist in diesem Fall also (genau) linear konvergent. B EWEIS . Die Aussagen ergeben sich mit Theorem 5.5 angewandt auf Φ( x ) := x − f ( x )/f  ( x ) sowie mit den folgenden Darstellungen: im Fall (a) hat man Φ = 1 −

( f  )2 − f f  ( f  )2

f f  , ( f  )2

=

Φ  =

( f  )3 f  + f ( f  )2 f  − 2f f  ( f  )2 , ( f  )4

so dass also Φ  ( x∗ ) = 0,

Φ( x∗ ) = x∗ ,

Φ  ( x∗ ) =

f  ( x∗ ) f  ( x∗ )

gilt. Im Fall (b) erh¨alt man f ( x )

=

m( x − x∗ )m−1 g ( x ) + ( x − x∗ )m g  ( x )

und somit Φ( x ) = x −

f (x) f ( x )

Φ ( x ) = 1 −

[ g( x )

=

x−

( x − x∗ )g ( x ) mg ( x ) + ( x − x∗ )g  ( x )

=:

Z(x)

x − N (x) ,

+ ( x − x∗ )g  ( x )]N ( x ) − Z ( x )[ ( m + 1 )g  ( x ) + ( x − x∗ )g  ( x )] . N ( x )2

Dies liefert schließlich (5.8), also 0 < Φ  ( x∗ ) < 1 und insbesondere auch Φ  ( x∗ ) = 0.

5.3 Der Banachsche Fixpunktsatz In Abschnitt 5.2.1 ist das allgemeine Verfahren (5.1) im eindimensionalen Fall N = 1 und f¨ur hinreichend glatte Iterationsfunktionen Φ : R → R sowie hinreichend gute Startwerte x0

Abschnitt 5.3

101

Der Banachsche Fixpunktsatz

betrachtet worden. Im folgenden Theorem nun wird lineare Konvergenz f¨ur das allgemeine Verfahren (5.1) nachgewiesen f¨ur den mehrdimensionalen Fall N ≥ 1 und ohne Differenzierbarkeitsbedingungen an Φ, und als Startvektor werden beliebige Elemente x0 der zugrunde gelegten Menge zugelassen; u¨ berdies erhalt man die Existenz eines eindeutigen Fixpunktes. Daf¨ur ist allerdings die globale Kontraktionseigenschaft (5.9) eine relativ schwer wiegende Forderung an die Iterationsfunktion Φ. Theorem 5.7 Sei M ⊂ R N eine abgeschlossene Teilmenge, und die Abbildung Φ : M → M sei bez¨uglich einer Vektornorm || · || : R N → R eine Kontraktion, das heißt, f¨ur eine Konstante 0 < L < 1 sei ||Φ( x ) − Φ( y ) ||



L||x − y ||,

x, y ∈ M,

(5.9)

erf¨ullt. Dann gilt Folgendes: •

Φ besitzt genau einen Fixpunkt x∗ ∈ M;



F¨ur jeden Startwert x0 ∈ M liefert die Fixpunktiteration3 xn+1 = Φ( xn ),

n = 0, 1, . . .

(5.10)

eine gegen x∗ konvergierende Folge, und es gilt genauer ||xn − x∗ ||



L ||x − xn−1 || 1−L n

Ln ||x − x0 ||, 1−L 1



n = 1, 2, . . . . (5.11)

B EWEIS . Sind x∗ , x ∗ ∈ M Fixpunkte von Φ, so gilt ∗ || ||x∗ − x

=

||Φ( x∗ ) − Φ( x ∗ ) ||



L||x∗ − x ∗ ||

∗ || ≤ 0, was x∗ = x ∗ bedeutet. Im Folgenden soll die Existenz beziehungsweise ( 1 − L )||x∗ − x eines Fixpunktes von Φ nachgewiesen werden, was mithilfe der Fixpunktiteration geschieht. Die dabei erzielten Zwischenergebnisse liefern dann auch unmittelbar die Absch¨atzungen (5.11). Sei also der Startvektor x0 ∈ M beliebig, und ( xn ) ⊂ R N bezeichne die zugeh¨orige Folge der Fixpunktiteration (5.10). Mithilfe einer Teleskopsumme erh¨alt man dann f¨ur n, k ∈ N0 unter Verwendung von ||xj+1 − xj || ≤ L||xj − xj−1 || f¨ur j = 1, 2, . . . die folgenden Absch¨atzungen:  n+k−1     x+1 − x  ||xn+k − xn || =  =n



 n+k−1 



vergleiche (5.1)

  x+1 − x 

=n



L−n ||xn+1 − xn ||

=n

3

n+k−1  



1 − Lk ||xn+1 − xn || 1−L



L ||x − xn−1 || 1−L n

=

 k−1 

 L ||xn+1 − xn ||

=0

≤ ≤

1 ||x − xn || 1 − L n+1 Ln ||x − x0 ||. 1−L 1

102

Kapitel 5

Nichtlineare Gleichungssysteme

Damit gilt insbesondere ||xn+k − xn ||



L ||x − xn−1 || 1−L n

Ln ||x − x0 ||, 1−L 1



n, k ≥ 0,

(5.12)

und somit ist ( xn ) ⊂ R N Cauchyfolge mit einem Grenzwert, der zudem Fixpunkt von Φ ist4 und daher mit x∗ ∈ M u¨ bereinstimmt. Der Grenz¨ubergang “k → ∞“ in (5.12) liefert die angegebene Absch¨atzung (5.11). Bemerkung 5.8 (a) Der Ausdruck ( Ln /( 1−L ))||x1 −x0 || in (5.11) kann f¨ur jedes n vor Beginn der Iteration bestimmt werden (nur x1 wird hierzu ben¨otigt) und erm¨oglicht eine a priori Fehlerabsch¨atzung f¨ur den Approximationsfehler ||xn − x∗ ||. (b) Der mittlere Ausdruck (L/( 1 − L ) )||xn − xn−1 || in (5.11) hingegen kann im n ten Iterationsschritt bestimmt werden und erm¨oglicht eine a posteriori Fehlerabsch¨atzung f¨ur den Approximationsfehler ||xn − x∗ ||. (c) Praktisch geht man so vor: f¨ur eine vorgegebene Fehlerschranke ε > 0 wird die Iteration in Schritt n = n( ε ) abgebrochen, falls erstmalig L ||xn − xn−1 || 1−L



ε

gilt, und die a posteriori Fehlerabsch¨atzung garantiert dann die gew¨unschte Fehlerabsch¨atzung ||xn − x∗ || ≤ ε. Die a priori Fehlerabsch¨atzung gestattet die Absch¨atzung n( ε ) ≤ a,

a =

log

 || x − x ||  1 0 ( 1 − L )ε log( 1/L )

(5.13)

f¨ur die Anzahl der n¨otigen Iterationsschritte, wobei a die kleinste ganze Zahl ≥ a bezeichnet.  Beispiel 5.9 F¨ur f ( x ) := x − e−x , f ( x∗ ) = 0

x ∈ R,

f¨ur x∗ ≈ 0.56714329

soll die Nullstelle x∗ bestimmt werden unter Anwendung der Fixpunktiteration (5.1) mit der Iterationsfunktion Φ( x ) := e−x ,

x ∈ R.

Auf dem Intervall M = [ 0.5, 0.69 ] ist die Eigenschaft Φ(M) ⊂ M ebenso erf¨ullt wie die Kontraktionseigenschaft (5.9) mit L

=

max

x∈[ 0.5, 0.69 ]

|Φ  ( x ) |

=

max

x∈[ 0.5, 0.69 ]

e−x

=

e−1/2



0.606531.

In der folgenden Tabelle sind einige der durch das Verfahren (5.1) gewonnenen Iterierten aufgelistet, wobei als Startwert x0 = 0.55 gew¨ahlt ist und in der vorliegenden Situation das Verfahren 4

was aus der Bemerkung 5.2 folgt unter Beachtung der Tatsache, dass wegen der Kontraktionseigenschaft (5.9) die Abbildung Φ insbesondere stetig ist

Abschnitt 5.4

103

Das Newton– Verfahren im mehrdimensionalen Fall

von der speziellen Form xn+1 = e−xn , n = 0, 1, . . . , ist. n

xn

n

xn

n

xn

0

0.55000000

10

0.56708394

20

0.56714309

1

0.57694981

11

0.56717695

21

0.56714340

2

0.56160877

12

0.56712420

22

0.56714323

3

0.57029086

13

0.56715412

23

0.56714332

4

0.56536097

14

0.56713715

24

0.56714327

pp p

pp p

pp p

pp p

pp p

pp p

pp p

pp p

pp p

pp p

Die Situation soll f¨ur n = 12 genauer betrachtet werden. Die Fehlerabsch¨atzung (5.11) liefert in diesem Fall 1.91 · 10−5



|x12 − x∗ |



8.13 · 10−5



1.70 · 10−4 ,

so dass die a posteriori Absch¨atzung den wirklichen Fehler etwa um den Faktor 4 u¨ bersch¨atzt, und die a priori Absch¨atzung u¨ bersch¨atzt den wirklichen Fehler etwa um den Faktor 10. Das praktische Vorgehen soll nun f¨ur die spezielle Fehlerschranke ε = 0.0076 illustriert werden. Die a posteriori Absch¨atzung liefert n( ε ) = 4 als Stoppindex, |x4 − x∗ | ≤ ε. Die Absch¨atzung ¨ (5.13) liefert mit n( ε ) ≤ 16 eine Ubersch¨ atzung. Schließlich ist anzumerken, dass schon in Schritt 2 der (im Allgemeinen unbekannte) Approximationsfehler die Schranke ε unterschreitet, |x2 − x∗ | ≈ 0.0055 ≤ ε. 

5.4 Das Newton–Verfahren im mehrdimensionalen Fall F¨ur eine gegebene Funktion F : R N → R N soll nun die Konvergenz des Newton Verfahrens zur L¨osung des Gleichungssystems F ( x ) = 0 im mehrdimensionalen Fall N ≥ 1 untersucht werden.5

5.4.1 Einige Begriffe aus der Analysis In diesem Abschnitt werden einige Hilfsmittel aus der Analysis bereitgestellt. Im Folgenden wird mit || · || sowohl eine (beliebig aber fest gew¨ahlte) Vektornorm auf R N als auch die induzierte Matrixnorm bezeichnet. Bekanntlich heißt eine Funktion F : R N → R N in einem Punkt x ∈ R N differenzierbar, falls eine lineare Abbildung Dx F : R N → R N existiert mit der Eigenschaft ||F ( x + h ) − F ( x ) − ( Dx F )( h ) || → 0 f¨ur R N  h → 0. ||h|| Die Abbildung Dx F ist so eindeutig festgelegt und wird durch die Jacobi Matrix repr¨asentiert, 5

F¨ur den eindimensionalen Fall sowie hinreichend gute Startwerte x0 ist dies bereits in Abschnitt 5.2.2 geschehen.

104

Kapitel 5

Nichtlineare Gleichungssysteme



( Dx F )( z ) = J ( x )z,

⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ J ( x ) := ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

⎞ ∂F1 (x) ∂x1

∂F1 (x) ∂x2

···

∂F2 (x) ∂x1

∂F2 (x) ∂x2

···

pp p

pp p

∂FN (x) ∂x1

∂FN (x) ∂x2

···

∂F1 ⎟ (x) ⎟ ∂xN ⎟

⎟ ⎟ ⎟ ∂F2 (x) ⎟ ⎟ ∂xN ⎟ × ⎟ ∈ RN N . ⎟ ⎟ pp ⎟ p ⎟ ⎟ ⎟ ⎟ ⎠ ∂FN (x) ∂xN

Die Funktion F : R N → R N heißt auf einer Menge M ⊂ R N differenzierbar, falls sie in jedem Punkt x ∈ M differenzierbar ist. Eine Menge M ⊂ R N heißt konvex, falls f¨ur je zwei Elemente x, y ∈ M auch die Verbindungsstrecke von x nach y zu M geh¨ort, das heißt,  ⊂ M, x, y ∈ M. x + t( y − x ) : 0 ≤ t ≤ 1 Im folgenden Lemma wird als Nachtrag zu Abschnitt 5.3 eine hinreichende Bedingung f¨ur die in Theorem 5.7 auftretende Kontraktionsbedingung (5.9) angegeben (f¨ur Φ = F ). Lemma 5.10 Eine gegebene Funktion F : R N → R N sei auf einer offenen konvexen Menge M ⊂ R N differenzierbar, und f¨ur eine Konstante 0 ≤ L < ∞ gelte ||Dx F || ≤ L,

x ∈ M,

wobei Dx F mit der zugeh¨origen Jacobi Matrix J ( x ) identifiziert wird. Dann gilt die Absch¨atzung ||F ( x ) − F ( y ) ||



L||x − y ||,

x, y ∈ M.

B EWEIS . Die Aussage des Lemmas ergibt sich unmittelbar aus dem Mittelwertsatz F ( x ) − '1 F ( y ) = 0 Dy+t( x−y ) F ( x − y ) dt. Das nachfolgende Lemma u¨ ber eine Variante der Taylorentwicklung f¨ur Funktionen mehrerer Ver¨anderlicher wird beim Beweis des darauf folgenden Konvergenzresultats f¨ur das Newton Verfahren ben¨otigt. Lemma 5.11 Eine gegebene Funktion F : R N → R N sei auf der offenen konvexen Menge M ⊂ R N differenzierbar, und f¨ur eine Konstante 0 ≤ L < ∞ gelte ||Dx F − Dy F ||



L||x − y ||,

Dann gilt die Absch¨atzung    F ( x ) − F ( y ) − ( Dy F )( x − y ) 



x, y ∈ M.

L ||x − y ||2, 2

x, y ∈ M.

Abschnitt 5.4

105

Das Newton– Verfahren im mehrdimensionalen Fall

B EWEIS . Nach Voraussetzung ist f¨ur beliebige x, y ∈ M die Funktion ϕ : [ 0, 1 ] → R N ,

t → F (y + t( x − y ) )

stetig differenzierbar auf dem Intervall [ 0, 1 ], und die Kettenregel liefert ϕ ( t )

=

( Dy

+ t( x−y ) F )( x

− y ),

0 ≤ t ≤ 1.

F¨ur 0 ≤ t ≤ 1 erh¨alt man so die Absch¨atzung ||ϕ  ( t ) − ϕ  ( 0 ) || = || ( Dy+t(x−y ) F )( x − y ) − ( Dy F )( x − y ) || ≤ ||Dy+t( x−y ) F − Dy F ||||x − y ||



Lt||x − y ||2 .

Wegen ∆ := F ( x ) − F ( y ) − ( Dy F )( x − y ) =

Z 1 0

ϕ( 1 ) − ϕ( 0 ) − ϕ  ( 0 )

=

ϕ  ( t ) − ϕ  ( 0 ) dt

erh¨alt man so schließlich die Aussage des Lemmas, ||∆||



Z 1 0

||ϕ  ( t ) − ϕ  ( 0 ) || dt



L||x − y ||2

Z 1 0

t dt

=

L ||x − y ||2 . 2

5.4.2 Das Newton– Verfahren und seine Konvergenz Im Folgenden wird das Newton Verfahren =

xn+1

xn − ( Dxn F )−1 ( F ( xn )),

n = 0, 1, . . .,

(5.14)

zur Bestimmung einer Nullstelle der Funktion F betrachtet. Bemerkung 5.12 In numerischen Implementierungen des Newton Verfahrens geht man in den Schritten n = 0, 1, . . . jeweils so vor: Ausgehend von der bereits berechneten Iterierten xn ∈ R N l¨ost man zun¨achst das lineare Gleichungssystem ( Dxn F )∆n = −F ( xn ) und erh¨alt anschließend xn+1 = xn + ∆n , so dass auf die aufw¨andige Matrixinversion ( Dxn F )−1 verzichtet werden kann.  Das nachfolgende Theorem liefert unter gewissen Voraussetzungen quadratische Konvergenz sowie eine Menge von zul¨assigen Startvektoren x0 , die Existenz einer Nullstelle x∗ wird vorausgesetzt. Theorem 5.13 Eine gegebene Funktion F : R N → R N sei auf der offenen konvexen Menge M ⊂ R N differenzierbar, und x∗ ∈ M sei eine Nullstelle von F . Wenn f¨ur gewisse Zahlen r, β, L > 0 Folgendes gilt, B( x∗ ; r )



||Dx F − Dy F ||

M, ≤

Dx∗ F ist invertierbar, L||x − y ||,

x, y ∈ M,

|| ( Dx∗ F )−1 || ≤ β,

106

Kapitel 5

Nichtlineare Gleichungssysteme

so ist f¨ur jeden Startwert

1 . mit δ := min r, 2βL das Newton Verfahren (5.14) wohldefiniert, und es liegt lokale quadratische Konvergenz vor: f¨ur die Iterierten gilt x0 ∈ B( x∗ ; δ )

||xn+1 − x∗ ||



βL||xn − x∗ ||2

1 ||x − x∗ ||, 2 n



n = 0, 1, . . . .

(5.15)

B EWEIS . Zun¨achst wird gezeigt, dass f¨ur jeden Vektor x ∈ R N die folgende Implikation gilt: ||x − x∗ || < δ

=⇒

|| ( Dx F )−1 || ≤ 2β.

Dx F ist invertierbar,

(5.16)

Die Voraussetzung ||x − x∗ || < δ impliziert n¨amlich η := || ( Dx∗ F )−1 ||||Dx F − Dx∗ F ||



βL||x − x∗ ||



βLδ



1 , 2

und Korollar 4.50 liefert dann die Invertierbarkeit von Dx F sowie die angegebene Absch¨atzung (5.16), || ( Dx F )−1 ||



|| ( Dx∗ F ) 1−η

−1

||



β 1/2

=

2β.

Die Wohldefiniertheit des Newton Verfahrens (5.14) folgt dann aus der Absch¨atzung (5.16) zusammen mit der folgenden Aussage xn ∈ B( x∗ ; δ ),

n = 0, 1, . . . ,

(5.17)

die nun mit vollst¨andiger Induktion nachgewiesen wird; nebenbei werden sich dann auch die Absch¨atzungen (5.15) ergeben. Nach Voraussetzung gilt x0 ∈ B( x∗ ; δ ), und f¨ur ein n ∈ N0 sei nun bereits xn ∈ B( x∗ ; δ ) gezeigt. Wegen (5.16) ist dann Dxn F invertierbar und xn+1 somit wohldefiniert, und es gilt xn+1

=

xn − ( Dxn F )−1 ( F ( xn ))

xn − ( Dxn F )−1 ( F ( xn ) − F ( x∗ ))

=

beziehungsweise (unter Anwendung von Lemma 5.11) xn+1 − x∗

||xn+1 − x∗ ||

=

xn − x∗ − ( Dxn F )−1 ( F ( xn ) − F ( x∗ ))   ( Dxn F )−1 F ( x∗ ) − F ( xn ) − ( Dxn F )( x∗ − xn ) ;

=

||

=

||

......

L 2

≤ 2β ||xn − x∗ ||2

=

βL||xn − x∗ ||2  



1 ||x − x∗ ||, 2 n

≤1/( 2βL )

woraus xn+1 ∈ B( x∗ ; δ ) folgt, und der vorhergehenden Zeile entnimmt man auch noch die Absch¨atzungen (5.15), was den Beweis von Theorem 5.13 komplettiert.

Abschnitt 5.4

107

Das Newton– Verfahren im mehrdimensionalen Fall

5.4.3 Nullstellenbestimmung bei Polynomen F¨ur Polynome liefert das (eindimensionale) Newton Verfahren unter g¨unstigen Umst¨anden die gr¨oßte Nullstelle: Theorem 5.14 Gegeben sei ein reelles Polynom p( x ) ∈ Πr , das eine reelle Nullstelle λ1 besitze, so dass λ1 ≥ Re ξ f¨ur jede andere Nullstelle ξ ∈ C von p gilt.6 Dann sind f¨ur jeden Startwert x0 > λ1 die Iterierten des Newton Verfahrens p( xn ) , p  ( xn )

xn+1 = xn −

n = 0, 1, . . .,

streng monoton fallend, und |xn − λ1 | → 0

f¨ur n → ∞.

B EWEIS . Es bezeichne λ1 ≥ λ2 ≥ . . . ≥ λ die reellen Nullstellen sowie ξ1 , ξ 1 , . . . , ξm, ξ m (mit + 2m = r ) die komplexen Nullstellen des Polynoms p, das o.B.d.A. den f¨uhrenden Koeffizienten eins besitze. Ganz allgemein erh¨alt man mit den Wurzeln ηk eines Polynoms q ∈ Πr mit f¨uhrendem Koeffizienten eins die folgenden Darstellungen f¨ur q und q  ,   r r r  r   1 ( x − ηk ) ( x − ηj ) q ( x ) = = q( x ) = q ( x ), x−η k=1 j=1 j=k

k=1

k=1

k

und somit gilt in der vorliegenden Situation p( x ) =

 

( x − λk )

( x − ξj ) ( x − ξ j ),

j=1

k=1

p (x) =

m 

  k=1

1 x − λk

+

2

m 

x − Re ξj

j=1

( x − ξj )( x − ξ j )



p( x ) .

Nun gilt f¨ur jedes ξ ∈ C\R ( x − ξ )( x − ξ )

= x2 − 2xRe ξ + |ξ |2 = ( x − Re ξ )2 ≥ 0,

>

x2 − 2xRe ξ + ( Re ξ )2

x ∈ R,

so dass in jedem Fall p( x ) > 0,

p (x) > 0

f¨ur x > λ1

und damit x−

p( x ) p ( x )


λ1

gilt. Andererseits gilt aber wegen der Darstellung (5.18) sowie wegen der Ungleichung    m  x − Re ξj 1 1 + 2 f¨ur x > λ1 > x−λ x−λ k=1

6

k

j=1

( x − ξj )( x − ξ j )

Hier bezeichnet wieder Re z den Realteil einer komplexen Zahl z ∈ C.

1

(5.18)

108

Kapitel 5

Nichtlineare Gleichungssysteme

auch x−

p( x ) p ( x )

>

f¨ur x > λ1 .

λ1

Mittels vollst¨andiger Induktion erschließt man, dass f¨ur einen Startwert x0 > λ1 das Newton Verfahren eine streng monoton fallende Folge x1 , x2 , . . . mit xk > λ1 liefert, und dann liegt notwendigerweise Konvergenz vor mit einem Grenzwert, der als Fixpunkt der stetigen Iterationsabbildung (vergleiche den Beweis von Theorem 5.6) auch Nullstelle von p ist und somit mit λ1 u¨ bereinstimmt. Beispiel 5.15 Als Beispiel sei ein Polynom p ∈ Π11 betrachtet, dessen Nullstellen in der komplexen Ebene wie in Bild 5.2 verteilt seien.

ξ1

6

ξ3

ξ2

×

×

×

×

× λ5

×

×

×

λ4

λ3

×

λ2

×-

λ1

ξ2

ξ3

×

ξ1 Bild 5.2 Beispiel f¨ur die Verteilung der Nullstellen eines Polynoms elften Grades in der komplexen Ebene Hier liefert das Newton Verfahren f¨ur einen hinreichend großen Startwert n¨aherungsweise die Nullstelle λ1 , und anschließende Anwendung des gleichen Verfahrens auf das deflationierte Polynom p1 ( x ) = p( x )/( x − λ1 ) liefert eine N¨aherung f¨ur die Nullstelle λ2 (wobei als Startwert x0 = λ1 verwendet werden kann). Ganz analog l¨asst sich eine Approximation f¨ur λ3 gewinnen. Theorem 5.14 liefert jedoch keine Aussage dar¨uber, wie die Nullstellen λ4 und λ5 numerisch bestimmt werden k¨onnen.  F¨ur die praktische Umsetzung von Theorem 5.14 wird noch ein hinreichend großer Startwert ben¨otigt. Das folgende Lemma liefert untere Schranken f¨ur m¨ogliche Startwerte. Lemma 5.16 Gegeben sei das Polynom p( x ) = a0 + a1 x + . . . + ar−1 xr−1 + xr , und ξ ∈ C sei eine beliebige Nullstelle von p( x ). (a) Es gelten die beiden Absch¨atzungen  r−1  |ξ | ≤ max 1, |ak | , k=0

 |ξ | ≤ max |a0 |, 1 + max |ak | . 1≤k≤r−1

Abschnitt 5.4

109

Das Newton– Verfahren im mehrdimensionalen Fall

(b) Im Fall ak = 0 f¨ur k = 1, . . . , r − 1 gelten die beiden Absch¨atzungen

|ξ | ≤ max



|a0 | , |a1 |

max 2

1≤k≤r−1

|ak | |ak+1 |



|ξ | ≤

,

r−1  k=0

|ak | . |ak+1 |

(c) Schließlich gilt noch |ξ | ≤ q 1/r ,

q :=

falls

r−1 

|ak | < 1.

k=0

B EWEIS . Die Frobeniussche Begleitmatrix zu dem Polynom p ist folgendermaßen definiert, ⎛

−a0

0

⎜ ⎜ ⎜ 1 A := ⎜ ⎜ ⎜ ⎝

pp

p

pp

p

p pp pp p

0

1 −ar−1

⎞ ⎟ ⎟ ⎟ ⎟ ∈ R r×r . ⎟ ⎟ ⎠

F¨ur das zugeh¨orige charakteristische Polynom gilt die Identit¨at det ( λI − A )

=

f¨ur λ ∈ C,

p( λ )

(5.19)

wie im Folgenden nachgewiesen wird. Entwicklung der Determinante der Matrix λI − A nach der letzten Zeile liefert ⎛

⎞ λ

⎜ ⎜ −1 p p p ⎜ det ( λI − A ) = det ⎜ pp ⎜ p ⎝

a0 p pp

λ

ar−2

⎟ ⎟ ⎟ ⎟ ⎟ ⎠

−1 λ + ar−1 ⎛ ⎛ ⎞ λ λ ⎜ ⎜ ⎟ ⎜ −1 p p p ⎜ −1 ⎟ ⎟ ⎜ ⎜ = ( λ + ar−1 ) det ⎜ ⎟ + det ⎜ pp pp ⎟ ⎜ ⎜ p p ⎝ ⎝ ⎠ −1 λ

  = λr−1

⎞ a0 pp

p

pp

p

λ

pp p pp p

−1 ar−2

⎟ ⎟ ⎟ ⎟, ⎟ ⎠

110

Kapitel 5

Nichtlineare Gleichungssysteme

und erneute Entwicklung der auftretenden Determinanten nach jeweils der letzten Zeile liefert ⎛ ⎛ ⎞ ⎞ ⎞ ⎛ λ a0 λ a0 λ ⎜ ⎜ ⎟ ⎜ p ⎟ pp ⎟ ⎜ −1 p p p ⎜ −1 p p p ⎟ ⎜ −1 p p p pp ⎟ p ⎟ ⎜ ⎟ ⎟ ⎜ ⎟ ⎜ det ⎜ det + det = a ⎟ ⎜ ⎟ ⎜ k pp ⎟ pp ⎟ pp pp pp pp ⎜ ⎟ ⎜ ⎟ ⎜ p p λ p λ p p p ⎝ ⎝ ⎠ ⎝ ⎠ ⎠ −1 ak −1 λ −1 ak−1 ⎛

⎞ λ

= ak λk

a0

⎜ pp ⎜ −1 p p p p ⎜ + det ⎜ pp pp ⎜ p p λ ⎝ −1 ak−1

f¨ur k = r − 2, r − 3, . . . , 2, und schließlich gilt ( ) λ a0 det = −1 a1

⎟ ⎟ ⎟ ⎟, ⎟ ⎠

a1 λ + a0 ,

was den Beweis der Identit¨at (5.19) komplettiert. Aufgrund von (5.19) nun stimmt die Menge der Nullstellen des Polynoms p mit der Menge σ ( A ) der Eigenwerte der Matrix A u¨ berein. Weiter gilt rσ ( A ) ≤ ||A|| f¨ur jede durch eine komplexe Vektornorm induzierte Matrixnorm, vergleiche Bemerkung 4.39, und wegen  r−1   ||A||1 = max 1, |ak | , ||A||∞ = max |a0 |, 1 + max |ak | , 1≤k≤r−1

k=0

ergeben sich die Absch¨atzungen in (a). F¨ur den Nachweis der Absch¨atzungen in (b) sei nun D := diag (a1 , . . . , ar−1 , 1). −1

Die Matrix D AD ∈ R ist a¨ hnlich zu der Matrix A, was σ ( D −1 AD ) = σ ( A ) beziehungsweise rσ ( D −1 AD ) = rσ ( A ) nach sich zieht. Weiter hat man die explizite Darstellung (es gilt ar = 1) ⎞ ⎛ /a 0 −a 0 1 ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ a /a p p p −a /a 1 2 ⎟ ⎜ 1 2 ⎟ ⎜ ⎟ ⎜ −1 r×r ⎟ ⎜ p D AD = ⎜ a2 /a3 p p −a2 /a3 ⎟ ∈ R , ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ pp pp ⎟ ⎜ 0 p p ⎟ ⎜ ⎠ ⎝ ar−1 /ar −ar−1 /ar r×r

so dass also die beiden Identit¨aten  |a0 | |a | , max 2 k ||D−1 AD ||∞ = max , |a1 |

1≤k≤r−1

|ak+1 |

||D −1 AD ||1

=

r−1  k=0

|ak | |ak+1 |

111

Weitere Themen und Literaturhinweise

gelten, und analog zu (a) ergeben sich die in (b) angegebenen Absch¨atzungen. Schließlich erh¨alt man (c) folgendermaßen: wegen (a) ist in jedem Fall |ξ | ≤ 1 erf¨ullt, und weiter gilt f¨ur jede Zahl x ∈ C mit q 1/r < |x| ≤ 1 die Absch¨atzung |p( x ) |



|x|r −

r−1 

|ak ||x|k

>

q −

k=0

r−1 

|ak |

=

0,

k=0

so dass sogar |ξ |r ≤ q gilt. Dies komplettiert den Beweis des Lemmas. Eine Anwendung der vier Absch¨atzungen in (a) und (b) aus Lemma 5.16 auf einige spezielle Polynome liefert die in der folgenden Tabelle angegebenen Resultate. |ξ | ≤

p( x ) x2 + 1 x2 − 2x + 1

= (x − i)(x + i)

1

1





= ( x − 1 )2

3

3

4

2.5

Weitere Themen und Literaturhinweise Die numerische L¨osung nichtlinearer Gleichungen wird ausf¨uhrlich in Deuflhard [19] behandelt. Abschnitte u¨ ber die numerische L¨osung solcher Gleichungen findet man außerdem in jedem der im Literaturverzeichnis aufgef¨uhrten Lehrb¨ucher u¨ ber numerische Mathematik, beispielsweise in Deuflhard/Hohmann [21], Oevel [75], Schaback/Wendland [88] und in Werner [107]. Als eine Variante des in diesem Kapitel vorgestellten Newton Verfahrens ist das ged¨ampfte Newton Verfahren f¨ur n = 0, 1, . . . xn+1 = xn − γn ( Dxn F )−1 ( F ( xn )) zu nennen, mit einer der Konvergenzbeschleunigung dienenden und geeignet zu w¨ahlenden variablen Schrittweite γn . Eine weitere Variante des Newton Verfahrens stellen die Quasi Newandig zu ton Verfahren xn+1 = xn − A−1 n F ( xn ), n = 0, 1, . . . dar, wobei die (numerisch aufw¨ berechnenden) Jacobi Matrizen Dxn F durch einfacher zu gewinnende Matrizen An ≈ Dxn F ersetzt werden. Einzelheiten zu den beiden genannten Varianten werden beispielsweise in [19] beziehungsweise in Geiger/Kanzow [29], Großmann/Terno [41], Kosmol [59], Mennicken/Wagenf¨uhrer [68], Nash/Sofer [72], Schwetlick [91], Stoer [95] sowie in Aufgabe 5.7 vorgestellt. Weitere Varianten wie das Sekantenverfahren beruhen auf Approximationen der Ableitungen durch Differenzenquotienten.

¨ Ubungsaufgaben Aufgabe 5.1 Gegeben sei die Gleichung x + lnx = 0, deren eindeutige L¨osung x∗ im Intervall [ 0.5, 0.6 ] liegt. Zur approximativen L¨osung dieser Gleichung

112

Kapitel 5

Nichtlineare Gleichungssysteme

betrachte man die folgenden f¨unf Iterationsverfahren: xn+1 := e−xn ,

xn+1 := −lnxn , xn+1 :=

−xn

axn + e a+1

xn+1 :=

,

xn+1 := ( xn + e−xn )/2, −xn

an xn + e an + 1

.

(5.20) (5.21)

Welche der drei in (5.20) angegebenen Verfahren sind brauchbar? Man bestimme in (5.21) Werte a ∈ R beziehungsweise a0 , a1 , . . . ∈ R so dass sich jeweils ein Verfahren von mindestens zweiter Ordnung ergibt. Aufgabe 5.2 Die Funktion ln ( x ) soll an der Stelle x = a > 0 n¨aherungsweise berechnet werden. Dies kann beispielsweise mit dem Newton Verfahren zur Bestimmung einer Nullstelle der Funktion f ( x ) = ex − a geschehen. Man gebe die zugeh¨orige Iterationsvorschrift an und weise quadratische Konvergenz nach. Kann man die Konvergenzordnung p = 3 erwarten? Schließlich berechne man f¨ur a = 1 und Startwert x0 = 1 die ersten vier Iterierten x1 , . . . , x4 . Auf wie viele Nachkommastellen genau stimmen diese mit dem tats¨achlichen Wert 0 = ln ( 1 ) u¨ berein? Aufgabe 5.3 Zu einer kontraktiven Funktion Φ : R N → R N mit Kontraktionskonstante 0 < L < 1 bezeichne x∗ ∈ R N den Fixpunkt von Φ, und der Vektor x0 ∈ R N sei beliebig. Die Folge (xδn )n∈N0 sei gegeben durch .

xδ0 := x0 + .............. x0 , .

xδn+1 := Φ( xδn ) + ................ xn+1 ,

n = 0, 1, . . .,

.... ...........

wobei || xn || ≤ δ f¨ur n ∈ N0 gelte bez¨uglich einer gegebenen Vektornorm || · || : R N → R und einer gewissen Fehlerschranke δ. Man zeige Folgendes:  δ Ln  ||xδn − x∗ || ≤ + n = 0, 1, . . . . (L + 2)δ + ||xδ1 − xδ0 || , 1−L

1−L

Aufgabe 5.4 Es sei die Abbildung Φ : R 2 → R 2 definiert durch + * sin x   + y x 1 1 + 4 . Φ = 2 1 + sin y + x y (a) Man untersuche die Kontraktionseigenschaft von Φ jeweils bez¨uglich || · ||∞ und || · ||2 . (b) Man berechne den Fixpunkt (ξ, η ) ∈ R 2 der Abbildung Φ mittels der gew¨ohnlichen Fixpunktiteration, f¨ur den Startwert ( x0 , y0 ) = ( 0, 0 ). Wie oft ist bei Verwendung der a priori Fehlerabsch¨atzung zu iterieren, bis || ( xn , yn ) − ( ξ, η )||2



10−2

garantiert werden kann? Die entsprechende Frage stellt sich bei Anwendung der a posteriori Fehlerabsch¨atzung. Aufgabe 5.5 Gegeben sei das nichtlineare Gleichungssystem uv + u − v − 1 =

0,

=

0.

uv

 (5.22)

¨ Ubungsaufgaben

113

(a) Man bestimme die exakten L¨osungen des nichtlinearen Gleichungssystems (5.22). (b) F¨ur die Startwerte x0 =

  0 0

x0 =

und

  1 1

f¨uhre man jeweils den ersten Iterationsschritt des Newton Verfahrens durch. Aufgabe 5.6 F¨ur eine regul¨are Matrix A ∈ R N×N ist die inverse Matrix X = A−1 offensichtlich eine L¨osung der nichtlinearen Gleichung X −1 − A = 0.

(5.23)

Das Newton Verfahren zur L¨osung der Gleichung (5.23) f¨uhrt auf das Verfahren von Schulz Xn+1 := Xn + Xn ( I − AXn ),

n = 0, 1, . . . .

Man zeige: f¨ur jede Startmatrix X0 ∈ R N N mit ||I − AX0 || ≤ q < 1 (mit einer gegebenen submultiplikativen Matrixnorm || · || : R N×N → R ) konvergiert die Matrixfolge X0 , X1 , p p p ⊂ R N×N gegen die Matrix A−1 mit den Absch¨atzungen ×

||Xn − A−1 ||



|| X0 || ||I − AXn || 1−q

|| X0 || (2n ) q 1−q



f¨ur n = 0, 1, . . . .

Aufgabe 5.7 (Numerische Aufgabe) Man schreibe ein Programm zur L¨osung eines nichtlinearen Gleichungssystems mittels der folgenden Variante des Newton Verfahrens: xn+1

=

xn − An F ( xn )

f¨ur n = 0, 1, . . .,

mit Akp+j = ( Dxkp F )−1

f¨ur

j = 0, 1, . . . , p − 1, k = 0, 1, . . . .

Hierbei bezeichnet Dx F die Jacobi Matrix der Abbildung F im Punkt x. Man breche die Iteration ab, falls die Bedingung ||xn − xn−1 ||2 ≤ tol erstmalig erf¨ullt ist oder falls n = nmax gilt. Hier sind p ∈ N, nmax ∈ N0 und tol > 0 frei w¨ahlbare Parameter. Man teste das Programm anhand des Beispiels     ( ) sin u cos ( v ) u F v := 2 2 u +v −3

=

  0 0 ,

mit den Parametern tol = 10−4 und nmax = 100 sowie mit den folgenden Startwerten beziehungsweise den folgenden Werten von p:     1 1 (b) x0 = 1 , p = 5; (a) x0 = 1 , p = 1; (c) x0 =

  3 3 , p = 1;

(d) x0 =

  3 3 , p = 5.

Aufgabe 5.8 Die Funktion f ∈ C 1 [ a, b ] sei streng monoton wachsend und konvex mit Nullstelle x∗ ∈ [ a, b ]. Man zeige, dass f¨ur jeden Startwert x0 ∈ [ x∗ , b ] die N¨aherungen xn des Newton Verfahrens gegen x∗ konvergieren mit xn+1 ≤ xn ,

n = 0, 1, . . . .

114

6

Numerische Integration von Funktionen

Zahlreiche Anwendungen wie etwa die Bestimmung von Fl¨achen oder Normalverteilungen f¨uhren letztlich auf das Problem der Berechnung von Integralen I ( f ) :=

Z b a

f ( x ) dx

(6.1)

mit gewissen Funktionen f ∈ C [ a, b ]. Oftmals ist jedoch die Berechnung des Integrals (6.1) nicht m¨oglich, da beispielsweise die Stammfunktion von f nicht berechnet werden kann oder die Funktionswerte von f als Resultat von Messungen nur an endlich vielen Stellen vorliegen. Beispiel 6.1 Die Preise von Kaufoptionen auf europ¨aischen Finanzm¨arkten lassen sich unter gewissen vereinfachenden Annahmen (zum Beispiel konstanten Volatilit¨aten) mit der Black Scholes Formel explizit angeben. F¨ur Details sei auf G¨unther/J¨ungel [42] oder Hanke-Bourgeois [49] verwiesen. In unserem Zusammenhang ist von Interesse, dass dabei Auswertungen der Fehlerfunktion 2 π

erf( x ) = √

Z x 0

exp ( –t2 ) dt

f¨ur x ≥ 0 

erforderlich sind. Deren Werte lassen sich jedoch lediglich n¨aherungsweise bestimmen.

Man ist an einfachen Methoden zur n¨aherungsweisen Berechnung des Integrals (6.1) interessiert, und hierzu werden im Folgenden Quadraturformeln In ( f ) = ( b − a )

n 

σk f ( xk ),

(6.2)

k=0

herangezogen mit paarweise verschiedenen St¨utzstellen x0 , x1 , . . . , xn ∈ [ a, b ] und reellen Gewichten σ0 , σ1 , . . . , σn ∈ R. Definition 6.2 Die Zahl r ∈ N0 heißt Genauigkeitsgrad der Quadraturformel In , wenn In ( xm ) = I ( xm ) In ( x

r+1

)

= I ( x

r+1

f¨ur m = 0, 1, . . . , r,

(6.3)

)

erf¨ullt ist. Der Genauigkeitsgrad einer Quadraturformel In ist per Definition mindestens r ∈ N0 , falls (6.3) gilt. Bemerkung 6.3 (a) In : C [ a, b ] → R ist offensichtlich eine lineare Abbildung, es gilt also In ( αf + βg ) = αIn ( f ) + βIn ( g )

∀ f, g ∈ C [ a, b ],

α, β ∈ R.

Abschnitt 6.1

115

Interpolatorische Quadraturformeln

(b) Wegen der Linearit¨at der Quadraturformel In und des Integrals I gilt: In besitzt den Genauigkeitsgrad r ⎧ ⎨ In ( P ) = I ( P ) f¨ur alle Polynome P vom Grad ≤ r, und ⇐⇒ ⎩ ( ) In P = I ( P ) f¨ur ein Polynom P vom ( genauen ) Grad = r + 1 ⎧ ⎨ In (P ) = I ( P ) f¨ur alle Polynome P vom Grad ≤ r, und ⇐⇒ ⎩ ( ) In P = In ( P ) f¨ur alle Polynom P vom ( genauen ) Grad = r + 1



6.1 Interpolatorische Quadraturformeln Definition 6.4 Interpolatorische Quadraturformeln In ( f ) sind folgendermaßen erkl¨art: nach einer Festlegung von n ∈ N0 sowie ( n + 1 ) paarweise verschiedenen St¨utzstellen x0 , x1 , . . . , xn ∈ [ a, b ] wird als N¨aherung f¨ur I ( f ) der Wert In ( f ) :=

Z b a

Qn ( x ) dx

herangezogen, wobei Qn ∈ Πn das interpolierende Polynom zu den St¨utzpunkten ( x0 , f ( x0 )), ( x1 , f ( x1 )), . . . , ( xn , f ( xn )) ∈ R 2 bezeichnet.

Bemerkung 6.5 Der Genauigkeitsgrad einer interpolatorischen Quadraturformel In ist offensichtlich mindestens n.  Im Folgenden soll eine explizite Darstellung f¨ur In ( f ) hergeleitet werden. Daraus resultiert dann auch die Darstellung (6.2) f¨ur die Quadraturformel In ( f ) aus Definition 6.4. Theorem 6.6 Eine interpolatorische Quadraturformel In besitzt die Gestalt In ( f ) = ( b − a )

n 

mit σk :=

σk f ( xk )

Z 1

k=0

0

n  t − tm dt, tk − t m

tm :=

m=0 m=k

xm − a . (6.4) b−a

B EWEIS . Mit der Lagrangeschen Interpolationsformel Qn =

n 

f ( xk )Lk

mit

n  x − xm xk − xm

Lk ( x ) =

m=0 m=k

k=0

Z b  erh¨alt man In ( f ) = nk=0 f ( xk ) a Lk ( x ) dx, und aus der nachfolgenden Rechnung resultiert dann die Aussage des Theorems,

1 b−a

Z b a

Lk ( x ) dx

=

1 b−a

Z b a

n  x − xm dx xk − xm

m=0 m=k

(∗)

=

Z 1 0

n  t − tm dt tk − t m

m=0 m=k

wobei man die Identit¨at (∗) mit der Substitution x = ( b − a )t + a erh¨alt.

=

σk ,

116

Kapitel 6 Numerische Integration von Funktionen

Bemerkung 6.7 (a) Der Vorteil in der Darstellung (6.4) ist in der Unabh¨angigkeit der Gewichte σk sowohl von den Intervallgrenzen a und b als auch von der Funktion f begr¨undet. Letztlich h¨angen die Gewichte nur von der relativen Verteilung der St¨utzstellen im Intervall [ a, b ] ab.  (b) F¨ur jede interpolatorische Quadraturformel In ( f ) = ( b − a ) nk=0 σk f ( xk ) gilt n 

σk = 1,

(6.5)

k=0

da ihr Genauigkeitsgrad mindestens n ≥ 0 betr¨agt und somit ( b − a ) I ( 1 ) = b − a gilt.

n k=0

σk = In ( 1 ) = 

6.2 Spezielle interpolatorische Quadraturformeln 6.2.1 Abgeschlossene Newton– Cotes– Formeln Die Newton Cotes Formeln ergeben sich durch die Wahl a¨ quidistanter St¨utzstellen bei interpolatorischen Quadraturformeln. Wenn zus¨atzlich Intervallanfang und ende St¨utzstellen sind, also x0 = a, xn = b gilt, so spricht man von abgeschlossenen Newton Cotes Formeln. Speziell gilt hier also (f¨ur n ≥ 1) xk := a + kh,

k = 0, 1, . . . , n,

h =

b−a . n

Lemma 6.8 F¨ur die Gewichte σ0 , σ1 , . . . , σn der abgeschlossenen Newton Cotes Formeln gilt σk

=

1 n

Z n 0

n  s−m ds k−m

f¨ur k = 0, 1, . . . , n.

(6.6)

m=0 m=k

B EWEIS . Aus der Identit¨at (6.4) erh¨alt man aufgrund von tk = k/n f¨ur die Gewichte die angegebene Darstellung, σk

=

Z 1 0

n  m=0 m=k

t − m/n dt (k − m)/n

=

1 n

Z n 0

n  s−m ds, k−m

m=0 m=k

wobei man die zweite Gleichung aus der Substitution t = s/n erh¨alt. Die Darstellung (6.6) und die folgende Symmetrieeigenschaft der Gewichte der abgeschlossenen Newton Cotes Formeln erm¨oglichen die in den nachfolgenden Beispielen angestellten einfachen Berechnungen. Lemma 6.9 F¨ur die Gewichte σ0 , σ1 , . . . , σn der abgeschlossenen Newton Cotes Formeln gilt σn−k = σk

f¨ur k = 0, 1, . . . , n.

(6.7)

Abschnitt 6.2

117

Spezielle interpolatorische Quadraturformeln

B EWEIS . F¨ur die Lagrangeschen Basispolynome Lk gilt Ln−k ( x ) = Lk ( b + a − x ),

x ∈ [ a, b ],

(6.8)

denn Ln−k ∈ Πn und Q( x ) := Lk ( b + a − x ) ∈ Πn , und    b−a b − a  Q( xn−j ) = Lk b + a − a + ( n − j ) = Lk a + j n

= Lk ( xj )

=

=

δkj

n

Ln−k ( xn−j )

f¨ur j = 0, 1, . . . , n,

und die Eindeutigkeit des interpolierenden Polynoms resultiert in der Identit¨at (6.8). Daraus erh¨alt man 1

σn−k = b − a

Z b a

1

Ln−k ( x ) dx = b − a

Z b a

1

(∗)

Lk ( b + a − x ) dx = b − a

Z b a

Lk ( t ) dt = σk ,

wobei man (∗) mit der Substitution x = b + a − t erh¨alt. Beispiel 6.10 (a) F¨ur n = 1 erh¨alt man die Trapezregel,

Z b f (a) + f (b) I1 ( f ) = ( b − a ) ≈ f ( x ) dx, a 2 denn (6.5) und (6.7) liefern σ0 + σ1 = 1 und σ0 = σ1 , somit σ0 = σ1 =

(b) F¨ur n = 2 erh¨alt man die Simpson Regel a+b  1 + f (b) ≈ I2 ( f ) = ( b − a ) f ( a ) + 4f 6

2

Z b a

1 . 2

f ( x ) dx,

denn die Eigenschaften (6.5) (6.7) ergeben Folgendes, σ0 =

1 2

Z 2 0

s−1 s−2 ds 0−1 0−2

=

1 , 6

σ2 = σ0 ,

σ1 = 1 − σ0 − σ2

=

2 . 3

Die geometrische Bedeutung der Trapez und der Simpson Regel ist in Bild 6.1 beziehungsweise Bild 6.2 dargestellt.

6

6

......................... ... ....... ...... ... ...... .. ...... ... ...... ... ...... . . .......... ... ......... . . . .. ........... ...... . ......................... . . . . ........ .............................. . . . . . . . . . . . . . . . ..... ......................... ...................... ................................................................ ..................................... ............................................................................................................. ......................................................................... ..................................... ............................................................................................................. ......................................................................... ......................................................................... .....................................

f (x)

f (x)

0

-

a

b

Bild 6.1 Vorgehensweise der Trapezregel

............... ..... . .................. . . . .................................... . . .......................................... . .............................................................................. . . . ............................................................ ...................................................................... . ............................................................................ .... ........................................................................................................................................ . . . . . . . . .... . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...... ......................................................................... ...................................................................................... ......................................................................... ......................................................................... ..................................... ............................................................................................................. ......................................................................... ..................................... ............................................................................................................. .....................................

0

a

b

Bild 6.2 Vorgehensweise der Simpson– Regel

(c) Der Fall n = 3 f¨uhrt auf die Newtonsche 3/8 Regel  2a + b   a + 2b   1 I3 ( f ) = ( b − a ) f ( a ) + 3f + 3f + f (b) ≈ 8

-

(a + b)/2

3

3

Z b a

f ( x ) dx.

118

Kapitel 6 Numerische Integration von Funktionen

(d) In der Situation n = 4 erh¨alt man die Milne Regel  2(a + b)   a + 3b    3a + b  1 I4 ( f ) = ( b − a ) 90 7f ( a ) + 32f + 12f + 32f + 7f ( b ) 4 4 4 ≈

Z b a

f ( x ) dx.

(e) Der Fall n = 8 liefert die folgende Quadraturformel, b−a 989f ( x0 ) + 5888f ( x1 ) − 928f ( x2 ) + 10496f ( x3 ) − 4540f ( x4 ) I8 ( f ) = 28350

+ 10496f ( x5 ) − 928f ( x6 ) + 5888f ( x7 ) + 989f ( x8 )





Z b a

f ( x ) dx. 

Zu der zuletzt betrachteten Quadraturformel I8 ( f ) ist Folgendes anzumerken: •



Es treten negative Gewichte auf, wie u¨ berhaupt f¨ur n ≥ 8 bei den abgeschlossenen Newton Cotes Formeln. Dies widerspricht der Vorstellung des Integrals als Grenzwert einer Summe von Funktionswerten mit positiven Gewichten. Die Summe der Betr¨age der Gewichte u¨ bersteigt den Wert eins, was zu einer Verst¨arkung von Rundungsfehlern f¨uhrt. Es gilt das folgende Theorem, das hier ohne Beweis angeben wird.

Theorem 6.11 (Satz von Kusmin) F¨ur die Gewichte σ0(n) , σ1(n) , . . . , σn(n) der abgeschlossenen Newton Cotes Formeln In gilt n 

|σk(n) | → ∞

f¨ur n → ∞.

k=0

Aus den beiden genannten Gr¨unden werden abgeschlossene Newton Cotes Formeln nur f¨ur kleine Werte von n angewandt.

6.2.2 Andere interpolatorische Quadraturformeln Beispiel 6.12 • Eine Rechteckregel lautet I0 ( f ) = ( b−a )f ( a ) (hier ist n = 0 und x0 = a), und eine weitere Rechteckregel ist I0 ( f ) = ( b − a )f ( b ) (hier ist n = 0 und x0 = b). a+b • Die Mittelpunktregel ist von der Form I ( f ) = ( b − a )f 2 (hier ist n = 0 und 0 x0 = ( a + b )/2).

Die geometrische Bedeutung der ersten Rechteck und der Mittelpunktregel ist in Bild 6.3 beziehungsweise Bild 6.4 dargestellt. 

6.3 Der Fehler bei der interpolatorischen Quadratur Im Folgenden wird eine Absch¨atzung f¨ur den bei der interpolatorischen Quadratur auftretenden Fehler vorgestellt. Insbesondere wird dabei deutlich, dass die interpolatorischen Quadraturformeln lediglich f¨ur kurze Intervalle [ a, b ] (also f¨ur b − a  1) gute N¨aherungen an das zu bestimmende Integral darstellen.

Abschnitt 6.3

6

119

Der Fehler bei der interpolatorischen Quadratur

6

........ ...... .............. ....... ... ...... ... ...... .. ...... ... ...... . ...... ... . ........ . . ....... ... . . . . ... ........ . ............ ........... ....... . . . . . . . . ......... .... ................................ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . .............. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....... . . . .................. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....... . . . . . . . . .............. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...... . . . . . . . . . . . . . ............. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...... . . . . . . . . . . . . . . . . . .............. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...... . . . . . . . . . . . . . . . . . . . . . ............ . . . . . . . . . . . . . . . . . . . . . . . . . ............ . . . . . . . . . . . . . . . . . . . . . . . . . . ................ . . . . . ... . . . . . . . . . ................... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ........................................ . .................................. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . .. . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . .. . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . .. . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . .. .

f (x)

f (x)

-

0

a

0

Bild 6.3 Vorgehensweise der Rechteckregel

(a + b)/2

a

b

-

b

Bild 6.4 Vorgehensweise der Mittelpunktregel

Vorbereitend wird noch folgende Sprechweise eingef¨uhrt: eine reellwertige Funktion ψ heißt von einem Vorzeichen auf dem Intervall [ c, d ], wenn (sie dort definiert ist und) ψ ( x ) ≥ 0 f¨ur alle x ∈ [ c, d ] oder ψ ( x ) ≤ 0 f¨ur alle x ∈ [ c, d ] gilt.  Theorem 6.13 Die interpolatorische Quadraturformel In ( f ) = ( b − a ) nk=0 σk f ( xk ) besitze mindestens den Genauigkeitsgrad r ≥ n, und die Funktion f : [ a, b ] → R sei ( r + 1 ) mal stetig differenzierbar. Dann gilt die folgende Fehlerabsch¨atzung, |I ( f ) − In ( f ) | mit

cr :=



r Z 1 

min

tn+1 ,...,tr ∈ [ 0, 1 ] 0

( b − a )r+2

cr ( r + 1 )!

max |f (r+1) ( ξ ) |

ξ ∈ [ a, b ]

(6.9)

|t − tk | dt,

k=0

tk :=

xk − a , b−a

k = 0, 1, . . . , n.

(6.10)

Wenn mit den Werten t0 , t1 , . . . , tn aus (6.10) f¨ur eine bestimmte Wahl von tn+1 , . . . , tr ∈ [ 0, 1 ]  das Produkt rk=0 ( t − tk ) von einem Vorzeichen in [ 0, 1 ] ist, so gilt mit einer Zwischenstelle ξ ∈ [ a, b ] die folgende Fehlerdarstellung, I ( f ) − In ( f )

=

( b − a )r+2

cr ( r + 1 )! f (r+1) ( ξ ) mit cr :=

(6.11) r Z 1 0

( t − tk ) dt.

(6.12)

k=0

B EWEIS . 1. Seien xn+1 , . . . , xr ∈ [ a, b ] beliebig aber so, dass x0 , x1 , . . . , xr paarweise verschieden sind. Es soll in diesem ersten Teil des Beweises die unten stehende Fehlerdarstellung (6.15) nachgewiesen werden. Sei dazu Qr ∈ Πr das zu den St¨utzpunkten (x0 , f ( x0 ) ), . . . , (xr , f ( xr ) ) geh¨orende interpolierende Polynom. Aufgrund der Darstellung (6.2) f¨ur In erh¨alt man In (f ) = ( b − a )

n 

σk f ( xk ) = ( b − a )

k=0

n 

σk Qr ( xk ) = In ( Qr ) = I ( Qr ),

k=0

und somit I ( f ) − In ( f )

=

I ( f ) − I ( Qr )

=

Z b a

f ( x ) − Qr ( x ) dx.

(6.13)

120

Kapitel 6 Numerische Integration von Funktionen

Weiter gilt (siehe Theorem 1.17 auf Seite 10) ( ω ν )( x ) f ( r+1) ( ξ ( x ))

f ( x ) − Qr ( x ) =

(r

+ 1 )!

x ∈ [ a, b ],

,

(6.14)

mit ω ( x ) := ( x − x0 ) · · · ( x − xn ),

ν ( x ) := ( x − xn+1 ) · · · ( x − xr ),

und einer geeigneten Zwischenstellenfunktion ξ : [ a, b ] → [ a, b ]. Man beachte, dass die rechte Seite der Gleichung (6.14) als Differenz zweier stetiger Funktionen selbst stetig und damit integrierbar ist. Weiter sei noch angemerkt, dass ω bereits durch die Quadraturformel festgelegt ist, w¨ahrend die Nullstellen von ν noch variieren k¨onnen. Aus (6.13) und (6.14) erh¨alt man 1 ( r + 1 )!

I ( f ) − In ( f ) =

Z b a

( ω ν )( x ) f (r+1) (ξ ( x ) ) dx.

(6.15)

2. Es soll nun die Fehlerabsch¨atzung (6.9) bewiesen werden, und hierzu seien xn+1 , . . . , xr ∈ [ a, b ] beliebig. Dann w¨ahlt man Zahlen m) , . . . , x(rm) ∈ [ a, b ], x(n+1

m = 1, 2, . . .,

so dass Folgendes gilt, m) x0 , x1 , . . . , xn , x(n+1 , . . . , x(rm) x(km) → xk

paarweise verschieden,

f¨ur m → ∞

( k = n + 1, . . . , r ).

Mit der Notation r 

νm ( x ) =

(x − x(km) )

k=n+1

erh¨alt man aus der Identit¨at (6.15) angewandt mit ν = νm sowie einem anschließenden Grenz¨ubergang m → ∞ Folgendes: |I ( f ) − In ( f ) | ≤

1 max |f (r+1) ( ξ ) | ( r + 1 )! ξ ∈ [ a, b ]

Z b a

Z



......

|(ω νm )( x ) | dx

b

a

| ( ω ν )( x ) | dx +

 ( x ) ||νm ( x ) − ν ( x ) | dx , |ω a

  → 0 f¨ur m → ∞ Z b

wobei die Konvergenz des zweiten Terms aus der auf dem Intervall [ a, b ] vorliegenden gleichm¨aßigen Konvergenz νm → ν f¨ur m → ∞ resultiert. Somit erh¨alt man |I ( f ) − In ( f ) |



 cr

  1 max  f (r+1) ( x )  ( r + 1 )! x ∈ [ a, b ]

mit  cr

(∗)

:=

min

r Z b 

xn+1 ,...,xr ∈ [ a, b ] a

k=0

|x − xk | dx

(∗∗)

=

( b − a )r+2

min

r Z 1 

tn+1 ,...,tr ∈ [ 0, 1 ] 0

k=0

|t − tk | dt,

Abschnitt 6.3

121

Der Fehler bei der interpolatorischen Quadratur

wobei das Minimum in der Setzung (∗) aus Stetigkeitsgr¨unden tats¨achlich existiert, und (∗∗) resultiert aus der Substitution x = ( b − a )t + a. Die Absch¨atzung (6.9) ist damit nachgewiesen. 3. F¨ur den Nachweis von (6.11) betrachte man die Zahlen xk = ( b−a )tk +a f¨ur k = n+1, . . . , r, so dass entsprechend der Voraussetzung die Funktion ω ν auf dem Intervall [ a, b ] von einem Vorzeichen ist, etwa ( ω ν )( x ) ≥ 0,

x ∈ [ a, b ].

Eine dem zweiten Teil dieses Beweises entsprechende Vorgehensweise liefert I ( f ) − In ( f ) ≤

(r

1 + 1 )!



max f (r+1) ( ξ )

ξ ∈ [ a, b ]

Z b a

( ω ν )( x ) dx



+ max |f (r+1) ( ξ ) | ξ ∈ [ a, b ]



(r

1 max f (r+1) ( ξ ) + 1 )! ξ ∈ [ a, b ]

Z b a

Z b a

→ 0 f¨ur m → ∞ 

     ( ) ( ) ( ) |ω x | νm x − ν x dx

( ω ν )( x ) dx

f¨ur m → ∞,

und analog folgt I ( f ) − In ( f ) ≥

1 min f (r+1) ( ξ ) ( r + 1 )! ξ ∈ [ a, b ]

Z b a

( ω ν )( x ) dx.

Die Anwendung des Zwischenwertsatzes auf die stetige Funktion f (r+1) liefert eine Zwischenstelle ξ ∈ [ a, b ] mit I ( f ) − In ( f ) =

(r

1 f (r+1) ( ξ ) + 1 )!

Z b a

( ω ν )( x ) dx,

(6.16)

und eine abschließende Substitution x = ( b − a )t + a ergibt die Identit¨at (6.11). Beispiel 6.14 1. (Rechteckregeln) F¨ur f ∈ C 1 [ a, b ] gelten die Fehlerdarstellungen Z b a Z b a

f ( x ) dx − ( b − a )f ( a ) =

( b − a )2

2

f  ( ξ0 ) ,

(6.17)

(b − a) f ( x ) dx − ( b − a )f ( b ) = − f  ( ξ1 ) 2

(6.18)

2

mit gewissen Zwischenstellen ξ0 , ξ1 ∈ [ a, b ]. Die Darstellung (6.17) beispielsweise erh¨alt man aus Theorem 6.13 angewandt mit n = r = 0 und x0 = a beziehungsweise t0 = 0 unter Ber¨ucksichtigung von 0 

( t − tk ) = t ≥ 0

f¨ur 0 ≤ t ≤ 1,

c0 =

k=0

Z 1 0

t dt =



t2 t=1 =  2 t=0

1 . 2

Analog leitet man die Darstellung (6.18) her. 2. (Trapezregel) In diesem Fall gilt f¨ur f ∈ C 2 [ a, b ] I ( f ) − I1 ( f ) = −

( b − a )3

12

f  ( ξ )

(6.19)

122

Kapitel 6 Numerische Integration von Funktionen

mit einer Zwischenstelle ξ ∈ [ a, b ]. Dies folgt aus Theorem 6.13 angewandt mit n = r = 1, x0 = a, x1 = b beziehungsweise t0 = 0, t1 = 1 unter Ber¨ucksichtigung von 1 

( t − tk ) =

t( t − 1 ) ≤ 0

f¨ur 0 ≤ t ≤ 1,

k=0 Z 1

c1 =

0

t( t − 1 ) dt =



t3 t2 t=1 1 −  = − . 3 2 t=0 6



In dem vorangegangenen Beispiel wurde f¨ur n = 0 sowie f¨ur n = 1 verwendet, dass In jeweils mindestens den Genauigkeitsgrad r = n besitzt. Analog kann man nat¨urlich bei der Simpson Regel (hier ist n = 2) vorgehen. Dort kann man sich jedoch zu Nutze machen, dass in diesem Fall der Genauigkeitsgrad r = 3 vorliegt, was im folgenden Abschnitt f¨ur eine allgemeinere Situation nachgewiesen wird.

6.4 Der Genauigkeitsgrad abgeschlossener Newton–Cotes– Formeln In fur ¨ gerade Zahlen n Das folgende Lemma wird f¨ur den Beweis von Theorem 6.16 ben¨otigt, das die wesentliche Aussage dieses Abschnitts 6.4 darstellt. Lemma 6.15 Sei n ∈ N gerade, h = ( b − a )/n, und xk = a + kh f¨ur k = 0, 1, . . . , n. F¨ur die Funktion F ( x ) :=

n Z x a

( y − xk ) dy,

x ∈ [ a, b ],

(6.20)

k=0

gilt F ( a ) = F ( b ) = 0,

F (x) > 0

f¨ur a < x < b.

(6.21)

Der Beweis von Lemma 6.15 wird am Ende von Abschnitt 6.4 nachgetragen. Theorem 6.16 Die abgeschlossenen Newton Cotes Formeln In besitzen f¨ur gerades n ≥ 2 den Genauigkeitsgrad r = n + 1. B EWEIS . Er gliedert sich in zwei Teile. 1. Offensichtlich ist der Genauigkeitsgrad von In mindestens n, siehe Bemerkung 6.5. Des Weiteren gilt I((x − ( a + b )/2)n+1 ) = 0, denn der Integrand ist eine ungerade Funktion bez¨uglich des Intervallmittelpunkts1( a + b )/2. Im Folgenden wird   a + b n+1 In x − 2 = 0 (6.22) 1

Eine Erl¨auterung der Bezeichnung “ungerade bez¨uglich des Intervallmittelpunkts“ findet sich im Beweisteil 2) von Lemma 6.15.

Abschnitt 6.4

123

Genauigkeit abgeschlossener Newton– Cotes– Formeln

nachgewiesen, woraus sich dann unmittelbar ergibt, dass der Genauigkeitsgrad von In mindestens r = n + 1 betr¨agt. F¨ur den Nachweis von (6.22) setzt man h = ( b − a )/n und xk = a + kh f¨ur k = 0, 1, . . . , n, so dass dann Folgendes gilt,

xn−k −

xn/2

=

a+b 2

=

a+b 2

= a +

 a+b − xk − 2 ,

n h, 2 n

k = 0, 1, . . . , 2 − 1.

Aufgrund der Symmetrieeigenschaft σn−k = σk f¨ur k = 0, 1, . . . , n (siehe (6.7)) erh¨alt man daher   a + b n+1 In x − 2

= (b − a)

 n/2−1 

σk



xk −

k=0

= (b − a)

 n/2−1 

    a + b n+1 a + b n+1 a + b n+1 + x − x + σ n−k − n/2 n/2 2 2 2

σk · 0 + σn/2 · 0



=

0,

k=0

was gerade die Aussage (6.22) darstellt. 2. Im Folgenden wird In ( xn+2 ) = I ( xn+2 )

(6.23)

nachgewiesen, woraus sich zusammen mit dem ersten Teil des Beweises die Aussage des Theorems u¨ ber den Genauigkeitsgrad von In ergibt. F¨ur den Nachweis von (6.23) betrachtet man f¨ur das Monom f ( x ) = xn+2 und f¨ur eine beliebige Zahl xn+1 ∈ [ a, b ] mit xn+1 = xk f¨ur k = 0, 1, . . . , n die Fehlerformel (6.15) und integriert anschließend partiell: I ( xn+2 ) − In ( xn+2 )

= = (6.21)

=

Z b n+1  a

=

1 ( n + 2 )!

( x − xk ) dx

=

k=0

x=b F ( x )( x − xn+1 )x=a − 0−0−

Z b a

F ( x ) · 1 dx

Z b n+1  a

( x − xk )



k=0

Z b a Z b a

=





dn+2 n+2 (ξ ( x ) ) dx x dxn+2



≡ ( n+2 )!

F  ( x )( x − xn+1 ) dx



(F wie in (6.20))

  d F ( x ) dx (x − xn+1 ) dx −

Z b a

(6.21)

F ( x ) dx = 0.

Dies komplettiert den Beweis des Theorems. Beispiel 6.17 (Simpson Regel) Hier gilt f¨ur f ∈ C 4 [ a, b ] die Fehlerdarstellung Z b a

f ( x ) dx −



a+b b−a + f (b) f ( a ) + 4f 6 2



= −

( b − a )5 (4) f (ξ ) 2880

(6.24)

124

Kapitel 6 Numerische Integration von Funktionen

mit einer Zwischenstelle ξ ∈ [ a, b ], was aus Theorem 6.13 angewandt mit r = 3, n = 2, x0 = a, x1 = ( a + b )/2, x2 = b beziehungsweise t0 = 0, t1 = 1/2, t2 = 1 resultiert. F¨ur die Wahl t3 = 1/2 erh¨alt man n¨amlich (bez¨uglich der Notation siehe wieder Theorem 6.13) 3 

( t − tk ) =

k=0

t(t − 12 )2 ( t − 1 ) Z 1

c3 =

0



f¨ur t ∈ [ 0, 1 ],

0

1

t(t − 12 )2 ( t − 1 ) dt = − 120 ,

und mit Theorem 6.13 ergibt sich die in (6.24) angegebene Fehlerdarstellung, I ( f ) − I2 ( f ) = −

( b − a )5

4!

( b − a )5 1 (4) f ( ξ ) = − 2880 f (4) ( ξ ). 120



6.4.1 Der Beweis von Lemma 6.15 Die Identit¨at F ( a ) = 0 ist offensichtlich richtig, und f¨ur den Nachweis der weiteren Aussagen des Lemmas sei der Integrand in (6.20) wie folgt bezeichnet, ω(y ) =

n 

( y − xk ),

y ∈ R.

k=0

1) Es wird im Folgenden die Positivit¨at der Funktion F auf der linken H¨alfte des Intervalls [ a, b ] nachgewiesen, F (x) =

Z x a

a 0,

a+b . 2

(6.25)

Vorbereitendes hierzu wird in 1a) 1b) hergeleitet. 1a) Das Polynom ω mit genauem Grad n + 1 besitzt die paarweise verschiedenen Nullstellen x0 , x1 , . . . , xn . Wegen ω ( y ) → −∞ f¨ur y → −∞ (da ω ungeraden Grad besitzt) gilt also ω( y ) < 0

f¨ur y < a,

ω(a + τ ) > 0

f¨ur 0 < τ < h,

ω ( x1 + τ ) < 0 .. .. .. . . .

f¨ur 0 < τ < h,

siehe Bild 6.5 f¨ur eine Darstellung des Verlaufs der Funktion ω. Allgemein gilt ω ( x2j + τ ) > 0, ω ( x2j+1 + τ ) < 0

(6.26) f¨ur 0 < τ < h,

n j = 0, 1, . . . , 2 − 1.

1b) Weiter gilt |ω ( y + h ) | < |ω ( y ) |

f¨ur a ≤ y ≤

a+b − h, 2

y ∈ {x0 , . . . , xn/2−1 },

(6.27)

Abschnitt 6.4

125

Genauigkeit abgeschlossener Newton– Cotes– Formeln 0.01

0

−0.01

.... .. .. .. ... ... .. .. .... .. ... .. ... .. ... .. .. .. ... ... .. .... .. .. .... .. ..... ... .... ...... ...... .. ..... .................................................................................................................................... .. .. . ... ....... .................. .. .. ... .................. ... .. ... ... ... .. . . .. .. ... .. .. .. .. .. ... .. .. .. .. .... ... .. .. .. .. .. ....

−1 = x0 x1

x2

x3

x4

x5

x6

x7

x9 1 = x10

x8

Bild 6.5 Beispiel f¨ur den Verlauf der Funktion ω denn ω( y + h ) ω( y )

=

n ( ) k=0 y + h − xk  n ( ) y − x k k=0

(y

=

n−1 + h − a ) k=0 ( y − xk ) n−1 ( y − b ) k=0 ( y − xk )

=

y+h−a , y−b

und wegen der Annahmen in (6.27) gilt |y + h − a|


b−a . 2

1c) Man erh¨alt nun schließlich die in (6.25) angegebene Positivit¨at der Funktion F : mit der Eigenschaft (6.26) erh¨alt man unmittelbar Z x +τ 2j x2j

0 0,

mit 0 ≤ j ≤

n/2 − 1 , 2

(6.28)

und die Absch¨atzung (6.27) liefert Folgendes, ≥0

Z x 2j+1 +τ x2j

ω ( y ) dy

=

Z x 2j+τ x2j

>0 Z 

 

x2j+1 ( ) ( ) ( ) ω y + ω y + h dy + x ω y dy > 0, 2j+τ   = −| ω(y+h)|

0 0 f¨ur ( a + b )/2 ≤ x < b nach sich. Dies komplettiert den Nachweis der Aussagen in (6.21). 2a) F¨ur den Beweis der Identit¨at (6.29) wird ben¨otigt, dass die Funktion ω ungerade bez¨uglich des Intervallmittelpunkts ( a + b )/2 = xn/2 ist: wegen a+b − xk = −( a+b − xn−k ) f¨ur k = 0, 1, 2 2

126

Kapitel 6 Numerische Integration von Funktionen

. . . , n gilt n¨amlich ω

a+b 2

+y



=

n  n      a+b a+b + y − xk = − − y − xn−k 2 2

k=0 (∗)

= −

k=0

n   a+b

2

k=0

− y − xk



= −ω

a+b 2

−y



f¨ur 0 ≤ y ≤

b−a , 2

wobei man (∗) mit der Indextransformation k → n − k erh¨alt. 2b) Mit 2a) folgt schließlich die Identit¨at (6.29): F

a+b 2

+ τ



=

Z ( a+b)/2−τ 0

Z ( a+b)/2+τ

ω ( x ) dx +

( a+b )/2−τ

ω ( x ) dx = F

a+b 2

−τ



+ 0.

6.5 Summierte Quadraturformeln Zur numerischen Berechnung des Integrals I ( f ) = Intervall [ a, b ] mit St¨utzstellen xk = a + kh

'b a

f ( x ) dx kann man beispielsweise das 

f¨ur k = 0, 1, . . . , N

h =

b−a N

(6.30)

versehen und die bisher betrachteten Quadraturformeln zur numerischen Berechnung der Integrale Z x k xk−1

k = 1, 2, . . . , N

f ( x ) dx,

verwenden. Die Resultate werden schließlich aufsummiert, und die so gewonnenen Formeln bezeichnet man als summierte Quadraturformeln. Im Folgenden werden einige Beispiele und die jeweils zugeh¨origen Fehlerdarstellungen vorgestellt.

6.5.1 Summierte Rechteckregeln Zwei Rechteckregeln sind in Beispiel 6.12 vorgestellt worden. Die summierten Rechteckregeln mit den a¨ quidistanten St¨utzstellen aus (6.30) lauten dann entsprechend T0 ( h ) = h T0 ( h ) = h

N −1  k=0 N 

f ( xk ) ≈

f ( xk )

Z b a

f ( x ) dx,

(6.31)

......

(6.32)

.

k=1

Die geometrische Bedeutung der summierten Rechteckregel (6.31) ist in Bild 6.6 dargestellt. Ihre approximativen Eigenschaften sind in dem nachfolgenden Theorem festgehalten.

Abschnitt 6.5

127

Summierte Quadraturformeln

Theorem 6.18 Die Funktion f : [ a, b ] → R sei einmal stetig differenzierbar auf dem Intervall [ a, b ]. Dann gibt es Zwischenstellen ξ, ξ ∈ [ a, b ] mit Z b a

f ( x ) dx − T0 ( h ) =

b−a hf  ( ξ ), 2

(6.33)

b−a − T0 ( h ) = − 2 hf  ( ξ),

......

(6.34)

mit h = ( b − a )/N, und mit T0 ( h ) und T0 ( h ) wie in (6.31) beziehungsweise (6.32). B EWEIS . Es wird hier nur die Fehlerdarstellung (6.33) betrachtet, den Nachweis f¨ur (6.34) f¨uhrt man ganz analog. F¨ur T0 ( h ) liefert Beispiel 6.14 die Existenz einer Zwischenstelle ξk ∈ [ a, b ] mit Z x k xk−1

f ( x ) dx − hf ( xk−1 )

h2  f ( ξk ), 2

=

k = 1, 2, . . . , N,

und Summation u¨ ber k liefert Z b a

f ( x ) dx − T0 ( h )

=

N  h2  f ( ξk ) 2

=

N 1   f ( ξk ) N



k=1

N b−a 1   h f ( ξk ). 2 N k=1

Aufgrund der Ungleichungen min f  ( x )

x ∈ [ a, b ]



k=1

max f  ( x )

x ∈ [ a, b ]

existiert nach Anwendung des Zwischenwertsatzes auf die Funktion f  eine Zwischenstelle ξ ∈ [ a, b ] mit N 1 

f ( ξ ) = N

f  ( ξk ),

k=1

was die Fehlerdarstellung (6.33) liefert.

Bild 6.6 Summierte Rechteckregel

Bild 6.7 Summierte Trapezregel

6.5.2 Summierte Trapezregel Die von der (in Beispiel 6.10 definierten) Trapezregel abgeleitete summierte Trapezregel mit den St¨utzstellen aus (6.30) lautet   N −1 Z b  h f (a) + 2 T1 ( h ) = f ( xk ) + f ( b ) ≈ f ( x ) dx. (6.35) 2

k=1

a

128

Kapitel 6 Numerische Integration von Funktionen

Die geometrische Bedeutung der summierten Trapezregel (6.35) ist in Bild 6.7 veranschaulicht. Das nachfolgende Theorem liefert eine Fehlerdarstellung f¨ur diese summierte Quadraturformel. Theorem 6.19 Die Funktion f : [ a, b ] → R sei auf dem Intervall [ a, b ] zweimal stetig differenzierbar. Dann gibt es eine Zwischenstelle ξ ∈ [ a, b ] mit Z b

b−a

f ( x ) dx − T1 ( h ) = − 12 h2 f  ( ξ ), mit h = ( b − a )/N und T1 ( h ) wie in (6.35). a

B EWEIS . Der Beweis verl¨auft entsprechend dem Beweis von Theorem 6.18: es gibt (siehe Beispiel 6.14) Zwischenstellen ξk ∈ [ a, b ] mit Z x  k h h3 f ( xk−1 ) + f ( xk ) = − f  ( ξk ), f ( x ) dx − k = 1, 2, . . . , N, 2

xk−1

12

und Summation u¨ ber k liefert Z b a

f ( x ) dx − T1 ( h ) = −

N N  h3  b − a 2 1   b − a 2  f ( ξk ) = − h f ( ξk ) = − h f (ξ ) 12 12 N 12

k=1

k=1

f¨ur eine Zwischenstelle ξ ∈ [ a, b ], wobei man die Existenz einer solchen Zwischenstelle durch Anwendung des Zwischenwertsatzes auf die Funktion f  erh¨alt. Theorem 6.19 u¨ ber den Fehler bei der summierten Trapezregel erm¨oglicht den kurzen Beweis eines Resultats zur diskreten Fouriertransformation: B EWEIS VON T HEOREM 3.4. Die summierte Trapezregel zur Berechnung des Fourierkoeffizienten ck liefert 1

ck = N

 N −1

f ( xj )e−ijk2π/N



+ O(h2 ),

k = 0, 1, . . . , N − 1,

j=0

somit [c0 , . . . , cN −1 ] = F [f ( x0 ), . . . , f ( xN −1 ) ] + [O(h2 ), . . . , O(h2 )] und eine Anwendung der diskreten Fourierr¨ucktransformation F −1 f¨uhrt auf die Behauptung.

6.5.3 Summierte Simpson– Regel Die von der (in Beispiel 6.10 vorgestellten) Simpson Regel abgeleitete summierte Simpson Regel lautet T2 ( h )

=

  N N −1   h (a) + 4 ( xk−1/2 ) + 2 ( xk ) + f ( b ) f f f 6 k=1

k=1



Z b a

f ( x ) dx, (6.36)

mit den a¨ quidistanten St¨utzstellen xk = a+kh, k ≥ 0, und mit h = ( b−a )/N. Das nachfolgende Theorem liefert eine Fehlerdarstellung f¨ur die summierte Simpson Regel.

Abschnitt 6.6

129

Asymptotik der summierten Trapezregel

Theorem 6.20 Die Funktion f : [ a, b ] → R sei auf dem Intervall [ a, b ] viermal stetig differenzierbar. Dann gibt es eine Zwischenstelle ξ ∈ [ a, b ] mit Z b

b−a

f ( x ) dx − T2 ( h ) = − 2880 h4 f (4) ( ξ ), mit h = ( b − a )/N und T2 ( h ) wie in (6.36). a

B EWEIS . Der Beweis verl¨auft wiederum entsprechend dem Beweis von Theorem 6.18. F¨ur k = 1, 2, . . . , N gibt es (siehe Beispiel 6.17) Zwischenstellen ξk ∈ [ xk−1 , xk ] mit

Z x k h h5 ( 4 ) f ( xk−1 ) + 4f ( xk−1/2 ) + f ( xk ) = − f ( x ) dx − f ( ξk ), xk−1

6

2880

und Summation u¨ ber k liefert Z b a

f ( x ) dx − T2 ( h ) = −

N  h5 f ( 4 ) ( ξk ) 2880

k=1

=

b−a

N 1 

− 2880 h4 N

f ( 4 ) ( ξk )

k=1

b−a

= − 2880 h4 f (4) ( ξ ) f¨ur eine Zwischenstelle ξ ∈ [ a, b ], wobei man die Existenz einer solcher Zwischenstelle durch Anwendung des Zwischenwertsatzes auf die Funktion f (4) erh¨alt. Bemerkung 6.21 Zwar ist die Zahl der erforderlichen Funktionsaufrufe bei der summierten Simpson Regel doppelt so hoch wie bei den summierten Rechteckregeln oder der summierten Trapezregel. F¨ur hinreichend glatte Funktionen f ist die Anwendung der summierten Simpson Regel dennoch vorzuziehen, da sich beispielsweise gegen¨uber der summierten Trapezregel die Genauigkeit quadriert. 

6.6 Asymptotik der summierten Trapezregel In dem vorliegenden Abschnitt 6.6 wird f¨ur die summierte Trapezregel (6.35) eine asymptotische Entwicklung vorgestellt, die beim Einsatz von Extrapolationsverfahren (siehe Abschnitt 6.7) Gewinn bringend eingesetzt werden kann.

6.6.1 Die Asymptotik F¨ur die summierte Trapezregel T1 ( h ) aus (6.35) wird im folgenden Theorem eine asymptoti¨ sche Entwicklung angegeben, die gewisse Ahnlichkeiten mit einer Taylorentwicklung von T1 im Punkt h = 0 aufweist. (Man beachte jedoch, dass T1 ( h ) nur f¨ur diskrete positive Werte von h definiert ist.) Theorem 6.22 Sei f ∈ C 2r+2 [ a, b ], r ≥ 0. F¨ur die summierte Trapezregel   N −1 Z b  h f ( xk ) + f ( b ) f ( x ) dx ≈ T1 ( h ) = 2 f ( a ) + 2 a k=1



h =

b−a N

(vergleiche (6.35)) gilt die folgende Darstellung: T1 ( h ) = τ0 + τ1 h2 + . . . + τr h2r + Rr+1 ( h ),

(6.37)

130 mit

Kapitel 6 Numerische Integration von Funktionen

τ0 =

Z b a

f ( x ) dx,

Rr+1 ( h ) = O(h2r+2 )

f¨ur h → 0,

(6.38)

und gewissen Koeffizienten τ1 , τ2 , . . . , τr ∈ R. B EWEIS . Siehe Abschnitt 6.9. Es f¨allt auf, dass in (6.37) Terme mit ungeraden Potenzen von h nicht auftreten, was man sich zu Nutze machen kann. Mehr hierzu finden Sie in dem nachfolgenden Abschnitt 6.7 u¨ ber Extrapolationsmethoden.

6.7 Extrapolationsverfahren 6.7.1 Grundidee Der vorliegende Abschnitt u¨ ber Extrapolationsverfahren l¨asst sich inhaltlich Kapitel 1 u¨ ber die Polynominterpolation zuordnen. Er wird erst hier pr¨asentiert, da mit der vorgestellten Asymptotik der summierten Trapezregel nun eine spezielle Anwendung vorliegt. F¨ur eine gegebene Funktion2 T ( h ), h > 0, liege mit gewissen Koeffizienten τ0 , τ1 , . . . , τr ∈ R das folgende asymptotische Verhalten vor, T ( h ) = τ0 + τ1 hγ + τ2 h2γ + . . . + τr hrγ + O(h( r+1)γ )

f¨ur h → 0,

(6.39)

mit einer Zahl γ > 0 und dem gesuchten Wert τ0 = limh→0+ T ( h ). F¨ur eine Nullfolge positiver, paarweiser verschiedener Schrittweiten h sei T ( h ) bestimmbar. Wegen (6.39) gilt zun¨achst nur T ( h ) = τ0 + O( hγ )

f¨ur h → 0.

Mithilfe des im Folgenden vorzustellenden Extrapolationsverfahrens erh¨alt man ohne großen Mehraufwand genauere Approximationen an die gesuchte Gr¨oße τ0 (siehe Theorem 6.26 unten). Der Ansatz des Extrapolationsverfahrens ist folgender: zu ausgew¨ahlten positiven St¨utzstellen h0 , h1 , . . . , hn wird das eindeutig bestimmte Polynom P0,... ,n ∈ Πn mit P0,...,n ( hγj ) = T ( hj ),

j = 0, 1, . . . , n,

herangezogen3 und der Wert P0,...,n ( 0 ) ≈ T ( 0 ) als Approximation f¨ur T ( 0 ) verwendet. Im Zusammenhang mit der summierten Trapezregel wird diese Vorgehensweise als Romberg Integration bezeichnet und geht auf Romberg [83] zur¨uck. Beispiel 6.23 Die prinzipielle Vorgehensweise bei der Extrapolation ist f¨ur n = 3 in Bild 6.8 dargestellt.  2 3

die typischerweise ein numerisches Verfahren repr¨asentiert, das zu zul¨assigen Diskretisierungsparametern h jeweils eine Approximation f¨ur eine gesuchte Gr¨oße τ0 ∈ R liefert F¨ur ein Polynom P wird die Funktion h → P ( hγ ) als Polynom in hγ bezeichnet.

Abschnitt 6.7

131

Extrapolationsverfahren ...... ....... . .... ... .

T (h0 )

................................. ................................... ............... ........... ........ ........ ....... . . . . . .. ..... .... ... ... ... ... . . ... ... .. ... .. . . ..................................... ... ............ ........ ... ...... ........ ... ...... ...... ... ...... ..... .... ..... .... .... ..... . .... . . . . . . ...... .. .. ....... .......... .... .......................... ..... ..... ...... ...... ....... . . . . . . . .............................

T (h1 )

T (h2 )

T (h3 )

τ0 P0,...,3 (0)

P0,...,3 (hγ )

...............................

h3

h2

h1

h0

Bild 6.8 Darstellung der Vorgehensweise bei der Extrapolation; es ist P0,...,3 ∈ Π3

6.7.2 Neville– Schema Der Wert P0,...,n ( 0 ) ≈ T ( 0 ) l¨asst sich mit dem Neville Schema berechnen. F¨ur positive, paarweise verschiedene Schrittweiten h0 , h1 , . . . sei hierzu Pk,...,k+m ∈ Πm dasjenige Polynom mit Pk,...,k+m (hγj ) = T ( hj ),

j = k, k + 1, . . . , k + m,

(6.40)

und es bezeichne Tk,...,k+m := Pk,...,k+m ( 0 ).

(6.41)

Die Werte Tk,...,k+m lassen sich mit dem Neville Schema (1.7) rekursiv berechnen: Theorem 6.24 F¨ur die Werte Tk,...,k+m aus (6.41) gilt Tk = T ( hk ) und Tk,...,k+m

=

Tk+1,...,k+m +

Tk+1,...,k+m − Tk,...,k+m−1  h γ k −1 hk+m

(m ≥ 1,

B EWEIS . Mit der Darstellung (1.7) auf Seite 6 berechnet man leicht Tk,...,k+m =

−hγk Tk+1,...,k+m + hγk+m Tk,...,k+m−1 hγk+m − hγk Tk+1,...,k+m − Tk,...,k+m−1 hγk+m − hγk

= Tk+1,...,k+m



hγk+m

=

+

Tk+1,...,k+m − Tk,...,k+m−1 .  h γ k −1 hk+m

......

k ≥ 0).

132

Kapitel 6 Numerische Integration von Funktionen

Beispiel 6.25 Die zur summierten Trapezregel T1 ( h ) (hier gilt γ = 2) geh¨orenden Werte T0 , T1 und T01 lauten f¨ur die Schrittweiten h0 = b − a und h1 = ( b − a )/2 folgendermaßen,    a+b b − a b − a f (a) f (b) T0 = , f (a) + f (b) , T1 = + + f 2

T01 = T1 =

2

T −T + 14 − 1 0

b−a 2



a+b f (a) f (b) + f 2 + 2 2



+   a+b b−a f ( a ) + 4f = + f (b) , 6

2

2

2



a+b b−a f (b) f (a) − 2 − 2 f 2 6



2

so dass T01 der Simpson Regel zur Approximation des Integrals

'b a

f ( x ) dx entspricht.



6.7.3 Verfahrensfehler bei der Extrapolation Die betrachteten Schrittweiten h0 , h1 , . . . seien nun so gew¨ahlt, dass bez¨uglich einer Grundschrittweite  h > 0 Folgendes gilt, h/nj hj = 

f¨ur j = 0, 1, . . . ,

mit 1 < n0 ≤ n1 < . . . .

(6.42)

Mit dem folgenden Theorem, das einen Spezialfall der in Bulirsch [8] betrachteten Situation darstellt, wird beschrieben, wie gut die Werte Tk,...,k+m = Pk,...,k+m ( 0 ) den gesuchten Wert τ0 = limh→0+ T ( h ) approximieren. Theorem 6.26 Sei T ( h ), h > 0, eine Funktion mit der asymptotischen Entwicklung (6.39), mit gewissen Zahlen γ > 0 und r ∈ N. F¨ur eine Folge h0 , h1 , . . . von Schrittweiten mit der Eigenschaft (6.42) erf¨ulle das Polynom Pk,...,k+m ∈ Πm die Interpolationsbedingung (6.40), und Tk,...,k+m sei wie in (6.41). Dann gilt im Fall 0 ≤ m ≤ r − 1 die asymptotische Entwicklung  ( m+2 )γ  τ h Tk,...,k+m = τ0 + (−1)m γ m+1γ  f¨ur  h → 0. h( m+1 )γ + O  nk · · · nk+m

B EWEIS . O.B.d.A. darf k = 0 angenommen werden. Gem¨aß der Lagrangeschen Interpolationsformel gilt 

m m  hγ − hγs f¨ur h ∈ R, P0,...,m ( hγ ) = T ( hj ) γ γ j=0

s=0 s=j

hj − hs

und somit T0,...,m = P0,...,m ( 0 ) =

m 

cm,j T ( hj ),

j=0

mit cm,j :=

(6.43) m  s=0 s=j

hγs hγs − hγj

=

m  s=0 s=j

1 . (6.44) 1 − ( ns /nj )γ

Nun gilt zum einen T ( hj ) =

m+1  k=0

τk hkγ + O(hj( m+2)γ ), j

(6.45)

Abschnitt 6.7

133

Extrapolationsverfahren

und des Weiteren gilt nach Aufgabe 1.4 aus Kapitel 1 Folgendes, ⎧ ⎪ 1 f¨ur k = 0, ⎪ m ⎨  kγ cm,j hj = 0 f¨ur k = 1, . . . , m, ⎪ ⎪ j=0 ⎩ γ (–1)m h0 . . . hγm f¨ur k = m + 1.

⎫ ⎪ ⎪ ⎬ ⎪ ⎪ ⎭

(6.46)

Die beiden Identit¨aten (6.45) und (6.46) eingesetzt in (6.43) ergeben dann

T0,...,m

=

m 

cm,j

j=0

=

(

)

τk hkγ + O(hjm+2 γ ) j



k=0

m+1 m  k=0

=

 m+1 

 cm,j hkγ τk j

m 

+

j=0

cm,j O(hj( m+2)γ )

j=0

τ0 + ( –1 )m τm+1 hγ0 . . . hγm

+

......



  = O(  h( m+2)γ )

unter Beachtung der Tatsache, dass die Koeffizienten cm,j aus (6.44) nicht von  h abh¨angen. Dies komplettiert den Beweis des Theorems. Bemerkung 6.27 Prominente Unterteilungen sind: •





hj = hj−1 /2 f¨ur j = 1, 2, . . . mit h0 =  h  h

 h

 h

(Romberg Folge)  h

 h

 h

 h

 h

h0 =  h, h1 = 2 , h2 = 3 , h3 = 4 , h4 = 6 , h5 = 8 , h6 = 12 , h7 = 16 , h8 = 24 , . . . , (Bulirsch Folge) mit der Notation aus (6.42) allgemein nj = 2nj−2 f¨ur j ≥ 4 hj−1 =  h/j f¨ur j = 1, 2, . . .

(harmonische Folge)



Beispiel 6.28 Speziell soll ausgehend von der Basisunterteilung  h = ( b − a )/N noch die Romberg Folge hj =  h/2j f¨ur j = 0, 1, . . . genauer betrachtet werden. Hier ist die Bedingung (6.42) mit nj = 2j erf¨ullt, und unter den Bedingungen von Theorem 6.26 erh¨alt man f¨ur n ≤ r − 1   ( n  (n+2)γ  − 1)  . τ h( n+1)γ + O  T0,...,n = τ0 + h n( n+1 )γ/2 n+1 2

Zur Veranschaulichung soll das Resultat noch speziell f¨ur die summierte Trapezregel T1 ( h ) =

Z b a

f ( x ) dx + O( h2 )

betrachtet werden, mit n = 2. Mit der in Schema 6.1 angedeuteten Vorgehensweise erh¨alt man so mit wenig Aufwand die sehr viel genauere Approximation T012 =

Z b a

f ( x ) dx + 643  h6 + O(  h8 ). τ



134

Kapitel 6 Numerische Integration von Funktionen

T1 ( h0 ) = T0 T1 ( h1 ) = T1 → T01



T1 ( h2 ) = T2 → T12 → T012 Schema 6.1 Neville– Schema zu Beispiel 6.28

6.8 Gaußsche Quadraturformeln 6.8.1 Einleitende Bemerkungen Thema des vorliegenden Abschnitts ist die m¨oglichst genaue numerische Berechnung gewichteter Integrale I ( f ) :=

Z b a

f ( x ) ( x ) dx

(6.47)

wobei f : [ a, b ] → R eine vorgegebene Funktion und  eine gegebene Gewichtsfunktion ist, siehe die folgende Definition. Hierbei werden zur Vereinfachung der Notation endliche Intervalle betrachtet, −∞ < a ≤ b < ∞. Die nachfolgenden Betrachtungen lassen sich jedoch auf unendliche Intervalle u¨ bertragen. Definition 6.29 Es wird  : [ a, b ] → ( 0, ∞ ] Gewichtsfunktion genannt, wenn sie auf dem offenen Intervall ( a, b ) st¨uckweise stetig sowie u¨ ber [ a, b ] integrabel ist. Zur numerischen Berechnung des Integrals (6.47) werden wieder interpolatorische Quadraturformeln In ( f ) =

n 

σk f ( λk ),

(6.48)

k=1

herangezogen, wobei im Unterschied zur Formel (6.2) teils aus historischen Gr¨unden hier jedoch •

die St¨utzstellen mit λk bezeichnet werden,



die Summation bei k = 1 beginnt,



der Faktor b − a fehlt.

In diesem Abschnitt wird beschrieben, f¨ur welche Wahl der St¨utzstellen λ1 , λ2 , . . . , λn und Gewichte σ1 , σ2 , . . . , σn der Genauigkeitsgrad der zugeh¨origen interpolatorischen Quadraturformel einen m¨oglichst hohen Wert annimmt. Die Begriffe interpolatorische Quadraturformel und Genauigkeitsgrad sind hierbei ganz kanonisch auf Integrale mit Gewichten zu u¨ bertragen

Abschnitt 6.8

135

Gaußsche Quadraturformeln

(wobei allerdings in den nachfolgenden Betrachtungen auch der Fall  ≡ 1 von Interesse ist). Die resultierenden Formeln werden dann als Gaußsche Quadraturformeln bezeichnet. Bei der Herleitung dieser Formeln werden orthogonale Polynome ben¨otigt.

6.8.2 Orthogonale Polynome Definition 6.30 Zu gegebener Gewichtsfunktion  : [ a, b ] → ( 0, ∞ ] bezeichne  p, q  =

Z b a

||p|| =  p, p1/2

p( x ) q ( x ) ( x ) dx,

f¨ur p, q ∈ Π.

Die Abbildung  ·, · : Π × Π → R definiert ein Skalarprodukt auf dem Raum aller reellen Polynome Π, insbesondere ist also  ·, · linear in jedem seiner Argumente bei jeweils festem anderem Argument, und es gilt  p, p > 0 f¨ur 0 = p ∈ Π. Wir f¨uhren noch die folgende Notation ein. Definition 6.31 1. Zwei Polynome p, q ∈ Π heißen orthogonal zueinander, wenn  p, q  = 0 gilt. 2. Das orthogonale Komplement von Πn ⊂ Π ist gegeben durch . p ∈ Π :  p, q  = 0 ∀ q ∈ Πn , Π⊥ n = 0, 1, . . . . n := Offensichtlich ist Π⊥ n ein linearer Unterraum von Π. Eine spezielle Folge paarweise orthogonaler Polynome erh¨alt man durch Gram Schmidt Orthogonalisierung der Monome 1, x, x2 , . . .: p0 = 1, pn = xn −

(6.49) n−1  m=0

n

 x , pm  pm , || pm ||2

n = 1, 2, . . . .

(6.50)

Nach Konstruktion ist also pn ein Polynom vom genauen Grad n mit f¨uhrendem Koeffizienten eins, und es gilt pn ∈ Π⊥ n−1 .

(6.51)

Mit dem nachfolgenden Theorem wird eine Vorgehensweise vorgestellt, mit der sich diese Orthogonalpolynome effizient berechnen lassen. Theorem 6.32 Die Orthogonalpolynome in (6.49), (6.50) gen¨ugen der Drei Term Rekursion p0 = 1,

p1 = x − β0 ,

pn+1 = ( x − βn )pn − γn2 pn−1 ,

n = 1, 2, . . .,

mit den Koeffizienten βn =

 xpn , pn  || pn ||2

f¨ur n = 1, 2, . . .,

γn2 =

|| pn ||2 || pn−1 ||2

f¨ur n = 1, 2, . . . .

136

Kapitel 6 Numerische Integration von Funktionen

B EWEIS . Offenbar ist die angegebene Darstellung richtig f¨ur p0 und p1 . F¨ur n ≥ 1 setzen wir qn+1 := ( x − βn )pn − γn2 pn−1 und zeigen im Folgenden qn+1 = pn+1 . Dazu beobachtet man, dass qn+1 (ebenso wie pn+1 ) ein Polynom mit genauem Grad n + 1 ist und den f¨uhrenden Koeffizienten eins besitzt, und somit gilt r := pn+1 − qn+1 ∈ Πn .

(6.52)

Wir zeigen nun, dass qn+1 (ebenso wie pn+1 ) im orthogonalen Komplement von Πn liegt, so dass dann auch r = pn+1 − qn+1 ∈ Π⊥ n

(6.53)

gilt. Die Beziehungen (6.52) und (6.53) zusammen ergeben dann ||r ||2 =  r, r  = 0 und damit wie behauptet pn+1 = qn+1 . Wie angek¨undigt wird nun qn+1 ∈ Π⊥ n

(6.54)

nachgewiesen. Aufgrund der Identit¨at  pn , pn−1  = 0 und der Definition von βn gilt  qn+1 , pn 

=

 xpn , pn  − βn ||pn ||2

=

0.

(6.55)

Weiter erh¨alt man wieder wegen  pn , pn−1  = 0 sowie aufgrund der Definition von γn Folgendes,  qn+1 , pn−1 

=

 pn , xpn−1  − γn2 ||pn−1 ||2

=

 pn , xpn−1 − pn  = 0,

(6.56)

wobei das letzte Gleichheitszeichen aus der Tatsache folgt, dass xpn−1 − pn ein Polynom vom Grad ≤ n − 1 darstellt. Ferner ist qn+1 auch orthogonal zu jedem Polynom vom Grad ≤ n − 2, denn es gilt  qn+1 , q 

=

 pn , xq  − βn  pn , q  − γn2  pn−1 , q        =0

=0

=

0

∀ q ∈ Πn−2 . (6.57)

=0

Wegen Πn = span {pn , pn−1 } ⊕ Πn−2 folgt aus (6.55) (6.57) die nachzuweisende Eigenschaft (6.54), mit der man wie bereits beschrieben pn+1 = qn+1 erh¨alt. Das folgende Theorem liefert Aussagen u¨ ber die Nullstellen der betrachteten Orthogonalpolynome. Theorem 6.33 Die Nullstellen λ1 , λ2 , . . . , λn des n ten Orthogonalpolynoms pn in (6.50) sind einfach und liegen alle im offenen Intervall ( a, b ). Sie besitzen die Darstellung4 λk =

4

 xLk , Lk  , || Lk ||2

Lk ( x ) :=

n  x − λs λk − λs

f¨ur k = 1, 2, . . . , n.

(6.58)

s=1 s=k

wobei L1 , . . . , Ln ∈ Πn−1 die den Nullstellen λ1 , . . . , λn zugeordneten Lagrangeschen Basispolynome darstellen

Abschnitt 6.8

137

Gaußsche Quadraturformeln

B EWEIS . Es seien a < λ1 < · · · < λm < b (0 ≤ m ≤ n) diejenigen Nullstellen von pn in dem offenen Intervall ( a, b ), an denen pn sein Vorzeichen wechselt, also diejenigen Nullstellen von pn in ( a, b ) mit ungerader Vielfachheit. Im Folgenden wird m = n nachgewiesen. W¨are m ≤ n − 1, so h¨atte n¨amlich das Polynom m 

q ( x ) :=

( x − λk )

k=1

den Grad 0 ≤ m ≤ n − 1, so dass wegen (6.51)  pn , q  = 0

(6.59)

folgt. Nun ist aber das Polynom pn ( x ) q ( x ) nach Konstruktion von einem Vorzeichen auf [ a, b ], so dass  pn , q  =

Z b a

pn ( x ) q ( x ) ( x ) dx = 0

gilt im Widerspruch zu (6.59). Um zur Darstellung (6.58) zu gelangen, faktorisiert man pn in der Form pn ( x ) = ( x − λk ) q( x ), mit einem geeigneten Polynom q ∈ Πn−1 und erh¨alt daraus =

0

 pn , q

=

 x q , q − λk  q, q .

Hieraus folgt wegen  q, q = 0  x q , q || q||2

=

λk

=

 xLk , Lk  , || Lk ||2

wobei sich die letzte Gleichung daraus ergibt, dass die Polynome q und Lk bis auf einen konstanten Faktor u¨ bereinstimmen. Beispiel 6.34 In Tabelle 6.1 sind f¨ur verschiedene Intervalle und Gewichtsfunktionen die Bezeichnungen der zugeh¨origen orthogonalen Polynome aufgelistet. Intervall

( x )

zugeh¨orige orthogonale Polynome

[ –1, 1 ]

1 √ 1/ 1 − x2

Legendre Polynome

[ –1, 1 ] [ –1, 1 ]

( 1 − x )α ( 1 + x )β ,

( –∞, ∞ ) ( –∞, ∞ )

α > −1, β > −1 −x2

e −x2

e

xα ,

α > −1

Tschebyscheff Polynome der ersten Art Tn Jacobi Polynome Hermite Polynome Laguerre Polynome

Tabelle 6.1 Verschiedene Systeme von Orthogonalpolynomen Man beachte, dass in den beiden zuletzt genannten Beispielen anders als bisher angenommen unendliche Intervalle betrachtet werden; hierzu sei auf die Bemerkung eingangs dieses Abschnitts 6.8 verwiesen. 

138

Kapitel 6 Numerische Integration von Funktionen

6.8.3 Optimale Wahl der Stutzstellen ¨ und Gewichte Das folgende Theorem beschreibt, unter welchen Bedingungen an n St¨utzstellen und Gewichte der Genauigkeitsgrad einer Quadraturformel 2n − 1 betr¨agt. Theorem 6.35 F¨ur ein n ∈ N seien λ1 , . . . , λn ∈ R paarweise verschiedene Zahlen, und weiter seien σ1 , . . . , σn ∈ R beliebig. Dann und nur dann gilt  p, 1  =

n 

f¨ur p ∈ Π2n−1 ,

σk p( λk )

(6.60)

k=1

wenn die folgenden Bedingungen (a) und (b) erf¨ullt sind, (a) die Zahlen λ1 , . . . , λn ∈ R stimmen mit den Nullstellen des n ten orthogonalen Polynoms pn (siehe (6.58)) u¨ berein, (b) die Gewichte σ1 , σ2 , . . . , σn haben die Gestalt σk =  Lk , 1 

f¨ur k = 1, 2, . . . , n,

wobei L1 , L2 , . . . , Ln ∈ Πn−1 die den Zahlen λ1 , λ2 , . . . , λn zugeordneten Lagrangeschen Basispolynome darstellen5. Unter diesen Bedingungen gilt auch σk =  Lk , Lk  > 0 f¨ur k = 1, 2, . . . , n. B EWEIS . “=⇒“ Es gelte (6.60), und zum Beweis von (a) setzen wir q ( x ) := ( x − λ1 ) · · · ( x − λn ) und weisen im Folgenden die Identit¨at q = pn nach. Hierzu wendet man die Identit¨at (6.60) auf das Polynom p( x ) := xm q ( x ) mit m ∈ {0, 1, . . . , n − 1} an und erh¨alt  q , xm  =  xm q , 1  =

n 

σk λm k q ( λk ) = 0   k=1

f¨ur m = 0, 1, . . . , n − 1,

=0

was insgesamt q ∈ Π⊥ n−1 und damit q − pn ∈ Π⊥ n−1 nach sich zieht. Außerdem ist q ein Polynom mit genauem Grad n und f¨uhrendem Koeffizienten eins, so dass sich die Eigenschaft q − pn ∈ Πn−1 ergibt, was schließlich (wie im Beweis des vorigen Theorems 6.32) q = pn liefert. Teil (b) ergibt sich wegen Lj ( λk ) = δjk unmittelbar aus der Identit¨at (6.60) angewandt mit p = Lj . “⇐=“ Es gelte nun (a), (b), und p ∈ Π2n−1 sei beliebig. Dann l¨asst sich das Polynom p in der Form6 p = qpn + r schreiben mit gewissen Polynomen q, r ∈ Πn−1 . Wegen pn ( λk ) = 0 gilt dann p( λk ) = r ( λk ), 5 6

vergleiche (6.58) nach Polynomdivision mit Rest

k = 1, 2, . . . , n,

Abschnitt 6.8

139

Gaußsche Quadraturformeln

und mit der Lagrangeschen Interpolationsformel erh¨alt man r( x )

=

n 

=

r ( λk )Lk ( x )

k=1

n 

p( λk )Lk ( x ).

k=1

Dies f¨uhrt dann auf die angegebene Identit¨at (6.60):  p, 1 

=

 q , pn  +  r, 1    = 0

n 

=

p( λk ) Lk , 1 

=

k=1

n 

σk p( λk ).

k=1

Die angegebene Darstellung σk =  Lk , Lk  > 0 f¨ur die Gewichte ergibt sich aus der Darstellung (6.60) angewandt auf das Polynom p = L2k . Bemerkung 6.36 Man beachte, dass hier (im Unterschied zu den abgeschlossenen Newton Cotes Formeln) die Gewichte in jedem Fall positiv ausfallen7 .  Definition 6.37 Die Quadraturformel In ( f ) :=

n 

f¨ur f ∈ C [ a, b ],

σk f ( λk )

(6.61)

k=1

mit den St¨utzstellen λ1 , . . . , λn ∈ R und Gewichten σ1 , . . . , σn wie in (a) und (b) aus Theorem 6.35 bezeichnet man als Gaußsche Quadraturformel. Als eine unmittelbare Konsequenz aus Theorem 6.35 erh¨alt man: Korollar 6.38 Die Gaußsche Quadraturformel (6.61) ist interpolatorisch und besitzt mindestens den Genauigkeitsgrad r = 2n − 1. B EWEIS . Zu einer gegebenen Funktion f ∈ C [ a, b ] sei Qn−1 ∈ Πn−1 das interpolierende Polynom zu den St¨utzpunkten (λ1 , f ( λ1 ) ), (λ2 , f ( λ2 ) ), . . . , (λn , f ( λn ) ). Aus der Eigenschaft (6.60) erh¨alt man die erste Aussage, n 

σk f ( λk )

=

k=1

n 

σk Qn−1 ( λk )

=

 Qn−1 , 1  ,

k=1

und die angegebene untere Schranke f¨ur den Genauigkeitsgrad folgt ebenfalls unmittelbar aus (6.60). Mit dem folgenden Resultat wird die Fehleraussage aus Theorem 6.13 (siehe Seite 119) auf die vorliegende Situation der gewichteten Integrale u¨ bertragen. Theorem 6.39 F¨ur den Fehler bei der Gaußquadratur (6.61) gilt unter der Voraussetzung f ∈ C 2n [ a, b ] die Darstellung   Z b 1 2 ( x ) ( x ) dx f (2n) ( ξ ) I ( f ) − In ( f ) = p (6.62) n ( 2n )! a = mit tk := 7

λk −a b−a

( b − a )2n+1 ( 2n )!

 Z 1  n 0





( t − tk )2 ( ( b − a )t + a) dt f (2n) ( ξ ) (6.63)

k=1

f¨ur k = 1, 2, . . . , n, und mit einer geeigneten Zwischenstelle ξ ∈ [ a, b ].

vergleiche hierzu die Anmerkungen vor Theorem 6.11

140

Kapitel 6 Numerische Integration von Funktionen

B EWEIS . Der Genauigkeitsgrad bei der Gaußquadratur (6.61) betr¨agt nach Korollar 6.38 mindestens r = 2n − 1. W¨ahlt man zu den St¨utzstellen λ1 , λ2 , . . . , λn nun die weiteren St¨utzstellen λn+1 = λ1 , . . . , λ2n = λn , so ist 2n 

( x − λk )

=

k=1

n 

( x − λk )2

=

p2n ( x )

k=1

von einem Vorzeichen, und man erh¨alt dann die Resultate (6.62) (6.63) mit der gleichen Vorgehensweise wie in den Teilen 1 und 3 des Beweises von Theorem 6.13. Bemerkung 6.40 1. Als unmittelbare Konsequenz aus Theorem 6.39 ergibt sich, dass der Genauigkeitsgrad der Gaußschen Quadraturformeln genau r = 2n − 1 betr¨agt. Dies ist optimal; f¨ur die Situation  = 1 siehe hierzu Aufgabe 6.2. 2. Man kann auch summierte Gaußsche Quadraturformeln betrachten und anwenden; die Resultate aus Abschnitt 6.5 lassen sich ganz kanonisch u¨ bertragen. 

6.8.4 Nullstellen von orthogonalen Polynomen als Eigenwerte F¨ur gr¨oßere Werte von n steht man noch vor dem Problem, die Nullstellen des n ten orthogonalen Polynoms pn sowie die Gewichte σ1 , . . . , σn zu bestimmen. Dazu gehen wir im Folgenden davon aus, dass die Koeffizienten βj und γj in der Rekursion p0 = 1,

p1 = x − β0 ,

pj+1 = ( x − βj )pj − γj2 pj−1 ,

(6.64) j = 1, 2, . . .,

explizit bekannt sind und betrachten dann die symmetrische Matrix ⎞ ⎛ β −γ 0 . . . 0 0 1 ⎟ ⎜ ⎜ .. ⎟ .. ⎜ −γ . . ⎟ ⎜ 1 β1 −γ2 ⎟ ⎜ ⎟ ⎜ ⎟ × . . . . J = ⎜ 0 −γ2 ⎟ ∈ Rn n . . . 0 ⎜ ⎟ ⎜ . ⎟ .. .. .. ⎜ .. . . . −γn−1 ⎟ ⎜ ⎟ ⎝ ⎠ 0 ... 0 −γn−1 βn−1

(6.65)

(6.66)

Theorem 6.41 Die Nullstellen λ1 , λ2 , . . . , λn des n ten Orthogonalpolynoms pn stimmen mit den Eigenwerten der Matrix J u¨ berein, und die Gewichte ergeben sich daraus folgendermaßen: σk =  1 , 1 

  n−1 

τj2 p2j ( λk )



f¨ur k = 1, 2, . . . , n,

j=0

mit den Zahlen

 τj :=

1 ( –1 ) /(γ1 γ2 · · · γj ) j

f¨ur j = 0, f¨ur j = 1, 2, . . . , n − 1.

(6.67)

Abschnitt 6.8

141

Gaußsche Quadraturformeln

B EWEIS . Es wird zun¨achst Folgendes nachgewiesen, Jv (k ) = λk v (k ) mit dem Vektor v (k ) =



f¨ur k = 1, 2, . . . , n,

τ0 p0 ( λk ), τ1 p1 ( λk ), . . . , τn−1 pn−1 ( λk )   = 1



(6.68)

∈ Rn.

Es ist (Jv (k ) )1 = β0 · 1 − γ1 τ1 p1 ( λk )

=

β0 + p1 ( λk )

=

β0 + λk − β0

= λk = λk v1 , (k )

und weiter erh¨alt man aus den Rekursionsformeln (6.65) mit x = λk Folgendes (wobei in der nachfolgenden Situation j = n−1 noch γn := τn := 0 gesetzt wird und pn ( λk ) = 0 zu beachten ist): (Jv ( k ) )j+1 = −γj τj−1 pj−1( λk ) + βj τj pj ( λk ) − γj+1 τj+1 pj+1( λk )

j ( –1 ) = γ · · · γ γj2 pj−1 ( λk ) + βj pj ( λk ) + pj+1( λk ) 1 j   = τj

= τj λk pj ( λk )

=

f¨ur j = 1, 2, . . . , n − 1,

(k ) λk vj+1

und (6.68) ist damit bewiesen. Im Folgenden soll noch die Darstellung (6.67) nachgewiesen werden. Die Identit¨at (6.68) bedeutet noch, dass v (k ) Eigenvektor zum Eigenwert λk der Matrix J ist. Gem¨aß Theorem 6.33 sind diese Eigenwerte paarweise verschieden, und aus der Symmetrie der Matrix J erh¨alt man dann 

v (k ) v () = 0

f¨ur k = .

(6.69)

Aufgrund der paarweisen Orthogonalit¨at der Polynome p0 , p1 , . . . sowie wegen Theorem 6.35 gilt δj0  1 , 1 

=

 pj , 1 

=

n 

σ pj ( λ )

f¨ur j = 0, 1, . . . , n − 1,

(6.70)

=1

und Multiplikation von (6.70) mit τj2 pj ( λk ) sowie anschließende Summation u¨ ber j liefert 1,1

=

n−1 n 

σ τj2 pj ( λk ) pj ( λ )

j=0 =1

=

n 

=

n  =1

σ (v (k ) )v ()

σ

n−1 

τj2 pj ( λk ) pj ( λ )

j=0

= σk (v (k ) )v (k ) ,

=1

wobei in der letzten Gleichheit noch die Orthogonalit¨atsbeziehung (6.69) eingeht. Dies liefert die Aussage (6.67). Bemerkung 6.42 Die gesuchten Eigenwerte der Matrix J aus (6.66) k¨onnen f¨ur gr¨oßere Werte von n nur numerisch berechnet werden. Entsprechende Methoden werden in Kapitel 13 vorgestellt. 

142

Kapitel 6 Numerische Integration von Funktionen

6.9 Nachtrag: Beweis der Asymptotik fur ¨ die summierte Trapezregel 6.9.1 Bernoulli–Polynome Definition 6.43 Die Bernoulli Polynome Bk sind rekursiv erkl¨art: B0 ( x ) ≡ 1, und f¨ur k = 1, 2, . . . gilt Z x

Bk ( x ) = Ak + k

Bk−1 ( t ) dt,

0

mit Ak := −k

Z 1 Z x 0

0

x ∈ [ 0, 1 ],

(6.71)



Bk−1 ( t ) dt dx.

(6.72)

Beispielsweise gilt 1

1

B1 ( x ) = x − 2 , B3 ( x ) = x3 −

B2 ( x ) = x2 − x + 6 ,

3 2 1 x + x, 2 2

(6.73)

B4 ( x ) = x4 − 2x3 + x2 −

1 . 30

Theorem 6.44 F¨ur die Bernoulli Polynome Bk aus (6.71) (6.72) gelten die folgenden Aussagen: (a) ( a¨ quivalente Formulierung) Es gilt Bk ∈ Πk f¨ur k = 0, 1, . . ., und Bk ( x )

=

Z 1

kBk−1( x ),

0

Bk ( x ) dx = 0

f¨ur k = 1, 2, . . . .

(6.74)

(b) Es gilt B1 ( 0 ) = −1/2, B1 ( 1 ) = 1/2, und Ak = Bk ( 0 ) = Bk ( 1 )

f¨ur k = 2, 3, . . . .

(c) Die Funktion B2k ist gerade bez¨uglich x = 1/2, und B2k+1 ist ungerade bez¨uglich x = 1/2, es gilt also B2k

1 2

+x



= B2k

1 2

−x



  1 1 B2k+1 2 + x = −B2k+1 2 − x

1 2

f¨ur 0 ≤ x ≤ , ......

;

(d) B2k+1 ( 0 ) = B2k+1 (1) = 0 f¨ur k = 1, 2, . . . . B EWEIS . “(a)“ gilt offensichtlich. “(b)“: Die Aussage f¨ur B1 resultiert unmittelbar aus (6.73). F¨ur k ≥ 2 folgt Ak = Bk ( 0 ) aus der Definition (6.71), und wegen der Mittelwerteigenschaft in (6.74) erh¨alt man Bk ( 1 ) = Ak + k

Z 1 0

Bk−1 ( x ) dx = Ak + k · 0 = Ak .

Abschnitt 6.9

143

Beweis der Asymptotik f¨ur die summierte Trapezregel

“(c)“ wird mit vollst¨andiger Induktion nachgewiesen. B0 ≡ 1 ist eine gerade Funktion bez¨uglich x = 1/2, und wir nehmen nun an, dass B2k eine bez¨uglich x = 1/2 gerade Funktion ist. Dann gilt B2k+1 ( x ) = A2k+1 + ( 2k + 1 )

Z x

B2k ( t ) dt

0 Z 1/2

= A2k+1 + ( 2k + 1 ) 0

 2k+1 =: A

Z x

B2k ( t ) dt + ( 2k + 1 ) B2k ( t ) dt, 1/2 

  =: Q( x )

0 ≤ x ≤ 1.

Nun ist Q ungerade bez¨uglich x = 1/2, denn 1

Q( 2 + x) = =

Z 1/2+x 1/2 Z 1/2−x 1/2

B2k ( t ) dt

 1 B + t dt 2k 0 2 1  = −Q − x . Z x

=

B2k ( t ) ( –1 ) dt

=

Z x 0

 1 B2k 2 − t dt

2

Z 1 '1 Damit gilt aber notwendigerweise 0 Q( x ) dx = 0, und wegen 0 B2k+1 ( x ) dx = 0, vergleiche 2k+1 = 0 und somit B2k+1 = ( 2k + 1 )Q eine bez¨uglich x = 1/2 ungerade Funktion. (6.74), ist A

Sofort ergibt sich nun, dass B2k+2 bez¨uglich x = 1/2 eine gerade Funktion ist: Z 1/2+x 1  B2k+2 2 + x = A2k+2 + ( 2k + 2 ) 0 B2k+1 ( t ) dt

= A2k+2 + ( 2k + 2 ) = B2k+2

1 2

−x



Z 1/2−x 0

B2k+1 ( t ) dt + ( 2k + 2 )

Z 1/2+x



1/2−x

1 f¨ur 0 ≤ x ≤ . 2

B2k+1 ( t ) dt

  = 0

“(d)“ Die erste Identit¨at in (d) ist schon in (b) festgehalten, und die dritte Gleichheit ergibt sich aus der Tatsache, dass B2k+1 bez¨uglich x = 1/2 eine ungerade Funktion ist: B2k+1 ( 1 ) = B2k+1

1 2

+

1 1 1 = −B2k+1 = −B2k+1 ( 0 ) = −B2k+1 ( 1 ). − 2 2 2

Definition 6.45 Die Werte B2k ( 0 ), k = 0, 1, . . ., heißen Bernoullische Zahlen. Die ersten Bernoullischen Zahlen sind B0 ( 0 ) = 1,

B2 ( 0 ) =

1 , 6

B4 ( 0 ) = −

1 , 30

B6 ( 0 ) =

1 , 42

B8 ( 0 ) =

1 . 30

Die Bernoullischen Zahlen spielen beim Beweis von Theorem 6.22 eine Rolle.

6.9.2

Der Beweis von Theorem 6.22

Im Folgenden wird der Beweis von Theorem 6.22 gef¨uhrt, und hierzu setzt man die Bernoulli Polynome Bk von dem Intervall [ 0, 1 ] ausgehend 1 periodisch fort, Sk ( x ) := Bk ( x − m )

f¨ur m ≤ x < m + 1,

m = 0, 1, . . . .

144

Kapitel 6 Numerische Integration von Funktionen

Es ist S0 eine S¨agezahnfunktion, die Funktion S1 ist st¨uckweise stetig differenzierbar, und f¨ur k ≥ 2 ist Sk stetig differenzierbar, und es gilt Sk ( x ) = kSk−1 ( x )

f¨ur m < x < m + 1,

m ∈ N0

(k = 1, 2, . . .).

Im weiteren Verlauf wird nachgewiesen, dass die Darstellung (6.37) richtig ist mit τ0 wie in (6.38) und f¨ur  B (0)  τk := ( 2k ) f (2k−1) ( b ) − f (2k−1) ( a ) , k = 1, 2, . . . , r, (6.75) 2k !  

Z b  x − a  (2r+2) 1 ( x ) dx h2r+2 . (6.76) S2r+2 ( 0 ) − S2r+2 f Rr+1 ( h ) := ( ) 2r + 2 !

h

a

Aus (6.76) folgt dann |Rr+1 ( h ) |

2( b − a ) max |B2r+2 ( y ) | max |f (2r+2) ( x ) |h2r+2 + 2 )! y ∈ [ 0, 1 ] x ∈ [ a, b ]



( 2r

und damit die zweite Darstellung in (6.38). Zum Beweis der Darstellung (6.37) mit den Koeffizienten aus (6.38), (6.75) und (6.76) wird zur Vereinfachung zun¨achst die Intervall Transformation [ a, b ] → [ 0, N ] vorgenommen: sei g ( t ) := f ( a + th ),

0 ≤ t ≤ N.

Die Identit¨at (6.37) mit den Koeffizienten aus (6.38), (6.75) und (6.76) ist dann a¨ quivalent zu der Euler Maclaurinschen Summenformel ⎫ Z N g( 0 ) g( N ) ⎪ ( 1 ) + . . . + g(N − 1 ) + ( t ) dt + g − g ⎬ 0 2 2 r (6.77)    B2k ( 0 ) (2k−1) ⎪ ( N ) − g (2k−1) ( 0 ) + Cr+1 = g ⎭ ( 2k )! k=1

mit dem Fehlerterm 1

Cr+1 := ( 2r + 2 )!

Z N 0



 S2r+2 ( 0 ) − S2r+2 ( t ) g (2r+2) ( t ) dt,

(6.78)

denn  ( )  g 0 g( N ) T1 ( h ) = h 2 + g ( 1 ) + . . . + g ( N − 1 ) + 2 , Z b a

f ( x ) dx = h

Z N 0

f (j ) ( a + th )hj = g (j ) ( t ),

g ( t ) dt,

Es soll nun die Identit¨at (6.77) (6.78) nachgewiesen werden: t=1 Z 1 1  ( 1 ) + g(0 ) ) − ( t ) dt = B1 ( t )g ( t ) (g g − 0 2 =

Z 1 0

t=0

B1 ( t )g  ( t ) dt

Z 1 0

0 ≤ t ≤ N.

B0 ( t )g ( t ) dt

=

Z 1 0

S1 ( t )g  ( t ) dt,

und analog gilt 1 (g ( j + 1 ) + g ( j ) ) − 2

Z j+1 j

g ( t ) dt =

Z j+1 j

S1 ( t )g  ( t ) dt,

j = 0, 1, . . . , N − 1,

so dass man g( 0 ) g( N ) + g(1 ) + . . . + g(N − 1 ) + 2 − 2

Z N 0

g ( t ) dt

=

Z N 0

S1 ( t )g ( t ) dt

145

Weitere Themen und Literaturhinweise

erh¨alt. Das letzte Integral wird weiter partiell integriert, t=N Z N Z 1 1 N    S S − S2 ( t )g  ( t ) dt 1 ( t )g ( t ) dt = 2 ( t )g ( t ) 0 2! 2! 0 t=0

=

B2 ( 0 )  1 (g ( N ) − g  ( 0 ) ) − 2! 2!

und partielle Integration des letzten Integrals liefert wiederum t=N Z Z  1 N 1 1 S2 ( t )g  ( t ) dt = − 3! S3 ( t )g  ( t ) + 3! − 2! 0

t=0

= −

=

1 3!

N

0

Z N 0

S2 ( t )g  ( t ) dt,

S3 ( t )g  ( t ) dt

B3 ( 0 )  1 (g ( N ) − g  ( 0 ) ) + 3! 3!

 

Z N 0

S3 ( t )g  ( t ) dt

=0 Z N 0

S3 ( t )g  ( t ) dt.

Wiederholte partielle Integration liefert schließlich die Identit¨at (6.77) mit der folgenden Konstanten, Z N   1 1 ( 0 ) g (2r+1) ( N ) − g (2r+1) ( 0 ) − Cr+1 = ( S S2r+2 ( t )g (2r+2) ( t ) dt 2r+2 ) ( ) 2r + 2 !

= =

1 (0) S ( 2r + 2 )! 2r+2 ( 2r

1 + 2 )!

Z N 0



Z N 0

2r + 2 !

1 g (2r+2) ( t ) dt − ( 2r + 2 )!

Z N 0

0

S2r+2 ( t )g (2r+2) ( t ) dt

 S2r+2 ( 0 ) − S2r+2 ( t ) g (2r+2) ( t ) dt,

was mit der Setzung (6.78) u¨ bereinstimmt.

Weitere Themen und Literaturhinweise Eine Auswahl existierender Lehrb¨ucher mit Abschnitten u¨ ber numerische Integration bildet ¨ H¨ammerlin/Hoffmann [45], Kress [60], Krommer/ Uberhuber [61], Oevel [75], Stoer [95] und Werner [107]. Insbesondere in [61] werden viele weitere Themen wie die numerische Berechnung uneigentlicher und mehrdimensionaler Integrale beziehungsweise die symbolische Integration behandelt. Orthogonale Polynome werden ausf¨uhrlich in Hanke Bourgeois [49] behandelt.

¨ Ubungsaufgaben Aufgabe 6.1 Gegeben sei eine Unterteilung ∆ : a ≤ x0 < x1 < . . . < xn ≤ b des Intervalls [ a, b ]. Man zeige, dass es eindeutig bestimmte Zahlen a0 , a1 , . . . , an ∈ R gibt mit n  k=0

ak P ( xk ) =

Z b a

P ( x ) dx

f¨ur alle P ∈ Πn .

Aufgabe 6.2 Zu einer beliebigen Unterteilung a ≤ x0 < . . . < xn ≤ b des Intervalls [ a, b ] bezeichne  In ( f ) = (b − a) nk=0 σk f ( xk ) eine Quadraturformel. Man zeige, dass ihr Genauigkeitsgrad ≤ 2n + 1 ist, es gibt also ein Polynom P ∈ Π2n+2 mit In ( P ) =

Z b a

P ( x ) dx.

146

Kapitel 6 Numerische Integration von Funktionen

Aufgabe 6.3 Man bestimme die Koeffizienten a0 , a1 , a2 ∈ R durch Taylorabgleich so, dass die Quaa +b draturformel Qf = a0 f ( a ) + a1 f + a2 f ( b ) zur n¨aherungsweisen Berechnung des Integrals Z b a

2

f ( x ) dx einen m¨oglichst hohen Genauigkeitsgrad besitzt.

Aufgabe 6.4 Zu einer periodischen stetigen Funktion f : R → R und den St¨utzstellen xj = 2πj/(N + 1) mit j = 0, 1, . . . , N f¨ur gerades N ∈ N bezeichne T f das interpolierende trigonometrische Polynom Z 2π N/2 (T f )( x ) dx. von der Form (T f )( x ) = A20 + k=1 (Ak cos kx+Bk sin kx). Weiter bezeichne Qf := 0 N Man zeige, dass sich Qf schreiben l¨asst als Qf = k=0 ak f ( xk ) mit (von f unabh¨angigen) positiven Gewichten ak > 0 f¨ur k = 0, 1, . . . , N . Aufgabe 6.5 Man weise mithilfe der Euler Maclaurinschen Summenformel f¨ur N ∈ N die folgende Identit¨at nach, N  N (N + 1) 2  k3 = . 2

k=1

Aufgabe 6.6 Das Funktionensystem (Un )n∈N0 der Tschebyscheff Polynome der zweiten Art bildet √ '1 bez¨uglich des Skalarprodukts  u, v  = −1 u( x ) v ( x ) 1 − x2 dx ein Orthogonalsystem. Aufgabe 6.7 (Numerische Aufgabe) Man berechne die vier bestimmten Integrale Z 0.5 0

1 16x + 1 2

dx,

Z 2 0

Z π/2 

e−x dx, 2

0

cos

x 2 sin 3x dx, 2

Z π/2 / 0

| cos 2x| dx,

numerisch durch Extrapolation der Trapezsummen T1 (hj ) unter Anwendung der Romberg Schrittweite h0 = b − a und hj = hj−1 /2 f¨ur j = 1, 2, . . . . Genauer: mit den Bezeichnungen aus (6.40) (6.41) mit T = T1 und γ = 2 berechne man f¨ur k = 0, 1, . . . die Werte Tk−m,...,k

f¨ur m = 0, 1, . . . , min{k, m∗ }.

Man breche mit k =: k∗ ab, falls m∗ + 1 ≤ k ≤ 12,

  Tk−m

∗ ,...,k

(6.79)

 − Tk−m∗ +1,...,k  ≤ ε

oder aber k = 13 10−8 ).

Man gebe f¨ur jedes der vier zu berechnenden Integrale die Werte erf¨ullt ist (mit m∗ = 4 und ε = (6.79) f¨ur k = 0, 1, . . . , k∗ in einem Tableau aus, jeweils auf acht Nachkommastellen genau.

147

7

Explizite Einschrittverfahren fur ¨ Anfangswertprobleme bei gew¨ohnlichen Differenzialgleichungen

Viele Anwendungen wie beispielsweise die Berechnung der Flugbahn eines Raumfahrzeugs beim Wiedereintritt in die Erdatmosph¨are oder R¨auber Beute Modelle f¨uhren auf Anfangswertprobleme f¨ur Systeme von gew¨ohnlichen Differenzialgleichungen. Ebenso resultieren gewisse Diskretisierungen von Anfangswertproblemen f¨ur partielle Differenzialgleichungen in Anfangswertproblemen f¨ur Systeme von gew¨ohnlichen Differenzialgleichungen. Ein konkretes Beispiel hierzu wird in Abschnitt 8.9.4 auf Seite 219 vorstellt. Solche Anfangswertprobleme f¨ur Systeme von gew¨ohnlichen Differenzialgleichungen sind Gegenstand des vorliegenden und des n¨achsten Kapitels. Definition 7.1 Ein Anfangswertproblem fur ¨ ein System von N gew¨ohnlichen Differenzialgleichungen 1. Ordnung ist von der Form y  = f ( t, y ),

t ∈ [ a, b ],

(7.1)

y ( a ) = y0 ,

(7.2)

mit einem gegebenen endlichen Intervall [ a, b ], einem Vektor y0 ∈ R N und einer Funktion f : [ a, b ] × R N → R N ,

(7.3)

und gesucht ist eine differenzierbare Funktion y : [ a, b ] → R N mit den Eigenschaften (7.1) (7.2). Die Notation in (7.1) ist eine u¨ bliche Kurzform f¨ur y  ( t ) = f ( t, y ( t )), t ∈ [ a, b ]. Differenzierbarkeit bedeutet hier komponentenweise Differenzierbarkeit, und es ist y  ( t ) = (y1 ( t ), . . . , yN ( t ) ) ∈ R N .

7.1 Ein Existenz- und Eindeutigkeitssatz Die Existenz und Eindeutigkeit der L¨osung ist auch bei Anfangswertproblemen f¨ur Systeme von gew¨ohnlichen Differenzialgleichungen eine grundlegende Fragestellung. Diese ist Gegenstand des n¨achsten Theorems, wobei die folgende Lipschitzbedingung f¨ur Funktionen f von der Form (7.3) eine wesentliche Rolle spielt, ||f ( t, u ) − f ( t, v ) ||



L||u − v ||,

t ∈ [ a, b ],

u, v ∈ R N ,

(7.4)

mit einer Konstanten L > 0, wobei hier und im Folgenden || · || : R N → R eine beliebige Vektornorm bezeichnet.

148

Kapitel 7 Einschrittverfahren f¨ur Anfangswertprobleme

Neben der angesprochenen Existenz und Eindeutigkeitsaussage f¨ur Anfangswertprobleme von der Form (7.1) (7.2) liefert das folgende Theorem ein ebenso wichtiges Resultat zur stetigen Abh¨angigkeit von den Anfangswerten. Theorem 7.2 Es sei f : [ a, b ] × R N → R N eine stetige Funktion, die die Lipschitzbedingung (7.4) erf¨ulle. Dann gelten die beiden folgenden Aussagen: (a) (Picard/Lindel¨of) Das Anfangswertproblem (7.1) (7.2) besitzt genau eine stetig differenzierbare L¨osung y : [ a, b ] → R N . (b) F¨ur differenzierbare Funktionen y, y : [ a, b ] → R N mit y  = f ( t, y ),

t ∈ [ a, b ];

y ( a ) = y0

y = f ( t, y),

.......

y( a ) = y0

gilt die Absch¨atzung ||y ( t ) − y( t ) ||



eL(t−a) ||y0 − y0 ||,

t ∈ [ a, b ].

(7.5)

Einen Beweis hierzu finden Sie beispielsweise in Heuser [51], Abschnitt 12. Auch unter anderen Voraussetzungen an die Funktion f sind Existenz und Eindeutigkeitsaussagen f¨ur das Anfangswertproblem (7.1) (7.2) m¨oglich. Zur Vereinfachung der Notation wird Folgendes angenommen:

In diesem und dem folgenden Kapitel 8 wird ohne weitere Spezifikation an die Funktion f angenommen, dass jedes der betrachteten Anfangswertprobleme von der Form (7.1) (7.2) jeweils eine eindeutig bestimmte L¨osung y : [ a, b ] → R N besitzt.

An einigen Stellen erweist sich das folgende Resultat u¨ ber die Glattheit der L¨osung des Anfangswertproblems (7.1) (7.2) als n¨utzlich, das man mit der Kettenregel erh¨alt. Theorem 7.3 F¨ur eine p mal stetig partiell differenzierbare Funktion mit p ≥ 1 ist die L¨osung des Anfangswertproblems (7.1) (7.2) mindestens ( p + 1 ) mal stetig partiell differenzierbar. Bemerkung 7.4 In der Situation von Theorem 7.3 lassen sich die h¨oheren Ableitungen der L¨osung angeben. Beispielsweise berechnet man im eindimensionalen Fall N = 1 sowie f¨ur p = 1 sofort Folgendes:   ∂f ∂f ∂f ∂f y  ( t ) = (t, y ( t ) ) + (t, y ( t ) )y  ( t ) = + f (t, y ( t ) ). (7.6) ∂t

∂y

∂t

∂y



Abschnitt 7.2

149

Theorie der Einschrittverfahren

In den meisten F¨allen l¨asst sich die L¨osung des Anfangswertproblems (7.1) (7.2) nicht exakt berechnen, so dass man auf numerische Verfahren zur¨uckgreift. Solche Verfahren werden in diesem und dem darauf folgenden Kapitel vorgestellt, wobei es die Zielsetzung der meisten dieser Verfahren ist, zu der L¨osung y : [ a, b ] → R N des Anfangswertproblems (7.1) (7.2) schrittweise f¨ur = 0, 1, . . . Approximationen u ≈ y ( t ),

= 0, 1, . . . , n,

zu gewinnen auf einem noch nicht n¨aher spezifizierten Gitter ∆ = {a = t0 < t1 < . . . < tn ≤ b}, h := t+1 − t

f¨ur = 0, 1, . . . , n − 1.

(7.7)

7.2 Theorie der Einschrittverfahren Im Folgenden werden Einschrittverfahren einf¨uhrend behandelt. Definition 7.5 Ein (explizites) Einschrittverfahren zur n¨aherungsweisen Bestimmung einer L¨osung des Anfangswertproblems (7.1) (7.2) ist von der Gestalt u+1

=

u + h ϕ( t , u ; h ),

= 0, 1, . . . , n − 1;

u0 := y0

(7.8)

mit einer Verfahrensfunktion ϕ : [ a, b ] × R N × R + → R N und einem noch nicht n¨aher spezifizierten Gitter beziehungsweise Schrittweiten der Form (7.7). Bemerkung 7.6 ( 1 ) Die Approximation u h¨angt von u−1 nicht jedoch (unmittelbar) von u−2 , u−3, . . . ab, was die Bezeichnung “Einschrittverfahren“ rechtfertigt. Im anschließenden Kapitel 8 werden dann Mehrschrittverfahren behandelt. ( 2 ) Ein Einschrittverfahren ist durch seine Verfahrensfunktion ϕ festgelegt, die Schrittweiten hingegen sind noch frei w¨ahlbar. Zur Vereinfachung der Notation wird dennoch im Folgenden bei Einschrittverfahren auf die Verfahrensvorschrift (7.8) verwiesen, obwohl Eigenschaften von ϕ behandelt werden. ( 3 ) Ebenfalls zwecks einer vereinfachten Notation wird als Definitionsbereich einer Verfah-

rensfunktion ϕ immer [ a, b ] × R N × R + angegeben, obwohl bei den meisten noch vorzustellenden speziellen Einschrittverfahren der Ausdruck ϕ( t, u; h ) lediglich f¨ur Schrittweiten h ≤ b − t wohldefiniert ist. ( 4 ) Eine wichtige Rolle spielen in der Praxis auch implizite Einschrittverfahren, die durch die

Definition (7.8) nicht unmittelbar erfasst sind. Solche impliziten Einschrittverfahren werden gemeinsam mit den Mehrschrittverfahren in Kapitel 8 behandelt.  Die wichtigste Kennzahl eines Einschrittverfahrens ist seine Konvergenzordnung:

150

Kapitel 7 Einschrittverfahren f¨ur Anfangswertprobleme

Definition 7.7 Ein Einschrittverfahren (7.8) zur L¨osung des Anfangswertproblems y  = f ( t, y ), y ( a ) = y0 besitzt die Konvergenzordnung p ≥ 1, falls sich der globale Verfahrensfehler absch¨atzen l¨asst in der Form max ||u − y ( t ) ||



=0,...,n

hmax :=

Chpmax ,

max {t+1 − t },

=0,...,n−1

mit einer von dem gew¨ahlten Gitter ∆ unabh¨angigen Konstanten C ≥ 0. F¨ur die Bestimmung der Konvergenzordnung eines Einschrittverfahrens spielt der folgende Begriff eine maßgebliche Rolle. Definition 7.8 F¨ur ein Einschrittverfahren (7.8) zur L¨osung des Anfangswertproblems y  = f ( t, y ), y ( a ) = y0 bezeichnet η ( t, h ) := y ( t ) + hϕ( t, y ( t ) ; h ) − y ( t + h )

  Verfahrensvorschrift

f¨ur t ∈ [ a, b ],

0 ≤ h ≤ b − t,

den lokalen Verfahrensfehler im Punkt (t + h, y ( t + h ) ) bez¨uglich der Schrittweite h. Andere sinnvolle Definitionen des lokalen Verfahrensfehlers sind ebenfalls m¨oglich (siehe Aufgabe 7.3). Definition 7.9 Ein Einschrittverfahren (7.8) zur L¨osung des Anfangswertproblems y  = f ( t, y ), y ( a ) = y0 besitzt die Konsistenzordnung p ≥ 1, falls f¨ur den lokalen Verfahrensfehler die Ungleichung ||η ( t, h ) ||



Chp+1

f¨ur t ∈ [ a, b ],

0 ≤ h ≤ b − t,

(7.9)

erf¨ullt ist mit einer (von t und h unabh¨angigen) Konstanten C ≥ 0. Die Konsistenzordnung bezeichnet man oft nur kurz als Ordnung eines Einschrittverfahrens. Es wird nun die wesentliche Absch¨atzung f¨ur den bei Einschrittverfahren auftretenden globalen Verfahrensfehler vorgestellt, wof¨ur die folgende Lipschitzbedingung an die Verfahrensfunktion ben¨otigt wird,     ϕ( t, u; h ) − ϕ( t, v ; h )  ≤ Lϕ ||u − v || f¨ur t ∈ [ a, b ], 0 < h ≤ b − t, (7.10) u, v ∈ R N . Bei allen in diesem Kapitel vorzustellenden speziellen Einschrittverfahren ist eine solche Lipschitzbedingung (7.10) erf¨ullt, falls die Funktion f der Lipschitzbedingung (7.4) gen¨ugt. Theorem 7.10 Ein Einschrittverfahren (7.8) zur L¨osung des Anfangswertproblems y  = f ( t, y ), y ( a ) = y0 besitze die Konsistenzordnung p ≥ 1 und erf¨ulle die Lipschitzbedingung (7.10). Dann liegt die Konvergenzordnung p vor. Genauer gilt max ||u − y ( t ) ||



=0,...,n

mit der Konstanten K =

C Lϕ



Khpmax ,

hmax :=

max {t+1 − t },

=0,...,n−1

(7.11)

 eLϕ (b−a) − 1 , wobei C aus der Absch¨atzung (7.9) herr¨uhrt.

Abschnitt 7.2

151

Theorie der Einschrittverfahren

B EWEIS . Mit den Setzungen = u − y , = η ( t , h ),

e η

y := y ( t ),

= 0, 1, . . . , n, = 0, 1, . . . , n − 1,

gilt f¨ur = 0, 1, . . . , n − 1 y+1 = y + h ϕ( t , y ; h ) − η , u+1 = u + h ϕ( t , u ; h ), und daher

  e+1 = e + h ϕ( t , u ; h ) − ϕ( t , y ; h ) + η

beziehungsweise   ||e+1 || ≤ ||e || + h  ϕ( t , u ; h ) − ϕ( t , y ; h )  + ||η || ≤ (1 + h Lϕ )||e || + h Chpmax , und das nachfolgende Lemma 7.12 liefert wegen e0 = 0 unmittelbar die Aussage des Theorems.

Bemerkung 7.11 Lipschitzbedingung (7.10) und Konsistenzordnung p zusammen gew¨ahrleisten also die Konvergenzordnung p des Einschrittverfahrens (7.8). 

7.2.1 Ein elementares Resultat zur Fehlerakkumulation Lemma 7.12 F¨ur Zahlen L > 0, a ≥ 0, h > 0 und b ≥ 0 sei a+1



(1 + h L)a + h b,

= 0, 1, . . . , n − 1,

erf¨ullt. Dann gelten die Absch¨atzungen a



eLx − 1 b + eLx a0 L

mit x :=

−1 

hj

( = 0, 1, . . . , n).

j=0

B EWEIS . Der Fall = 0 ist klar, und den Induktionsschritt → + 1 f¨uhrt man wie folgt:

a+1

≤ eh L    Lx  e −1 Lx ≤ (1 + h L) b + e a + h b 0 L ≤

  eL(x +h ) − 1 − h L eLx+1 − 1  + h b + eL( x +h ) a0 = b + eLx+1 a0 . L L

152

Kapitel 7 Einschrittverfahren f¨ur Anfangswertprobleme

7.3 Spezielle Einschrittverfahren 7.3.1 Einschrittverfahren der Konsistenzordnung p = 1 Beispiel 7.13 Das Euler Verfahren ist von der Form u+1

=

u + h f ( t , u ),

= 0, 1, . . . , n − 1;

u0 := y0 .

(7.12)

Andere u¨ bliche Bezeichnungen f¨ur das Verfahren (7.12) sind Eulersches Polygonzugverfahren oder vorw¨artsgerichtete Euler Formel. In Bild 7.1 ist die Vorgehensweise des Euler Verfahrens veranschaulicht. Dabei stellen die Funktionen y, y beziehungsweise y L¨osungen der Differenzialgleichung y  = f (t, y ) dar mit den Anfangswerten y(t0 ) = y0 , y(t1 ) = u1 beziehungsweise y(t2 ) = u2 . Die gestrichelten Linien stellen Tangenten dar und illustrieren die Bestimmung der jeweils n¨achsten Approximation. y .... ........ ...

.......... .......... ....... ...... ..... ..... ...... . . . .. ..... .... ..... .... ...... ... .... .. ... .. . . . . . . . . . . . . . . . .. . . . . . ........ .. ......... ..... ... .. ... .. ... .. ... .. .. .. . .. . .. .. .. ... .. ... .. ... .. ... .. ... ......... . . . . .. ... ........ .... ........ ....... .... ... ..... .... ..... ..... ..... . . .. . . .. . .... ........ ...... ............ ....... .. ........ ....... ........ ..

y(t)

u2

y( t )

y( t )

u1 u0 = y0

............................................

t0 = a

t1

t

t2

Bild 7.1 Vorgehensweise beim Euler– Verfahren



Theorem 7.14 F¨ur eine stetig partiell differenzierbare Funktion f : [ a, b ] × R N → R N besitzt das Euler Verfahren die Konsistenzordnung p = 1. B EWEIS . Eine Taylorentwicklung der L¨osung des Anfangswertproblems y  = f ( t, y ), y ( a ) = y0 liefert y(t + h)

=

y ( t ) + y ( t )h + (yj ( τj ) )N j=1

h2 2

mit geeigneten Zwischenstellen τj ∈ [ a, b ], und daraus erh¨alt man f¨ur den lokalen Verfahrensfehler η ( t, h )

=

y ( t ) + h f ( t, y ( t )) − y ( t + h )   = y ( t )

=

h2

−(yj ( τj ) )N j=1 2

beziehungsweise ||η ( t, h ) ||∞



Ch2 ,

mit C =

1 max ||y  ( τ ) ||∞ , 2 τ ∈ [ a, b ]

wobei die zweimalige stetige Differenzierbarkeit der L¨osung y aus Theorem 7.3 folgt.

Abschnitt 7.3

153

Spezielle Einschrittverfahren

7.3.2 Einschrittverfahren der Konsistenzordnung p = 2 Zur Herleitung von Einschrittverfahren (7.8) der Konsistenzordnung p = 2 wird f¨ur die Verfahrensfunktion der Ansatz    ϕ( t, u; h ) = a1 f ( t, u ) + a2 f t + b1 h, u + b2 hf ( t, u ) , (7.13) t ∈ [ a, b ], 0 ≤ h ≤ b − t, u ∈ R N , betrachtet mit noch festzulegenden Konstanten aj , bj ∈ R. Theorem 7.15 Ein Einschrittverfahren (7.8) mit einer Verfahrensfunktion der Form (7.13) ist konsistent von der Ordnung p = 2, falls die Funktion f : [ a, b ] × R N → R N zweimal stetig partiell differenzierbar ist und f¨ur die Koeffizienten Folgendes gilt: a1 + a2 = 1,

a2 b1 =

1 , 2

a2 b2 =

1 . 2

(7.14)

B EWEIS . Der Beweis wird f¨ur den eindimensionalen Fall N = 1 gef¨uhrt. Taylorentwicklungen sowohl von ϕ( t, y ( t ) ; · ) im Punkt h = 0 als auch von der L¨osung y in t zusammen mit Theorem 7.3 ergeben ϕ( t, y ( t ) ; h ) y(t + h )

=

=1/2 =1/2 = 1  

    ∂f ∂f ( a1 + a2 ) f + h a2 b1 (t, y ( t ) ) + O( h2 ), + a2 b2 f

=

h2 y ( t ) + y ( t )h + y  ( t ) 2

∂t

(7.6)

=

∂y

+ O( h3 ) 

 ∂f ∂ f h2 (t, y ( t ) ) + O( h3 ), y ( t ) + hf + + f ∂t ∂y 2

  3 ( ) ( ) = hϕ(t, y t ; h) + O h

woraus f¨ur den lokalen Verfahrensfehler unmittelbar η ( t, h )

=

y ( t ) + hϕ( t, y ( t ) ; h ) − y ( t + h )

=

O( h3 )

folgt. Bemerkung 7.16 Der eine Freiheitsgrad in (7.14) kann nicht zur Gewinnung eines Verfahrens der Konsistenzordnung p = 3 verwendet werden.  Es werden nun zwei Beispiele f¨ur Einschrittverfahren von der Form (7.13) vorgestellt. Beispiel 7.17 Die Verfahrensfunktion f¨ur das modifizierte Euler Verfahren lautet   t ∈ [ a, b ], 0 ≤ h ≤ b − t, ϕ( t, u; h ) = f t + h2 , u + h2 f ( t, u ) , u ∈ RN , wobei ϕ aus dem Ansatz (7.13) hervorgeht f¨ur a1 = 0, a2 = 1 und b1 = b2 = 1/2, und das zugeh¨orige Einschrittverfahren (7.8) besitzt nach Theorem 7.15 f¨ur eine hinreichend glatte

154

Kapitel 7 Einschrittverfahren f¨ur Anfangswertprobleme

Funktion f daher die Konsistenzordnung p = 2. Das Verfahren selbst l¨asst sich folgendermaßen formulieren, u+1/2 = u +

t+1/2 := t +

h f ( t , u ), 2

u+1 = u + h f ( t+1/2 , u+1/2 ),

h , 2

= 0, 1, . . . , n − 1.

Die Wirkungsweise des modifizierten Euler Verfahrens ist in Bild 7.2 veranschaulicht. Dabei stellen die Funktionen y, y, y beziehungsweise y0 L¨osungen der Differenzialgleichung y  = f (t, y ) dar mit den Anfangswerten y(t0) = y0 , y(t1/2 ) = u1/2 , y(t1 ) = u1 beziehungsweise y0(t3/2 ) = u3/2 . Die N¨aherung u1 erh¨alt man von u0 ausgehend auf einer Geraden der Steigung y(t1/2 ). y ...... ........ ...

y(t)

..................................... ........ ........ ....... ....... ...... ...... ...... ..... ...... ..... . . 3/2 . 1 ...... .... ... . . . ......................................... . . . ............ ......... . ... . . . . . ............. ....... ..... ..... ........ ... .... . . . . . . ....... ...... ... .. ....... ........ ..... ... ....... ......... ..... ... . . . . . .......... . . . . . . . ....... .. . ........... ....... ..... .............. ... ....... .................. ..... .. ........ ..... ... ....... ..... ... . ....... . . . . . ....... . ... ........ ... ........ . ....... .. ....... . . . . .. ........ ... ....... 2 ..... ...... .... ....... . . . . . . . . . . .. ...... .... .......... . .. .............. . . . . . . . .. .. ..... ....... . . 1/2 .............. . . .............

u

u

ye(t)

y(t)

yb(t)

u

u

...........................................

t0 = a

t1/2

t1

t3/2

t

t2

Bild 7.2 Vorgehensweise beim modifizierten Euler– Verfahren



Beispiel 7.18 Die Verfahrensfunktion f¨ur das Verfahren von Heun lautet  

1 ϕ( t, u; h ) = 2 f ( t, u ) + f t + h, u + hf ( t, u ) ,

t ∈ [ a, b ],

0 ≤ h ≤ b − t, u ∈ RN ,

wobei ϕ aus der allgemeinen Form (7.13) hervorgeht f¨ur a1 = a2 = 1/2 und b1 = b2 = 1. Das zugeh¨orige Einschrittverfahren (7.8) besitzt also f¨ur eine hinreichend glatte Funktion f ebenfalls die Konsistenzordnung p = 2. Der Algorithmus selbst l¨asst sich folgendermaßen formulieren, v+1 = u + h f ( t , u ), u+1 w+1 = u + h f ( t+1 , v+1 ),

=

1 (v + w+1 ), 2 +1

= 0, 1, . . . , n − 1. 

Abschnitt 7.4

155

Rundungsfehleranalyse

7.3.3 Einschrittverfahren der Konsistenzordnung p = 4 Beispiel 7.19 Die Verfahrensfunktion f¨ur das klassische Runge Kutta Verfahren lautet ϕ( t, u; h )

=

 1 k + 2k2 + 2k3 + k4 , 6 1

0 ≤ h ≤ b − t,

t ∈ [ a, b ],

u ∈ RN , mit k1 := f ( t, u ), k3 := f (t +

k2 := f (t + h ,u 2

+

h k ), 2 2

h ,u 2

+

h k ), 2 1

k4 := f (t + h, u + hk3 ).

Durch Taylorentwicklung l¨asst sich nachweisen, dass das klassische Runge Kutta Verfahren f¨ur eine hinreichend oft differenzierbare Funktion f die Konsistenzordnung p = 4 besitzt.  Bei jedem der vorgestellten speziellen expliziten Einschrittverfahren ist f¨ur die Anwendbarkeit des Konvergenzresultats aus Theorem 7.10 jeweils noch die Lipschitzeigenschaft (7.10) nachzupr¨ufen. Hier stellt man leicht fest, dass diese Lipschitzbedingung (7.10) jeweils genau dann erf¨ullt ist, wenn die Funktion f der Lipschitzbedingung (7.4) gen¨ugt.

7.4 Rundungsfehleranalyse In diesem Abschnitt 7.4 werden die Auswirkungen von fehlerbehafteten Anfangswerten und Rundungsfehlern bei Einschrittverfahren (7.8) untersucht. Hierzu sei im Folgenden angenommen, dass eine fehlerbehaftete Verfahrensvorschrift von der folgenden Form v+1 = v + h ϕ( t , v ; h ) + ρ ,

= 0, . . . , n − 1;

||ρ || ≤ δ,

.......

⎫ v0 := y0 + e0 ,⎬ ||e0 || ≤ ε, ⎭

(7.15)

vorliegt mit gewissen Vektoren e0 , ρ ∈ R N , und || · || bezeichnet eine nicht weiter spezifizierte Vektornorm. Theorem 7.20 Zur L¨osung des Anfangswertproblems y  = f ( t, y ), y ( a ) = y0 sei durch (7.8) ein Einschrittverfahren mit der Konsistenzordnung p ≥ 1 gegeben, das die Lipschitzbedingung (7.10) erf¨ulle. Dann gelten f¨ur die durch die fehlerbehaftete Verfahrensvorschrift von der Form (7.15) gewonnenen Approximationen die folgenden Absch¨atzungen,   δ + eLϕ ( b−a) ε max ||v − y ( t ) || ≤ K hpmax + h min =0,... ,n mit hmax = mit der Konstanten K :=

max{C,1} Lϕ (b−a) [e Lϕ

max h ,

=0,..,n−1

− 1], f¨ur C aus (7.9).

(7.16) hmin =

min

=0,..,n−1

h ,

156

Kapitel 7 Einschrittverfahren f¨ur Anfangswertprobleme

B EWEIS . Die Vorgehensweise im Beweis von Theorem 7.10 ist nur geringf¨ugig zu modifizieren: mit den Setzungen e

= v − y ,

η

= η ( t , h ),

y := y ( t ),

= 0, 1, . . . , n, = 0, 1, . . . , n − 1,

gilt f¨ur = 0, 1, . . . , n − 1 y+1 = y + h ϕ( t , y ; h ) − η , v+1 = v + h ϕ( t , v ; h ) + ρ , und daher   e+1 = e + h ϕ( t , v ; h ) − ϕ( t , y ; h ) + ρ + η beziehungsweise   ||e+1 || ≤ ||e || + h  ϕ( t , v ; h ) − ϕ( t , y ; h )  + ||η || + ||ρ ||  δ  , ≤ (1 + h Lϕ )||e || + h Chpmax + h min

und Korollar 7.12 liefert zusammen mit der Absch¨atzung ||e0 || ≤ ε unmittelbar die Aussage des Theorems. Bemerkung 7.21 Die rechte Seite in der Absch¨atzung (7.16) setzt sich aus drei Termen zusammen: der erste Term Khpmax resultiert aus dem globalen Verfahrensfehler des Einschrittverfahrens, und der zweite Term δ/hmin korrespondiert zu den akkumulierten Rundungsfehlern. Der Term eLϕ (b−a) ε schließlich r¨uhrt von einem fehlerbehafteten Anfangswert her.  Als unmittelbare Folgerung aus Theorem 7.20 erh¨alt man im Fall eines exakt gegebenen Anfangswerts (ε = 0) und konstanter Schrittweite: Korollar 7.22 Es liege die Situation aus Theorem 7.20 vor mit v0 = y0 und h = h f¨ur = 0, 1, . . . , n − 1. Dann gilt mit der Konstanten K := max{C,1} [eLϕ b − 1] die Fehlerabsch¨atzung Lϕ max ||v − y ( t ) ||

=0,...,n



 δ K hp + . h

Mit der Wahl h = hopt = (δ/p)1/(p+1) erh¨alt man max ||v − y ( t ) ||

=0,...,n



2K δ p/(p+1) . pp/(p+1)

Die Situation in Absch¨atzung (7.17) ist in Bild 7.3 veranschaulicht.

(7.17)

Abschnitt 7.5

157

Asymptotische Entwicklung der Approximationen

..... ........ . ..... ... ..... ... ...... .... ....... ... ...... ... ........ ...... . . ...... ....... ...... ...... ...... ....... ...... ...... ....... ........ ......... ...... . . . ...... . .. ...... ........ ...... .... .. ....... .... ... .... ... ....... ..... .... ... ... ........... ....... . . . . ... .... ... .. .... ... ..... ..... .... .... ..... ... ..... ..... .... ..... ..... ..... .... ..... ...... ..... .... ...... ...... ......... . .... ...... . . . . .... ....... .... ... ...... ...... ..... ...... ...... ..... ..... ....... ....... ...... ..... ....... ....... .......... ..... . ........ ...... .............. ......... ........ ............ ...... . . . . . . . . ........... ...... .. ........... ................ ....... ....... ..................................... ........ ....... ........ ........ ......... ......... ........... .......... .............................................. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .............................................................................. .... .................................................. ............................... ...................................... ................................ ................. ................................ .............................. .............................................

Gesamtfehler

Verfahrensfehler Khp 0 0

Rundungsfehler Kδ/h

hopt

Schrittweite h

Bild 7.3 Einfluss des Rundungsfehlers in Abh¨angigkeit von der Schrittweite h (vergleiche Korollar 7.22)

7.5 Asymptotische Entwicklung der Approximationen 7.5.1 Einfuhrende ¨ Bemerkungen Zur L¨osung des Anfangswertproblems y  = f ( t, y ), y ( a ) = y0 werden in dem vorliegenden Abschnitt 7.5.1 Einschrittverfahren (7.8) bez¨uglich unterschiedlicher Gitter betrachtet, die der Einfachheit halber jeweils gleichabst¨andige Knoten besitzen sollen, h > 0,

t = a + h

f¨ur = 0, 1, . . . , n,

mit 0 < n ≤

b−a . (7.18) h

Im Folgenden ist es von Vorteil, die Schrittweitenabh¨angigkeit der Approximationen des Einschrittverfahrens (7.8) explizit anzugeben. Dies geschieht durch die folgende Notation, uh ( t+1 ) := uh ( t ) + hϕ( t , uh ( t ) ; h ),

= 0, . . . , n − 1;

uh ( 0 ) := y0 , (7.19)

mit t = t ( h ) entsprechend (7.18). Es ist dann uh ( t ) definiert f¨ur alle

a < t ≤ b,

h ∈ H t :=



t−a m

:

m = 1, 2, . . . . (7.20)

Die Funktion uh wird als Gitterfunktion bezeichnet. Besitzt das zugrunde liegende Einschrittverfahren die Konsistenzordnung p ≥ 1 und gen¨ugt die Verfahrensfunktion der Stabilit¨atsbedingung (7.10), so gilt nach Theorem 7.10 an jeder Stelle a < t ≤ b uh ( t )

=

y ( t ) + O( hp )

f¨ur H t  h → 0.

(7.21)

In Abh¨angigkeit von der vorliegenden Konsistenzordnung und den Differenzierbarkeitseigenschaften der beteiligten Funktionen l¨asst sich die Darstellung (7.21) in Form einer asymptotischen Entwicklung pr¨azisieren: Theorem 7.23 Bez¨uglich des Anfangswertproblems y  = f ( t, y ), y ( a ) = y0 besitze eine gegebene Verfahrensfunktion ϕ : [ a, b ] × R N × R + → R N die Konsistenzordnung p ≥ 1 und gen¨uge

158

Kapitel 7 Einschrittverfahren f¨ur Anfangswertprobleme

der Stabilit¨atsbedingung (7.10). Weiter seien die Funktionen f und ϕ jeweils ( p + r ) mal stetig partiell differenzierbar. F¨ur gewisse Koeffizientenfunktionen cp+j ∈ C r+1−j ( [ a, b ], R N ) mit cp+j ( a ) = 0 f¨ur j = 0, 1, . . . , r − 1 gilt dann die folgende asymptotische Entwicklung: uh ( t ) = y ( t ) + cp ( t )hp + cp+1 ( t )hp+1 + . . . + cp+r−1 ( t )hp+r−1 + O( hp+r ), t ∈ [ a, b ],



h ∈ Ht,

(7.22)

wobei die angegebenen Konvergenzraten gleichm¨aßig in t auftreten. Hierbei bezeichnet C s ( D, R N ) die Menge der s mal stetig partiell differenzierbaren Funktionen ψ : D → R N , wobei D ⊂ R M gelte f¨ur ein M ≥ 1. Auf der Basis solcher asymptotischer Entwicklungen lassen sich Verfahren h¨oherer Ordnung gewinnen1. Die Existenz einer solchen Asymptotik ist erstmals in Gragg [35] nachgewiesen worden. In den folgenden Abschnitten 7.5.2 und 7.5.3 wird eine sp¨ater entwickelte, auf Hairer/Lubich [46] und Deuflhard/Bornemann [20] basierende Methode zur Herleitung f¨ur die genannte asymptotische Entwicklung (7.22) vorgestellt.

7.5.2 Herleitung der asymptotischen Entwicklung des globalen Verfahrensfehlers, 1. Teil Eine asymptotische Entwicklung (7.22) erh¨alt man mittels nur zu diesem Anlass konstruierter spezieller Einschrittverfahren h¨oherer Ordnung. Grundlage daf¨ur bildet die folgende Rekursionsvorschrift, bei der die Verfahrensfunktion ψ ∗ : [ a, b ] × R N × R + → R N aus einer Verfahrensfunktion ψ hervorgeht mittels   ψ ∗ (t, u; h) := ψ(t, u − hq cq ( t ) ; h) + cq ( t + h ) − cq ( t ) hq−1 , (7.23) mit einer Zahl q ≥ 1 und einer im Moment nicht n¨aher spezifizierten Funktion cq : [ a, b ] → R N . Lemma 7.24 Bez¨uglich des Anfangswertproblems y  = f ( t, y ), y ( a ) = y0 besteht zwischen den zu den Verfahrensfunktionen ψ und ψ ∗ geh¨orenden Gitterfunktionen vh und vh∗ der folgende Zusammenhang, vh∗ ( t ) = vh ( t ) + cq ( t )hq ,

t ∈ [ a, b ],

h ∈ Ht.

B EWEIS . Offensichtlich gilt vh ( 0 ) = vh∗ ( 0 ) = y0 , und dann erh¨alt man induktiv f¨ur t = h, 2h, . . . , die Aussage des Lemmas vh∗ ( t + h ) = vh∗ ( t ) + hψ ∗ (t, vh∗ ( t ) ; h) = vh ( t ) + hq cq ( t ) + hψ(t, vh ( t ) ; h) + = vh ( t ) + hψ(t, vh ( t ) ; h) + cq ( t + h )hq .

  = vh ( t + h ) 1

siehe Abschnitt 7.6 u¨ ber Extrapolationsmethoden



 cq ( t + h ) − cq ( t ) hq

Abschnitt 7.5

159

Asymptotische Entwicklung der Approximationen

Bemerkung 7.25 Lemma 7.24 l¨asst sich sukzessive auf die folgenden Verfahrensfunktionen anwenden (das Schema ist zeilenweise zu lesen) ⎫ ⎪ ψ = ϕ, q = p, ϕ[ 1 ] := ψ ∗ ⎪ ⎪ ⎪ ⎪ ⎪ [1] [2] ∗ ⎬ ψ = ϕ , q = p + 1, ϕ := ψ (7.24) pp pp pp pp pp pp ⎪ ⎪ p p p p p p ⎪ ⎪ ⎪ ⎪ ⎭ ψ = ϕ[ r−1 ] , q = p + r − 1, ϕ[ r ] := ψ ∗ Mit der Notation u0,h = uh sowie us,h f¨ur die zu ϕ[ s ] geh¨orende Gitterfunktion (s = 1, 2 . . .) gilt nach Lemma 7.24 us+1,h ( t )

=

us,h( t ) + cp+s ( t )hp+s ,

s = 0, 1, . . . , r − 1,

beziehungsweise ur,h( t ) = uh ( t ) + cp ( t )hp + cp+1 ( t )hp+1 + . . . + cp+r−1( t )hp+r−1.

(7.25)

F¨ur die komplette Herleitung der asymptotischen Entwicklung (7.22) sind nun “lediglich“ noch konkrete Funktionen cp , . . . , cp+r−1 zu ermitteln, so dass ur,h ( t ) − y ( t )

=

O( hp+r )

f¨ur H t  h → 0

(7.26)

gilt beziehungsweise die zugeh¨orige Verfahrensfunktion ϕ[ r ] aus dem Schema (7.24) die Konsistenzordnung p + r besitzt.  Die angestellten Bemerkungen legen es nahe, eine Funktion cq zu w¨ahlen, so dass mittels der Rekursionsvorschrift (7.23) aus einer Verfahrensfunktion ψ mit der Konsistenzordnung q eine Verfahrensfunktion ψ ∗ erzeugt wird, die die Konsistenzordnung q + 1 besitzt. Die Einzelheiten dazu werden im Folgenden vorgestellt, wobei als Erstes eine Darstellung f¨ur den zu der zugrunde liegenden Verfahrensvorschrift ϕ geh¨orenden lokalen Verfahrensfehler geliefert wird: Lemma 7.26 Unter den in Theorem 7.23 genannten Bedingungen gilt f¨ur den zugrunde liegenden lokalen Verfahrensfehler die Entwicklung y ( t + h ) − y ( t ) − hϕ( t, y ( t ) ; h )

=

dp+1 ( t ) hp+1 + O( hp+2 )

f¨ur h → 0,

mit einer Funktion dp+1 ∈ C r ([ a, b ], R N ), wobei die angegebenen Konvergenzraten gleichm¨aßig in t auftreten. B EWEIS . Die Behauptung folgt unmittelbar aus einer Taylorentwicklung der Funktion g ( h ) = y ( t + h ) − y ( t ) − hϕ( t, y ( t ) ; h ) in h = 0, y ( t + h ) − y ( t ) − hϕ( t, y ( t ) ; h ) =

p+1 

d ( t )h + O( hp+2 )

=0

= dp+1 ( t )hp+1 + O( hp+2 ), da wegen der vorliegenden Konsistenzordnung q notwendigerweise d0 ( t ) = . . . = dp ( t ) = 0 (p+1) p gilt. F¨ur die Funktion dp+1 gilt die Darstellung dp+1( t ) = y ( p+1()!t ) − p!1 ∂∂hϕp ( t, y ( t ) ; 0 ).

160

Kapitel 7 Einschrittverfahren f¨ur Anfangswertprobleme

7.5.3 Herleitung der asymptotischen Entwicklung des globalen Verfahrensfehlers, 2. Teil In Vorbereitung auf das n¨achste Lemma sei ψ : [ a, b ] × R N × R + → R N eine beliebige Verfahrensfunktion, die bez¨uglich des Anfangswertproblems y  = f ( t, y ), y ( a ) = y0 die Konsistenzordnung q ≥ 1 besitzt mit der folgenden Darstellung f¨ur den lokalen Verfahrensfehler, y ( t + h ) − y ( t ) − hψ(t, y ( t ) ; h) = dq+1( t ) hq+1 + O( hq+2 )

f¨ur h → 0, (7.27)

mit einer Funktion dq+1 : [ a, b ] → R N , wobei die angegebenen Konvergenzraten gleichm¨aßig in t auftreten. Des Weiteren wird die Konsistenzbedingung ψ ( t, u; 0 ) = f ( t, u )

f¨ur ( t, u ) ∈ [ a, b ] × R N

(7.28)

vorausgesetzt. In allen praxisrelevanten F¨allen liegt die vorausgesetzte Konsistenzordnung in der verallgemeinerten Form der Aufgabe 7.3 auf Seite 171 vor, so dass dann (7.28) automatisch erf¨ullt ist. ¨ In den weiteren Uberlegungen spielt das folgende Anfangswertproblem f¨ur ein inhomogenes lineares System gew¨ohnlicher Differenzialgleichungen eine technische Rolle, cq ( t ) = Dy f ( t, y ( t )) cq ( t ) + dq+1( t ), Hierbei bezeichnet Dy f ( t, u ) =

 ∂ fi ∂yj

(t, u)

N i,j=1

t ∈ [ a, b ],

cq ( a ) = 0.

(7.29)

∈ R N×N die Funktionalmatrix der Abbildung

y → f ( t, y ) an der Stelle u ∈ R N . Entsprechend wird diese Notation im Folgenden f¨ur Verfahrensfunktionen verwendet. Mit dieser Wahl der Funktion cq erh¨alt man unter hinreichend guten Differenzierbarkeitseigenschaften der beteiligten Funktionen durch die Rekursionsvorschrift (7.23) eine Verfahrensfunktion ψ ∗ mit der Konsistenzordnung q + 1. Lemma 7.27 Eine Verfahrensfunktion ψ ∈ C 3 ([ a, b ] × R N × R + , R N ) besitze die Konsistenzordnung q ≥ 1 mit einem lokalen Verfahrensfehler von der Form (7.27), und die Konsistenzbedingung (7.28) sei erf¨ullt. Weiter sei dq+1 ∈ C s ([ a, b ], R N ) f¨ur ein s ≥ 1 erf¨ullt, und die ∂2 ψ ( ( ) ) ∂2 ψ ( ( ) ) t, y t ; 0 und t → t, y t ; 0 seien f¨ur alle Indizes i, j minAbbildungen t → ∂h∂yj ∂yi ∂yj destens ( s − 1 ) mal stetig partiell differenzierbar auf [ a, b ]. Unter diesen Voraussetzungen besitzt die Verfahrensfunktion ψ ∗ aus (7.23) mit cq ∈ C s+1 ([ a, b ], R N ) aus (7.29) die Konsistenzordnung2 q + 1. Im Fall s ≥ 2 besitzt der zugeh¨orige lokale Verfahrensfehler η ∗ die Darstellung η ∗ ( t, h ) = dq+2 ( t ) hq+2 + O(hq+3 )

f¨ur h → 0

gleichm¨aßig in t, mit einer Funktion3 dq+2 ∈ C s−1( [ a, b ], R N ). 2 3

bez¨uglich des gleichen Anfangswertproblems y  = f ( t, y ), y ( a ) = y0 Die spezielle Form von dq+2 ist im Beweis angegeben.

Abschnitt 7.5

161

Asymptotische Entwicklung der Approximationen

B EWEIS . Der lokale Verfahrensfehler bez¨uglich ψ ∗ besitzt die folgende Form, η ∗ ( t, h ) := y ( t + h ) − y ( t ) − hψ ∗ (t, y ( t ) ; h) =

......

=

......



− hψ(t, y ( t ) − hq cq ( t ) ; h) − − hψ(t, y ( t ) ; h)

  = η( t,h )

− hR( t, h ),

mit R( t, h ) :=





 cq ( t + h ) − cq ( t ) hq



......

ψ(t, y ( t ) − hq cq ( t ) ; h) − ψ(t, y ( t ) ; h) .

Es soll zun¨achst der Fall q ≥ 2 behandelt werden. Taylorentwicklungen liefern = O( hq+2 )

  O( h2q ) ,

R( t, h ) = −Dy ψ(t, y ( t ) ; h)hq cq ( t ) + cq ( t + h ) − cq ( t ) =

hcq ( t )

+

1  ( ) 2 c th 2 q

+ O( h )

(7.30)

f¨ur h → 0,

3

und zur Bearbeitung der Identit¨at (7.30) verwendet man eine weitere Taylorentwicklung, Dy ψ(t, y ( t ) ; h) = Dy ψ(t, y ( t ) ; 0) +

  = Dy f ( t, y ( t )) mit der Matrix

∂ Dy ψ ( t, y ( t ) ; 0 ) = ∂h

∂ Dy ψ ( t, y ( t ) ; 0 )h + O ( h2 ) ∂h

f¨ur h → 0,

∂ ψi ( ( ) ) ( ∂h∂y t, y t ; h )i,j=1 ∈ R N N , wobei ψi die i j 2

N

×

te Kom-

ponente der vektorwertigen Funktion ψ bezeichnet. Insgesamt erh¨alt man

= 0 

 η ∗ ( t, h ) = dq+1 ( t ) + Dy f ( t, y ( t ))cq ( t ) − cq ( t ) hq+1 ∂D ψ

y ( t, y ( t ) ; 0 )cq ( t ) − 12 cq ( t ) hq+2 + O(hq+3 ) + ∂h

  =: dq+2 ( t )

f¨ur h → 0,

wobei die angegebenen Konvergenzraten gleichm¨aßig in t auftreten. Im Fall q = 1 verwendet man anstelle (7.30) die folgende Taylorentwicklung zweiter Ordnung, R( t, h ) = −Dy ψ(t, y ( t ) ; h)hc1 ( t ) +

 N   c1 ( t ) Dy2 ψi t, y ( t ) ; h c1 ( t ) i=1 h2 + O(h3 )

  =Dy2 ψi ( t,y ( t ) ; 0 )+O( h )

  ∂ 2 ψi ( ( ) ) N f¨ur h → 0, mit der Hessematrix Dy2 ψi t, y ( t ) ; h = ( t, y t ; h )k,l=1, wobei ψi die i ∂yk ∂yl te Komponente von ψ bezeichnet. Man erh¨alt so die Darstellung =: d3 ( t )  

 N

∂ D ψ y ( t, y ( t ) ; 0 )c1 ( t ) − 1 c1 ( t ) h3 c1 ( t )Dy2 ψi (t, y ( t ) ; 0)c1 ( t ) η ∗ ( t, h ) = + 2 i=1

∂h

+ O(h4 ) wobei die angegebenen Konvergenzraten gleichm¨aßig in t auftreten.

f¨ur h → 0,

162

Kapitel 7 Einschrittverfahren f¨ur Anfangswertprobleme

Es sind nun alle Hilfsmittel zur Komplettierung des Beweises des Theorems u¨ ber die asymptotische Entwicklung des globalen Verfahrensfehlers zusammengestellt: B EWEIS VON T HEOREM 7.23. Die Aussage des Theorems folgt unmittelbar aus den in Bemerkung 7.25 angestellten Vor¨uberlegungen, wobei noch f¨ur jede Anwendung von Lemma 7.27 dessen Voraussetzungen nachzupr¨ufen sind, was im Folgenden geschieht. Es ist so, dass mit der Verfahrensfunktion ϕ auch jede der in (7.24) betrachteten Funktionen ϕ[ s ] der Stabilit¨atsbedingung (7.10) gen¨ugt. Weiter gelten die Identit¨aten f ( t, u ) = ϕ( t, u; 0 ) = ϕ[ 1 ] ( t, u; 0 ) = . . . = ϕ[ r−1 ] ( t, u; 0 ) sowie ∂ 2 ϕ[ 1 ] ∂ 2 ϕ[ r−1 ] ( t, u; 0 ) = . . . = ( t, u; 0 ) ∂h∂yj ∂h∂yj ⎧ 2 ∂ ϕ ⎪ ⎪ , ⎨ ∂h∂yj ( t, u; 0 ) N =  ∂2 ϕ ⎪ ⎪ ( t, u; 0 ), ........ − ⎩ ∂yi ∂yj

falls p ≥ 2, ......

p = 1,

i=1

so dass Lemma 7.27 tats¨achlich jeweils anwendbar ist. Theorem 7.23 ist damit vollst¨andig bewiesen.

7.5.4 Asymptotische Entwicklungen des lokalen Verfahrensfehlers Es werden nun die vorgestellten asymptotische Entwicklungen des globalen Verfahrensfehlers zur Gewinnung von Verfahren h¨oherer Ordnung eingesetzt. Zuvor wird noch eine asymptotische Entwicklung f¨ur den lokalen Verfahrensfehler angegeben, die sich bei der Konstruktion von Schrittweitensteuerungen verwenden l¨asst: Theorem 7.28 Unter den Bedingungen von Theorem 7.23 gilt f¨ur jede fixierte Zahl ∈ N die folgende Entwicklung f¨ur den lokalen Verfahrensfehler4: uh ( a + h ) = y ( a + h ) + bp+1 hp+1 + bp+2 hp+2 + . . . + bp+r−1 hp+r−1 + O( hp+r ) (7.31)   = u f¨ur h > 0, mit gewissen von der Zahl abh¨angenden vektoriellen Koeffizienten bp+1 , . . . , bp+r−1 ∈ RN . B EWEIS . Aus Theorem 7.23 erh¨alt man unter Verwendung der Taylorentwicklungen cp+j ( a + h ) =

r−j−1  k=1

4

k) (a) c(p+j

( h )k k!

+ O( hr−j )

f¨ur j = 0, 1, . . . , r − 1

Anders als bei der asymptotischen Entwicklung des globalen Verfahrensfehlers h¨angt die betrachte Stelle hier von h ab.

Abschnitt 7.6

163

Extrapolationsmethoden f¨ur Einschrittverfahren

unmittelbar die Aussage des Theorems, uh ( a + h ) = y ( a + h ) +

r−1 

cp+j ( a + h )hp+j + O( hp+r )

j=0

= y ( a + h ) +

r−1  s=1

s  k=1



k) (a) c(p+s−k

 =: bp+s

k  p+s h + O( hp+r ). k! 

7.6 Extrapolationsmethoden fur ¨ Einschrittverfahren Im Folgenden wird ein Einschrittverfahren (7.19)5 mit der Konsistenzordnung p ≥ 1 und einer asymptotischen Entwicklung von der Form6 uh ( t ) = y ( t ) + cp ( t )hp + cp+1( t )hp+1 + . . . + cp+r−1( t )hp+r−1 + O( hp+r ) herangezogen. Bei fixiertem t ∈ [ a, b ] werden Extrapolationsverfahren f¨ur h → 0 betrachtet mit dem Ziel der Gewinnung von Verfahren h¨oherer Ordnung. Zur Approximation von y ( t ) betrachte man f¨ur eine feste Stelle t ∈ [ a, b ] zu Schrittweiten h[0] > h[1] > . . . aus H t (siehe (7.20)) und einer Zahl 0 ≤ m ≤ r das vektorwertige Polynom P0,... ,m von der Form P0,... ,m ( h ) = d0 + dp hp + dp+1 hp+1 + . . . + dp+m−1 hp+m−1 ,

h ∈ R, (7.32)

mit vektoriellen Koeffizienten d0 , dp , dp+1, . . . , dp+m−1 ∈ R N , wobei diese m + 1 Koeffizienten so zu bestimmen sind, dass die m + 1 Interpolationsbedingungen P0,...,m (h[k] ) = uh[k] ( t )

f¨ur k = 0, 1, . . . , m,

(7.33)

erf¨ullt sind. Die betrachteten Schrittweiten seien dabei so gew¨ahlt, dass bez¨uglich einer Grundschrittweite h ∈ H t Folgendes gilt, h[k] = h/nk

f¨ur k = 0, 1, . . . ,

mit 1 ≤ n0 ≤ n1 ≤ . . . .

(7.34)

Als N¨aherung f¨ur y ( t ) wird P0,...,m ( 0 ) herangezogen. Durch diese Extrapolation nach h → 0 erh¨alt man ein Verfahren der Ordnung p + m, es gilt P0,...,m ( 0 ) = y ( t ) + O( hp+m ). Die genauen Approximationseigenschaften sind in dem folgenden Theorem angegeben. Theorem 7.29 Gegeben sei ein Einschrittverfahren (7.19)5 mit einer asymptotischen Entwicklung von der Form (7.22). In der Situation (7.34) gilt f¨ur das (existierende und eindeutig bestimmte) Polynom P0,...,m von der Form (7.32) mit der Interpolationseigenschaft (7.33) die folgende Fehlerdarstellung P0,...,m ( 0 ) = y ( t ) +

p+r−1 

Bs cs ( t ) hs + O( hp+r ),

s=p+m

mit von t und h unabh¨angigen Matrizen Bp+m , . . . , Bp+r−1 ∈ R N×N . 5 6

zur approximativen Bestimmung der L¨osung des Anfangswertproblems y  = f ( t, y ), y ( a ) = y0 siehe (7.22)

(7.35)

164

Kapitel 7 Einschrittverfahren f¨ur Anfangswertprobleme

B EWEIS . Der Beweis wird zun¨achst f¨ur den eindimensionalen Fall (N = 1) gef¨uhrt. Die Menge der Polynome von der Form (7.32) stimmt (f¨ur N = 1) u¨ berein mit {P ∈ Πp+m−1 : P (ν ) ( 0 ) = 0 f¨ur ν = 1, 2, . . . , p − 1}, und die angegebene Existenz und Eindeutigkeit folgt dann aus der des Hermiteschen Interpolationsproblems, vergleiche Aufgabe 1.3 auf Seite 17. Im Folgenden wird die angegebene Fehlerdarstellung f¨ur P0,...,m ( 0 ) − y ( t ) = d0 − y ( t ) hergeleitet. Hierzu schreibt man die Interpolationsbedingungen (7.33) in Form eines linearen Gleichungssystems



⎞⎛

⎜1 ⎜ ⎜ ⎜ ⎜1 ⎜ ⎜ ⎜ ⎜ pp ⎜p ⎜ ⎜ ⎝ 1

1/np0

1/np+1 0

1/np1

1/np+1 1

pp p

pp p

1/npm

p p p 1/np+m−1 ⎟ ⎜ 0

⎞ d0

⎟⎜ ⎟⎜ ⎟⎜ hp dp p p p 1/np+m−1 ⎟ ⎜ ⎟⎜ 1 ⎟ ⎜ hp+1 d ⎟⎜ p+1 ⎟⎜ pp ⎟⎜ p ppp ⎟⎜ ⎟⎜ ⎠⎝ p p p 1/np+m−1 hp+m−1 dp+m−1 m 

1/np+1 m

 =: Am ∈ R (m+1)×( m+1)

⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠



=



⎜ uh[0] ( t ) ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ u (t) ⎟ ⎜ h[1] ⎟ ⎜ ⎟, ⎜ ⎟ p ⎜ ⎟ p p ⎜ ⎟ ⎜ ⎟ ⎝ ⎠ uh[m] ( t )

(7.36)

wobei die auftretende Matrix wegen der Eindeutigkeit des Polynoms P0,...,m regul¨ar ist. Auf der anderen Seite f¨uhrt eine Auswertung der asymptotischen Entwicklung (7.22) an den Stellen h[0] , h[1] , . . . , h[m] in Matrix Vektor Darstellung auf Folgendes,

= Am 

 ⎛ 1/np0

⎜1 ⎜ ⎜ ⎜ ⎜ 1 1/np ⎜ 1 ⎜ ⎜ ⎜ pp pp ⎜p p ⎜ ⎜ ⎝ 1 1/npm

1/np+1 0 1/np+1 1 pp p

1/np+1 m

⎞⎛



⎞ ⎛ ⎟ ( ) t u h ⎟⎜ ⎟ ⎜ [0] ⎟ ⎟ ⎟⎜ ⎟ ⎜ ( t )hp ⎟ ⎟ ⎟ ⎜ ⎜ c p ⎟ ⎜ u (t) ⎟ p p p 1/np+m−1 ⎟ ⎜ ⎟⎜ ⎟ ⎜ h[1] ⎟ 1 ⎟ − rh ( t ),(7.37) ⎟ ⎜ c ( t )hp+1 ⎟ = ⎜ ⎟ p+1 ⎟⎜ ⎟ ⎜ p ⎟ ⎟⎜ ⎟ ⎜ pp p p ⎟ ⎟ ⎟ ⎜ ⎜ p pp ⎟ ⎟⎜ ⎟ ⎜ p ⎟⎜ ⎟ ⎠ ⎝ ⎠⎝ ⎠ ( ) u t p+m−1 h[m] p p p 1/n cp+m−1 ( t )hp+m+1 m ⎛ ⎞ 1/ns0 ⎜ ⎟ p+r−1  ⎜ 1/ns1 ⎟ s p+r ⎜ ⎟ ( ) mit rh t := ⎜ ppp ⎟ cs ( t ) h + O( h ), ⎠ s=p+m ⎝ 1/nsm ppp

1/np+m−1 ⎟⎜ 0

y(t)

Abschnitt 7.6

165

Extrapolationsmethoden f¨ur Einschrittverfahren

mit der gleichen Matrix wie in (7.36). Subtrahiert man nun das System (7.37) von dem Gleichungssystem (7.36), so f¨uhrt dies auf ⎞⎛

⎛ ⎜1 ⎜ ⎜ ⎜ ⎜1 ⎜ ⎜ ⎜ ⎜ pp ⎜p ⎜ ⎜ ⎝ 1

ppp

1/np0

1/np+1 0

1/np1

1/np+1 1

pp p

pp p

1/npm

1/np+1 m

 = Am

1/np+m−1 ⎟⎜ 0

⎞ d0 − y ( t )

⎟ ⎟⎜ ⎟ ⎟⎜ ⎟ ( t ) )hp ⎟ ⎜ ⎟ (d − c p p p+m−1 ⎟ ⎜ ⎟ p p p 1/n ⎟⎜ ⎟ 1 ⎟⎜ ⎟ = rh ( t ). (7.38) p+1 (dp+1 − cp+1 ( t ) )h ⎟⎜ ⎟ ⎟⎜ ⎟ pp ⎟⎜ ⎟ p p pp ⎟⎜ ⎟ ⎟⎜ ⎟ ⎠⎝ ⎠ p p p 1/np+m−1 (dp+m−1 − cp+m−1 ( t ) )hp+m+1 m 

Multipliziert man noch A−1 uhrt eine Betrachtung der ersten Gleichung m auf beiden Seiten, so f¨ des entstehenden Systems f¨ur den eindimensionalen Fall N = 1 auf die Behauptung (unter Beachtung der Unabh¨angigkeit der Matrix Am von h und t). Im allgemeinen Fall N ≥ 1 sind in der Matrix Am und in den in rh auftretenden Vektoren die skalaren Eintr¨age 1/nqj ∈ R jeweils durch die Matrizen (1/nqj )I ∈ R N×N zu ersetzen, ansonsten bleibt die Argumentation die Gleiche. Bemerkung 7.30 (a) Im Fall einer Konsistenzordnung p = 1 und der eindimensionalen Situation N = 1 ist die Aussage von Theorem 7.29 eine unmittelbare Konsequenz aus Theorem 6.26 in Kapitel 6 u¨ ber numerische Integration. (b) Die in dem genannten Kapitel 6 angegebenen speziellen Unterteilungsfolgen lassen sich  auch als Schrittweiten h[0] > h[1] > . . . verwenden. Beispiel 7.31 Mit den genannten Bezeichnungen wird nun der Spezialfall der Konsistenzordnung p = 1 und die Schrittweiten h[0] = h, h[1] = h/2, h[2] = h/4 betrachtet mit der typischerweise kleinen Grundschrittweite h > 0. Man erh¨alt dann die Fehlerdarstellung P012 ( 0 ) = y ( t ) + O( h3 ), mit einem kubisch in h fallenden Fehler. Der erforderliche Aufwand zur Berechnung von P012 (0) entsprechend dem Neville Schema (1.7) auf Seite 6 dagegen betr¨agt n + 2n + 4n = 7n = O( 1/h ) Schritte des vorliegenden Einschrittverfahrens, so dass der daf¨ur erforderliche Aufwand  lediglich linear in n = O( 1/h ) w¨achst. Beispiel 7.32 In der speziellen Situation uh ( t ) = y ( t ) + cp ( t )hp + cp+1( t )hp+1 + O( hp+2 ) f¨ur h → 0 und h[0] = h, h[1] = h/n1 berechnet sich der Wert P01 ( 0 ) zu P01 ( 0 ) = uh/n1 ( t ) +

uh/n1 ( t ) − uh ( t ) , np1 − 1

was man wahlweise mit dem Neville-Schema (1.7) oder u¨ ber das Gleichungssystem (7.36) im Beweis von Theorem 7.29 erh¨alt. Das Gleichungssystem (7.38) aus dem angesprochenen Beweis

166

Kapitel 7 Einschrittverfahren f¨ur Anfangswertprobleme

liefert die Fehlerdarstellung P01 ( 0 ) = y ( t ) − βcp+1( t ) hp+1 + O( hp+2 ) mit dem Koeffizienten β := ( 1 −1/n1 )/( np1 −1 ), Details werden hier nicht ausgef¨uhrt (Aufgabe 7.10 auf Seite 172). F¨ur die nachfolgenden Betrachtungen u¨ ber Schrittweitensteuerungen wird hier noch der Spezialfall t = a+ h mit fixiertem ∈ N genauer untersucht. Eine Taylorentwicklung der Funktion cp+1 im Punkt t = a liefert wegen der Identit¨at cp+1( a ) = 0 die Absch¨atzung cp+1 ( a + h ) = O( h ) und somit P01 ( 0 ) = y ( a + h ) + O( hp+2 )

f¨ur h → 0.



7.7 Schrittweitensteuerung 7.7.1 Verfahrensvorschrift Zur L¨osung des Anfangswertproblems y  = f ( t, y ), y ( a ) = y0 wird f¨ur eine gegebene Verfahrensfunktion ϕ : [ a, b ] × R N × R + → R N mit der Konsistenzordnung p ≥ 1 die folgende Vorschrift herangezogen, w = u + u+1 = w +



h ϕ( t , u ; h2 ), 2 h ϕ( t 2

+

h , w ; h2 2

),

t+1 := t + h ,

= 0, 1, . . . .

(7.39)

Im Folgenden wird eine adaptive Wahl der Schrittweiten h vorgestellt mit dem Ziel einer effizienten Fehlerkontrolle. Einf¨uhrende Erl¨auterungen hierzu findet man im folgenden Abschnitt 7.7.2, und in den nachfolgenden Abschnitten 7.7.3 und 7.7.4 wird die genaue Vorgehensweise zur Wahl der Schrittweiten h beschrieben. Bemerkung 7.33 Der Schritt ( t , u ) → ( t+1 , u+1 ) in der Verfahrensvorschrift (7.39) entspricht zwei Schritten ( t , u ) → ( t+1/2 , u+1/2 ) → ( t+1 , u+1 ) des Einschrittverfahrens (7.8) mit halber Schrittweite h /2. Diese Approximation u+1 ≈ y ( t+1 ) ∈ R N wird f¨ur eine Fehlersch¨atzung ben¨otigt, daher kann man auch gleich die Verfahrensvorschrift (7.39) anstelle des urspr¨unglichen Einschrittverfahrens (7.8) verwenden. 

7.7.2 Problemstellung Im Folgenden soll ausgehend von einer gegebenen Stelle t ∈ [ a, b ] und einer gegebenen Approximation u ≈ y ( t ) ∈ R N eine Schrittweite h > 0 bestimmt werden, f¨ur die ||u+1 − z ( t + h ) || ≈ ε

(7.40)

Abschnitt 7.7

167

Schrittweitensteuerung

erf¨ullt ist, wobei u+1 ∈ R N aus einem Schritt des gegenw¨artig betrachteten Verfahrens (7.39) hervorgeht und ε > 0 eine vorgegebene Fehlerschranke darstellt, und z : [ t , b ] → R N bezeichnet die L¨osung des Anfangswertproblems z  = f ( t, z ),

t ∈ [ t , b ];

z ( t ) = u .

(7.41)

Weiter bezeichnet || · || in (7.40) eine nicht n¨aher spezifizierte Vektornorm. Bemerkung 7.34 (a) Die Forderung (7.40) zeigt, dass die noch zu beschreibende Schrittweitensteuerung auf einer Vorgabe des lokalen Verfahrensfehlers beruht. Damit erhofft man sich ein vern¨unftiges Verhalten des globalen Verfahrensfehlers. (b) Die Forderung (7.40) stellt man aus den folgenden Gr¨unden: •



der lokale Verfahrensfehler ||u+1 − z ( t + h ) || soll die vorgegebene Schranke ε nicht u¨ bersteigen. Dies wird durch die Wahl einer hinreichend kleinen Schrittweite h erreicht. Aus Effizienzgr¨unden und zur Vermeidung der Akkumulation von Rundungsfehlern wird man die Schrittweite h jedoch nicht so klein w¨ahlen wollen, dass ||u+1 − z ( t + h ) ||  ε gilt.

(c) Zu beachten ist zudem, dass die L¨osung des Anfangswertproblems (7.41) nicht bekannt ist und erst noch numerisch zu bestimmen ist.  Zur Vereinfachung der Notation f¨uhren wir die folgende Bezeichnung f¨ur einen von dem Punkt ( t , u ) ausgehenden Schritt der Verfahrensvorschrift (7.39) mit L¨ange h ein,

u2×h/2 := w +

h ϕ(t 2

+ h2 , w ; h2 )

mit w = u +

h ϕ(t , u ; h2 ). 2

(7.42)

Zur Bestimmung einer Schrittweite h , f¨ur die die Forderung (7.40) ungef¨ahr erf¨ullt ist, wird ausgehend von einer nicht zu kleinen Startschrittweite h(0) f¨ur k = 0, 1 . . ., so vorgegangen: • •



Zun¨achst berechnet man u2×h(k) /2 .

  Anschließend ermittelt man eine Sch¨atzung f¨ur den Fehler  u2×h(k) /2 − z ( t + h(k) ) und bricht den Iterationsprozess mit kε := k ab, falls diese Sch¨atzung kleiner gleich ε ausf¨allt. Andernfalls, falls diese Sch¨atzung gr¨oßer als ε ist, wird eine neue Testschrittweite h(k+1) < h(k) bestimmt.

Abschließend verf¨ahrt man mit h = h(kε ) und t+1 = t + h(kε ) fort. Einzelheiten zu der genannten Fehlersch¨atzung und der Bestimmung einer neuen Testschrittweite werden in den nachfolgenden Abschnitten 7.7.3– 7.7.4 beschrieben.

7.7.3 Vorgehensweise bei gegebener Testschrittweite h(k) F¨ur eine Testschrittweite h(k) > 0, k ∈ N0 , bestimmt man entsprechend einem Schritt der ¨ Verfahrensvorschrift (7.42) den Vektor u2×h(k) /2 ∈ R N . Anschließend wird zur Uberpr¨ ufung der

168

Kapitel 7 Einschrittverfahren f¨ur Anfangswertprobleme

  Eigenschaft  u2×h(k) /2 − z ( t + h(k) )  ≈ ε der Wert z ( t + h(k) ) durch zh(k) ∈ R N gesch¨atzt, wobei zh := u2×h/2 −

vh − u2×h/2 2p − 1

mit vh := u + hϕ( t , u ; h ),

h > 0.

(7.43)

Dabei erh¨alt man die Approximation (7.43) mittels lokaler Extrapolation entsprechend Beispiel   7.32 mit n1 = 2. Der Fehler u2×h(k) /2 − z ( t + h(k) )  berechnet sich dann n¨aherungsweise zu δ (k) := ||u2×h(k) /2 − zh(k) ||

=

||vh(k) − u2×h(k) /2 || . 2p − 1

(7.44)

Ist dann die Absch¨atzung δ (k) ≤ ε erf¨ullt, so gibt man sich (vergleiche (7.40) mit t+1 = t + h(k) ) mit der Schrittweite h = h(k) zufrieden und verf¨ahrt wie in Abschnitt 7.7.2 beschrieben fort (mit um eins erh¨oht). Die vorliegende Situation ist in Bild 7.4 veranschaulicht. ...... ........ . ....

z( t )

↑| ε ↓|

.......... ...................... .................. ............... .............. ............ ............ . . . . . . . . . . ........ ......... (k−1) ......... ........ ........ ........ (k) ....... . . . . . . ....... . . . . . . ..... ...... ...... ...... ..... ...... ...... . . . (k) . . .... ..... (k−1) ..... ..... ..... . . . . . ..... . . . ..

zh

zh

u2×h

/2

u2×h

/2

u

t

t+1 = t + h(k)

t + h(k−1)

..........................

Bild 7.4 Illustration zur Schrittweitensteuerung

7.7.4 Bestimmung einer neuen Testschrittweite h(k+1) im Fall δ (k) > ε Gilt mit der Notation aus (7.44) jedoch δ (k) > ε, so wiederholt man die in Abschnitt 7.7.3 vorgestellte Vorgehensweise mit k um eins erh¨oht, mit einer neuen Testschrittweite h(k+1) < h(k) . Bei der Festlegung einer solchen neuen Testschrittweite h(k+1) bedient man sich einer n¨aherungsweisen Darstellung des Fehlers u2×h/2 − z ( t + h ): Lemma 7.35 Mit den Notationen (7.41) (7.44) gilt unter den Bedingungen von Theorem 7.23 u¨ ber die Asymptotik des globalen Verfahrensfehlers (dort f¨ur r = 2) Folgendes,  h p+1      u2×h/2 − z ( t + h )  = δ (k) + O (h(k) )p+2 , 0 < h ≤ h(k) . (7.45) h(k)

Gilt also h(k)  ε1/(p+2) , so gewinnt man aus der Darstellung (7.45) unter Vernachl¨assigung des Restglieds die neue Testschrittweite  ε 1/(p+1) h(k+1) := h(k) (7.46) δ (k)

Abschnitt 7.7

169

Schrittweitensteuerung

und wiederholt damit die Vorgehensweise in Abschnitt 7.7.3, mit k um eins erh¨oht. B EWEIS VON L EMMA 7.35. Gem¨aß Theorem 7.28 existiert ein von h unabh¨angiger Vektor bp+1 ∈ R N mit u2×h/2 − z ( t + h )

=

bp+1 hp+1 + O( hp+2 ),

h > 0,

(7.47)

und im Folgenden wird eine Approximation f¨ur bp+1 geliefert. Mithilfe von Beispiel 7.32 erh¨alt man mit zh aus (7.43) Folgendes, zh − z ( t + h ) = O( hp+2 ), und dies eingesetzt in (7.47) f¨uhrt auf u2×h/2 − zh

=

bp+1 hp+1 + O( hp+2 ).

(7.48)

  Wegen der Identit¨at δ (k) =  u2×h(k) /2 − zh(k)  bedeutet die Darstellung (7.48) insbesondere ||bp+1 ||( h(k) )p+1 = δ (k) + O( ( h(k) )p+2 ) beziehungsweise ||bp+1 ||

=

δ (k) ( h(k) )p+1

+ O( h(k) ).

(7.49)

Die Darstellung (7.49) eingesetzt in (7.47) liefert die Aussage des Lemmas,    u2×h/2 − z ( t + h ) 

= =

 h p+1 δ (k) + O(h(k) )hp+1 + O( hp+2 ) h(k) ......

+ O( ( h(k) )p+2 ),

0 < h ≤ h(k) .

Bemerkung 7.36 ( 1 ) F¨ur den Startschritt empfiehlt sich eine Wahl h(0) = εq mit einer Konstanten 1 < q < 1/( p + 2 ). ( 2 ) Zur der in diesem Abschnitt 7.7 vorgestellten Schrittweitenstrategie existieren Alternativen. Ebenfalls sinnvoll ist zum Beispiel ein Abbruchkriterium der Form c1 ε ≤ δ (kε ) ≤ c2 ε. Ist diese Bedingung etwa f¨ur ein k noch nicht erf¨ullt, so setzt man h(k+1) entsprechend (7.46), wobei hier eine Schrittweitenvergr¨oßerung h(k+1) > h(k) eintreten kann. ( 3 ) Nicht behandelt wird hier die Frage, ob das in diesem Abschnitt 7.7 beschriebene Abbruch-

kriterium nach einer endlichen Wahl von Versuchsschrittweiten abbricht oder nicht (beziehungsweise ob kε < ∞ gilt). 

7.7.5 Pseudocode zur Schrittweitensteuerung Die in Abschnitt 7.7 beschriebene Vorgehensweise wird abschließend in Form eines Pseudocodes zusammengefasst, wobei wieder ϕ : [ a, b ] × R N × R + → R N eine Verfahrensfunktion der Konsistenzordnung p ≥ 1 zur L¨osung des Anfangswertproblems (7.1) (7.2) ist.

170

Kapitel 7 Einschrittverfahren f¨ur Anfangswertprobleme

Algorithmus 7.37 Seien

t0 = a,

u0 = y0 ,

= 0,

h(0) > 0,

ε > 0.

k = 0;

repeat repeat

if k = 0 w = u +

then h = h(0) h ( ϕ t , u ; h2 ); 2

else h = u+1 = w +

v = u + hϕ( t , u ; h );

δ =

 ε 1/( p+1) δ h ( ϕ t 2

||v − u+1 || ; 2p − 1

h

end;

+ h2 , w ; h2 ); k = k + 1;

until δ ≤ ε; t+1 = t + h;

= + 1;

until t ≥ b; 

Weitere Themen und Literaturhinweise Die Theorie der Anfangswertprobleme f¨ur gew¨ohnliche Differenzialgleichungssysteme wird beispielsweise in Heuser [51] und in Dallmann/Elster [14] einf¨uhrend behandelt, und eine Auswahl existierender Literatur u¨ ber Einschrittverfahren zur numerischen L¨osung solcher Probleme bildet Deuflhard/Bornemann [20], Grigorieff [38], Hairer / Nørsett /Wanner [47], Kress [60], Strehmel/Weiner [98], Stoer/Bulirsch [96] und Weller [106]. Insbesondere in [20], [47] und [98] findet man auch weitergehende Ausf¨uhrungen u¨ ber die hier nur beil¨aufig behandelten Runge Kutta Verfahren. In M¨arz [65] und in [98] findet man Einf¨uhrungen u¨ ber die hier nicht behandelten Algebro Differenzialgleichungssysteme, bei denen es sich um spezielle implizite Differenzialgleichungssysteme von der Form f ( t, y ( t ), y ( t )) = 0 handelt.

¨ Ubungsaufgaben Aufgabe 7.1 Man forme das Anfangswertproblem y1 = t2 − y1 − y22 , y2 = t + y2 + y13 , y1 ( 0 ) = 0,

y2 ( 0 ) = 1,

y1 ( 0 ) = 1

y2 ( 0 ) = 0

in ein Anfangswertproblem f¨ur ein System erster Ordnung um. Aufgabe 7.2 (a) F¨ur das Anfangswertproblem y  = (1 + |y |)−1

auf [ 0, b ],

weise man Existenz und Eindeutigkeit der L¨osung nach.

y ( 0 ) = y0 ,

(7.50)

¨ Ubungsaufgaben

171

(b) Seien y und v L¨osungen der Differenzialgleichung in (7.50) mit den Anfangswerten y ( 0 ) = y0 beziehungsweise v(0) = v0 . Man weise Folgendes nach, |y ( t ) − v ( t ) |



e| t| |y0 − v0 |

f¨ur t ∈ [ 0, b ].

Aufgabe 7.3 F¨ur ein Einschrittverfahren (7.8) zur L¨osung des Anfangswertproblems y  = f ( t, y ), y ( a ) = y0 l¨asst sich der lokale Verfahrensfehler allgemeiner auch f¨ur beliebige Punkte ( t, y ) ∈ [ a, b ] × R N definieren, η ( t, h ) := y + hϕ( t, y ; h ) − z ( t + h ),

0 ≤ h ≤ b − t,

wobei z : [ t, b ] → R N die L¨osung des Anfangswertproblems z  = f ( s, z ), s ∈ [ t, b ] mit Anfangswert z ( t ) = y bezeichnet. Entsprechend l¨asst sich der Begriff Konsistenzordnung p ≥ 1 aus Definition 7.9 f¨ur beliebige Punkte (t, y ) ∈ [ a, b ] × R N verallgemeinern. Man zeige: F¨ur jedes Einschrittverfahren (7.8) zur L¨osung des Anfangswertproblems y  = f ( t, y ), y ( a ) = y0 mit einer verallgemeinerten Konsistenzordnung p ≥ 1 gilt die Konsistenzbedingung ϕ( t, y ; 0 )

=

f ( t, y )

f¨ur ( t, y ) ∈ [ a, b ] × R N .

Aufgabe 7.4 Man betrachte das Anfangswertproblem y  = g( t ),

t ∈ [ a, b ],

(7.51)

y ( a ) = 0,

(7.52)

mit einer gegebenen hinreichend glatten Funktion g : [ a, b ] → R. Wendet man das Euler Verfahren mit konstanter Schrittweite h = ( b − a )/N auf das Anfangswertproblem (7.51) (7.52) an, so erh¨alt man eine Z b

g( t ) dt. Gleiches gilt f¨ur das Verfahren von Heun. Man gebe beide N¨aherungsformel f¨ur das Integral a N¨ahrungsformeln f¨ur das Integral sowie jeweils obere Schranken f¨ur den von der Zahl h abh¨angenden Integrationsfehler an. Aufgabe 7.5 Gegeben sei das Anfangswertproblem y  = t − t3 ,

y ( 0 ) = 0.

Zur Schrittweite h sollen mit dem Euler Verfahren N¨aherungswerte u f¨ur y ( t ), t =  h, berechnet werden. Man gebe y ( t ) und u explizit an und zeige, dass an jeder Stelle t der Fehler eh ( t ) = uh ( t ) − y ( t ) f¨ur h = t/n → 0 gegen Null konvergiert. Aufgabe 7.6 (Numerische Aufgabe) Man l¨ose die van der Pol’sche Differenzialgleichung y  − λ( 1 − y 2 )y  + y = 0,

y ( 0 ) = 2,

y ( 0 ) = 0

f¨ur λ = 0 und λ = 12 numerisch jeweils mit dem Euler Verfahren, dem modifizierten Euler Verfahren sowie dem klassischen Runge Kutta Verfahren. Dabei verwende man jeweils einmal die konstante Schrittweite h = 0.025 und einmal die konstante Schrittweite h = 0.0025 und gebe tabellarisch die N¨aherungswerte an den Gitterpunkten t = 0.5, 1.0, 1.5, . . . , 15, an. Aufgabe 7.7 (Taylor Verfahren ) F¨ur eine p fach differenzierbare Funktion f : [ a, b ] × R → R mit p ∈ N sei f (0) := f und

172

Kapitel 7 Einschrittverfahren f¨ur Anfangswertprobleme f [j ] :=

∂ f [j−1] ∂ f [j−1] + f ∂t ∂y

f¨ur j = 1, 2, . . . , p.

Zur L¨osung des Anfangswertproblems y  = f ( t, y ), y ( a ) = y0 ist dann u¨ ber die Verfahrensfunktion ϕ( t, y ; h ) :=

p  hj−1 (j−1) ( t, y ) f j!

(7.53)

j=1

ein Einschrittverfahren u+1 = u + hϕ( t , u ; h ) der Ordnung p definiert. Nun zur Aufgabenstellung. Gegeben sei das Anfangswertproblem y = 1 − y

auf [ 0, 1 ],

y(0) = 0.

(7.54)

(a) Man bestimme f¨ur jede Zahl p ∈ N die zugeh¨orige Verfahrensfunktion ϕ. (b) Man l¨ose das Anfangswertproblem (7.54) f¨ur p = 2 und h = 1/n n¨aherungsweise mit dem zur Verfahrensfunktion (7.53) geh¨orenden Einschrittverfahren und sch¨atze den Fehler bei b = 1 ab. Aufgabe 7.8 Man zeige, dass das durch die Verfahrensfunktion ϕ( t, y ; h ) = k1 = f ( t, y ),

1 (k + 4k2 + k3 ), 6 1

k2 = f ( t +

h 2,y

+

h ) 2 k1 ,

k3 = f ( t + h, y + h( − k1 + 2k2 )),

gegebene Einschrittverfahren (einfache Kutta Regel) die Konvergenzordnung p = 3 besitzt. Aufgabe 7.9 Zur L¨osung des Anfangswertproblems y  = f ( t, y ), y ( a ) = y0 sei f¨ur jedes p > 0 ein Einschrittverfahren p ter Ordnung gegeben, welches f¨ur jeden Schritt die Rechenzeit pT0 ben¨otigt und in t = b den Wert der gesuchten Funktion approximiert mit einem Fehler Khp . Die Konstanten K und T0 sollen vom jeweiligen Verfahren unabh¨angig sein. Man bestimme f¨ur p und einen vorgeschriebenen Fehler ε ≤ K in t = b die gr¨oßtm¨ogliche Schrittweite h = h(p, ε) und die zugeh¨orige Gesamtrechenzeit T = T (p, ε). Wie verh¨alt sich T in Abh¨angigkeit von p und welches ist die optimale Konsistenzordnung popt = popt (ε)? Wie verh¨alt sich popt in Abh¨angigkeit von ε? Der Einfachheit halber sei angenommen, dass die Zahlen p und N (wobei der Zusammenhang h = ( b − a )/N besteht) reell gew¨ahlt werden d¨urfen. Aufgabe 7.10 Man weise die in Beispiel 7.32 getroffenen Aussagen nach. Aufgabe 7.11 (Numerische Aufgabe) Man l¨ose numerisch die Differenzialgleichung y  = −200t y 2 ,

t ≥ −3,

y ( –3 ) =

1 , 901

mit dem Standard Runge Kutta Verfahren der Ordnung p = 4 unter Verwendung der in Abschnitt 7.7 beschriebenen Schrittweitensteuerung. Zur Berechnung jeder neuen Schrittweite h starte man mit h(0) = h−1 (beziehungsweise im Fall k = 0 mit h(0) := 0.02) und korrigiere gem¨aß Abschnitt 7.7 solange, bis (siehe Bemerkung 7.36) ε/3 ≤ δ(k) ≤ 3ε oder k = 20 erf¨ullt ist, wobei ε = 10−7 gilt. F¨ur  = 1, 2, . . . , 50 gebe man jeweils die N¨aherungswerte in t sowie y ( t ), h−1 und die Anzahl der Versuche k zur Bestimmung der Schrittweite h an.

173

8

Mehrschrittverfahren fur ¨ Anfangswertprobleme bei gew¨ohnlichen Differenzialgleichungen

Mit den in diesem Kapitel behandelten Mehrschrittverfahren zur n¨aherungsweisen Bestimmung einer L¨osung des Anfangswertproblems (7.1) (7.2) (in Kurzschreibweise y  = f ( t, y ), y ( a ) = y0 ) erh¨alt man auf einfache Weise Verfahren h¨oherer Konvergenzordnung.

8.1 Grundlegende Begriffe 8.1.1 Mehrschrittverfahren Definition 8.1 Ein m Schrittverfahren zur n¨aherungsweisen Bestimmung einer L¨osung des Anfangswertproblems y  = f ( t, y ), y ( a ) = y0 besitzt auf einem a¨ quidistantem Gitter die Form m 

αj u+j = hϕ(t , u , . . . , u+m ; h),

= 0, 1, . . . , n − m,

(8.1)

j=0

mit •

Koeffizienten αj ∈ R mit αm = 0 und einer Funktion ϕ : [ a, b ] × (R N )m+1 × R + → R N ,



Gitterpunkten beziehungsweise Schrittweiten t = a + h



(8.2)

f¨ur = 0, 1, . . . , n,

mit h =

b−a , n

(8.3)

nicht n¨aher spezifizierten Startwerten u0 , . . . , um−1 ∈ R N .

Ein m Schrittverfahren bezeichnet man allgemeiner auch als Mehrschrittverfahren. ¨ Bemerkung 8.2 (a) Ublicherweise setzt man u0 := y0 , und die weiteren Startwerte u1 , u2 , . . . , N um−1 ∈ R sind in einer Anlaufrechnung zu ermitteln. (b) Nach der Anlaufrechnung wird f¨ur jedes ∈ {0, 1, . . . , n − m} so verfahren, dass aus den dann bereits bestimmten N¨aherungen u , . . . , u+m−1 ∈ R N gem¨aß der Verfahrensvorschrift (8.1) die N¨aherung u+m ∈ R N berechnet wird mit der Zielsetzung u+m ≈ y ( t+m ). Hier bezeichnet y : [ a, b ] → R N die L¨osung des Anfangswertproblems y  = f ( t, y ), y ( a ) = y0 .

174

Kapitel 8 Mehrschrittverfahren f¨ur Anfangswertprobleme

(c) Wie schon bei den Einschrittverfahren wird zwecks einer vereinfachten Notation der Definitionsbereich einer Funktion ϕ immer wie in (8.2) angegeben, obwohl bei den meisten noch vorzustellenden speziellen m Schrittverfahren der Ausdruck ϕ(t, v0 , . . . , vm−1 ; h) lediglich f¨ur Schrittweiten h ≤ ( b − t )/m wohldefiniert ist. (d) H¨angt in der Verfahrensvorschrift (8.1) die rechte Seite tats¨achlich von der Unbekannten u+m ab, so spricht man von einem impliziten m Schrittverfahren. Ist andererseits die Funktion ϕ unabh¨angig von u+m, so liegt ein explizites m Schrittverfahren vor. (e) Auf variablen Gittern, die hier nicht weiter behandelt werden, sind m Schrittverfahren von der Form m    = 0, 1, . . . , n − m. αj u+j = h+m ϕ t , . . . , t+m , u , . . . , u+m ; h+m , j=0

(f) Ist in der Verfahrensvorschrift (8.1) die Funktion ϕ von der speziellen Form ϕ(t, v0 , . . . , vm ; h)

=

m 

βj f ( t + jh, vj ),

j=0

so wird (8.1) als lineares m Schrittverfahren bezeichnet.



Beispiel 8.3 Ein spezielles lineares 2 Schrittverfahren ist die Mittelpunktregel, u+2 = u + 2hf ( t+1 , u+1 ),

= 0, 1, . . . , n − 2.

Ausf¨uhrlich werden spezielle Mehrschrittverfahren in Abschnitt 8.3 behandelt.

(8.4) 

8.1.2 Konvergenz– und Konsistenzordnung Die Approximationseigenschaften eines Mehrschrittverfahrens werden durch seine Konvergenzordnung beschrieben. Definition 8.4 Ein Mehrschrittverfahren von der Form (8.1) zur L¨osung des Anfangswertproblems y  = f ( t, y ), y ( a ) = y0 besitzt die Konvergenzordnung p ≥ 1, falls sich zu jeder Konstanten c ≥ 0 und beliebigen Startwerten u0 , . . . , um−1 ∈ R N mit ||uk − y ( tk ) || ≤ chp f¨ur k = 0, 1, . . . , m − 1 der globale Verfahrensfehler in der Form max ||u − y ( t ) ||

=m,...,n



Khp

absch¨atzen l¨asst mit einer von der Schrittweite h unabh¨angigen Konstanten K ≥ 0. Hier und im Folgenden bezeichnet || · || : R N → R eine nicht n¨aher spezifizierte Vektornorm. In Analogie zu den Einschrittverfahren spielen bei der Bestimmung der Konvergenzordnung eines Mehrschrittverfahrens die folgenden Begriffe eine wichtige Rolle.

Abschnitt 8.1

175

Grundlegende Begriffe

Definition 8.5 F¨ur ein Mehrschrittverfahren (8.1) zur L¨osung des Anfangswertproblems y  = f ( t, y ), y ( a ) = y0 bezeichnet ⎫ 

m ⎪ ⎬ η ( t, h ) := αj y ( t + jh ) − hϕ(t, y ( t ), y ( t + h ), . . . , y ( t + mh ) ; h), (8.5) j=0 ⎪ b−t ⎭ 0 < h ≤ , m

den lokalen Verfahrensfehler im Punkt ( t, y ( t )) (bez¨uglich der Schrittweite h). Definition 8.6 Ein Mehrschrittverfahren (8.1) zur L¨osung des Anfangswertproblems y  = f ( t, y ), y ( a ) = y0 besitzt die Konsistenzordnung p ≥ 1, falls f¨ur eine Konstante C und eine hinreichend kleine Zahl H > 0 der lokale Verfahrensfehler die folgende Absch¨atzung erf¨ullt, ||η ( t, h ) ||



Chp+1 ,

a ≤ t ≤ b,

0 ≤ h ≤ H.

Die Konsistenzordnung wird oft nur kurz als Ordnung eines Mehrschrittverfahrens bezeichnet.

8.1.3 Nullstabilit¨at, Lipschitzbedingung Bei der Behandlung der Konvergenzordnung eines Mehrschrittverfahrens wird auch die folgende Lipschitzbedingung an die Funktion ϕ : [ a, b ] × (R N )m+1 × R + → R N aus der Verfahrensvorschrift (8.1) eine Rolle spielen, m     ϕ(t, v0 , p p , vm ; h) − ϕ(t, w0 , p p , wm ; h)  ≤ Lϕ ||vj − wj || (vj , wj ∈ R N ). (8.6) j=0

Bemerkung 8.7 (a) Falls f : [ a, b ] × R N → R N eine stetige Funktion ist, die die Lipschitzbedingung (7.4) erf¨ullt, so ist f¨ur lineare Mehrschrittverfahren die Lipschitzbedingung (8.6) erf¨ullt mit der speziellen Lipschitzkonstanten Lϕ = L maxj=0,...,m |βj |. (b) Falls die Lipschitzbedingung (8.6) erf¨ullt ist, so ist f¨ur hinreichend kleine Schrittweiten h die Existenz und Eindeutigkeit der Approximationen des m-Schrittverfahrens (8.1) gew¨ahrleistet, da man die Bestimmungsgleichung f¨ur u+m als Fixpunktgleichung schreiben kann, die f¨ur  0 < h < 1/(αm Lϕ ) einer Kontraktionsbedingung gen¨ugt. Schließlich ist bei den Konvergenzbetrachtungen f¨ur Mehrschrittverfahren die folgende Eigenschaft von Bedeutung. Definition 8.8 Ein m Schrittverfahren (8.1) zur L¨osung von y  = f ( t, y ), y ( a ) = y0 heißt nullstabil, falls f¨ur das erzeugende Polynom ρ( ξ )

:=

αm ξ m + αm−1 ξ m−1 + . . . + α0 ∈ Πm

die folgende Dahlquistsche Wurzelbedingung erf¨ullt ist,

ρ( ξ ) = 0,

ρ( ξ ) = 0

=⇒

|ξ | ≤ 1;

|ξ | = 1

=⇒

ξ ist einfache Nullstelle von ρ.

(8.7)

176

Kapitel 8 Mehrschrittverfahren f¨ur Anfangswertprobleme

¨ 8.1.4 Ubersicht Die n¨achsten Abschnitte des vorliegenden Kapitels behandeln die folgenden wichtigen Themen: • •

Kriterien zur Bestimmung der Konvergenzordnung von allgemeinen Mehrschrittverfahren, ¨ Kriterien zur Bestimmung der Konsistenzordnung sowie Uberpr¨ ufung der Nullstabilit¨at allgemeiner Mehrschrittverfahren,



Behandlung spezieller Mehrschrittverfahren.

8.2 Der globale Verfahrensfehler bei Mehrschrittverfahren 8.2.1 Das Konvergenztheorem Es wird nun das wesentliche Konvergenzresultat f¨ur Mehrschrittverfahren vorgestellt. Theorem 8.9 Ein m Schrittverfahren (8.1) f¨ur das Anfangswertproblem y  = f ( t, y ), y ( a ) = y0 sei nullstabil und die Funktion ϕ gen¨uge der Lipschitzbedingung (8.6). Dann existieren Konstanten K ≥ 0 und H > 0, so dass f¨ur 0 < h = ( b − a )/n ≤ H die folgende Absch¨atzung gilt,  

max ||u − y ( t ) || ≤ K max ||uk − y ( tk ) || + max ||η ( t, h ) || h . (8.8) =0,...,n

k=0,...,m−1

a≤t≤b−mh

B EWEIS . Zur Vereinfachung der Notation nehmen wir im Folgenden αm = 1 an und betrachten den skalaren Fall N = 1. Mit den Setzungen e

= u − y ,

η

= η ( t , h ),

y := y ( t ),

= 0, 1, . . . , n, = 0, 1, . . . , n − m,

gelten f¨ur = 0, . . . , n − m die folgenden Darstellungen m 

αj y+j = hϕ(t, y , . . . , y+m ; h) + η ,

j=0 m 

αj u+j = hϕ(t , u , . . . , u+m ; h),

j=0

und daher   αj e+j = h ϕ(t , u , . . . , u+m ; h) − ϕ(t, y , . . . , y+m ; h) − η .

  j=0 =: δ m 

(8.9)

Abschnitt 8.2

177

Der globale Verfahrensfehler bei Mehrschrittverfahren

Dieses l¨asst sich folgendermaßen schreiben, ⎛ ⎛ ⎛ ⎞ ⎞⎛ ⎞ ⎞ 1 ⎜ e+1 ⎟ ⎜ 0 ⎜ 0 ⎟ ⎟ ⎜ e ⎟ ⎜ ⎜ ⎜ ⎟ ⎟⎜ ⎟ ⎟ ⎜ ⎜ ⎜ .. ⎟ ⎟ ⎟ ⎟ ⎜ pp pp ⎜ e+2 ⎟ ⎜ ⎜ . ⎟ ⎟ ⎜ e+1 ⎟ p p ⎜ ⎜ ⎜ ⎟ ⎟⎜ ⎟ ⎟ ⎜ ⎟ = ⎜ ⎟⎜ ⎟ + ⎜ ⎟ ⎜ .. ⎟ ⎜ ⎜ ⎟ ⎜ .. ⎟ ⎟ ⎜ . ⎟ ⎜ ⎜ 0 ⎟ ⎟⎜ . ⎟ 0 1 ⎜ ⎜ ⎜ ⎟ ⎟⎜ ⎟ ⎟ ⎝ ⎝ ⎝ ⎠ ⎠⎝ ⎠ ⎠ e+m e+m−1 δ − η −α0 p p p p p p −αm−1  

 

 

  =: E+1 =: A =: E =: F

(8.10)

mit der Matrix A ∈ R m×m und den Vektoren E , F ∈ R m . Aus der Darstellung (8.10) erh¨alt man mittels vollst¨andiger Induktion die Beziehung E

=

A E0 +

−1 

= 0, 1, . . . , n − m + 1.

A−1−ν Fν ,

(8.11)

ν=0

Zur Absch¨atzung der rechten Seite von (8.11) beobachtet man, dass die Wurzeln des erzeugenden Polynoms ρ mit den Eigenwerten der Matrix A u¨ bereinstimmen1, und aufgrund der Nullstabilit¨at erh¨alt man aus dem nachzutragenden Lemma 8.15 die Beschr¨anktheit der Potenzen der Matrix A, das heißt, ||Ak ||∞ ≤ C,

k = 0, 1, . . . ,

(8.12)

mit einer Konstanten C > 0. Aus (8.11) (8.12) resultiert die Absch¨atzung ||E ||∞



−1  C ||E0 ||∞ + ||Fν ||∞ ,

= 0, 1, . . . , n − m + 1.

(8.13)

ν=0

Wegen (8.9) und (8.10) gilt ||Fν ||∞ = |δν − ην | ≤ |ην | + hLϕ

m 

|eν+j |

j=0



max

j=0,...,n−m

|ηj | + hLϕ m||Eν ||∞ + hLϕ ||Eν+1 ||∞ ,

und Summation ergibt −1 

||Fν ||∞



 n

max

j=0,...,n−m

ν=0

|ηj |



+ hc1

−1 

||Eν ||∞ + hLϕ ||E ||∞

ν=0

mit c1 := Lϕ ( m + 1 ). Dies eingesetzt in (8.13) f¨uhrt f¨ur 0 < h ≤ H mit einer Konstanten H < 1/( CLϕ ) auf folgende Absch¨atzung, ||E ||∞





 C ||E0 ||∞ + n 1 − CLϕ H

max

j=0,...,n−m

|ηj |



+

 Cc1 h ||Eν ||∞ , 1 − CLϕ H −1

ν=0

= 1, 2, . . . , n − m + 1. 1

Details hierzu findet man im Beweis von Lemma 5.16 im Kapitel u¨ ber nichtlineare Gleichungssysteme.

178

Kapitel 8 Mehrschrittverfahren f¨ur Anfangswertprobleme

Das ebenfalls noch nachzutragende diskrete Lemma von Gronwall 8.14 liefert dann die Behauptung, wenn man noch ||E0 ||∞ =

max

=0,...,m−1

|u − y ( t ) |,

|u − y ( t ) |



||E ||∞ ,

ber¨ucksichtigt. Bemerkung 8.10 Dem Beweis von Theorem 8.9 entnimmt man noch, dass im Falle expliziter Verfahren H = ∞ als obere Schranke f¨ur die Schrittweiten gew¨ahlt werden kann und die wesentliche Fehlerabsch¨atzung (8.8) f¨ur jede Schrittweite h = ( b − a )/n formal richtig ist. Es ist jedoch zu beachten, dass bei den noch zu behandelnden steifen Differenzialgleichungen (siehe Kapitel 8.9) der Fehler bei expliziten Verfahren erst f¨ur kleine Schrittweiten h > 0 klein ausf¨allt, was wegen der dort typischerweise großen Lipschitzkonstanten nicht im Widerspruch zur Fehlerabsch¨atzung (8.8) steht. Hier ist der Einsatz impliziter Verfahren sinnvoller. Einzelheiten dazu werden in Abschnitt 8.9 vorgestellt.  Als unmittelbare Folgerung aus Theorem 8.9 erh¨alt man das folgende Korollar. Korollar 8.11 Ein nullstabiles m Schrittverfahren (8.1) mit der Konsistenzordnung p ≥ 1 und einer der Lipschitzbedingung (8.6) gen¨ugenden Funktion ϕ besitzt die Konvergenzordnung p. Es folgt ein Resultat u¨ ber fehlerbehaftete Mehrschrittverfahren. Korollar 8.12 (Rundungs und Verfahrensfehleranalyse) Ein m Schrittverfahren (8.1) zur L¨osung des Anfangswertproblems y  = f ( t, y ), y ( a ) = y0 besitze die Konsistenzordnung p ≥ 1 und sei nullstabil, und die Funktion ϕ gen¨uge der Lipschitzbedingung (8.6). F¨ur die Startwerte sei max

=0,...,m−1

||v − y ( t ) ||



chp + δ1

erf¨ullt mit einer von h unabh¨angigen Konstanten c ≥ 0. F¨ur die L¨osung der Gleichungen m 

αj v+j = hϕ(t , v , . . . , v+m ; h) + ρ ,

= 0, 1, . . . , n − m,

j=0

||ρ || ≤ δ2 ,

......

,

gilt dann die Fehlerabsch¨atzung max ||v − y ( t ) ||

=0,...,n



 δ  K hp + δ1 + h2 1/( p+1)

mit einer von h unabh¨angigen Konstanten K ≥ 0. Mit der Wahl h = δ2 max ||v − y ( t ) ||

=0,...,n



erh¨alt man

  p/(p+1) K 2δ2 + δ1 .

B EWEIS . Verl¨auft wie der Beweis von Theorem 8.9. Man hat dort nur η = η ( t , h ) + ρ zu setzen.

Abschnitt 8.2

179

Der globale Verfahrensfehler bei Mehrschrittverfahren

8.2.2 Hilfsresultat 1: Das Lemma von Gronwall Als erster Nachtrag zum Beweis von Theorem 8.9 wird in diesem Abschnitt das diskrete Lemma von Gronwall vorgestellt. Vorbereitend hierzu wird die folgende kontinuierliche Fassung betrachtet. Lemma 8.13 (Gronwall) F¨ur die Riemann–integrierbare Funktion Φ : [ 0, T ] → R sowie f¨ur Konstanten α, β ∈ R mit β > 0 sei Φ( t )



α + β

Z t 0

Φ( s ) ds,

t ∈ [ 0, T ],

erf¨ullt. Dann gilt Φ( t ) ≤ αeβt ,

t ∈ [ 0, T ].

(8.14)

B EWEIS . Mit der Notation M := sup Φ( t ) 0≤t≤T

wird im Folgenden per Induktion u¨ ber n = 0, 1, . . . die folgende Absch¨atzung bewiesen, Φ( t )



α

n  ( βt ) ! =0

( βt )n+1

+ M(

n + 1 )!

t ∈ [ 0, T ].

,

(8.15)

Der Grenz¨ubergang n → ∞ in (8.15) liefert dann die Absch¨atzung (8.14). Die Absch¨atzung (8.15) ist richtig f¨ur n = 0, Φ( t )



α + β

Z t 0

Φ( s ) ds



α + β

Z t 0

=

M ds

α + Mβt,

t ∈ [ 0, T ].

Wir nehmen nun an, dass f¨ur ein n ∈ N die Absch¨atzung (8.15) richtig ist mit n − 1 anstelle n. Dann gilt Φ( t ) ≤



α + β

α + α

n−1  =0

=

α

n  (βt) =0

!

Z t 0

Φ( s ) ds



 n−1  β α + β α ! =0

β +1 t+1 β n+1 tn+1 + M ! + 1 n! n + 1 + M

(βt)n+1 , (n + 1)!

=

Z t 0

s ds + M

α + α

βn n!

n  (βt) =1

!

Z t 0

 sn ds

+ M

(βt)n+1 (n + 1)!

t ∈ [ 0, T ],

was den Beweis des Gronwall Lemmas komplettiert. Eine unmittelbare Konsequenz aus dem Lemma von Gronwall ist das Resultat (7.5) u¨ ber die stetige Abh¨angigkeit von den Anfangswerten bei einem Anfangswertproblem y  = f ( t, y ), y ( a ) = y0 . Hier soll das Lemma von Gronwall zum Beweis der folgenden diskreten Variante verwendet werden.

180

Kapitel 8 Mehrschrittverfahren f¨ur Anfangswertprobleme

Lemma 8.14 (Diskrete Variante des Lemmas von Gronwall) Seien positive Zahlen h0 , . . . , hr−1 > 0 sowie Konstanten α ≥ 0 und β ≥ 0 gegeben. F¨ur Zahlen v0 , . . . , vr ∈ R seien die folgenden Ungleichungen erf¨ullt, |v0 | ≤ α,

|v |



α + β

−1 

hj |vj |

f¨ur = 1, 2, . . . , r.

j=0

Dann gilt die folgende Absch¨atzung, |v |

   −1 α exp β hj ,



= 0, 1, . . . , r.

j=0

B EWEIS . Es soll Lemma 8.13 angewandt werden, und hierzu betrachtet man mit der Notation x0 := 0 und x+1 := x + h f¨ur = 0, 1, . . . , r − 1 die Treppenfunktion Φ :=

r−1  =0

|v |χ[ x , x+1 ) + |vr |χ{ xr } : [ 0, T ] → R

( T := xr ),

wobei χM die charakteristische Funktion bez¨uglich einer gegebenen Menge M bezeichnet, es gilt also χM ≡ 1 auf M und ≡ 0 außerhalb von M. F¨ur beliebige ∈ {0, 1, . . . , r − 1} und t ∈ [ x , x+1 ), sowie auch f¨ur = r und t = xr gilt dann Φ( t ) = |v |



α + β

−1 

hj |vj |

=

α + β

j=0

= α + β

Z x  0

Φ( s ) ds

−1 Z  j=0



α + β

Z t 0

xj+1

xj

Φ( s ) ds

Φ( s ) ds.

Das Lemma von Gronwall liefert nun |v |

=

Φ( x )



αeβx

=

   −1 αexp β hj

f¨ur = 0, 1, . . . , r.

j=0

Dies komplettiert den Nachweis der Aussage der diskreten Variante des Lemmas von Gronwall.

8.2.3 Beschr¨anktheit der Matrixfolge A, A2, A3, . . . Das nachfolgende Lemma liefert den zweiten und letzten Nachtrag zum Beweis von Theorem 8.9. Zuvor f¨uhren wir noch die folgende Notation ein: einem Eigenwert λ ∈ C einer Matrix A ∈ R N×N entsprechen nur lineare Elementarteiler, falls die geometrische Vielfachheit von λ ¨ mit der algebraischen Vielfachheit u¨ bereinstimmt. Aquivalent dazu ist, dass alle zu λ geh¨orenden Jordanbl¨ocke trivial sind. Lemma 8.15 F¨ur eine gegebene Matrix A ∈ R N×N ist die Folge der Matrizen A, A2 , A3 , . . . beschr¨ankt genau dann, (i) wenn der Spektralradius von A kleiner gleich eins ausf¨allt, rσ ( A ) ≤ 1;

Abschnitt 8.2

181

Der globale Verfahrensfehler bei Mehrschrittverfahren

(ii) und wenn jedem Eigenwert λ ∈ C von A mit |λ| = 1 nur lineare Elementarteiler entsprechen. ¨ B EWEIS . F¨ur den Nachweis der Aquivalenz wird eine zu A a¨ hnliche Matrix J ∈ CN×N in Jordanscher Normalform herangezogen, ⎛ ⎜ J = ⎜ ⎝

J1 pp

⎟ ⎟, ⎠

p

J

Jr wobei N ≥ 1 und







r

=1 N

⎜ ⎜ ⎜ = ⎜ ⎜ ⎝

1

λ

pp

⎟ ⎟ ⎟ × ⎟ ∈ C N N , pp p 1⎟ ⎠ λ

pp

p

p

= 1, 2, . . . , r,

= N gilt. Im Fall N = 1 bedeutet diese Notation J = (λ ) ∈ C1×1 .

Seien nun zuerst die Bedingungen (i) und (ii) erf¨ullt, es gilt also |λ | ≤ 1;

im Fall |λ | = 1 sei N = 1

( = 1, 2, . . . , r ).

(8.16)

Man w¨ahlt nun ε > 0 so klein, dass f¨ur jedes ∈ {1, 2, . . . , r } im Fall N ≥ 2 die Ungleichung |λ | + ε ≤ 1 erf¨ullt ist, was aufgrund von (8.16) m¨oglich ist. Dann betrachtet man J = D −1 JD,

D = diag (1, ε, ε2, . . . , εN −1 ) ∈ R N×N ,

und erh¨alt unter Beachtung von J = (εk−j Jjk ) Folgendes, ⎛ ⎜ J = ⎜ ⎝



J1 pp

p

Jr

⎟ ⎟, ⎠



⎛ ⎜ ⎜ ⎜  J = ⎜ ⎜ ⎝

λ

ε pp

p

⎟ ⎟ ⎟ × ⎟ ∈ C N N , pp p ε⎟ ⎠ λ pp

p

= 1, 2, . . . , r, (8.17)

beziehungsweise J = (λ ) ∈ C1×1 im Fall N = 1. Aufgrund der Konstruktion gilt || J||∞

=

max || J ||∞ ≤ 1

=1,...,r

und daher || Jν ||∞ ≤ 1,

ν = 1, 2, . . . .

¨ Die Ahnlichkeit der Matrizen A und J impliziert A = T −1 JT mit einer regul¨aren Matrix T ∈ N ×N C , und damit gilt Aν = T1−1 Jν T1 ,

ν = 0, 1, . . . ,

mit T1 := D −1 T.

Daher ist also auch die Matrixfolge A1 , A2 , . . . beschr¨ankt. Wir nehmen nun umgekehrt an, dass eine der beiden Bedingungen (i), (ii) nicht erf¨ullt ist. Wenn die Bedingung (i) nicht erf¨ullt ist, so gilt f¨ur ein 1 ≤ ≤ r die Ungleichung |λ | > 1, und dann

182

Kapitel 8 Mehrschrittverfahren f¨ur Anfangswertprobleme

betrachte man im Fall N ≥ 2 etwa die Vektorfolge ⎞ν ⎛ ⎞ ⎛ ⎛ ⎞ 1 λ 1 λν ⎟ ⎜ ⎟ ⎜ ⎜ ⎟ pp pp ⎟ ⎜0 ⎟ ⎜ ⎜0⎟ p p ⎟ ⎜ ⎟ ⎜ ⎜ ⎟ = ⎜ ⎟ ⎜ ⎟ ⎜ p ⎟, pp ⎟ ⎜ ppp ⎟ ⎜ ⎜ pp ⎟ 1 p ⎠ ⎝ ⎠ ⎝ ⎝ ⎠ λ 0 0

ν = 0, 1, . . .,

und f¨ur N = 1 gilt Jν = (λν ) ∈ C1×1 . Falls (ii) nicht erf¨ullt ist, so gilt f¨ur ein 1 ≤ ≤ r sowohl |λ | = 1 als auch N ≥ 2, und hier betrachte man beispielsweise ⎛ ν−1 ⎞ ⎛ ⎞ν ⎛ ⎞ νλ 0 λ 1 ⎜ ν ⎟ ⎜ ⎟ ⎜1⎟ λ ⎟ ⎜ ⎜ ⎟ ⎜ ⎟ ⎜  ⎟ λ p p p ⎜ ⎟ ⎜ ⎟ ⎜ ν = 0, 1, . . . . ⎜ ⎟ ⎜0⎟ = ⎜ 0 ⎟ ⎟, pp ⎜ ⎟ ⎜ pp ⎟ 1 p ⎜ pp ⎟ ⎝ ⎠ ⎝ p⎠ ⎝ p ⎠ λ 0 0 In jedem Fall ist wegen

⎛ ⎜ Jν = ⎜ ⎝



J1ν pp

⎟ ⎟, ⎠

p

ν = 0, 1, . . .,

Jrν dann die Matrix J und damit auch die zu J a¨ hnliche Matrix A nicht potenzbeschr¨ankt. Die Aussage des Lemmas ist damit vollst¨andig nachgewiesen.

8.2.4 Die Konsistenzordnung linearer Mehrschrittverfahren Zum Abschluss der allgemeinen Betrachtungen u¨ ber Mehrschrittverfahren wird in dem folgenden Lemma ein einfaches Kriterium zur Bestimmung der Konsistenzordnung eines linearen Mehrschrittverfahrens vorgestellt. Lemma 8.16 Sind f¨ur das lineare m Schrittverfahren m 

αj u+j

j=0

=

h

m 

βj f ( t+j , u+j ),

= 0, 1, . . . , n − m,

j=0

mit einer p mal stetig partiell differenzierbaren Funktion f : [ a, b ] × R N → R N (f¨ur eine Zahl p ≥ 1) die Gleichungen m .  j ν αj − νj ν−1 βj = 0, ν = 0, 1, . . . , p, (8.18) j=0

erf¨ullt, so ist das m Schrittverfahren konsistent von der Ordnung p. F¨ur eine ( p + 1 ) mal stetig partiell differenzierbare Funktion f gilt mehr noch die Darstellung ⎫ ⎪ ⎪ (p+1 ) p+1 p+2 ⎪ (t) h + O( h ) f¨ur h → 0, η ( t, h ) = Cp+1 y ⎬ (8.19)

m p+1  j αj j p βj ⎪ ⎪ mit Cp+1 := − . ⎪ ⎭ ( p + 1 )! p! j=0

Abschnitt 8.3

183

Spezielle lineare Mehrschrittverfahren – Vorbereitungen

B EWEIS . Die L¨osung des Anfangswertproblems y  = f ( t, y ), y ( a ) = y0 ist nach Theorem 7.3 ( p + 1 ) mal stetig partiell differenzierbar. Taylorentwicklung der Funktionen y und y  in dem Punkt t ∈ [ a, b − mh ] ergibt y ( t + jh ) =

p  y (ν ) ( t ) ν ν j h + O( hp+1 ), ν!

ν=0

y ( t + jh ) =

p−1  ν=0

y (ν+1) ( t ) ν ν j h + O( hp ) ν!

=

p  ν=0

ν

y ( ν ) ( t ) ν−1 ν−1 j h + O( hp ). ν!

F¨ur den lokalen Verfahrensfehler folgt daraus η ( t, h ) =

m 

αj y ( t + jh ) − h

j=0

=

m  

m 

  βj f t + jh, y ( t + jh )

j=0

αj y ( t + jh ) − hβj y  ( t + jh )



j=0

=

p   m  ν=0

j ν αj − νj ν−1 βj

j=0

 y (ν ) ( t ) ν!

hν + O( hp+1 ),

0 < h ≤

b−t . (8.20) m



  = 0 Die Darstellung (8.19) folgt durch die gleiche Entwicklung wie in (8.20), mit p ersetzt durch p + 1. Bemerkung 8.17 (a) Die ersten beiden Gleichungen aus (8.18) bedeuten ausgeschrieben m  j=0

αj = 0

  = ρ( 1 )

f¨ur ν = 0,

m  j=1

jαj

  = ρ (1)

=

m 

βj

f¨ur ν = 1,

j=0

wobei ρ( ξ ) = αm ξ m + . . . + α0 das zugeh¨orige erzeugende Polynom bezeichnet. Insbesondere implizieren Nullstabilit¨at und Konsistenzordnung p ≥ 1 notwendigerweise ρ  ( 1 ) = 0. (b) Die Approximationen u0 , . . . , un−m des Mehrschrittverfahrens (8.1) bleiben unver¨andert, wenn die Verfahrensvorschrift (8.1) mit einer beliebigen Konstanten = 0 multipliziert wird; in diesem Sinne sind also sowohl der lokale Verfahrensfehler η ( t, h ) als auch die Konstante Cp+1 in (8.19) nicht eindeutig festgelegt. Als (die von p abh¨angige) Fehlerkonstante bezeichnet man die normierte Gr¨oße Cp+1/ρ  ( 1 ). (c) Die Konsistenzordnung der noch zu betrachtenden speziellen linearen Mehrschrittverfahren l¨asst sich auch anders als mit Lemma 8.16 bestimmen, wie sich noch herausstellen wird. 

8.3 Spezielle lineare Mehrschrittverfahren – Vorbereitungen Die meisten der vorzustellenden Mehrschrittverfahren beruhen auf der Anwendung interpolatorischer Quadraturformeln auf a¨ quidistanten Gittern. Vorbereitend werden in diesem Abschnitt Darstellungen f¨ur Interpolationspolynome auf a¨ quidistanten Gittern geliefert.

184

Kapitel 8 Mehrschrittverfahren f¨ur Anfangswertprobleme

Definition 8.18 F¨ur einen gegebenen Datensatz g0 , g1 , . . . , gr ∈ R N sind die Ruckw¨ ¨ artsdiffek N renzen ∇ gν ∈ R f¨ur 0 ≤ k ≤ ν ≤ r rekursiv erkl¨art durch ∇0 g ν = g ν ,

ν = 0, 1, . . . , r,

∇k gν = ∇k−1 gν − ∇k−1gν−1 ,

ν = k, k + 1, . . . , r

(k = 1, 2, . . . , r ).

Die bei den R¨uckw¨artsdifferenzen auftretenden Zusammenh¨ange sind in Schema 8.1 dargestellt.

∇0 g 0 = g 0 ∇0 g 1 = g 1



∇1 g 1

∇0 g 2 = g 2 .. .



∇0 gr−1 = gr−1



∇1 g 2 .. .



∇1 gr−1



∇0 g r = g r



∇2 g 2 .. . ···

..

.

· · · ∇r−1 gr−1

∇1 g r



···

···

∇r−1 gr

→ ∇r g r

Schema 8.1 Abh¨angigkeiten der R¨uckw¨artsdifferenzen Lemma 8.19 F¨ur die R¨uckw¨artsdifferenzen ∇k gν ∈ R N eines gegebenen Datensatzes g0 , g1 , . . . , gr ∈ R N gilt ∇k g ν

=

k 

k ( –1 )j j gν−j ,

0 ≤ k ≤ ν ≤ r.

(8.21)

j=0

B EWEIS . Es bezeichne S den R¨uckw¨artsshift, Sgν := gν−1 ,

ν = 1, 2, . . . , r.

Wenn man dann die Operatoren ( I − S ) und S j in naheliegender Weise rekursiv erkl¨art, so erh¨alt man mit dem binomischen Satz k k k k   ( –1 )j j S j gν ( –1 )j j gν−j . = ∇k gν = ( I − S )k gν = k

j=0

j=0

Die folgenden Darstellungen f¨ur das Interpolationspolynom und den zugeh¨origen Interpolationsfehler bei a¨ quidistanten St¨utzstellen dienen als Vorbereitung auf die Behandlung spezieller Mehrschrittverfahren.

Abschnitt 8.3

185

Spezielle lineare Mehrschrittverfahren – Vorbereitungen

Lemma 8.20 Gegeben seien insgesamt r + 1 a¨ quidistante St¨utzstellen x = x0 + h f¨ur = 0, 1, . . . , r, mit Zahlen x0 ∈ R und h > 0. Dann besitzt das zu gegebenen Vektoren g0 , g1 , . . . , gr ∈ R N geh¨orende eindeutig bestimmte (vektorwertige) interpolierende Polynom P ∈ ΠN r die Darstellung P ( xr + sh )

=

r 

( –1 )k

 −s  k

∇k g r ,

s ∈ R.

(8.22)

k=0

Hierbei gelten die folgenden Identit¨aten,  −s  k

(−s)(−s − 1) · · · (−s − k + 1) k!

=

und es bezeichnet ΠN r :=



P (t) =

r 

=

(−1)k s( s + 1 ) · · · ( s + k − 1 ), (8.23) k!

mit ak ∈ R N .

ak tk ,

k=0

B EWEIS VON L EMMA 8.20. F¨ur die Newtonsche Darstellung des Polynoms P erh¨alt man unter Verwendung von (8.23) und den Resultaten aus Abschnitt 1.4 Folgendes, P ( xr + sh ) = a0 + a1 ( xr + sh − xr ) + . . . + ar ( xr + sh − xr ) · · · ( xr + sh − x1 ) =

r 

ak

r 

(xr + sh − xr−j )

j=0

k=0

=

k−1 

ak hk

k=0

k−1 

=

r  k=0

(s + j )

=

j=0

r 

ak

k−1 

(xr + sh − ( xr − jh ) )

j=0

 −s  ak hk ( –1 )k k! k

(8.24)

k=0

mit den dividierten Differenzen ak

=

g [ xr , . . . , xr−k ] ∈ R N ,

k = 0, 1, . . . , r.

(8.25)

Die Aussage des Lemmas erh¨alt man nun aus (8.24) (8.25) zusammen mit der folgenden Darstellung f¨ur die dividierten Differenzen, g [ x , . . . , x−k ]

=

∇k g  , k!hk

0 ≤ k ≤ ≤ r,

die man mittels vollst¨andiger Induktion u¨ ber k = 0, 1, . . . , r erh¨alt: g [ x ] = g = ∇0 g , = 0, 1, . . . , r; g [ x , . . . , x−k+1 ] − g [ x−1 , . . . , x−k ] g [ x , . . . , x−k ] = kh ∇k−1 g − ∇k−1 g−1 ∇k g  , = k, k + 1, . . . , r. = = k−1 ((k − 1)!h )kh k!hk

Lemma 8.21 Zu einer gegebenen Funktion g ∈ C r+1 ( [ c, d ], R N ) und zu den a¨ quidistanten St¨utzstellen x = x0 + h ∈ [ c, d ] f¨ur = 0, 1, . . . , r bezeichne P ∈ ΠN orige r das zugeh¨

186

Kapitel 8 Mehrschrittverfahren f¨ur Anfangswertprobleme

(vektorwertige) interpolierende Polynom. Der Interpolationsfehler in xr + sh ∈ [ c, d ] besitzt die Darstellung ⎫  −s  ⎬ g ( xr + sh ) − P ( xr + sh ) = ( –1 )r+1 r + 1 F ( s ) hr+1 , (8.26) ⎭ F ( s ) = (gj(r+1) ( ξj ( s )) )j=1,..,N ∈ R N , mit geeigneten Zwischenstellen ξj ( s ) ∈ [ c, d ] f¨ur j = 1, 2, . . . , N. B EWEIS . Aus Abschnitt 1.5 ist die folgende Fehlerdarstellung bekannt, gj ( xr + sh ) − Pj ( xr + sh )

=

ω( xr + sh ) gj( r+1) ( ξj ( s ) ) , ( r + 1 )!

mit ω ( x ) = ( x − x0 ) · · · ( x − xr ), und Pj bezeichnet die j te Komponente des vektorwertigen Polynoms P. Die Aussage des Lemmas folgt dann mit der Darstellung (8.23), ω ( xr + sh ) =

r 

(xr + sh − ( xr − jh ) )

j=0

=

 −s  = hr+1 (−1)r+1 r + 1 ( r + 1 )! .

hr+1

r 

(s + j )

j=0

8.4 Adams–Verfahren 8.4.1 Der Ansatz Zur Herleitung der ersten Klasse von Mehrschrittverfahren beobachtet man, dass die L¨osung y : [ a, b ] → R N des Anfangswertproblems y  = f ( t, y ), y ( a ) = y0 auch der folgenden Integralrelation gen¨ugt, y ( t+m ) − y ( t+m−1 )

=

Z t +m t+m−1

f ( t, y ( t )) dt,

= 0, 1, . . . , n − m,

(8.27)

was man durch Integration der Differenzialgleichung y  = f ( t, y ( t )) von t+m−1 bis t+m erh¨alt. Adams-Verfahren gewinnt man nun durch Ersetzen des Integranden durch geeignete Polynome P, u+m − u+m−1

=

Z t +m t+m−1

P ( t ) dt,

= 0, 1, . . . , n − m.

(8.28)

Je nach der speziellen Wahl von P erh¨alt man explizite beziehungsweise implizite Verfahren. Im Folgenden werden Einzelheiten hierzu vorgestellt.

8.4.2 Adams– Bashfort– Verfahren Definition 8.22 F¨ur m ≥ 1 erh¨alt man das m schrittige Adams Bashfort Verfahren durch den Ansatz (8.28) mit ⎫ ⎬ P ∈ ΠN P ( tj ) = fj , j = , + 1, . . . , + m − 1, m−1 , (8.29) ⎭ ........ fj := f ( tj , uj ), .

Abschnitt 8.4

187

Adams– Verfahren .... .....

f+m .... .....

......... ......... . ........

f+m−1.................................................................................................................

P( t )

. .......... .. .............................. ... .................... ... .............................. ... .............................. . . . . . .................... . ......................................... ... .............................. ........ ...... ... .......... ...... ..... .............................. .... ..... .... ..... .................... ..... .... . . . . . . . .......... ....... .. ... ............................. .............................. ..... .......... ..... . . .............................. . . . .......... ....... . . . . . . .............................. . ...................... .................... .......... .............................. .......... .............................. .......... .............................. .................... .......... ....................

f+1

f−1

f+m−2

f

t−1 t

t+1

...

........ ....

t

t+m−1 t+m

Bild 8.1 Vorgehensweise des m– schrittigen Adams– Bashfort– Verfahrens im eindimensionalen Fall Die vorliegende Situation ist in Bild 8.1 veranschaulicht. Das folgende Theorem liefert eine explizite Darstellung f¨ur das Adams Bashfort Verfahren: Theorem 8.23 Das m schrittige Adams Bashfort Verfahren hat die Gestalt u+m − u+m−1

=

h

m−1 

γk ∇k f+m−1 ,

= 0, 1, . . . , n − m,

(8.30)

k=0

mit den von m unabh¨angigen Koeffizienten γk := ( –1 )k

Z 1 −s 

k

0

k = 0, 1, . . .,

ds,

(8.31)

die sich rekursiv berechnen durch 1 1 1 1 γ + k γ1 + k − 1 γ2 + . . . + 2 γk−1 + γk k+1 0

= 1

f¨ur k = 0, 1, . . . .

(8.32)

B EWEIS . Die Darstellung (8.30) (8.31) folgt umgehend aus Lemma 8.20 mit xj = t+j f¨ur j = 0, 1, . . . , m − 1, Z t +m

P ( t ) dt = h

t+m−1

Z 1 0

P ( t+m−1 + sh ) ds = h

m−1  k=0

( –1 )k



Z 1 −s  0

 γk

k

ds ∇k f+m−1 . (8.33) 

Bei dem Nachweis der Rekursionsformel (8.32) f¨ur die Koeffizienten γk bedient man sich der erzeugenden Funktion G( t ) := =

∞  k=0 Z 1 0

γk tk

=

( 1 − t )−s ds

∞ 

( –t )k

k=0

=

t = − , ( 1 − t ) ln ( 1 − t )

Z 1 −s  0

k

ds

(∗)

=

∞ Z 1  0

s=1  1 − ln ( 1 − t ) ( 1 − t )−s 

 −s  k



( –t )k ds

k=0

s=0

−1 < t < 1.

(8.34)

188

Kapitel 8 Mehrschrittverfahren f¨ur Anfangswertprobleme

Hier folgt (∗) durch Vertauschen von Reihenentwicklung und Integration, was aufgrund der bei   −s  k festem −1 < t < 1 gleichm¨aßigen Konvergenz von ∞ k=0 k ( –t ) bez¨uglich s ∈ [ 0, 1 ] (in   −s  unserer Situation gilt2  k  ≤ 1) zul¨assig ist. Die Darstellung (8.34) f¨ur G( t ) liefert G( t )

−ln(1 − t) t

1 , 1−t

=

|t| < 1,

beziehungsweise in Potenzreihenschreibweise 

γ0 + γ1t + γ2 t2 + . . .



t2

t

1 + 2 + 3 + ...



=



 1 + t + t2 + . . . , (8.35)

und ein Vergleich der Koeffizienten von t0 , t1 , t2 , . . . auf den beiden Seiten der Gleichung (8.35) ergibt die Aussage (8.32). Bemerkung 8.24 (a) Das m schrittige Adams Bashfort Verfahren (8.30) l¨asst sich in eindeutiger Weise in der Form u+m − u+m−1

=

h

m−1 

= 0, 1, . . . , n − m,

βm,j f+j ,

(8.36)

j=0

schreiben mit den von der Zahl m abh¨angigen Koeffizienten βm,0 , βm,1 , . . . , βm,m−1 ∈ R, denn (8.21) ergibt unmittelbar m−1 

γk ∇k f+m−1 =

k=0

m−1 k 

k ( –1 )j j γk f+m−1−j

=

m−1 

k=0 j=0

j=0

( –1 )j



m−1 



k j γk f+m−1−j .

k=j

  =: βm,m−1−j

(b) Aus der Rekursionsformel (8.32) berechnen sich die ersten vier Koeffizienten γ0 , . . . , γ3 ∈ R zu γ0 = 1,

γ1 =

1 , 2

γ2 =

5 , 12

γ3 =

3 . 8

F¨ur m = 1, . . . , 4 lauten die m schrittigen Adams Bashfort Verfahren in der klassischen Darstellung eines linearen Mehrschrittverfahrens folgendermaßen, m=1:

u+1 = u + hf ,

m=2:

u+2 = u+1 + 2 (3f+1 − f ),

m=3:

u+3 = u+2 + 12 (23f+2 − 16f+1 + 5f ),

m=4:

u+4 = u+3 +

= 0, . . . , n − 1;

h

h

h (55f+3 − 59f+2 + 37f+1 − 9f ), 24

Insbesondere erh¨alt man im Fall m = 1 das klassische Euler Verfahren. 2

siehe (8.23)

......

n − 2;

......

n − 3;

......

n − 4. 

Abschnitt 8.4

189

Adams– Verfahren

Das folgende Theorem stellt die wesentlichen Eigenschaften der Adams Bashfort Verfahren heraus: Theorem 8.25 Das m schrittige Adams Bashfort Verfahren ist nullstabil. Im Fall f ∈ C m ( [ a, b ] × R N , R N ) besitzt es die Konsistenzordnung p = m, und die Fehlerkonstante lautet γm . B EWEIS . Das zugeh¨orige erzeugende Polynom ist ρ( ξ ) = ξ m−1 ( ξ − 1 ), so dass die Dahlquistsche Wurzelbedingung offensichtlich erf¨ullt ist. F¨ur den Nachweis der Konsistenzordnung betrachtet man den lokalen Verfahrensfehler, η ( t, h )

(∗)

=

y ( t + mh ) − y(t + ( m − 1 )h) − h

m−1 

βm,j y  ( t + jh )

j=0 (∗∗)

=

− h

......

m−1 

γk ∇k y (t + ( m − 1 )h)

k=0 Z t+mh

(•)

=

t+( m−1)h

y ( s ) − P ( s ) ds,

mit P ( t + jh ) = y  ( t + jh ),

P ∈ ΠN m−1 ,

f¨ur j = 0, 1, . . . , m − 1,

wobei ∇k y  (t + ( m − 1 )h) die R¨uckw¨artsdifferenzen bez¨uglich der Folge y ( t ), y  ( t + h ), . . . , y  ( t + ( m − 1 ) h ) bezeichnen. Die Identit¨aten (∗) und (∗∗) resultieren dabei unmittelbar aus der Verfahrensdarstellung (8.36) sowie der daran anschließenden Begr¨undung, und die Identit¨at (•) folgt mit Lemma 8.20 (siehe auch (8.33) im Beweis von Theorem 8.23). Mit der Darstellung (8.26) f¨ur den Interpolationsfehler erh¨alt man dann Z 1

y (t + ( m − 1 + s )h) − P(t + ( m − 1 + s )h) ds Z 1 −s  = hm+1 ( –1 )m = O( hm+1 ) f¨ur h → 0, m F ( s ) ds 0  (m+1)  (ξj ( s ) ) j=1,..,N , ξj ( s ) ∈ [ t, t + mh ]. mit F ( s ) = yj

η ( t, h ) = h

0

Im Fall f ∈ C m+1 ( [ a, b ] × R N , R N ) verwendet man yj(m+1) (ξj ( s ) )

=

yj(m+1) ( t ) + O( h )

f¨ur h → 0

und folgert mit der Definition (8.31) f¨ur γm die folgende Darstellung f¨ur den lokalen Verfahrensfehler, η ( t, h )

=

γm y (m+1) ( t )hm+1 + O( hm+2 )

Wegen ρ  ( 1 ) = 1 ist γm die Fehlerkonstante.

f¨ur h → 0.

190

Kapitel 8 Mehrschrittverfahren f¨ur Anfangswertprobleme

8.4.3 Adams– Moulton– Verfahren Definition 8.26 F¨ur m ≥ 1 erh¨alt man das m schrittige Adams Moulton Verfahren durch den Ansatz (8.28) mit ⎫ ⎬ P ∈ ΠN P ( tj ) = fj , j = , + 1, . . . , + m, m, (8.37) ⎭ ....... fj := f ( tj , uj ), .

..... .....

f ...... +m ......... P ( t ) .......... . ......... f+m−1.................................................................................................................

. .................... ... .................... .. .................... ... .............................. ... .............................. . . ....... .............................. ... ................ ...................... .......... ... ........ ...... .............................. ...... .... ..... .......... ... ..... .... .............................. ..... .... ..... .......... ....... ... ....... . . . . . . . . . .............................. . . . . . . . . ............. ... .......... ...... .............................. ...... . .................... . . . . . . .......... .......................... .............................. .......... .............................. .......... .............................. .................... .......... .............................. .......... ....................

f+1

f+m−2

f−1 f

t−1 t

t+1

...

........ .....

t

t+m−1 t+m

Bild 8.2 Vorgehensweise des m– schrittigen Adams– Moulton– Verfahrens im eindimensionalen Fall Die folgenden Resultate u¨ ber das Adams Moulton Verfahren lassen sich genauso wie die Resultate u¨ ber die Adams Bashfort Verfahren erzielen. Daher wird hier auf die jeweiligen Nachweise verzichtet. Theorem 8.27 Das m schrittige Adams Moulton Verfahren hat die Gestalt u+m − u+m−1

=

h

m 

γk∗ ∇k f+m ,

= 0, 1, . . . , n − m,

k=0

mit den von m unabh¨angigen Koeffizienten γk∗ := ( –1 )k

Z 0

 −s  k

−1

ds,

f¨ur k = 0, 1, . . .,

die sich rekursiv berechnen durch γ0∗ = 1 und 1 1 1 1 ∗ γ ∗ + k γ1∗ + k − 1 γ2∗ + . . . + 2 γk−1 + γk∗ = 0 k+1 0

f¨ur k = 1, 2, . . . . (8.38)

Bemerkung 8.28 (a) Das m schrittige Adams Moulton Verfahren l¨asst sich in eindeutiger Weise in der Form u+m − u+m−1

=

h

m  j=0

∗ βm,j f+j ,

= 0, 1, . . . , n − m,

Abschnitt 8.5

191

Nystr¨om – und Milne– Simpson– Verfahren

schreiben mit den von der Zahl m abh¨angigen Koeffizienten m    k ∗ ∗ βm,m−j = ( –1 )j j = 0, 1, . . . , m. j γk , k=j

(b) Aus der Rekursionsformel (8.38) berechnen sich die ersten vier Koeffizienten γ0∗ , . . . , γ3∗ zu γ0∗ = 1,

1 2

γ1∗ = − ,

γ2∗ = −

1 , 12

γ3∗ = −

1 . 24

F¨ur m = 1, 2, 3 lauten die m schrittigen Adams Moulton Verfahren in der klassischen Darstellung eines linearen Mehrschrittverfahrens folgendermaßen, h

m=1:

u+1

= u + 2 (f+1 + f ),

m=2:

u+2

= u+1 + 12 (5f+2 + 8f+1 − f ),

m=3:

u+3

= u+2 +

= 0, . . . , n − 1;

h

h (9f+3 + 19f+2 − 5f+1 + f ), 24

......

n − 2;

......

n − 3.

Das f¨ur m = 1 gewonnene Verfahren wird als Trapezregel bezeichnet.



Das folgende Resultat stellt die wesentlichen Eigenschaften der Adams Moulton Verfahren heraus: Theorem 8.29 Das m schrittige Adams Moulton Verfahren ist nullstabil. Im Fall f ∈ C m+1 ( [ a, b ] × R N , R N ) besitzt es die Konsistenzordnung p = m + 1, und die Fehlerkonstan∗ te lautet γm+1 . Bemerkung 8.30 Ein m schrittiges Adams Moulton Verfahren besitzt demnach eine h¨ohere Konvergenzordnung als ein m schrittiges Adams Bashfort Verfahren. Der daf¨ur zu zahlende Preis besteht in der numerischen L¨osung eines nichtlinearen Gleichungssystems f¨ur die N¨aherung u+m ∈ R N . Approximationen hierf¨ur lassen sich mittels gewisser Fixpunktiterationen gewinnen, die in Abschnitt 8.7 vorgestellt werden. 

8.5 Nystr¨om– und Milne–Simpson–Verfahren 8.5.1 Der Ansatz Zur Herleitung einer zweiten Klasse von Mehrschrittverfahren integriert man die Differenzialgleichung y  = f ( t, y ( t )) von t+m−2 bis t+m , y ( t+m ) − y ( t+m−2 )

=

Z t +m

t+m−2

f ( t, y ( t )) dt,

= 0, 1, . . . , n − m,

(8.39)

und spezielle Verfahren gewinnt man nun durch Ersetzen des Integranden durch geeignete Polynome P, u+m − u+m−2

=

Z t +m

t+m−2

P ( t ) dt,

= 0, 1, . . . , n − m.

(8.40)

Je nach der speziellen Wahl von P erh¨alt man explizite beziehungsweise implizite Verfahren. Einzelheiten hierzu werden im Verlauf des vorliegenden Abschnitts 8.5 vorgestellt.

192

Kapitel 8 Mehrschrittverfahren f¨ur Anfangswertprobleme

8.5.2 Nystr¨om– Verfahren Definition 8.31 F¨ur m ≥ 2 erh¨alt man das m schrittige Nystr¨om Verfahren durch den Ansatz (8.40) mit P ∈ ΠN m−1 ,

P ( tj ) = fj ,

j = , + 1, . . . , + m − 1,

fj := f ( tj , uj ),

.

.......

...... .. ..

f+m f+m−1 .............

...................................... ................................... ...................................... ........................................ .... ..................................... ....... ....... ....................................................... ................. . . . . . . . . . . . . . . . . . . . . . . . . . . . .......... .................. ... ....... ......... +m−2.................................................................................. ...... ...... .............................................................. ..... ..... . . . . . . ... . . . . . . . . . . . . . . . . . . . .... .... .... ........................................ ...... .... .......................... ............................................................ ..... .................... ...... ............................................................ ...... .................... ...... . . . . ............................................................ . . . . . . .................. .................... ............................................................ ........................................ .................... ............................................................ .................... ............................................................ .................... ............................................................ ....................

f+1

f−1

f

f

t−1 t

t+1

... t+m−2

P( t )

........ ....

t

t+m

Bild 8.3 Vorgehensweise des m– schrittigen Nystr¨om– Verfahrens im eindimensionalen Fall Die folgenden Resultate f¨ur die Nystr¨om-Verfahren lassen sich genauso wie die Resultate u¨ ber die Adams Bashfort Verfahren herleiten. Auf die jeweiligen Nachweise wird daher wiederum verzichtet. Theorem 8.32 Das m schrittige Nystr¨om Verfahren hat die Gestalt u+m − u+m−2

=

h

m−1 

κk ∇k f+m−1 ,

= 0, 1, . . . , n − m,

k=0

mit den von m unabh¨angigen Koeffizienten κk := ( –1 )k

Z 1

 −s 

−1

k

ds,

k = 0, 1, . . .,

die sich rekursiv berechnen durch κ0 = 2 und 1 1 1 1 κ + k κ1 + k − 1 κ2 + . . . + 2 κk−1 + κk k+1 0

= 1 f¨ur k = 1, 2, . . . .

(8.41)

Bemerkung 8.33 (a) Das m schrittige Nystr¨om Verfahren l¨asst sich in eindeutiger Weise in der Form u+m − u+m−2

=

h

m−1  j=0

βm,j f+j ,

= 0, 1, . . . , n − m,

Abschnitt 8.5

193

Nystr¨om – und Milne– Simpson– Verfahren

schreiben mit den von der Zahl m abh¨angigen Koeffizienten βm,m−1−j

=

( –1 )j

m−1 

k j κk ,

j = 0, 1, . . . , m − 1.

k=j

(b) Aus (8.41) berechnen sich die ersten f¨unf Koeffizienten κ0 , . . . , κ4 zu κ0 = 2,

κ1 = 0,

κ2 =

1 , 3

κ3 =

1 , 3

29 . 30

κ4 =

F¨ur m = 2, 3, 4 lauten die m schrittigen Nystr¨om Verfahren in der klassischen Darstellung eines linearen Mehrschrittverfahrens folgendermaßen, m=2:

u+2

= u + 2hf+1 ,

= 0, . . . , n − 2;

m=3:

u+3

= u+1 + 3 (7f+2 − 2f+1 + f ),

m=4:

u+4

= u+2 + 3 (8f+3 − 5f+2 + 4f+1 − f ),

h h

......

n − 2;

......

n − 4.

F¨ur m = 2 erh¨alt man also die Mittelpunktregel.



Das folgende Resultat stellt die wesentlichen Eigenschaften der Nystr¨om Verfahren heraus: Theorem 8.34 Das m schrittige Nystr¨om Verfahren ist nullstabil. F¨ur f ∈ C m ( [ a, b ] × R N , R N ) besitzt es die Konsistenzordnung p = m. Die Fehlerkonstante lautet κm /2.

8.5.3 Milne– Simpson– Verfahren Definition 8.35 F¨ur m ≥ 2 erh¨alt man das m schrittige Milne Simpson Verfahren durch den Ansatz (8.40) mit P ∈ ΠN m,

P ( tj ) = fj ,

j = , + 1, . . . , + m,

fj := f ( tj , uj ),

.

......

Die folgenden Resultate f¨ur die Milne-Simpson-Verfahren ergeben sich genauso wie die Resultate u¨ ber die Adams Bashfort Verfahren. Auf die einzelnen Beweisf¨uhrungen wird daher auch hier verzichtet. Theorem 8.36 F¨ur m ≥ 2 hat das m schrittige Milne Simpson Verfahren die Gestalt u+m − u+m−2

=

h

m 

κk∗ ∇k f+m ,

= 0, 1, . . . , n − m,

k=0

mit den von der Zahl m unabh¨angigen Koeffizienten Z 0  −s  κk∗ := ( –1 )k k ds, −2

k = 0, 1, . . .,

die sich rekursiv berechnen durch κ0∗ = 2, κ1∗ = −2 und 1 1 1 1 ∗ κ ∗ + k κ1∗ + k − 1 κ2∗ + . . . + 2 κk−1 + κk∗ = 0 k+1 0

f¨ur k = 2, 3, . . . . (8.42)

194

Kapitel 8 Mehrschrittverfahren f¨ur Anfangswertprobleme .... ... ..

f+m−1 .............

f+m

....................................... ................................... ..................................... ......................................... ..... ........................................................................ ............................. . . .................................... ....................................... ...... .......... +m−2................................................................................. ....... ....... . . . . . . . . . . . . . . . . . . . . . . . . . . .... ........................................... ... ..... ...... .... ........................................ .... ........ ............. ................................................................................ ..... ...... ..... ........................................ ...... .................... ...... ............................................................ . . . . . . .................... .......................... ............................................................ .................... ............................................................ ........................................ .................... ............................................................ .................... ............................................................ .................... ........................................

f+1

f−1

f

f

t−1 t

t+1

... t+m−2

P( t )

........ .....

t

t+m

Bild 8.4 Vorgehensweise des m– schrittigen Milne– Simpson– Verfahrens im eindimensionalen Fall Bemerkung 8.37 (a) Das m schrittige Milne Simpson Verfahren (8.42) l¨asst sich in eindeutiger Weise in der Form u+m − u+m−2

=

h

m 

∗ βm,j f+j ,

= 0, 1, . . . , n − m,

j=0

schreiben mit den von der Zahl m abh¨angigen Koeffizienten ∗ βm,m−j

=

( –1 )j

m    k ∗ j κj ,

j = 0, 1, . . . , m − 1.

k=j

(b) Aus (8.41) berechnen sich die ersten f¨unf Koeffizienten κ0∗ , . . . , κ4∗ zu κ0∗ = 2,

κ1∗ = −2,

1

κ2∗ = 3 ,

κ3∗ = 0,

1

κ4∗ = − 90 .

F¨ur m = 2 beziehungsweise m = 4 lauten die m schrittigen Milne Simpson Verfahren in der klassischen Darstellung eines linearen Mehrschrittverfahrens folgendermaßen, h

m = 2 : u+2 = u + 3 (f+2 + 4f+1 + f ), m = 4 : u+4 = u+2 +

0 ≤ ≤ n − 2;

h (29f+4 + 124f+3 + 24f+2 + 4f+1 − f ), 0 ≤ ≤ n − 4. 90

F¨ur m = 2 erh¨alt man das Verfahren von Milne, das der Simpson Regel zur numerischen Integration entspricht.  Theorem 8.38 F¨ur m ≥ 2 ist das m schrittige Milne Simpson Verfahren nullstabil. Wir unterscheiden nun die F¨alle m = 2 und m ≥ 4:3 (a) F¨ur eine hinreichend glatte Funktion f besitzt das (zweischrittige) Verfahren von Milne die Konsistenzordnung p = 4, und die Fehlerkonstante lautet −1/180. 3

F¨ur m = 3 erh¨alt man das gleiche Verfahren wie f¨ur m = 2.

Abschnitt 8.6

195

BDF – Verfahren

(b) F¨ur m ≥ 4 und eine hinreichend glatte Funktion f besitzt das m-schrittige Milne–Simpson∗ /2. Verfahren die Konsistenzordnung p = m + 1, und die Fehlerkonstante lautet κm+1 Bemerkung 8.39 Ganz allgemein erh¨alt man f¨ur jede Zahl q ≥ 3 weitere Klassen von Mehrschrittverfahren durch Integration der Differenzialgleichung y  = f ( t, y ) von t+m−q bis t+m , y ( t+m ) − y ( t+m−q )

Z t +m

=

t+m−q

f ( t, y ( t )) dt,

= 0, 1, . . . , n − m,

sowie durch anschließendes Ersetzen des Integranden durch geeignete Polynome P, u+m − u+m−q

Z t +m

=

t+m−q

P ( t ) dt,

= 0, 1, . . . , n − m.

(8.43)

Bei allen auf solchen Ans¨atzen (mit q ≥ 1) beruhenden Ein und Mehrschrittverfahren wird f¨ur jeden Index die Vorgehensweise in (8.43) als Integrationsschritt bezeichnet. 

8.6 BDF–Verfahren Im Folgenden werden die (impliziten) r¨uckw¨artigen Differenziationsformeln behandelt, die kurz als BDF Verfahren (backward differentiation formulas) bezeichnet werden.

8.6.1 Der Ansatz Definition 8.40 F¨ur m ≥ 1 ist die Vorgehensweise bei dem m schrittigen BDF Verfahren f¨ur = 0, . . . , n − m folgendermaßen: ausgehend von den schon berechneten Approximationen uj ≈ y ( tj ) f¨ur j = , . . . , + m − 1, bestimmt man die N¨aherung u+m ≈ y ( t+m ) dahingehend, dass f¨ur das Interpolationspolynom P ∈ ΠN m,

P ( tj ) = uj ,

j = , + 1, . . . , + m,

(8.44)

Folgendes erf¨ullt ist, P  ( t+m ) = f+m , !

mit f+m := f ( t+m , u+m ).

(8.45)

Der Vektor u+m ∈ R N wird also durch die zus¨atzliche Bedingung (8.45) festgelegt. Die vorliegende Situation ist in Bild 8.5 veranschaulicht. Theorem 8.41 Das m schrittige BDF Verfahren hat die Gestalt m  1 k ∇ u+m k

k=1

=

hf+m ,

= 0, 1, . . . , n − m.

(8.46)

196

Kapitel 8 Mehrschrittverfahren f¨ur Anfangswertprobleme .... ... ..

... .. ... ... ... . . . . . . . . . . . . . . . . . . . . . . ........... ........ .. ....... ........ ... ...... ...... ..... .... ..... ..... .... .... ..... ..... .... .......... ................ .... . . . . . . . . . . . . . . ..... ...... ....... ...........................

u+1

t−1 t

P( t )

u+m−2

u−1 u

−1

u+m

.. . ..... ....................... .......... ................ ..........

u+m−1...............

t+1

...

f+m ......... .....

t+m−1 t+m

t

Bild 8.5 Vorgehensweise des m– schrittigen BDF– Verfahrens im eindimensionalen Fall B EWEIS . F¨ur das Polynom P aus (8.44) erh¨alt man nach Lemma 8.20 auf Seite 185 die folgende Darstellung, P ( t+m + sh )

=

m 

( –1 )k

 −s  k k ∇ u+m ,

s ∈ R,

(8.47)

k=0

mit noch freiem u+m ∈ R N . Zur Anpassung an die Bedingung (8.45) wird (8.47) differenziert, P  ( t+m ) = und wegen

 −s  0

d  −s  s=0 ds k

 1 d  P(t +m + sh)  h ds s=0

m 1  d  −s  ( –1 )k ∇k u+m, s=0 h ds k

=

k=0

= 1 sowie4 d ( –s )( –s − 1 ) · · · ( –s − k + 1 )  s=0 ds k! ( –1 )k 1 · 2 · · · (k − 1) = = ( –1 )k k! k

=

=



( –1 )( –2 ) · · · ( –k + 1 )

k!

¨ f¨ur k ≥ 1 erh¨alt man die Aquivalenz der Aussagen (8.44) (8.45) beziehungsweise (8.46). Bemerkung 8.42 (a) Das m schrittige BDF Verfahren (8.46) l¨asst sich in eindeutiger Weise in der Form m 

αm,j u+j

=

hf+m ,

= 0, 1, . . . , n − m,

j=0

schreiben mit den von der Zahl m abh¨angigen Koeffizienten αm,0 , . . . , αm,m ∈ R, denn die Darstellung (8.21) liefert m  1 k ∇ u+m k

k=1

4

siehe (8.23)

=

m k k  1 ( –1 )j j u+m−j k

k=1

j=0

=

m  j=0

( –1 )j



m 

k=max{j,1}



1k  u+m−j . k j

 =: αm,m−j



Abschnitt 8.7

197

Pr¨adiktor– Korrektor– Verfahren

(b) F¨ur m = 1, . . . , 5 lauten die m schrittigen BDF Verfahren in der klassischen Darstellung eines linearen Mehrschrittverfahrens folgendermaßen (jeweils f¨ur ≤ n − m): m=1:

u+1 − u

=

hf+1 ;

− 4u+1 + u ) =

hf+2 ;

− 18u+2 + 9u+1 − 2u ) =   1 25u+4 − 48u+3 + 36u+2 − 16u+1 + 3u = 12   1 137u+5 − 300u+4 + 300u+3 − 200u+2 + 75u+1 − 12u = 60

hf+3 ;

m=2:

1 (3u+2 2

m=3:

1 (11u+3 6

m=4: m=5:

hf+4 ; hf+5 .

Insbesondere erh¨alt man im Fall m = 1 das implizite Euler Verfahren.



Man kann Folgendes nachweisen (siehe Abschnitt III.3 in Hairer / Nørsett /Wanner [47]): Theorem 8.43 Das m-schrittige BDF-Verfahren ist genau f¨ur 1 ≤ m ≤ 6 nullstabil. F¨ur hinreichend glatte Funktionen f besitzt es die Konsistenzordnung p = m, und die Fehlerkonstante lautet −1/( m + 1 ).

¨ 8.6.2 Tabellarische Ubersicht uber ¨ spezielle Mehrschrittverfahren Mehrschrittverfahren

Ordnung

Fehlerkonstante

m-schrittige –Adams Bashfort Verfahren, m ≥ 1

m

γm

m+1

∗ γm+1

m

κm /2

m+1

∗ κm+1 /2

m

−1/( m + 1 )

.......

–Adams Moulton Verfahren, m ≥ 1

.......

–Nystr¨om Verfahren, m ≥ 2

.......

–Milne Simpson Verfahren, m ≥ 4

......

–BDF Verfahren, 1 ≤ m ≤ 6

¨ Tabelle 8.1 Ubersicht der Konsistenzordnungen und Fehlerkonstanten f¨ur spezielle nullstabile m– Schrittverfahren

8.7 Pr¨adiktor–Korrektor–Verfahren Implizite m Schrittverfahren von der Form (8.1) mit αm = 1 implementiert man in der Form eines Pr¨adiktor Korrektor Schemas. Bei im Folgenden fixiertem geht man dabei folgendermaßen vor: •

[1]

mittels einer Fixpunktiteration (dem Korrektor, engl. corrector) bestimmt man u+m , . . . , [M −1] [M ] u+m ∈ R N und schließlich u+m := u+m ∈ R N ;

198 •

Kapitel 8 Mehrschrittverfahren f¨ur Anfangswertprobleme [0]

den Startwert u+m ∈ R N verschafft man sich durch ein zun¨achst nicht n¨aher spezifiziertes explizites m Schrittverfahren (den sogenannten Pr¨adiktor, engl. predictor),

Die folgende Definition pr¨azisiert dieses Vorgehen. Definition 8.44 Gegeben seien • •

ein implizites m Schrittverfahren von der Form (8.1) mit αm = 1 (der Korrektor); ∗ ein explizites m Schrittverfahren (der Pr¨adiktor) mit Koeffizienten α0∗ , α1∗ , . . . , αm−1 sowie der Funktion

ϕ∗ : [ a, b ] × (R N )m × [ 0, H ] → R N . Bei dem zugeh¨origen Pr¨adiktor Korrektor Verfahren geht man f¨ur = 0, . . . , n − m so vor: f¨ur [0] [M −1] [M ] fixiertes bestimmt man u+m , . . . , u+m , u+m =: u+m ∈ R N entsprechend den folgenden Bestimmungsgleichungen, [0]

u+m +

m−1 

  αj∗ u+j = hϕ∗ t , u , . . . , u+m−1 ; h ,

(8.48–a)

j=0 [ν]

u+m +

m−1 

  [ν−1] αj u+j = hϕ t , u , . . . , u+m−1 , u+m ; h ,

ν = 1, 2, . . . , M, (8.48–b)

j=0 [M ]

u+m = u+m . Hier setzt man u0 = y0 , und die u¨ brigen Startwerte u = u(0) ≈ y ( t ), = 1, . . . , m − 1, hat man in einer (an dieser Stelle nicht n¨aher spezifizierten) Anlaufrechnung zu bestimmen. Das folgende Lemma macht deutlich, dass sich das vorgestellte Pr¨adiktor Korrektor Verfahren als nichtlineares explizites m Schrittverfahren von der Form (8.1) darstellen l¨asst. Lemma 8.45 Gegeben sei ein Pr¨adiktor Korrektor Verfahren entsprechend Definition 8.44. F¨ur die gewonnenen Approximationen u ≈ y ( t ) ∈ R N eines Pr¨adiktor Korrektor Verfahrens gilt die Darstellung u+m +

m−1 

αj u+j = hψ [M ] (t , u , . . . , u+m−1 ; h),

= 0, 1, . . . , n − m, (8.49)

j=0

wobei die Funktion ψ [M ] : [ a, b ] × (R N )m × [ 0, H ] → R N wie folgt rekursiv definiert ist, ψ [ν] (t, v0 , . . . , vm−1 ; h)

=

[ν−1] ϕ(t, v0 , . . . , vm−1 , vm ; h),

ν = 1, . . . , M, (8.50)

mit [0] vm

=

hϕ∗ ( t, v0 , . . . , vm−1 ; h) −

[ν−1] vm

=

[ν−1]



(

......

) −

m−1  j=0 m−1  j=0

⎫ ⎪ ⎪ ⎪ ⎬

αj∗ vj , αj vj ,

ν = 2, . . . , M.

⎪ ⎪ ⎪ ⎭

(8.51)

Abschnitt 8.7

199

Pr¨adiktor– Korrektor– Verfahren

B EWEIS . F¨ur den Nachweis der Darstellung (8.49) setzt man in (8.50)– (8.51) v0 := u ,

v1 := u+1 , . . . , vm−1 := u+m−1 ,

und durch Vergleich von (8.48) und (8.51) erkennt man mittels vollst¨andiger Induktion leicht [ν]

[ν] vm = u+m ,

ν = 0, 1, . . . , M,

[M ]

wobei vm entsprechend (8.51) definiert sei. Dies bedeutet nichts anderes als [ν]

u+m +

m−1 

αj u+j

=

hψ [ν] (t , u , . . . , u+m−1 ; h),

ν = 1, 2, . . . , M. (8.52)

j=0

F¨ur ν = M erh¨alt man aus (8.52) schließlich die Darstellung (8.49). Gegenstand des folgenden Theorems sind die Konsistenzordnung und Nullstabilit¨at von Pr¨adiktor Korrektor Verfahren. Theorem 8.46 Gegeben sei ein Pr¨adiktor Korrektor Verfahren von der Form in Definition 8.44, welches die folgenden Eigenschaften besitze: •



der Pr¨adiktor besitze die Konsistenzordnung p∗ ≥ 1, und die Funktion ϕ∗ gen¨uge einer Lipschitzbedingung der Form (8.6); der Korrektor sei nullstabil und besitze die Konsistenzordnung p ≥ p∗ + M, und die Funktion ϕ gen¨uge einer Lipschitzbedingung der Form (8.6).

Dann ist das Pr¨adiktor Korrektor Verfahren nullstabil und besitzt die Konsistenzordnung p∗ + M, und die zugeh¨orige Funktion ψ [M ] gen¨ugt der Lipschitzbedingung (8.6). B EWEIS . Die zu den Funktionen ϕ beziehungsweise ϕ∗ geh¨orenden Lipschitzkonstanten seien mit L beziehungsweise L∗ bezeichnet. (a) Die Nullstabilit¨at folgt unmittelbar aus der Darstellung (8.49). (b) Wir zeigen im Folgenden f¨ur ν = 1, 2, . . . , M induktiv, dass die Funktion ψ [ν] aus (8.50) einer Lipschitzbedingung der Form (8.6) gen¨ugt mit einer gewissen Lipschitzkonstanten L[ν] . [ν] [ν] Tats¨achlich erh¨alt man f¨ur wm entsprechend vm aus (8.50), (8.51) Folgendes (f¨ur 0 < h ≤ H ), ||ψ [1] (t, v0 , . . . , vm−1 ; h) − ψ [1] (t, w0 , . . . , wm−1 ; h)||  m−1   [0] 

 [0]  ≤ L ||vj − wj || +  vm − wm j=0

 m−1   ≤ L ||vj − wj || 1 + j=0

≤ L 1 +

max

j=0, p p ,m−1

|αj∗ |





 + hϕ∗ (t, v0 , p p , vm−1 ; h) − ϕ∗ (t, w0 , p p , wm−1 ; h) 

 m−1   |αj∗ | + HL∗ ||vj − wj || , j=0,...,m−1

  j=0 [1] =: L max

200

Kapitel 8 Mehrschrittverfahren f¨ur Anfangswertprobleme

und genauso erh¨alt man f¨ur ν = 2, 3, . . . , M:   [ν] ψ (t, v0 , . . . , vm−1 ; h) − ψ [ν] (t, w0 , . . . , wm−1 ; h)   m−1    ≤ L ||vj − wj || 1 + max |αj | j=0, p p ,m−1

j=0

 

+ h ψ [ν−1] (t, v0 , p p , vm−1 ; h) − ψ [ν−1] (t, w0 , p p , wm−1 ; h) 

≤ L 1 +



 m−1  |αj | + HL[ν−1] ||vj − wj || . j=0,...,m−1

  j=0 [ν] =: L max

(c) F¨ur den Nachweis der angegebenen Konsistenzordnung definiert man η ∗ ( t, h ) = y ( t + mh ) + η [ν] ( t, h ) = y ( t + mh ) +

m−1  j=0 m−1 

 ⎫ ⎪ αj∗ y ( t + jh ) − hϕ∗ t, y(t), . . . , y ( t + ( m − 1 )h ) , ⎪ ⎪ ⎪ ⎪ ⎪ ⎬

αj y ( t + jh ) − hψ [ν] (

......

j=0

ν = 1, 2, . . . , M,

(8.53) ),⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎭

womit η∗ der lokale Verfahrensfehler des Pr¨adiktors ist, und η [M ] ( t, h ) stellt den lokalen Verfahrensfehler des Pr¨adiktor Korrektor Verfahrens dar. Im Folgenden wird mittels vollst¨andiger Induktion Folgendes gezeigt, ||η [ν] ( t, h ) ||

=

O(hp∗ +ν+1 )

f¨ur h → 0

( ν = 1, 2, . . . , M ),

(8.54)

und f¨ur ν = M erh¨alt man die angegebene Konsistenzordnung f¨ur das Pr¨adiktor Korrektor Verfahren. F¨ur den Nachweis von (8.54) zieht man f¨ur ν = 1, 2, . . . , M die Definition (8.50) von ψ [ν] heran,   ψ [ν] t, y ( t ), y ( t + h ), . . . , y ( t + (m − 1)h ) ; h   [ν] = ϕ t, y ( t ), y ( t + h ), . . . , y ( t + ( m − 1 )h ), vm ;h , mit [0]

vm

=

m−1    ∗ hϕ∗ t, y ( t ), . . . , y ( t + ( m − 1 )h ) − αj y ( t + jh ) j=0

(8.53)

=

[ν−1]

vm

ν≥1

=

y ( t + mh ) − η∗ ( t, h ), m−1    hψ [ν−1] t, y ( t ), . . . , y ( t + ( m − 1 )h ) − αj y ( t + jh ) j=0

(8.53)

=

y ( t + mh ) − η

[ν−1] (

t, h ).

(8.55)

Abschnitt 8.7

201

Pr¨adiktor– Korrektor– Verfahren

Dies eingesetzt in (8.55) ergibt unter Verwendung der Notation η [0] = η∗ ψ [ν] (t, y ( t ), . . . , y ( t + ( m − 1 )h ) ; h) = ϕ(t, y ( t ), . . . , y ( t + ( m − 1 )h ), y ( t + mh ) − η [ν−1] ( t, h ) ; h) = ϕ(∼∼∼, y ( t + mh ) ; h)   + ϕ(∼∼∼, y ( t + mh ) − η [ν−1] ( t, h ) ; h) − ϕ(∼∼∼, y(t + mh); h) wobei ∼∼∼ f¨ur “t, y ( t ), . . . , y ( t + ( m − 1 )h )“ steht. Bezeichnet noch η ( t, h ) den lokalen Verfahrensfehler des Korrektors, so erh¨alt man aus der letzten Darstellung zusammen mit (8.53) die folgenden Absch¨atzungen, ||η [1] ( t, h ) || ≤ ||η ( t, h ) || + hL||η ∗ ( t, h ) ||, ||η [ν] ( t, h ) || ≤

......

+ hL||η [ν−1] ( t, h ) ||,

ν = 2, 3, . . . , M,

beziehungsweise mit vollst¨andiger Induktion ||η [ν] ( t, h ) ||

=

O(hp+1 ) + hO(hp∗ +ν )

=

O(hp∗ +ν+1 )

f¨ur h → 0

( ν = 1, 2, . . . , M ),

was mit der Aussage (8.54) u¨ bereinstimmt. Bemerkung 8.47 In der typischen Situation p − 1 = p∗ = m ist nach Theorem 8.46 ein Korrektorschritt ausreichend, man w¨ahlt also M = 1. 

8.7.1 Linearer Pr¨adiktor/Linearer Korrektor Typischerweise sind sowohl Pr¨adiktor als auch Korrektor lineare Mehrschrittverfahren, es gilt also ϕ∗ (t, v0 , . . . , vm−1 ; h) =

m−1 

βj∗ f ( t + jh, vj ),

j=0

ϕ(t, v0 , . . . , vm ; h) =

m 

βj f ( t + jh, vj ).

j=0

In dieser speziellen Situation wird das Pr¨adiktor Korrektor Verfahren in Form eines Pseudocodes dargestellt. Algorithmus 8.48 F¨ur ein gegebenes lineares implizites m Schrittverfahren von der Form (8.1) mit αm = 1 (der Korrektor) sowie ein explizites lineares m Schrittverfahren mit Koeffizienten αj∗ , βj∗ , j = 0, . . . , m−1 (der Pr¨adiktor) nimmt das zugeh¨orige Pr¨adiktor Korrektor Verfahren die folgende Gestalt an:

202

Kapitel 8 Mehrschrittverfahren f¨ur Anfangswertprobleme

for = 0, 1, . . . , n − m [0]

P u+m

+

m−1 

αj∗ u+j

=

j=0

h

m−1 

βj∗ f+j ;

j=0

for ν = 1, . . . , M :  [ν−1] [ν−1]  = f t+m , u+m f+m

m−1 m−1   [ν] [ν−1] αj u+j = h βj f+j + hβm f+m u+m + j=0

E C

j=0

[M ]

u+m = u+m [M ]

E f+m = f ( t+m , u+m ) Wie u¨ blich ist hier u0 := y0 , und die weiteren Startwerte u1 , . . . , u ∈ R N sind in einer nicht n¨aher spezifizierten Anlaufrechnung zu berechnen, und schließlich setzt man f := f ( t , u ) f¨ur = 0, . . . , m − 1. Das resultierende Verfahren bezeichnet man als P(EC)M E Verfahren, wobei E f¨ur “evaluate“ steht.  Bemerkung 8.49 Zur Einsparung einer Funktionsauswertung kann man in Algorithmus 8.48 [M ] [M −1] die Setzung f+m = f ( t+m , u+m ) zu f+m := f+m modifizieren. Das resultierende GesamtM verfahren bezeichnet man als P(EC) –Verfahren, welches hier nicht weiter diskutiert werden soll und auch nicht als Mehrschrittverfahren von der Form (8.1) darstellbar ist. 

8.8 Lineare homogene Differenzengleichungen 8.8.1 Die Testgleichung In diesem Abschnitt soll das Verhalten spezieller Mehrschrittverfahren zu Illustrationszwecken anhand der Testgleichung y  ( t ) = λy ( t ),

t≥0

( λ ∈ R ),

untersucht werden. Ein allgemeines lineares m Schrittverfahren nimmt hier die Form m 

γj u+j = 0,

= 0, 1, . . .,

(8.56)

j=0

an mit γj = αj − hλβj f¨ur j = 0, 1, . . . , m. Im Folgenden wird beschrieben, wie man die L¨osungen (u )∈N0 der Differenzengleichung (8.56) erh¨alt.

Abschnitt 8.8

203

Lineare homogene Differenzengleichungen

8.8.2 Existenz und Eindeutigkeit bei linearen homogenen Differenzengleichungen Definition 8.50 Im Folgenden bezeichne s(K )

-

=

u = (u )∈N0 | u ∈ K

.

(8.57)

den Raum der Folgen, mit K = C oder K = R. Eine Abbildung L : s(K ) → s(K ) von der Form m 

=

( Lu )

= 0, 1, . . .

γj u+j ,

(8.58)

j=0

mit gegebenen Koeffizienten γ0 , γ1 , . . . , γm ∈ R, γm = 0, bezeichnet man als linearen Differenzenoperator m ter Ordnung. Die Gleichung Lu = 0 nennt man zugeh¨orige homogene Differenzengleichung. Schließlich bezeichnet N (L)

=

-

u = (u )∈N0 ∈ s(K )

|

Lu = 0

.

(8.59)

den Nullraum von L. Bemerkung 8.51 Mit den nat¨urlichen Verkn¨upfungen bildet s(K ) einen linearen Vektorraum u¨ ber K, und eine Abbildung L : s(K ) → s(K ) von der Form (8.58) ist linear.  0) Theorem 8.52 Zu gegebenem Differenzenoperator (8.58) und Startwerten u(00) , . . . , u(m−1 ∈K gibt es genau eine Folge u ∈ s(K ) mit

Lu = 0,

u = u(0)

f¨ur = 0, 1, . . . , m − 1.

(8.60)

B EWEIS . F¨ur eine Folge u ∈ s(K ) bedeutet Lu = 0 Folgendes, u+m

=

 m−1   − γj u+j γm ,

= 0, 1, . . .,

(8.61)

j=0

woraus unmittelbar Existenz und Eindeutigkeit einer Folge (u )∈N0 ∈ s(K ) mit der Eigenschaft (8.60) resultieren. Theorem 8.53 F¨ur jeden linearen Differenzenoperator L der Ordnung m gilt dim N (L) = m. B EWEIS . F¨ur ν = 1, 2, . . . , m sei die Folge u[ν] ∈ s(K ) folgendermaßen definiert, 1 Lu

[ν]

= 0,

[ν] u

=

1,

f¨ur = ν − 1,

0,

f¨ur ∈ {0, . . . , m − 1}\{ν − 1}.

Diese m Folgen bilden eine Basis von N (L), wie im Folgenden nachgewiesen wird.

204

Kapitel 8 Mehrschrittverfahren f¨ur Anfangswertprobleme

(i) Die Folgen u[1] , . . . , u[m] sind linear unabh¨angig, denn f¨ur gegebene Koeffizienten c1 , . . . , cm ∈ K gilt: m 

cν u[ν] = 0

;

 m

0 =

ν=1

cν u[ν]



ν=1



=

m 

[ν]

cν u 

= c+1 ,

= 0, . . . , m − 1.

ν=1

(ii) Andererseits gilt N ( L ) ⊂ span {u[1] , . . . , u[m] }, denn f¨ur eine beliebige Folge u ∈ N ( L ) gelten mit cν := uν−1 f¨ur ν = 1, . . . , m die Identit¨aten  m ν=1

cν u[ν]

 

=

m 

[ν]

cν u 

= c+1 = u ,

= 0, 1, . . . , m − 1,

ν=1

beziehungsweise u =

m 

cν u[ν] aufgrund von Theorem 8.52.

ν=1

8.8.3 Die komplexwertige allgemeine L¨osung der homogenen Differenzengleichung Lu = 0 Zur Bestimmung einer Basis des m dimensionalen Raums der komplexwertigen L¨osungsfolgen der Gleichung Lu = 0 mit gegebenem Differenzenoperator L der Form (8.58) macht man zun¨achst den Ansatz u = (ξ  )∈N0 mit ξ ∈ C und erh¨alt (Lu)

=

m  j=0

γj ξ +j

(∗)

=

ξ

m 

γj ξ j ,

= 0, 1, . . .,

j=0

so dass die Gleichung Lu = 0 erf¨ullt ist, falls ξ ∈ C eine Nullstelle des charakteristischen Polynoms ψ( ξ )

=

γm ξ m + γm−1 ξ m−1 + . . . + γ0

(8.62)

ist. Diese Aussage (und insbesondere die Identit¨at (∗) ) ist auch wahr f¨ur ξ = 0, wobei der genannte Ansatz hier u = (1, 0, 0, . . .) ∈ s(C ) bedeutet. Im Falle einer s fachen Nullstelle ξ ∈ C mit s ≥ 2 ist dieser Ansatz jedoch nicht hinreichend allgemein. Es stellt sich Folgendes heraus: •

gilt ξ = 0, so ist f¨ur jedes 0 ≤ ν ≤ s − 1 auch u = ( ν ξ  )∈N0 L¨osung der Gleichung Lu = 0.



  Gilt andererseits ξ = 0, so ist f¨ur jedes 0 ≤ ν ≤ s−1 auch u = ( 0, . . . , 0, 1, 0, 0, . . .) ∈ s(C ) L¨osung der Gleichung Lu = 0.

ν−mal

Das allgemeine Resultat hierzu ist in dem folgenden Theorem festgehalten. Theorem 8.54 Zu gegebenem Differenzenoperator L der Form (8.58) seien ξ1 , . . . , ξr ∈ C die paarweise verschiedenen Nullstellen des charakteristischen Polynoms (8.62) mit den jeweiligen

Abschnitt 8.8

205

Lineare homogene Differenzengleichungen

Vielfachheiten m1 , . . . , mr ∈ N. F¨ur beliebige Polynome Pk ∈ Πmk −1 , k = 1, 2, . . . , r (mit komplexen Koeffizienten) sowie gegebenenfalls Zahlen aj ∈ C, j = 0, 1, . . . , mk∗ −1 , ist je nach der Situation (i)

ξk = 0 f¨ur k = 1, . . . , r;

(ii)

ξk∗ = 0 f¨ur ein 1 ≤ k∗ ≤ r;

durch (i) u =

r 

Pk ( )ξk ,

= 0, 1, . . . ,

k=1

(ii) u =

r 

+

......

mk∗ −1



aj δj ,

⎪ (ξk∗ = 0 f¨ur ein k∗ )⎪ ⎪ ⎪ ⎭

......

j=0

k=1 k=k∗

⎫ ⎪ (ξk = 0 f¨ur alle k ) ⎪ ⎪ ⎪ ⎬ (8.63)

eine Folge u ∈ s(C ) mit Lu = 0 definiert. Umgekehrt l¨asst sich jede L¨osung u ∈ s(C ) der Gleichung Lu = 0 in der Form (8.63) darstellen. B EWEIS . Im Folgenden verwenden wir die Notation ων ( x ) := x( x − 1 ) · · · ( x − ν + 1 )

ν−1 

=

( x − s ),

x ∈ R,

s=0

so dass ων ein Polynom vom genauen Grad ν mit den Nullstellen 0, 1, . . . , ν − 1 ist. Weiter sei noch festgehalten, dass f¨ur k = 1, 2, . . . , r die Eigenschaft ψ ( ν ) ( ξk ) = 0 f¨ur ν = 0, 1, . . . , mk − 1 gleichbedeutend mit m 

γj ων ( j )ξkj−ν

=

ν = 0, 1, . . . , mk − 1,

0,

(8.64)

j=ν

ist. Dies gilt mit der Konvention 00 = 1 auch f¨ur den Fall ξk = 0 und bedeutet hier nichts anderes als γ0 = γ1 = . . . = γmk −1 = 0. Im Folgenden soll das spezielle System (u[ k, ν ] )k=1,...,r

⊂ s(C )

ν=0,...,mk −1

definiert durch u[ k, ν ]

=

(ων ( )ξk−ν )∈N0

f¨ur

k ∈ {1, . . . , r }, ν ∈ {0, . . . , mk − 1}

(8.65)

betrachtet werden, wobei diese spezielle Wahl von u[ k, ν ] einen kurzen Beweis der linearen Unabh¨angigkeit erm¨oglicht. Die Elemente u[ k, ν ] ∈ s(C ) lassen sich folgendermaßen darstellen: •

F¨ur ξk = 0 gilt die Identit¨at u[ k, ν ]

=

ξk−ν (ων ( )ξk )≥0 , 

const.

[ k, ν ]

und aufgrund der speziellen Form von ων gilt u

= 0 f¨ur = 0, 1, . . . , ν − 1.

(8.66)

206 •

Kapitel 8 Mehrschrittverfahren f¨ur Anfangswertprobleme

Mit der Konvention 0 × ∞ = 0 bedeutet die Darstellung (8.65) im Falle ξk∗ = 0 Folgendes, =

u [ k∗ , ν ]

ν!(δν )≥0 ,

ν = 0, 1, . . . , mk∗ − 1.

(8.67)

Die Tatsache dim N (L) = m ist aufgrund von Theorem 8.53 bereits bekannt, und des Weiteren  gilt rk=1 mk = m. Im Folgenden wird nachgewiesen, dass das System (8.65) eine Basis von N (L) bildet. Mit den Darstellungen (8.66) (8.67) f¨ur dieses System erh¨alt man die Darstellungen (8.63), wenn man noch ber¨ucksichtigt, dass sich jedes Polynom P ∈ Πn in eindeutiger  Weise in der Form P ( x ) = ns=0 as ωs ( x ) darstellen l¨asst. F¨ur den Nachweis der Basiseigenschaften des Systems (8.65) wird als Erstes f¨ur fixierte k ∈ {1, . . . , r } und ν ∈ {0, . . . , mk −1} die Identit¨at Lu[ k, ν ] = 0 nachgewiesen. Hierzu beobachtet man, dass f¨ur festes die Funktion C → C, j → ων ( + j ) ein Polynom ν ten Grades in j darstellt, so dass es Koeffizienten aν,,s ∈ C f¨ur s = 0, 1, . . . , ν gibt mit ων ( + j )

ν 

=

j = 0, 1, . . . .

aν,,s ωs ( j ),

s=0

Damit gilt (Lu[ k, ν ] )

=

m 

[ k, ν ]

j=0

=

m  

γj

j=0

 ν

m 

=

γj u+j



γj ων ( + j )ξk+j−ν

j=0

 +j−ν

= ξk

aν,,s ωs ( j ) ξk

s=0

ν  

aν,,s

  m

s=0

j=0



γj ωs ( j )ξkj−ν

 (8.64)

=



= 0.

 0

Es ist nun noch die lineare Unabh¨angigkeit der Familie (8.65) nachzuweisen. Hierzu seien (ckν )k=1,...,r ⊂ C Koeffizienten mit ν=0,...,mk −1



ckν u[ k, ν ]

=

0.

k=1,...,r ν=0,...,mk −1

Dies bedeutet 0 =



[ k, ν ]

ckν u



=

k=1,...,r ν=0,...,mk −1

ckν ων ( )ξk−ν ,

k=1,...,r ν=0,...,mk −1

beziehungsweise in Matrixschreibweise Bc

=

r  k=1

Bk ck

=

0

= 0, 1, . . . , m − 1,

Abschnitt 8.8

207

Lineare homogene Differenzengleichungen

mit Matrizen und Vektoren

B

=

⎛ ⎞





⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

⎟ ⎟ ⎟ ⎟ × ⎟ ∈ Cm m , ⎟ ⎟ ⎠

B1

...

Br

c

=

⎜c ⎟ ⎜ 1⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ p⎟ ⎜ pp ⎟ ∈ Cm , ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎝ ⎠ cr

wobei Bk ∈ Cm×mk und ck ∈ Cmk wie folgt erkl¨art sind, ⎛

⎞ ω0 ( 0 )

Bk

0 ppp 0 ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ pp pp 1 ⎜ ⎟ ( ) ( ) ω 1 ξ ω 1 p p 0 1 k ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ p pp p ⎜ ⎟ 0 p p ⎜ ⎟ = ⎜ ⎟, ⎟ ⎜ ⎜ ω ( m − 1 )ξ mk −1p p p p p p ωmk −1 ( mk − 1 ) ⎟ ⎟ ⎜ 0 k k ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ p p p p ⎟ ⎜ p p ⎟ ⎜ ⎟ ⎜ ⎠ ⎝ m−mk m−1 ω0 ( m − 1 )ξk p p p p p p ωmk −1 ( m − 1 )ξk

  (ων ( )ξk−ν )=0,...,m−1

⎛ ⎜ ck = ⎜ ⎝

ck0 pp p

⎞ ⎟ ⎟. ⎠

ck,mk −1

ν=0,...,mk −1

Die lineare Unabh¨angigkeit der Familie (8.65) ergibt sich nun aus der Regularit¨at der Matrix B ∈ Cm×m , die im Folgenden nachgewiesen wird. Hierzu beobachtet man, dass f¨ur ein Polynom p( ξ )

=

m−1 

dj ξ j ,

j=0

mit den paarweise verschiedenen Nullstellen ξ1 , ξ2 , . . . , ξr ∈ C und den jeweiligen Vielfachheiten m1 , . . . , mr ∈ N nur5 p ≡ 0 beziehungsweise d0 = . . . = dm−1 = 0 gelten kann, denn  wegen rk=1 mk = m besitzt das Polynom p ∈ Πm−1 mindestens m Nullstellen (entsprechend ihren Vielfachheiten gez¨ahlt). Wegen p( ν ) ( ξ k )

=

m−1 

d ων ( )ξk−ν ,

=ν 5

siehe beispielsweise Fischer [26], Abschnitt 1.3

ν = 0, 1, . . . , mk − 1,

k = 1, 2, . . . , r,

208

Kapitel 8 Mehrschrittverfahren f¨ur Anfangswertprobleme

ist dies gleichbedeutend damit, dass das Gleichungssystem Ad = 0 nur die triviale L¨osung besitzen kann, wobei ⎛ ⎞

A

=

⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

A1 pp p

⎟ ⎟ ⎟ ⎟ ∈ Cm×m , ⎟ ⎟ ⎠

Ar und die Matrix Ak ∈ Cmk×m ist folgendermaßen erkl¨art, ⎛ mk −1 1 ppp ω0 ( m − 1 )ξkm−1 ⎜ ω0 ( 0 ) ω0 ( 1 )ξk p p p ω0 ( mk − 1 )ξk ⎜ ⎜ pp pp ⎜ 0 ω1 ( 1 ) p p ⎜ ⎜ Ak = ⎜ p pp ⎜ pp pp pp p p pp p ⎜ p ⎜ ⎝ 0 ppp 0 ωmk −1 ( mk − 1 ) p p p ωmk −1 ( mk − 1 )ξkm−mk

 (ων ( )ξk−ν )ν=0,...,mk −1

⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ . ⎟ ⎟ ⎟ ⎟ ⎠ 

=0,...,m−1

Dies zieht die Regularit¨at der Matrix A nach sich. Wegen der Eigenschaft B = A folgt daraus die behauptete Regularit¨at der Matrix B. Eine erste Konsequenz aus Theorem 8.54 ist die folgende Aussage: Korollar 8.55 Sei L ein Differenzenoperator der Form (8.58). Genau dann hat jede L¨osung u ∈ s(C ) der Gleichung Lu = 0 die Eigenschaft sup=0,1,... |u | < ∞, wenn f¨ur die paarweise verschiedenen Nullstellen ξ1 , . . . , ξr ∈ C des charakteristischen Polynoms (8.62) Folgendes gilt, ⎫ ⎧ ⎬ ⎨ |ξk | = 1, (k = 1, 2, . . . , r ). |ξk | < 1 oder ⎩ ξ einfache Nullstelle ⎭ k

8.8.4 Die reellwertige allgemeine L¨osung der homogenen Differenzengleichung Lu = 0 In erster Linie ist man an den reellen L¨osungen der Differenzengleichung Lu = 0 interessiert. Hierzu bedient man sich f¨ur λ ∈ C der Polarkoordinatendarstellung λ = ρeiϕ ∈ C, ρ > 0, ϕ ∈ [ 0, 2π ), und erh¨alt unmittelbar die Darstellung λ

=

ρ eiϕ

=

ρ ( cos ( ϕ ) + isin ( ϕ ) ),

= 0, 1, . . . .

Ber¨ucksichtigt man noch, dass aufgrund der reellen Koeffizienten von ψ ( ξ ) = γm ξ m +γm−1 ξ m−1 +. . .+γ0 mit jeder Nullstelle ξ ∈ C von ψ auch ψ(ξ) = 0 gilt, erh¨alt man als zweite Konsequenz aus Theorem 8.54 die allgemeine Form der reellen L¨osungsfolgen der Gleichung Lu = 0:

Abschnitt 8.8

209

Lineare homogene Differenzengleichungen

Theorem 8.56 Zu gegebenem Differenzenoperator L von der Form (8.58) seien ξ1 , . . . , ξr1 ∈ R sowie λ1 , λ1 , . . ., λr2 , λr2 ∈ C\R die paarweise verschiedenen Nullstellen des charakteristischen Polynoms (8.62), mit den jeweiligen Vielfachheiten m1 , . . . , mr1 und n1 , . . . , nr2 ∈ N, sowie den Polarkoordinatendarstellungen λk = ρk eiϕk ∈ C, mit ρk > 0, ϕk ∈ (0, 2π). F¨ur beliebige Polynome Pk ∈ Πmk −1

k ∈ Πn −1 Qk , Q k

f¨ur k = 1, . . . , r1 ,

f¨ur k = 1, . . . , r2 ,

sowie gegebenenfalls Zahlen a0 , . . . , amk∗ −1 ∈ R ist je nach der Situation (i)

ξk = 0

f¨ur k = 1, . . . , r1 ;

(ii)

ξk∗ = 0 f¨ur ein 1 ≤ k∗ ≤ r1 ;

durch

(i)

u =

 r1

Pk ( )ξk +

k=1

(ii) u =

 r1

......



+ k ( ) sin [ ϕk ] ρk Qk ( ) cos ( ϕk ) + Q k=1 r2 

+

+

......

k=1 k=k∗

mk∗ −1



j=0

aj δj



eine Folge u ∈ s(R ) mit Lu = 0 definiert. Umgekehrt l¨asst sich jede L¨osung u ∈ s(R ) der Gleichung Lu = 0 in der Form (i) beziehungsweise (ii) darstellen.

8.8.5 Eine spezielle Differenzengleichung Zur n¨aherungsweisen L¨osung des Anfangswertproblems y  = f ( t, y ), y ( a ) = y0 wird im Folgenden zu Testzwecken das Zweischrittverfahren u+2 − 4u+1 + 3u

=

−2hf ( t , u ),

= 0, 1, . . . , n − 2,

(8.68)

untersucht. Theorem 8.57 (a) Das Verfahren (8.68) besitzt unter den u¨ blichen Glattheitsvoraussetzungen an die Funktion f die Konsistenzordnung p = 2. Es ist jedoch nicht nullstabil. (b) Die Anwendung des Verfahrens (8.68) auf die Testgleichung y ( t ) = −y ( t ),

t ∈ [ 0, b ],

y ( 0 ) = 1,

(8.69)

mit der Schrittweite h = b/n > 0 sowie den Startwerten u0 = 1 und u1 = e−h liefert Folgendes, u =



 h3 e−t + 6 et /3 3 (1 + O(h))  y ( t )

f¨ur h → 0,

wobei (8.70) gleichm¨aßig in gilt, es h¨angt also O(h) nicht von ab.

= 0, 1, . . . , n, (8.70)

210

Kapitel 8 Mehrschrittverfahren f¨ur Anfangswertprobleme

e−t +

h3 6



t

y ( t )

u

2 3 .. .

0.02 0.03 .. .

9.802 × 10−1 9.704 × 10−1 .. .

9.802 × 10−1 9.704 × 10−1 .. .

9.802 × 10−1 9.704 × 10−1 .. .

7 8 .. .

0.07 0.08 .. .

9.324 × 10−1 9.231 × 10−1 .. .

9.328 × 10−1 9.242 × 10−1 .. .

9.328 × 10−1 9.242 × 10−1 .. .

13 14 .. .

0.13 0.14 .. .

8.781 × 10−1 8.694 × 10−1 .. .

1.148 × 100 1.682 × 100 .. .

1.156 × 100 1.705 × 100 .. .

20 21 .. .

0.20 0.21 .. .

8.187 × 10−1 8.106 × 10−1 .. .

6.050 × 102 1.819 × 103 .. .

6.22 × 102 1.871 × 103 .. .

30 31 .. .

0.30 0.31 .. .

7.408 × 10−1 7.334 × 10−1 .. .

3.688 × 107 1.110 × 108 .. .

3.792 × 107 1.142 × 108 .. .

100

1.00

3.679 × 10−1

1.164 × 1041

1.199 × 1041

et /3 3

Tabelle 8.2 Illustration des Differenzenverfahrens (8.68), mit der Schrittweite h = 0.01 angewandt auf die Testgleichung (8.69) f¨ur b = 1 Wegen der fehlenden Nullstabilit¨at ist also keine Konvergenz des Verfahrens (8.68) zu erwarten, und anhand der Testgleichung l¨asst sich das genaue Divergenzverhalten beobachten: an jeder festen Stelle t = h verh¨alt sich u f¨ur = t/h → ∞ wie t3 et/3 3 /( 6 3 ). F¨ur die feste Schrittweite h = 0.01 sind die durch das Verfahren (8.68) gelieferten Resultate in Tabelle 8.2 vorgestellt. B EWEIS VON T HEOREM 8.57. (a) Die angegebene Konsistenzordnung ergibt sich unmittelbar aus Lemma 8.16. Das zu dem Verfahren (8.68) geh¨orende erzeugende Polynom ist ρ( ξ ) = ξ 2 − √ 4ξ + 3 mit den Wurzeln ξ1/2 = 2 ± 4 − 3 = 2 ± 1 beziehungsweise ξ1 = 3, ξ2 = 1, so dass also keine Nullstabilit¨at vorliegt. (b) Anwendung des Verfahrens (8.68) auf die Testgleichung y  = −y f¨uhrt auf die Differenzengleichung u+2 − 4u+1 + ( 3 − 2h )u

=

= 0, 1, . . . , n − 2.

0,

Das zugeh¨orige charakteristische Polynom lautet ψ( ξ )

=

=

2 ±

ξ 2 − 4ξ + 3 − 2h,

ξ ∈ C,

mit den Nullstellen ξ1/2

/ 4 − ( 3 − 2h )

=

2 ±



1 + 2h.

(8.71)

Abschnitt 8.8

211

Lineare homogene Differenzengleichungen

Die allgemeine L¨osung von (8.71) ist demnach u

=

c1 ξ1 + c2 ξ2 ,

= 0, 1, . . . .

(8.72)

Anpassung dieser allgemeinen L¨osung an die exakten Anfangsbedingungen u0 = 1, u1 = e−h ergibt u0 = c1 + c2 = 1, u1 = c1 ξ1 + c2 ξ2 = e−h beziehungsweise =

c1

ξ2 − e−h , ξ2 − ξ1

=

c2

e−h − ξ1 . ξ2 − ξ1

(8.73)

Zur Beschreibung des Verhaltens von u aus (8.72) mit Koeffizienten wie in (8.73) verwendet man √

1+x

=

1 +

1 x 2



1 2 x 8

+

1 3 x 16

+ O(x4 )

f¨ur x → 0

und erh¨alt f¨ur die Nullstellen die folgenden Taylorentwicklungen, ξ1

=

2 +



1 + h + O(h2 )



=

3 + h + O(h2 )

f¨ur h → 0

(8.74)

beziehungsweise ξ2 = 2 − (1 + h − 12 h2 + = e−h − 13 h3 + O( h4 )

1 3 h 2

+ O( h4 ) ) = 1 − h +

1 2 h 2

− 12 h3 + O(h4 )

f¨ur h → 0.

 (8.75)

F¨ur die Koeffizienten c1 , c2 aus (8.73) erh¨alt man mit den Darstellungen (8.74) (8.75) und wegen ξ2 − ξ1 = −2 + O(h) Folgendes, c1 =

− 13 h3 + O(h4 ) −2 + O(h)

c2 =

ξ2 − ξ1 + O(h3 ) ξ2 − ξ1

=

+ O(h4 )

f¨ur h → 0,

1 + O(h3 )

f¨ur h → 0.

1 3 h 6

=

Die L¨osungsfolge u ∈ s(R ) der Differenzengleichung (8.71) mit u0 = 1, u1 = e−h nimmt somit folgende Gestalt an, u =

1 3 h (1 6

+ O( h ) )(3 + h + O( h2 ) ) + (1 + O(h3 ))(e−h + O(h3 ))

(8.76)

f¨ur h → 0. Zur Behandlung des zweiten Summanden der rechten Seite in (8.76) berechnet man noch [e−h + O( h3 ) ]

=

e−t [1 + O( h3 )eh ]

(∗)

e−t [1 + O( h2 ) ]

=

f¨ur h → 0,

wobei sich (∗) unter Ber¨ucksichtigung von log ( 1 + x ) = O( x ) und ex = 1 + O( x ) f¨ur x → 0 aus   log 1 + O( h3 )eh

=

O( h3 )eh

=

O( h2 )

f¨ur h → 0

(8.77)

212

Kapitel 8 Mehrschrittverfahren f¨ur Anfangswertprobleme

ergibt. Den ersten Summanden der rechten Seite in (8.76) behandelt man ganz a¨ hnlich, 

     = 3 1 + 13 h + O( h2 ) = 3 eh/3 + O( h2 ) 3 + h + O( h2 )   (∗∗)   = 3 et /3 1 + O( h2 )e−h/3 = 3 et /3 1 + O( h ) f¨ur h → 0,

wobei man (∗∗) genauso wie (8.77) erh¨alt. Daraus resultiert die Darstellung (8.70), u = e−t (1 + O( h2 ) ) + 16 h3 et /3 3 (1 + O( h ) )  −t  = e  + 16 h3 et /3 3 (1 + O( h ) ) f¨ur h → 0,  = y ( t )

= 0, 1, . . . , n.

Dies komplettiert den Beweis.

8.9 Steife Differenzialgleichungen 8.9.1 Einfuhrende ¨ Bemerkungen In vielen Anwendungen wie etwa der chemischen Reaktionskinetik treten Anfangswertprobleme f¨ur spezielle Differenzialgleichungen y  = f ( t, y ), t ∈ [ a, b ] auf, bei denen ein Gleichgewichtszustand ψ : [ a, b ] → R N existiert, dem sich jede L¨osung y : [ a, b ] → R N der Differenzialgleichung unabh¨angig von der Lage des Anfangswerts schnell ann¨ahert, das heißt, außerhalb eines kleinen Intervalls [ a, a + ε ] gilt y ≈ ψ. Solche Differenzialgleichungen werden als “steif“ bezeichnet und erfordern eine besondere numerische Behandlung, wie sich herausstellen wird. Im Folgenden wird zun¨achst der Begriff “steife Differenzialgleichung“ etwas pr¨azisiert. Definition 8.58 Ein Anfangswertproblem y  = f ( t, y ), y ( a ) = y0 gen¨ugt einer oberen Lipschitzbedingung bez¨uglich eines gegebenen Skalarprodukts  ·, · : R N × R N → R, wenn es eine stetige Funktion M : [ a, b ] → R gibt mit 2

f ( t, u ) − f ( t, v ) , u − v

3



M ( t )||u − v ||2 ,

u, v ∈ R N .

(8.78)

Gilt M ( t ) ≤ 0 f¨ur jede Zahl t ∈ [ a, b ], so bezeichnet man das gegebene Anfangswertproblem als dissipativ. Hier und im Folgenden bezeichnet || · || : R N → R die durch das Skalarprodukt induzierte Norm. Im weiteren Verlauf sollen Anfangswertprobleme y  = f ( t, y ), y ( a ) = y0 betrachtet werden, die (a) zum einen dissipativ sind oder zumindest einer oberen Lipschitzbedingung gen¨ugen mit M ( t ) von moderater positiver Gr¨oße, beispielsweise M ( t ) ≤ 1; (b) zum anderen die folgende Eigenschaft besitzen, 2 3 f ( t, u ) − f ( t, v ) , u − v m( t ) := inf ||u − v ||2 u, v ∈ R N u = v

 0

f¨ur t ∈ [ a, b ].

(8.79)

Abschnitt 8.9

213

Steife Differenzialgleichungen

Eine Anfangswertproblem y  = f ( t, y ), y ( a ) = y0 mit den in (a) und (b) beschriebenen Eigenschaften bezeichnet man als steif. Bemerkung 8.59 Bei steifen Differenzialgleichungen kann aufgrund der Absch¨atzung 2 3  f ( t, u ) − f ( t, v ) , u − v  ||u − v ||2



||f ( t, u ) − f ( t, v ) || ||u − v ||

die Funktion f : [ a, b ] × R N → R N die Lipschitzbedingung (7.4) h¨ochstens noch mit einer groß ausfallenden Lipschitzkonstanten L ≥ |m( t ) | erf¨ullen, so dass die Konvergenzs¨atze 7.10 und 8.9 f¨ur Einschritt- beziehungsweise Mehrschrittverfahren wegen der auftretenden großen Konstanten erst f¨ur kleine Schrittweiten h > 0 sinnvolle Resultate liefern.  In dem folgenden Beispiel wird anhand einer einfachen steifen Differenzialgleichung das Verhalten sowohl des expliziten als auch des impliziten Euler Verfahrens getestet. Wie sich zeigt, liefert das explizite Euler Verfahren erst f¨ur sehr kleine Integrationsschritte vern¨unftige Ergebnisse, was aufgrund der vorigen Bemerkung 8.59 auch nicht sonderlich u¨ berraschend ist. Beispiel 8.60 Das Anfangswertproblem y  = λy − ( 1 + λ )e−t ,

t ∈ [ 0, 1 ],

y ( 0 ) = y0 ,

(8.80)

besitzt die L¨osung y(t)

=

e−t + ( y0 − 1 )eλt ,

t ∈ [ 0, 1 ].

F¨ur λ ∈ R, λ  0 gilt demnach y ( t ) ≈ e−t bereits f¨ur kleine Werte 0 < t  1. Tats¨achlich ist das Anfangswertproblem (8.80) f¨ur λ ∈ R mit λ  0 steif, mit M ( t ) ≡ m( t ) ≡ −|λ|. Im Folgenden werden f¨ur die beiden Werte λ = −10 (das Anfangswertproblem (8.80) ist in dieser Situation nicht steif) und λ = −1000 (dann ist das Anfangswertproblem (8.80) steif) jeweils sowohl f¨ur das explizite als auch das implizite Eulerverfahren numerische Ergebnisse pr¨asentiert. In allen vier F¨allen werden gleichabst¨andige Gitter unterschiedlicher Feinheit verwendet, und zwar solche mit den Knotenabst¨anden h = 2−k

f¨ur k = 2j,

j = 2, 3, . . . , 6.

Die Resultate sind in Tabelle 8.3 wiedergegeben. Der Anfangswert ist jeweils y0 = 1, und die L¨osung des Anfangswertproblems (8.80) ist dann unabh¨angig von λ und lautet y ( t ) = e−t f¨ur t ∈ [ 0, 1 ]. Man beachte, dass im Falle des expliziten Eulerverfahrens der Fehler an der Stelle t = 1 f¨ur kleiner gew¨ahlte Schrittweiten zun¨achst u¨ ber alle Schranken hinausw¨achst. F¨ur die  Schrittweiten h = 2−10 und h = 2−12 werden vern¨unftige Ergebnisse erzielt. Wie sich in Beispiel 8.60 gezeigt hat, liefert das implizite Euler Verfahren hier trotz der in Bemerkung 8.59 angestellten Beobachtungen f¨ur alle kleinen Schrittweiten h > 0 vern¨unftige Ergebnisse. Dieses Verhalten ist kein Zufall, wie sich in Abschnitt 8.9.3 herausstellen wird.

214

Kapitel 8 Mehrschrittverfahren f¨ur Anfangswertprobleme

λ = −10 h

λ = −1000

uh ( 1 ) − y ( 1 )

uh ( 1 ) − y ( 1 )

expl. Eulerverf.

impl. Eulerverf.

h

uh ( 1 ) − y ( 1 )

uh ( 1 ) − y ( 1 )

expl. Eulerverf.

impl. Eulerverf.

0.0625 −1.247 × 10−3

1.308 × 10−3

0.0625

1.283 × 1024

1.175 × 10−5

0.0156 −3.174 × 10−4

3.212 × 10−4

0.0156

2.865 × 1069

2.892 × 10−6

0.039

−7.971 × 10−5

7.994 × 10−5

0.039

8.014 × 10112

7.202 × 10−7

0.010

−1.995 × 10−5

1.996 × 10−5

0.010

−1.797 × 10−7

1.799 × 10−7

0.002

−4.989 × 10−6

4.990 × 10−6

0.002

−4.495 × 10−8

4.496 × 10−8

Tabelle 8.3 Numerische Ergebnisse f¨ur das explizite/implizite Eulerverfahren. Dabei bezeichnet uh (1) jeweils die gewonnenen Approximationen f¨ur y(1).

8.9.2 Existenz und Eindeutigkeit der L¨osung bei Anfangswertproblemen fur ¨ Differenzialgleichungen mit oberer Lipschitzeigenschaft F¨ur Anfangswertprobleme bei Differenzialgleichungen mit oberer Lipschitzeigenschaft sollen zun¨achst die Fragen “Existenz und Eindeutigkeit einer L¨osung“ sowie die “stetige Abh¨angigkeit von den Anfangswerten“ diskutiert werden. Zwar kann unter diesen Voraussetzungen nicht auf Theorem 7.2 von Picard/Lindel¨of auf Seite 148 zur¨uckgegriffen werden, eine stetige Abh¨angigkeit von den Anfangswerten (und damit insbesondere die Eindeutigkeit der L¨osung) liegt dennoch vor: Theorem 8.61 Die Funktion f : [ a, b ] × R N → R N gen¨uge der oberen Lipschitzbedingung (8.78) bez¨uglich eines gegebenen Skalarprodukts  ·, · und einer gegebenen Funktion M. Dann gilt f¨ur differenzierbare Funktionen y, y : [ a, b ] → R N mit y  = f ( t, y ),

t ∈ [ a, b ],

y(a) = y0 ,

y = f ( t, y),

......

y(a) = y0 ,

die Absch¨atzung ||y ( t ) − y( t ) ||



exp

Z

t

a

 M ( s ) ds ||y0 − y0 ||,

B EWEIS . Die Funktion Φ( t )

=

|| ( y − y)( t ) ||2 ,

t ∈ [ a, b ],

t ∈ [ a, b ].

(8.81)

Abschnitt 8.9

215

Steife Differenzialgleichungen

ist differenzierbar auf dem Intervall [ a, b ], und es gilt 2 3 2 3 (∗) Φ  ( t ) = 2 ( y − y)  ( t ) , ( y − y)( t ) = 2 f ( t, y ( t )) − f ( t, y( t )) , (y − y)( t ) ≤ 2M ( t ) || ( y − y)( t ) ||2

=

2M ( t )Φ( t ),

t ∈ [ a, b ],

(8.82)

wobei die letzte Absch¨atzung aus der oberen Lipschitzbedingung (8.78) resultiert. Die Identit¨at folgt unmittelbar aus dem nachfolgenden Lemma 8.62. Die Absch¨atzung (8.82) zusammen mit der weiter unten nachzutragenden Variante des Gronwall Lemmas liefert die Behauptung (8.81).

(∗)

Es sind noch zwei Hilfsresultate nachzutragen. Lemma 8.62 Es seien  ·, · : R N × R N → R ein Skalarprodukt mit induzierter Norm || || : R N → R und u : [ a, b ] → R N eine differenzierbare Funktion. Dann ist die Funktion Φ( t )

=

||u( t ) ||2 ,

t ∈ [ a, b ],

differenzierbar auf dem Intervall [ a, b ], mit Φ (t)

=

2 u  ( t ) , u( t )  ,

t ∈ [ a, b ].

B EWEIS . Die Aussage ergibt sich zum Beispiel folgendermaßen, Φ( t + h ) − Φ( t ) h

||u( t + h ) ||2 − ||u( t ) ||2 h  u( t + h ) , u( t + h ) − u( t )   u( t + h ) − u( t ) , u( t )  = + h h f¨ur h → 0. → 2 u  ( t ) , u( t )  =

Das folgende Resultat stellt eine Variante des Gronwall Lemmas dar: Lemma 8.63 F¨ur die differenzierbare Funktion Φ : [ a, b ] → R sei Φ  ( t ) ≤ c( t ) Φ( t ),

t ∈ [ a, b ],

erf¨ullt mit der stetigen Funktion c : [ a, b ] → R. Dann gilt Φ( t ) ≤ exp

Z

t

a

 c( s ) ds Φ( a ),

t ∈ [ a, b ].

B EWEIS . Mit der Notation  Zt  β ( t ) := exp − a c( s ) ds ,

t ∈ [ a, b ],

(8.83)

216

Kapitel 8 Mehrschrittverfahren f¨ur Anfangswertprobleme

erh¨alt man auf dem Intervall [ a, b ] Folgendes, ( Φβ ) 

= Φ  β + Φβ 

=

Φ  β − cΦβ

=

β(Φ  − cΦ)



0,

so dass die Funktion Φβ auf dem Intervall [ a, b ] monoton fallend ist und damit insbesondere Φ( t )β ( t ) ≤ Φ(a) gilt f¨ur t ∈ [ a, b ], was gerade die Aussage (8.83) darstellt. In gewissen Situationen gew¨ahrleistet auch die obere Lipschitzeigenschaft (8.78) die Existenz der L¨osungen der zugeh¨origen Anfangswertprobleme, so zum Beispiel bei Anfangswertproblemen f¨ur autonome Differenzialgleichungen y  = f ( y ),

t ∈ [ a, b ],

y ( a ) = y0 ,

(8.84)

was in dem folgenden Theorem ohne Beweis festgehalten wird (siehe Strehmel/Weiner [98]). Theorem 8.64 Gen¨ugt die (von t unabh¨angige) Funktion f : R N → R N einer oberen Lipschitzbedingung (8.78), gilt also 2

f (u) − f (v ) , u − v

3



M ||u − v ||2 ,

u, v ∈ R N ,

(8.85)

mit einer Konstanten M ∈ R, so besitzt das Anfangswertproblem (8.84) genau eine L¨osung. Beispiel 8.65 Das autonome Anfangswertproblem y  = −y 3 ,

t ∈ [ a, b ],

y ( a ) = y0 ∈ R,

ist dissipativ (bez¨uglich des Skalarprodukts  u, v  = uv f¨ur u, v ∈ R ) und besitzt nach Theorem 8.64 eine eindeutige L¨osung. Man beachte, dass Theorem 7.2 hier nicht anwendbar ist, denn die Funktion f ( y ) = −y 3 f¨ur y ∈ R gen¨ugt keiner globalen Lipschitzbedingung von der Form (7.4).  Zum Abschluss dieses einf¨uhrenden Abschnitts werden untere und obere Lipschitzschranken f¨ur stetig partiell differenzierbare Funktionen angegeben. Lemma 8.66 Die Funktion f : [ a, b ] × R N → R N sei stetig partiell differenzierbar. (a) Mit der Notation aus (8.79) gilt m( t ) =

inf

0=w∈R N

 Dy f ( t, u )w , w  ||w ||2

f¨ur t ∈ [ a, b ],

u, w ∈ R N .

(8.86)

(b) Die Funktion f gen¨ugt bez¨uglich einer gegebenen Funktion M : [ a, b ] → R der oberen Lipschitzbedingung (8.78) genau dann, wenn Folgendes gilt, 2

Dy f ( t, u )w , w

3



M ( t )||w ||2

f¨ur t ∈ [ a, b ],

u, w ∈ R N .

Abschnitt 8.9

217

Steife Differenzialgleichungen

B EWEIS . Der Mittelwertsatz f¨ur vektorwertige Funktionen bedeutet f ( t, u ) − f ( t, v )

Z

=

1

0

 Dy f ( t, v + s( u − v )) ds ( u − v )

beziehungsweise 2

f ( t, u ) − f ( t, v ) , u − v

3

4 4 Z

=

0

1

5 5  Dy f ( t, v + s( u − v )) ds ( u − v ) , u − v . (8.87)

Auf der anderen Seite gilt  1 Dy f ( t, u )w = lim h f ( t, u + hw ) − f ( t, u ) , h→0

u, w ∈ R N ,

t ∈ [ a, b ]. (8.88)

Aus den Darstellungen (8.87) und (8.88) erh¨alt man unmittelbar die Aussagen (a) und (b) des Lemmas.

8.9.3 Das implizite Euler– Verfahren fur ¨ steife Differenzialgleichungen In diesem Abschnitt wird f¨ur das in Beispiel 8.60 auftretende g¨unstige Verhalten des impliziten Euler Verfahrens bei der L¨osung steifer Anfangswertprobleme eine mathematische Erkl¨arung geliefert. Das folgende Lemma dient dabei als Vorbereitung. Lemma 8.67 Die Funktion f : [ a, b ] ×R N → R N gen¨uge der oberen Lipschitzbedingung (8.78) mit M ( t ) ≡ M. Je nach der Situation (i) M ≤ 0 beziehungsweise (ii) M > 0 gilt dann f¨ur beliebige u, v ∈ R N sowie t ∈ [ a, b ] die folgende Absch¨atzung, ⎫   ⎬  u − v − h(f ( t, u ) − f ( t, v ) )  ∀ h > 0, (i) M ≤ 0 : ||u − v || ≤ (8.89) ....... ...... (ii) M > 0 : ≤ ( 1 + κh ) ∀ 0 < h ≤ H,⎭ mit der Zahl 0 < H < 1/M und der Konstanten κ := M/(1 − HM) in der Situation (ii). B EWEIS . Nach Voraussetzung gilt 2 3 h f (t, u) − f (t, v), u − v



hM||u − v ||2

beziehungsweise 2 3 − h f ( t, u ) − f ( t, v ) , u − v 2   3 = u − v − h f ( t, u ) − f ( t, v ) , u − v    ≤  u − v − h f ( t, u ) − f ( t, v )  ||u − v ||.

(1 − hM )||u − v ||2 ≤

2

u − v, u − v

3

Die Behauptung im Fall M ≤ 0 folgt daraus unmittelbar, und im Fall M > 0 ergibt sie sich nach der weiteren Rechnung 1 1 − hM

=

M 1 + h 1 − hM







 M 1 + h. 1 − HM

218

Kapitel 8 Mehrschrittverfahren f¨ur Anfangswertprobleme

F¨ur gleichabst¨andige Knoten t = a + h, = 0, 1, . . . , n, mit h = ( b − a )/n ist das implizite Euler Verfahren zur L¨osung von y  = f ( t, y ), y ( a ) = y0 von der Form (vergleiche Bemerkung 8.42) u+1

=

u + hf ( t+1 , u+1 ),

= 0, 1, . . . , n − 1,

u0 := y0, (8.90)

und besitzt f¨ur eine hinreichend glatte Funktion f die Konsistenzordnung p = 1, das heißt, f¨ur den lokalen Verfahrensfehler (vergleiche (8.5) auf Seite 175) η ( t, h )

=

y ( t + h ) − y ( t ) − hf ( t + h, y ( t + h )),

0 < h ≤ b − t,

gilt die Absch¨atzung ||η ( t, h ) ||



Ch2 ,

0 ≤ h ≤ b − t,

mit einer von h und t unabh¨angigen Konstanten C ≥ 0. Das folgende Theorem liefert die wesentliche Konvergenzaussage f¨ur das implizite Euler Verfahren zur L¨osung steifer Differenzialgleichungen. Man beachte, dass die Konstante K hier im Falle M ≤ 0 moderat ausf¨allt. Theorem 8.68 Erf¨ullt die Funktion f : [ a, b ] × R N → R N die obere Lipschitzbedingung (8.78) mit M ( t ) ≡ M, so gilt f¨ur den globalen Verfahrensfehler des impliziten Euler Verfahrens (8.90) die folgende Absch¨atzung, max ||u − y ( t ) || ≤ Kh,

=0,...,n

⎧ ⎨

C(b − a),   mit K := C ⎩ eM (b−a)/(1−HM ) − 1 ,

⎫ (8.91) falls M ≤ 0 ⎬

M

.......

M >0⎭

mit der Einschr¨ankung 0 < h ≤ H < 1/M im Fall M > 0. B EWEIS . Mit den Setzungen e = u − y ,

y := y ( t ),

η = η ( t , h ),

= 0, 1, . . . , n, = 0, 1, . . . , n − 1,

gilt f¨ur = 0, 1, . . . , n − 1 y+1 = y + hf ( t+1 , y+1 ) + η , u+1 = u + hf ( t+1 , u+1 ), und daher   e+1 − h f ( t+1 , u+1 ) − f ( t+1 , y+1 )

=

e − η .

(8.92)

Abschnitt 8.9

219

Steife Differenzialgleichungen

Im Fall M ≤ 0 erh¨alt man aus (8.89) und (8.92)    ||e+1 || ≤  e+1 − h f ( t+1 , u+1 ) − f ( t+1 , y+1 )  ≤ ||e || + ||η ||



=

||e − η ||

||e || + Ch . 2

Wegen e0 = 0 erh¨alt man mittels vollst¨andiger Induktion die angegebene Absch¨atzung (8.91) f¨ur den Fall M ≤ 0. F¨ur M > 0 geht man vergleichbar vor: wiederum aus (8.89) und (8.92) erh¨alt man mit κ := M/(1 − MH) die folgenden Absch¨atzungen,    ||e+1 || ≤ (1 + κh)e+1 − h f ( t+1 , u+1 ) − f ( t+1 , y+1 )    1 ≤ ( 1 + κh )||e || + 1−M ||η ||, ≤ (1 + κh) ||e || + ||η || H und mit Lemma 7.12 erh¨alt man die Absch¨atzung (8.91) auch f¨ur den Fall M > 0. Dies komplettiert den Beweis des Theorems.

8.9.4 Steife Differenzialgleichungen in den Anwendungen Die Linienmethode bei der W¨armeleitungsgleichung Ein Anfangsrandwertproblem f¨ur die r¨aumlich eindimensionale W¨armeleitungsgleichung ist gegeben durch ∂u ∂t

=

∂2 u , ∂x2

0 < x < L,

u( 0, t ) = u( L, t ) = 0, u( x, 0 ) = f (x),

0 < t < T,

t ∈ [ 0, T ], x ∈ [ 0, L ],

wobei f : [ 0, L ] → R eine gegebene Funktion ist. Die Funktion u : [ 0, L ] × [ 0, T ] → R soll numerisch bestimmt werden. F¨ur a¨ quidistante Gitterpunkte xj = j∆x,

j = 1, 2, . . . , N − 1

( ∆x = L/N ),

und eine hinreichend glatte Funktionen u ergibt eine Approximation von

∂2 u ( xj , t ), 1 ≤ j ≤ ∂x2

N − 1, durch zentrale Differenzenquotienten 2. Ordnung Folgendes (Details werden sp¨ater vorgestellt, siehe Lemma 9.6): ∂2 u ( xj , t ) ∂x2

=

u( xj+1 , t ) − 2u( xj , t ) + u( xj−1 , t ) + O(( ∆x )2 ). ( ∆x )2

Vernachl¨assigung des Terms O(( ∆x )2 ) f¨uhrt auf das folgende gekoppelte System von N − 1 gew¨ohnlichen Differenzialgleichungen f¨ur yj ( t ) ≈ u(xj , t), yj ( t ) =

 1  yj+1( t ) − 2yj ( t ) + yj−1 ( t ) , (∆x)2

yj (0) = f ( xj ),

0 < t < T, j = 1, 2, . . . , N − 1,

⎫ ⎬ ⎭

(8.93)

220

Kapitel 8 Mehrschrittverfahren f¨ur Anfangswertprobleme

(mit y0 ( t ) := yN ( t ) := 0) beziehungsweise in kompakter Form y ( t ) = −Ay ( t ),

y(0) = w0 ,

0 < t < T,

mit 

y(t) =

y1( t ), . . . , yN −1( t ) ⎛ 2 −1 ⎜ ⎜ ⎜ −1 p p p 1 ⎜ ⎜ A = (∆x)2 ⎜ pp ⎜ p ⎜ ⎝

 , ⎞

w0

=



 f ( x1 ), . . . , f ( xN −1 ) ,

⎟ ⎟ ⎟ p ⎟ ⎟ ∈ R (N −1)×( N −1) . ⎟ pp p −1 ⎟ ⎟ ⎠ −1 2 pp

Die vorgestellte Vorgehensweise, die W¨armeleitungsgleichung durch ein System gew¨ohnlicher Differenzialgleichungen bez¨uglich der Zeit t mittels Diskretisierung in Ortsrichtung x zu approximieren, wird als Linienmethode bezeichnet. Die Eigenwerte λk der symmetrischen Matrix A lassen sich explizit berechnen (eine Herleitung wird in Lemma 9.12 nachgereicht), λk

=

 kπ  4 sin 2 2N (∆x)2

0

>

f¨ur k = 1, 2, . . . , N − 1,

so dass das System (8.93) bez¨uglich des Skalarprodukts  u, v  = Wegen λN −1



N −1 j=1

uj vj dissipativ ist.

4 ( ∆x )2

ist es f¨ur kleine Ortsschrittweiten ∆x sehr steif.

Weitere Themen und Literaturhinweise Die auf Seite 170 genannten Lehrb¨ucher zum Thema Einschrittverfahren enthalten allesamt auch Einf¨uhrungen u¨ ber Mehrschrittverfahren zur numerischen L¨osung nichtsteifer Anfangswertprobleme. Im Folgenden werden einige weitere Themenkreise ansatzweise vorgestellt. (a) Asymptotische Entwicklungen des globalen Verfahrensfehlers existieren auch f¨ur Mehrschrittverfahren. Wie sich herausstellt, liegen f¨ur spezielle Mehrschrittverfahren wie etwa die implizite Trapezregel oder das explizite Zweischrittverfahren von Gragg [35] asymptotische Entwicklungen in h2 vor, bei denen man wie schon bei der summierten Trapezregel angepasste Extrapolationsverfahren verwendet, etwa das Gragg-Bulirsch-Stoer-Verfahren aus Bulirsch/ Stoer [9]. Es besteht auch die M¨oglichkeit einer simultanen Anwendung von Extrapolationsverfahren und Schrittweitensteuerungsstrategien. Einzelheiten hierzu findet man beispielsweise in Deuflhard [17], [18] und in Hairer / Nørsett /Wanner [47].

¨ Ubungsaufgaben

221

(b) F¨ur stetig partiell differenzierbare Funktionen f l¨asst sich eine obere Lipschitzbedingung auch noch sinnvoll definieren, falls die zugrunde liegende Vektornorm || · || : R N → R + nicht durch ein Skalarprodukt induziert ist. Hierzu bedient man sich der logarithmischen Norm µ[·] : R N×N → R, die folgendermaßen definiert ist, ||I + hA|| − 1 , h

µ[A] := lim

h→0+

A ∈ R N×N ,

(8.94)

wobei || · || : R N×N → R + die durch die zugrunde liegende Vektornorm induzierte Matrixnorm bezeichnet. Die logarithmische Norm ist unabh¨angig voneinander von Dahlquist [13] und Lozinski [64] eingef¨uhrt worden. Deren allgemeine Eigenschaften sowie konkrete Darstellungen f¨ur einige durch gel¨aufige Vektornormen induzierte logarithmische Normen werden in den Aufgaben 8.11 8.16 vorgestellt. Mithilfe logarithmischer Normen lassen sich zum Beispiel Aussagen u¨ ber die stetige Abh¨angigkeit von den Anfangswerten treffen. Gilt etwa bez¨uglich einer gegebenen Funktion M : [ a, b ] → R eine verallgemeinerte obere Lipschitzbedingung von der Form µ[Dy f ( t, u ) ]



f¨ur t ∈ [ a, b ],

M (t)

u ∈ RN ,

so beh¨alt die Fehlerabsch¨atzung (8.81) u¨ ber die stetige Abh¨angigkeit von den Anfangswerten ihre G¨ultigkeit (Dekker/Verwer [15]). (c) Neben dem impliziten Euler Verfahren eignen sich viele andere implizite Ein und Mehrschrittverfahren zur numerischen L¨osung steifer Anfangswertprobleme. Ausf¨uhrliche Behandlungen dieses Themas findet man beispielsweise in Deuflhard/Bornemann [20], Hairer/Wanner [48] oder Strehmel/Weiner [98].

¨ Ubungsaufgaben Aufgabe 8.1 Man zeige, dass ein lineares m Schrittverfahren genau dann f¨ur alle Anfangswertprobleme mit hinreichend glatten Funktionen f : [ a, b ] × R N → R N die Konsistenzordnung p besitzt, wenn mit der Notation m    L[y ( t ), h] := αj y ( t + jh ) − hβj y  ( t + jh ) j=0

die Beziehungen

L [t0 , h]

=

L[t1 , h]

= . . . = L [tp , h] = 0 erf¨ullt sind.

Aufgabe 8.2 Man bestimme mithilfe des Gleichungssystems (8.18) die (genaue) Konsistenzordnung des Zweischrittverfahrens  h f ( t+2 , u+2 ) + 4f ( t+1 , u+1 ) + f ( t , u ) . u+2 − u = 3

F¨ur das Mehrschrittverfahren u+3 + γ ( u+2 − u+1 ) − u

=

h

 3+γ f ( t+2 , u+2 ) + f ( t+1 , u+1 ) 2

bestimme man die von γ ∈ R abh¨angige Konsistenzordnung p. F¨ur welche Werte von γ ∈ R ist das Verfahren nullstabil? Aufgabe 8.3 Man zeige, dass f¨ur jede Zahl m ∈ N (bis auf Normierung) genau ein m-schrittiges lineares Verfahren

222

Kapitel 8 Mehrschrittverfahren f¨ur Anfangswertprobleme m 

αj u+j = h

j=0

m 

βj f ( t+j , u+j )

j=0

mit der Konsistenzordnung 2m existiert, aber keines mit der Konsistenzordnung 2m + 1. Hinweis: F¨ur p = 2m und p = 2m + 1 betrachte man jeweils das Konsistenz-Gleichungssystem (8.18) f¨ur die Unbekannten αj , j = 0, 1, . . . , m, und −βj , j = 0, 1, . . . , m, und argumentiere wie zum Ende des Beweises von Theorem 8.54. Aufgabe 8.4 (a) F¨ur die homogene Differenzengleichung u+3 − 4u+2 + 5u+1 − 2u = 0,

 = 0, 1, . . .

gebe man die allgemeine L¨osung an. (b) Man l¨ose folgende Differenzengleichungen: u+2 − 2u+1 − 3u = 0,

u0 = 0,

u+1 − u = 2 ,

u1 = 1,

u0 = 0,



u+1 − u = ,

u0 = 0,

u+2 − 2tu+1 + u = 0,

u0 = 1,

u1 = t ∈ ( –1, 1 ).

Aufgabe 8.5 (a) Man zeige, dass jede L¨osung y ( t ) der skalaren Differenzialgleichung 2. Ordnung y  = f ( t, y ),

t ∈ [ a, b ],

(8.95)

der folgenden Identit¨at gen¨ugt (f¨ur t, t ± h ∈ [ a, b ] ): y ( t + h ) − 2y ( t ) + y ( t − h ) Z 1   ( 1 − s ) f ( t + sh, y ( t + sh ) ) + f ( t − sh, y ( t − sh ) ) ds. = h2 0

(8.96)

(b) Zur numerischen L¨osung einer Anfangswertaufgabe f¨ur (8.95) setze man in (8.96) t = t+m−1 und ersetze die Funktion f ( s, y ( s )) durch dasjenige Polynom P ∈ Πm−1 , welches die St¨utzpunkte (t+j , f+j ), j = 0, . . . , m− 1 interpoliert, wobei die u¨ bliche Notation f+j = f (t+j , u+j ) verwendet wird. Daraus leite man die expliziten linearen St¨ormer Verfahren u+m − 2u+m−1 + u+m−2

=

h2

m−1 

σk ∇k f+m−1 ,

 = 0, 1, . . . , n − m

k=0

mit den Koeffizienten σk = ( –1 )k

Z 1 0

 −s 

(1 − s)

k

+

 s  k

ds

her. F¨ur m = 2 und m = 3 gebe man die Verfahren an. Aufgabe 8.6 Man beweise: F¨ur ein nullstabiles lineares Mehrschrittverfahren der Konsistenzordnung p gilt ξ1 ( hλ ) = ehλ + O( hp+1 )

f¨ur h → 0,

wobei ξ1 ( hλ ) die Nullstelle des Polynoms Q( ξ, hλ ) = ρ( ξ ) − hλσ ( ξ ) mit ξ1 ( hλ ) → ξ1 (0) = 1 f¨ur hλ → 0 bezeichnet. Hier ist ρ das erzeugende Polynom, und σ ( ξ ) := βm ξ m + . . . + β0 ∈ Πm .

¨ Ubungsaufgaben

223

Aufgabe 8.7 F¨ur die F¨alle m = 1, 2, 3 rechne man die auf Seite 197 angegebenen expliziten Darstellungen der BDF-Formeln nach und und u¨ berpr¨ufe jeweils die Nullstabilit¨at. Aufgabe 8.8 Das zweischrittige Verfahren   u+2 + 4u+1 − 5u = h 4f ( t+1 , u+1 ) + 2f ( t , u )

(8.97)

besitzt unter den u¨ blichen Glattheitsvoraussetzungen die Konsistenzordnung p = 3. Ist es nullstabil? Man wende es mit der Schrittweite h > 0 und Startwerten u0 = 1 und u1 = e−h auf die Testgleichung y  = −y, y ( 0 ) = 1 an und zeige, dass mit t = 0 und h = h = t/ f¨ur  → ∞ Folgendes gilt:   1 4( − 216 h 1 + O( h ))(–5 − 3h + O( h2 ) ) , u = (1 + O( h4 ) ) e−t/ + O( h4 ) und dabei der erste Summand f¨ur  → ∞ gegen e−t konvergiert und der zweite Summand sich f¨ur große  wie −

t4 ( –5 ) 3t/5 e 216 4

verh¨alt. Aufgabe 8.9 (Numerische Aufgabe) Man l¨ose numerisch das Anfangswertproblem y  = −y,

y(0) = 1,

mit dem •



zweischrittigen Verfahren (8.97), einmal mit den Startwerten u0 = 1, u1 = e−h und dann auch mit √ den Startwerten u0 = 1, u1 = λ1 := −2 − 3h + 9 + 6h + 4h2 ; und f¨ur γ = 0 und γ = 9 mit dem dreischrittigen Verfahren  3+γ u+3 + γ ( u+2 − u+1 ) − u = h f ( t+2 , u+2 ) + f ( t+1 , u+1 ) 2

(vergl. Aufgabe 8.2) mit den Startwerten u0 = 1, u1 = e−h und u2 = e−2h . Die Schrittweite sei jeweils h = 0.01. Geben Sie tabellarisch zu den Gitterpunkten t = t = h,  = 2, 3, . . . , 100 die exakte L¨osung y ( t ), die N¨aherung uh ( t ), den Fehler uh ( t ) − y ( t ) und im Falle des t4 (−5) 3t/5 ersten Verfahrens − 216 e an. 4 Aufgabe 8.10 (Numerische Aufgabe) Man l¨ose das Anfangswertproblem y  ( t ) = λy ( t ),

t ∈ [ 0, 15 ],

y(0) = 1, f¨ur λ = −1 und λ = 1 jeweils mit den beiden folgenden Pr¨adiktor Korrektor Verfahren: 1. Das Verfahren von Milne besitzt Pr¨adiktor und Korrektor (0)

u+4 = u + (ν+1)

u+4

 4  h 2f+3 − f+2 + 2f+1 3

= u+2 +

 1  (ν) h f+4 + 4f+3 + f+2 , 3

ν = 0, 1, . . . .

224

Kapitel 8 Mehrschrittverfahren f¨ur Anfangswertprobleme

2. Das Verfahren von Hamming besitzt den gleichen Pr¨adiktor wie das Verfahren von Milne, und der Korrektor ist hier  9 3  (ν ) ν+1) u(+4 − u+3 + 18 u+1 = h f+4 + 2f+3 − f+2 . 8

8

(ν ) ν) ). F¨ur die Anlaufrechnung verwende man das Hierbei bedeutet f = f ( t , u ) und f+4 = f ( t+4 , u(+1 klassische Runge Kutta Verfahren und f¨ur die Korrektoriteration das Abbruchkriterium  ( ν+1)  ν)  u − u(+4 +4 ≤ 10−5 . ν) |u(+4 |

Man verwende jeweils die Schrittweite h = 0.1 und gebe tabellarisch zu den Gitterpunkten t = 0.1, 0.2, 0.3, . . . , 1.0, 2.0, 3.0, . . . , 15, die exakte L¨osung y ( t ), die N¨aherung uh ( t ), den Fehler uh ( t ) − y ( t ) und die Anzahl der durchgef¨uhrten Iterationsschritte an. Aufgabe 8.11 F¨ur die Matrix ⎛ A = ⎝

−10 12 12 −20

⎞ ⎠ ∈ R 2×2

berechne man die logarithmischen Normen µ∞ [A], µ1 [A] und µ2 [A]. Aufgabe 8.12 Diskretisierung der W¨armeleitungsgleichung mit Neumann Randbedingungen ∂u ∂t

=

∂2 u + f ( x, t ), ∂x2

∂u (0, t ) ∂x

=

∂u (1, t ) = 0, ∂x

0 ≤ x ≤ 1,

a ≤ t ≤ b, ......

u(x, 0) = g(x),

,

0 ≤ x ≤ 1,

f¨uhrt mithilfe zentraler Differenzenquotienten erster und zweiter Ordnung (bei a¨ quidistanter Ortsschrittweite ∆x = 1/N ) auf ein Anfangswertproblem f¨ur ein System von N + 1 gew¨ohnlichen Differenzialgleichungen y  ( t ) = Ay ( t ) + z ( t ),

y ( a ) = z0

mit einer geeigneten Matrix A ∈ R (N +1 )×(N +1) . Man gebe eine Matrixnorm an, so dass f¨ur die zugeh¨orige logarithmische Norm µ[A] ≤ 0 gilt. Aufgabe 8.13 Man weise µ[A] =

lim

h→+0

ln||ehA || h

f¨ur A ∈ R N×N

nach. Hinweis: Zun¨achst zeige man µ[A] =

lim

h→+0

||ehA || − 1 . h

Aufgabe 8.14 Man weise nach, dass f¨ur Matrizen A, B ∈ R N×N und nichtnegative Zahlen c ∈ R, c ≥ 0 Folgendes gilt, µ[cA] = cµ[A],

µ[A + B ]



µ[A] + µ[B ].

¨ Ubungsaufgaben

225

Aufgabe 8.15 Man zeige: (a) Ist die Norm || · || : KN → R durch ein Skalarprodukt  ·, · : KN × KN → R induziert, so gilt f¨ur die zugeh¨orige logarithmische Norm die Darstellung µ[A] =

max

x∈K N : || x ||=1

Re  Ax, x

f¨ur A ∈ KN×N ,

wobei man im reellen Fall K = R den Ausdruck Re  Ax, x durch  Ax, x ersetzen kann. (Die Definition (8.94) f¨ur logarithmische Normen l¨asst sich auch f¨ur komplexe Matrizen beziehungsweise f¨ur Normen auf komplexen R¨aumen verwenden. ) (b) F¨ur eine durch eine Vektornorm || · || : CN → R induzierte logarithmische Norm µ[·] : CN×N → R gilt die Ungleichung µ[A] ≥ max Re λ λ∈σ(A)

f¨ur A ∈ CN×N .

Gilt hier im Allgemeinen Gleichheit? Aufgabe 8.16 Sei µ∞ [·] : R N×N → R die zur Maximumnorm || · ||∞ : R N → R geh¨orende logarith¨ mische Norm. Man weise f¨ur 0 = A ∈ R N×N die folgende Aquivalenz nach: µ∞ [A] ≤ 0

⇐⇒

||I + µA||∞ ≤ 1

∀ 0 < µ ≤ ||A||∞ .

226

9

Randwertprobleme bei gew¨ohnlichen Differenzialgleichungen

9.1 Problemstellung, Existenz, Eindeutigkeit 9.1.1 Problemstellung Viele praxisrelevante Fragestellungen f¨uhren auf Randwertprobleme f¨ur gew¨ohnliche Differenzialgleichungen. Beispiel 9.1 Die zeitlich station¨are Temperaturverteilung in einem d¨unnen Metallstab wird beschrieben durch das folgende Randwertproblem: c

∂2 u ∂x2

= f ( x ),

u( a ) = α,

a < x < b, u( b ) = β,

wobei f : [ a, b ] → R eine gegebene Funktion ist, die anliegende, zeitlich unabh¨angige W¨armequellen darstellt. Die Funktion u : [ a, b ] → R beschreibt die zeitlich unabh¨angige Temperaturverteilung in dem Stab und ist gesucht. Die Temperaturen (hier mit α beziehungsweise β bezeichnet) an den beiden R¨andern sind vorgegeben, und c > 0 stellt eine Materialkonstante dar.  Randwertprobleme f¨ur gew¨ohnliche Differenzialgleichungen sind Gegenstand des vorliegenden Kapitels. Definition 9.2 Ein Randwertproblem f¨ur eine gew¨ohnliche Differenzialgleichung zweiter Ordnung mit separierten Randbedingungen ist von der Form u  = f ( x, u, u  ), u( a ) = α,

x ∈ [ a, b ],

u( b ) = β,

(9.1) (9.2)

auf einem endlichen Intervall [ a, b ] und mit gegebenen Zahlen α, β ∈ R sowie einer Funktion f : [ a, b ] × R 2 → R, und gesucht ist eine zweimal stetig differenzierbare Funktion u : [ a, b ] → R mit den Eigenschaften (9.1) (9.2). Die Notation in (9.1) ist eine u¨ bliche Kurzform f¨ur u  ( x ) = f ( x, u( x ), u ( x )), x ∈ [ a, b ]. Oft werden solche Randwertprobleme auch in abgeschw¨achter Form betrachtet, bei der eine stetige L¨osung u : [ a, b ] → R der Differenzialgleichung u  = f ( x, u, u  ) lediglich auf dem offenen Intervall ( a, b ) gesucht wird (und die zweimalige stetige Differenzierbarkeit von u lediglich dort gefordert wird). Zur Vereinfachung der Situation werden Randwertprobleme im weiteren Verlauf in der spezielleren Fassung (9.1) (9.2) betrachtet.

Abschnitt 9.1

227

Problemstellung, Existenz, Eindeutigkeit

Bemerkung 9.3 In den Anwendungen treten auch Randwertprobleme f¨ur gew¨ohnliche Differenzialgleichungen h¨oherer Ordnung und f¨ur Systeme von gew¨ohnlichen Differenzialgleichungen auf: Ein Randwertproblem f¨ur eine gew¨ohnliche Differenzialgleichung n ter Ordnung mit linearen Randbedingungen ist von der Form



u(n) = f ( x, u, u , . . . , u(n−1) ), n−1 

cjk u(k ) ( a ) + djk u(k ) ( b )



x ∈ [ a, b ], j = 0, 1, . . . , n − 1

= αj ,

(9.3) (9.4)

k=0

mit einer gegebenen Funktion f : [ a, b ] × R n → R und gegebenen reellen Koeffizienten cjk , djk und αj ∈ R sowie einer zu bestimmenden n mal stetig differenzierbaren Funktion u : [ a, b ] → R. Ein Randwertproblem f¨ur ein System von n gew¨ohnlichen Differenzialgleichungen erster Ordnung mit linearen Randbedingungen ist von der Form



U  = F ( x, U ),

x ∈ [ a, b ],

AU ( a ) + BU ( b ) = U0

(9.5) (9.6)

mit einer gegebenen Funktion F : [ a, b ] × R n → R n und Matrizen A, B ∈ R n×n und einem Vektor U0 ∈ R n , und mit einer zu bestimmenden differenzierbaren vektorwertigen Funktion U : [ a, b ] → R n . Jedes Randwertproblem von der Form (9.3) (9.4) l¨asst sich mit den Setzungen U1 = u, U2 = u  , . . . , Un = u(n−1) in ein Randwertproblem f¨ur ein System von n gew¨ohnlichen Differenzialgleichungen erster Ordnung von der Form (9.5) (9.6) u¨ berf¨uhren.  Die folgenden Betrachtungen beschr¨anken sich auf die in (9.1) (9.2) betrachteten Randwertprobleme f¨ur gew¨ohnliche Differenzialgleichungen zweiter Ordnung.

9.1.2 Existenz und Eindeutigkeit der L¨osung Wie schon bei Anfangswertproblemen f¨ur gew¨ohnliche Differenzialgleichungen ist auch bei Randwertproblemen zun¨achst die Frage der Existenz und Eindeutigkeit der L¨osung zu behandeln. Beispiel 9.4 Die homogene lineare gew¨ohnliche Differenzialgleichung zweiter Ordnung u  ( x ) + u( x )

=

0,

a < x < b,

besitzt die allgemeine L¨osung u( x ) = c1 sin x + c2 cos x f¨ur x ∈ [ a, b ], mit Koeffizienten c1 , c2 ∈ R, wobei aus der Theorie der gew¨ohnlichen Differenzialgleichungen bekannt ist, dass hierf¨ur keine weiteren L¨osungen existieren. Im Folgenden sollen verschiedene Randbedingungen (auf unterschiedlichen Grundintervallen) betrachtet werden.

228

Kapitel 9 Randwertprobleme

(a) Das Randwertproblem u  + u = 0

auf [ 0, π/2 ],

u( 0 ) = 0,

u( π/2 ) = 1,

besitzt die eindeutige L¨osung u( x ) = sin x, x ∈ [ 0, π/2 ]. (b) Bei dem Randwertproblem u  + u = 0

auf [ 0, π ],

u( 0 ) = 0,

u( π ) = 0,

stellt jede Funktion von der Gestalt u( x ) = c1 sin x, x ∈ [ 0, π ], mit c1 ∈ R eine L¨osung dar. (c) Schließlich existiert f¨ur das Randwertproblem u  + u = 0

auf [ 0, π ],

u( 0 ) = 0,

u( π ) = 1, 

keine L¨osung.

Durch das vorangegangene Beispiel 9.4 wird deutlich, dass es bei Randwertproblemen f¨ur gew¨ohnliche Differenzialgleichungen keine so allgemein g¨ultige Existenz– und Eindeutigkeitsaussage wie bei Anfangswertproblemen gibt. Unter gewissen Zusatzbedingungen lassen sich jedoch Existenz und Eindeutigkeit nachweisen. Ein entsprechendes Resultat f¨ur die in (9.5) (9.6) beschriebene allgemeine Situation bei Systemen von gew¨ohnlichen Differenzialgleichungen erster Ordnung findet man beispielsweise in Stoer/Bulirsch [96]. Es wird nun noch ein Spezialfall des Randwertproblems (9.1) (9.2) bei gew¨ohnlichen Differenzialgleichungen zweiter Ordnung betrachtet. Es handelt sich hierbei um das folgende Sturm Liouvillesche Randwertproblem mit homogenen Randbedingungen, −u  ( x ) + r ( x )u( x ) = ϕ( x ), u( a ) = u( b ) = 0,

a ≤ x ≤ b,

(9.7) (9.8)

wobei r, ϕ : [ a, b ] → R vorgegebene stetige Funktionen sind. Hier gilt die folgende Aussage: Theorem 9.5 Das Randwertproblem (9.7) (9.8) besitzt f¨ur stetige Funktionen r, ϕ : [ a, b ] → R eine eindeutig bestimmte L¨osung u ∈ C 2 [ a, b ], falls r nicht-negativ ist, r ( x ) ≥ 0 f¨ur x ∈ [ a, b ]. B EWEIS . Siehe Kress [60], Theorem 11.4. Zur numerischen L¨osung von solchen Randwertproblemen (9.7) (9.8) und allgemeiner von Randwertproblemen von der Form (9.1)–(9.2) werden im Folgenden Differenzenverfahren, Variationsmethoden (Galerkin Verfahren) und Einfachschießverfahren vorgestellt.

9.2 Differenzenverfahren 9.2.1 Numerische Differenziation In dem folgenden Lemma wird der sp¨ater ben¨otigte zentrale Differenzenquotient zweiter Ordnung (zur Approximation der zweiten Ableitung einer Funktion von einer Ver¨anderlichen) definiert und seine Approximationseigenschaften behandelt. Bei dieser Gelegenheit werden gleich noch die g¨angigen Differenzenquotienten zur Approximation der ersten Ableitung vorgestellt.

Abschnitt 9.2

229

Differenzenverfahren

Lemma 9.6 (a) F¨ur u ∈ C 2 [ a, b ] gelten mit geeigneten Zahlen θ1 , θ2 ∈ [ 0, 1 ] die Beziehungen u( x + h ) − u( x ) h = u  ( x ) + u  ( x + θ1 h ) h 2 h u( x ) − u( x − h ) = u  ( x ) − u  ( x − θ2 h ) h 2

(vorw¨arts gerichteter Differenzenquotient) (r¨uckw¨arts

).

......

(b) F¨ur u ∈ C 3 [ a, b ] gilt mit einer geeigneten Zahl θ ∈ [ –1, 1 ] Folgendes, u( x + h ) − u( x − h ) 2h

= u  ( x ) + u(3) ( x + θh )

h2 6

(zentraler Differenzenquotient 1. Ordnung) .

(c) F¨ur u ∈ C 4 [ a, b ] gilt mit einer geeigneten Zahl θ ∈ [ –1, 1 ] Folgendes, u( x + h ) − 2u( x ) + u( x − h ) h2

=

h2

u  ( x ) − u(4) ( x + θh ) 12

(zentraler Differenzenquotient 2. Ordnung).

Die rechts vorgestellten Bezeichnungen beziehen sich auf die linke Seite der jeweiligen Gleichung. B EWEIS . Die Aussagen erh¨alt man mittels geeigneter Taylorentwicklungen der Funktion u in x. (a) Hier verwendet man u( x ± h )

=

u( x ) ± u  ( x )h + u  ( x ± θ1/2 h )

h2 . 2

(b) Eine weitere Taylorentwicklung der Funktion u in x liefert mit geeigneten Zahlen θ1 , θ2 ∈ [ 0, 1 ]

u( x ± h )

=

h2

u( x ) ± u  ( x )h + u  ( x ) 2

h3

± u(3) ( x ± θ1/2 h ) 6 ,

und eine Subtraktion f¨uhrt auf die angegebene Darstellung, u( x + h ) − u( x − h ) 2h

  h2 = 0 + u ( x )h + 0 + u(3) ( x + θ1 h ) + u(3) ( x − θ2 h ) 12 (∗)

= u  ( x )h + u(3) ( x + θh )

h2 , 6

mit einer Zahl θ ∈ [ –1, 1 ], wobei man die Identit¨at (∗) mithilfe des Mittelwertsatzes erh¨alt. (c) Ganz entsprechend erh¨alt man mit geeigneten Zahlen θ1 , θ2 ∈ [ 0, 1 ] auch u( x ± h )

=

h2

u( x ) ± u  ( x )h + u  ( x ) 2

h3

± u( 3 ) ( x ) 6

h4

+ u(4) ( x ± θ1/2 h ) 24 ,

und daraus erh¨alt man f¨ur eine Zahl θ ∈ [ –1, 1 ] die folgende Identit¨at, u( x + h ) − 2u( x ) + u( x − h ) h2

 h2  = 0 + u  ( x ) + 0 + u(4) ( x ± θ1 h ) + u(4) ( x ± θ2 h ) 24 h2

= u  ( x ) + u(4) ( x + θh ) 12 .

230

Kapitel 9 Randwertprobleme

9.2.2 Der Ansatz fur ¨ Differenzenverfahren Im Folgenden wird der Ansatz f¨ur Differenzenverfahren vorgestellt, wobei dies anhand des speziellen Randwertproblems −u  + ru = ϕ, u( a ) = u( b ) = 0 mit der nichtnegativen Funktion r ≥ 0 geschieht1 . Das zugrunde liegende Intervall [ a, b ] wird mit Gitterpunkten versehen, die hier a¨ quidistant gew¨ahlt seien, xj = a + jh,

j = 0, 1, . . . , N

b−a . N

mit h =

(9.9)

Eine Betrachtung des genannten Randwertproblems −u  + ru = ϕ, u( a ) = u( b ) = 0 an diesen Gitterpunkten bei einer gleichzeitigen Approximation der Werte u  ( x1 ), . . . , u  ( xN −1 ) durch jeweils entsprechende zentrale Differenzenquotienten 2. Ordnung f¨uhrt auf das folgende gekoppelte System von N − 1 linearen Gleichungen, ⎫ −vj+1 + 2vj − vj−1 ⎬ ( ) ( ) + r x v = ϕ x , j = 1, 2, . . . , N − 1, j j j h2 (9.10) ⎭ (v0 = vN = 0) f¨ur die Approximationen vj ≈ u( xj ), j = 1, . . . , N − 1. Setzt man noch rj = r ( xj ),

ϕj = ϕ( xj ),

j = 1, 2, . . . , N − 1,

so erh¨alt man f¨ur das Gleichungssystem (9.10) die folgende Matrix Vektor Darstellung ⎛

⎞⎛





⎜ 2 + r1 h −1 ⎟ ⎜ v1 ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ −1 2 + r h2 p p p ⎟⎜ v ⎟ 2 ⎟⎜ 2 ⎟ 1 ⎜ ⎜ ⎟⎜ ⎟ ⎟⎜ ⎟ h2 ⎜ ⎜ ⎟ ⎜ ⎟ p pp pp p ⎜ ⎟ ⎜ ⎟ −1 p p ⎜ ⎟⎜ p ⎟ ⎜ ⎟⎜ ⎟ ⎝ ⎠⎝ ⎠ vN −1 −1 2 + rN −1 h2

  =: A ∈ R (N −1)×(N −1)



⎜ ϕ1 ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ϕ ⎟ ⎜ 2 ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ pp ⎟ ⎜ p ⎟ ⎜ ⎟ ⎜ ⎟ ⎝ ⎠ ϕN −1

2

=



R N −1 . (9.11)

Daraus erh¨alt man unmittelbar die folgende Fehlerdarstellung: Theorem 9.7 F¨ur das Differenzenschema (9.10) zur L¨osung des Randwertproblems (9.7) (9.8) mit r ≥ 0 gilt mit der Notation uj := u( xj ) und der Matrix A aus (9.11) die Fehlerdarstellung ⎛ 1 ⎜ A⎜ h2 ⎝

v1 − u1 ppp

vN −1 − uN −1 1

vergleiche (9.7) (9.8)

⎞ ⎟ ⎟ ⎠

⎛ =

h2 ⎜ − 12 ⎜ ⎝

u(4) ( x1 + θ1 h ) ppp

u (xN −1 + θN −1 h) (4 )

⎞ ⎟ ⎟. ⎠

(9.12)

Abschnitt 9.2

231

Differenzenverfahren

B EWEIS . Die Aussage folgt unmittelbar aus der zu (9.10) a¨ quivalenten Darstellung (9.11) und der aus Teil (c) in Lemma 9.6 resultierenden Identit¨at ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ u1 u(4) ( x1 + θ1 h ) ϕ1 ⎜ p ⎟ ⎟ 1 ⎜ h2 ⎜ p ⎟ ⎜ p ⎟ ⎜ ⎟. ppp A ⎜ pp ⎟ ⎠ = ⎝ p ⎠ + 12 ⎝ ⎠ h2 ⎝ uN −1 ϕN −1 u(4) (xN −1 + θN −1 h)

F¨ur den Nachweis der eindeutigen L¨osbarkeit des Gleichungssystems (9.10) und die gleichzeitige Herleitung eine Normabsch¨atzung des Fehlers in (9.12) wird im Folgenden • •

die Regularit¨at der Matrix A ∈ R (N −1)×( N −1) nachgewiesen sowie eine Absch¨atzung der Form h2 ||A−1 ||∞ ≤ C geliefert mit einer von der Zahl N unabh¨angigen Konstanten C > 0.

Hierzu sind ein paar Vorbereitungen erforderlich.

9.2.3 Das Konvergenzresultat fur ¨ Differenzenverfahren Definition 9.8 F¨ur zwei Matrizen S = ( sjk ), T = ( tjk ) ∈ R N×N schreibt man S ≤ T

:⇐⇒

sjk ≤ tjk

f¨ur j, k = 1, 2, . . . , N,

beziehungsweise a¨ quivalent dazu T ≥ S. Eine Matrix S ∈ R N×N heißt nichtnegativ, wenn S ≥ 0 gilt. Im Folgenden werden die unmittelbar erforderlichen Resultate u¨ ber nichtnegative Matrizen geliefert. Weitere Eigenschaften solcher Matrizen werden in Abschnitt 9.2.4 vorgestellt. Lemma 9.9 F¨ur gegebene Matrizen S, T ∈ R N×N gelten die folgenden Implikationen, 0 ≤ S ≤ T

=⇒

T ≥ 0

=⇒

||S ||∞ ≤ ||T ||∞ ;  ( ) 1   p   ||T ||∞ =  T pp  .  1 

(9.13) (9.14)



B EWEIS . Mit den Notationen S = ( sjk ), T = ( tjk ) ∈ R N×N erh¨alt man die Aussage (9.13) folgendermaßen, ||S ||∞ = =

max

j=1,... ,N

max

j=1,... ,N

N 

|sjk |

=

k=1 N 

|tjk |

=

max

j=1,...,N

N  k=1

sjk



max

j=1,...,N

||T ||∞ .

k=1

Aus den letzten beiden Identit¨aten resultiert dann auch die Aussage (9.14).

N  k=1

tjk

232

Kapitel 9 Randwertprobleme

Das folgende Theorem liefert die wesentlichen Hilfsmittel f¨ur den Beweis der nachfolgenden Fehlerabsch¨atzung bei Differenzenverfahren zur L¨osung von Randwertproblemen. Der Beweis von Teil (a) dieses Theorems wird in Abschnitt 9.2.4 nachgereicht. Theorem 9.10 (a) Die Matrix A ∈ R (N −1)×( N −1) aus (9.11) ist regul¨ar, und im Ordnungssinn gilt (vergleiche Definition 9.8) ⎞ ⎛ 2 −1 ⎟ ⎜ ⎟ ⎜ −1 p p p p p p ⎟ ⎜ × 0 ≤ A−1 ≤ A−1 A0 := ⎜ ⎟ ∈ R (N −1) ( N −1) ist regul¨ar; (9.15) 0 , pp pp ⎟ ⎜ p p −1 ⎠ ⎝ −1 2 (b) es gilt ||A−1 ||∞



||A−1 0 ||∞

2

( b − a ) −2 h . 8



(9.16)

B EWEIS . Der Beweis von Teil (a) wird nachgetragen, hier wird nur der Nachweis f¨ur Teil (b) gef¨uhrt. Das spezielle Randwertproblem −z  ( x ) = 1,

z ( a ) = z ( b ) = 0,

a < x < b,

besitzt die L¨osung 1

z ( x ) = 2 ( x − a ) ( b − x ),

a ≤ x ≤ b,

so dass insbesondere z ∈ C 4 [ a, b ] und z ( 4) ≡ 0 gilt. Aus der Fehlerdarstellung f¨ur den zentralen Differenzenquotienten 2. Ordnung erh¨alt man deshalb ⎛ ⎞ 1 −1 ⎝ pp ⎠ A0 p 1

⎛ =

z1 pp p

1 ⎝ h2

⎞ ⎠,

(9.17)

zN −1

mit der Notation zj = z ( xj ). Die zweite Absch¨atzung in (9.16) folgt nun unmittelbar aus (9.14) sowie Teil (a) dieses Theorems, und die erste Absch¨atzung in (9.16) erh¨alt man sofort aus (9.13) sowie wiederum aus Teil (a) dieses Theorems. Die vorherige Aussage erm¨oglicht die Herleitung der folgenden Fehlerabsch¨atzung f¨ur Differenzenverfahren zur L¨osung von Randwertproblemen. Theorem 9.11 Gegeben sei das Randwertproblem (9.7) (9.8) mit r ≥ 0, f¨ur dessen L¨osung u ∈ C 4 [ a, b ] erf¨ullt sei. Dann gilt max |vj − u( xj ) |

j=0,...,N

mit der Konstanten M :=

( b − a )2

96



Mh2 ,

||u(4) ||∞ und den Notationen aus (9.9) und (9.10).

B EWEIS . Die Aussage folgt unmittelbar aus den Theoremen 9.7 und 9.10.

Abschnitt 9.2

233

Differenzenverfahren

9.2.4 Vorbereitungen fur ¨ den Beweis von Teil (a) des Theorems 9.10 Die Regularit¨at der Matrix A0 aus (9.15) ist eine unmittelbare Konsequenz aus der Tatsache, dass die Eigenwerte von Tridiagonalmatrizen mit konstanten Eintr¨agen entlang der Haupt- und der Nebendiagonalen direkt angegeben werden k¨onnen: Lemma 9.12 Eine Tridiagonalmatrix ⎛ ⎞ a b ⎜ ⎟ ⎜c a ... ⎟ ⎟ ∈ R (N −1)×( N −1) A = ⎜ ⎜ .. .. ⎟ . b⎠ . ⎝ c a mit Zahlen a, b, c ∈ R, b · c > 0, besitzt die folgenden Eigenwerte,  kπ  √ , k = 1, 2, . . . , N − 1. λk = a + 2sgn( c ) bc cos N Die zugeh¨origen Eigenvektoren sind im Beweis angegeben. B EWEIS . Zur Vereinfachung der Notation wird im Folgenden der Fall a = 0 betrachtet. (Die Aussage in der allgemeinen Situation erh¨alt man danach durch Betrachten der Matrix A − aI.) Mit den Setzungen  c 1/2 π M := b , D := N , −1 N −1 x[k] := (x )N =1 ∈ R [k]

erh¨alt man unter Verwendung der Darstellung  M  [k] x = 2i eikD − e−ikD ,

[k]

mit x

:= M /2 sin (k D )

= 1, 2, . . . , N − 1,

(9.18)

f¨ur j = 1, 2, . . . , N − 1 Folgendes, 1 (Ax[k] )j = cM j−1 ei( j−1)kD + bM j+1 ei(j+1)kD 2i  

− cM j−1 e−i(j−1)kD + bM j+1 e−i(j+1)kD =

   Mj  cM −1 e−ikD + bMeikD eijkD − cM −1 eikD + bMe−ikD e−ijkD , 2i

wobei diese Vorgehensweise auch in den F¨allen j = 1 und j = N − 1 zul¨assig ist, da die rechte Seite der Gleichung in (9.18) f¨ur = 0 und = N verschwindet. Wegen cM −1 = bM = √ sgn( c ) bc berechnet man daraus mit der Abk¨urzung σ = sgn( c ) Folgendes,

√ √  √   M j  √ −ikD σ bce + σ bceikD eijkD − σ bce−ikD + σ bceikD eijkD (Ax[k] )j = 2i   ijkD   √  [k] M j √  ikD = σ bc e e = 2σ bc cos ( kD ) xj . + e−ikD − eijkD 2i F¨ur Matrizen A, deren Eigenwerte allesamt im offenen Einheitskreis liegen, l¨asst sich die Inverse der Matrix I − A als Neumannsche Reihe darstellen. Genauer gilt Folgendes:

234

Kapitel 9 Randwertprobleme

Theorem 9.13 F¨ur eine Matrix A ∈ R N×N sind die folgenden Aussagen a¨ quivalent: (a) σ ( A ) ⊂ {λ ∈ C : |λ| < 1}; (b) Es existiert eine Vektornorm || · || : R N → R, so dass f¨ur die zugeh¨orige Matrixnorm gilt ||A|| < 1; ∞  (c) Die Reihe Aν ist konvergent; ν=0

(d) Es gilt A → 0 f¨ur ν → ∞. ν

Wenn eine der (und damit alle) Bedingungen erf¨ullt ist, so gilt ( I − A )−1 =

∞ 

Aν .

(9.19)

ν=0

B EWEIS . ( a ) =⇒ ( b ): F¨ur jede Zahl ε > 0 existiert2 eine verallgemeinerte Jordan Faktorisie mit einer regul¨aren Matrix T ∈ CN×N sowie rung der Form A = T −1 JT ⎞ ⎛ ⎞ ⎛ ε λ k J1 ⎟ ⎜ pp pp ⎟ ⎟ ⎜ ⎜ p p ⎟ ⎟ ⎜ ⎜ × pp k = 1, 2, . . . , r, Jk = ⎜ J = ⎜ ⎟, ⎟ ∈ C Nk Nk , p pp ⎟ ⎜ ⎠ ⎝ ε p ⎠ ⎝ Jr λk r 1×1  mit Nk ≥ 1, . Hier sei nun k=1 Nk = N. Im Fall Nk = 1 bedeutet dies Jk = [λk ] ∈ C ε > 0 hinreichend klein gew¨ahlt, so dass f¨ur jeden Index k ∈ {1, 2, . . . , r } die Ungleichung |λk | + ε < 1 erf¨ullt ist, was wegen Voraussetzung (a) m¨oglich ist. Aufgrund der Konstruktion gilt || J||∞ =

max || Jk ||∞ < 1.

k=1,...,r

Man setzt dann ||x||T := ||T x||∞ ,

x ∈ RN ,

und weist leicht nach, dass || · ||T eine Norm auf R N darstellt. F¨ur die zugeh¨orige Matrixnorm ist dann tats¨achlich ||A||T < 1 erf¨ullt, denn f¨ur jeden Vektor x ∈ R N gilt ||Ax||T

=

||T Ax||∞

=

 x||∞ || JT



|| J||∞ ||T x||∞

=

|| J||∞ ||x||T .

( b ) =⇒ ( c ): Die Behauptung folgt unmittelbar aus der absoluten Konvergenz, ∞  ν=0

||Aν ||



∞ 

||A||ν < ∞.

ν=0

( c ) =⇒ ( d ): In jedem mit einer Norm versehenen Vektorraum folgt aus der Konvergenz einer  ( ) Reihe ∞ j=0 xj die Konvergenz seiner Summanden gegen null, xj → 0 j → ∞ . 2

siehe den Beweis von Lemma 8.15

Abschnitt 9.2

235

Differenzenverfahren

( d ) =⇒ ( a ): Wenn λ ∈ C ein Eigenwert von A mit |λ| ≥ 1 ist, so erh¨alt man mit einem

zugeh¨origen Eigenvektor x ∈ CN und f¨ur jede Vektornorm || · || : CN → R ||Aν x||

=

||λν x||

=

|λ|ν ||x||



||x||

beziehungsweise ||Aν || ≥ 1 f¨ur ν = 1, 2, . . . im Widerspruch zur Annahme (d). Schließlich gilt unter den Bedingungen (a) (d) (I − A)

n−1 



=

ν=0

n 

( Aν − Aν+1 )

=

I − An



I

f¨ur n → ∞,

ν=0

woraus man die Darstellung (9.19) erh¨alt. Weitere Eigenschaften nichtnegativer Matrizen Es folgen einige Aussagen u¨ ber nichtnegative Matrizen. Lemma 9.14 F¨ur nichtnegative Matrizen S, T ∈ R N×N sind sowohl S + T ∈ R N×N als auch S T ∈ R N×N nichtnegative Matrizen. Weiter gilt f¨ur Matrizen S1 , S2 ∈ R N×N und T1 , T2 ∈ R N×N mit 0 ≤ S1 ≤ S2 und 0 ≤ T1 ≤ T2 auch 0 ≤ S1 T1 ≤ S2 T2 . Konvergente Folgen nichtnegativer Matrizen besitzen nichtnegative Grenzwerte. B EWEIS . Ist elementar und wird hier nicht gef¨uhrt. Theorem 9.15 F¨ur Matrizen S, T ∈ R N×N und λ ∈ R gilt die folgende Implikation,  1  1 λ > rσ ( S ), 0 ≤ S ≤ T, =⇒ λ > rσ ( T ) 0 ≤ (λI − S )−1 ≤ (λI − T )−1 .

(9.20)

 ν B EWEIS . Zun¨achst wird der Spezialfall λ = 1 > rσ ( T ) betrachtet. Es ist ∞ ν=0 S konvergent, denn unter Anwendung von Lemma 9.9, Lemma 9.14 und Theorem 9.13 erh¨alt man n1     S ν ∞ ν=n0



n1     T ν ∞



0

f¨ur n0 ≤ n1 ,

n0 , n1 → ∞.

ν=n0

Wiederum nach Theorem 9.13 folgt daraus 1 > rσ ( S ) sowie die Darstellbarkeit der Inversen der  ν Matrix I − S als Neumannsche Reihe, ( I − S )−1 = ∞ ν=0 S . Daraus resultiert schließlich der zweite Teil der Aussage (9.20) f¨ur den Spezialfall λ = 1, ( I − S )−1

=

∞  ν=0





∞ 



=

( I − T )−1 .

ν=0

Die Aussage f¨ur die allgemeine Situation λ > 0 erh¨alt man durch Betrachtung von λ−1 S und λ−1 T : es gilt λ−1 S ≤ λ−1 T sowie 1 > rσ ( λ−1 T ), mit der schon bewiesenen Aussage (9.20) f¨ur den Spezialfall λ = 1 erh¨alt man die Regularit¨at der Matrix I −λ−1 S sowie ( I −λ−1 S )−1 ≤ ( I − λ−1 T )−1 und daraus wiederum unmittelbar die Aussage (9.20) in ihrer ganzen Allgemeinheit. Als unmittelbare Konsequenz erh¨alt man das folgende Resultat.

236

Kapitel 9 Randwertprobleme

Theorem 9.16 F¨ur Matrizen A, B ∈ R N×N mit 0 ≤ A ≤ B gilt rσ ( A ) ≤ rσ ( B ). B EWEIS . Diese Aussage erh¨alt man unmittelbar durch Anwendung von Theorem 9.15 f¨ur λ = rσ ( A ) + ε mit ε > 0, ε → 0. Das folgende Resultat f¨ur nichtnegative Matrizen wird im nachfolgenden Kapitel 10 ben¨otigt. Theorem 9.17 F¨ur jede Matrix B ∈ R N×N mit B ≥ 0 und jede Zahl λ > 0 gilt die folgende ¨ Aquivalenz, 1  λI − B ist regul¨ar, λ > rσ ( B ) ⇐⇒ (9.21) ( λI − B )−1 ≥ 0. B EWEIS . Die Implikation “=⇒“ folgt unmittelbar aus Theorem 9.15 angewandt mit S = 0. F¨ur den Nachweis der Implikation “⇐=“ wird zun¨achst der Spezialfall λ = 1 betrachtet. Ist die Matrix I − B regul¨ar und gilt ( I − B )−1 ≥ 0, so folgt 0 ≤

n−1 

=



ν=0

n−1 

B ν ( I − B )( I − B )−1

=

ν=0

(B ν − B ν+1 )( I − B )−1

ν=0

= ( I − B n ) ( I − B )−1    ≥0

n−1 



( I − B )−1 ,

≥0

beziehungsweise insbesondere 0 ≤

n−1 





( I − B )−1 ,

n = 1, 2, . . . .

ν=0

 n  ν ν ν Wegen n−1 ur n = 1, 2, . . . ist also ∞ ν=0 B ≤ ν=0 B f¨ ν=0 B notwendigerweise konvergent und damit gilt3 die Ungleichung rσ ( B ) < 1. Die allgemeine Situation λ > 0 f¨ur die Implikation “⇐=“ in der Aussage (9.21) l¨asst sich auf den Fall λ = 1 zur¨uckf¨uhren, λI − B regul¨ar,

λ > rσ ( B )

⇐⇒

1 > rσ ( λ−1 B ),

( λI − B )−1 ≥ 0

⇐⇒

I − λ−1 B regul¨ar,

( I − λ−1 B )−1 ≥ 0.

Dies komplettiert den Beweis des Theorems. Als Konsequenz aus Theorem 9.17 erh¨alt man das folgende klassische Resultat. Theorem 9.18 (Satz von Perron) F¨ur jede Matrix A ∈ R N×N mit A ≥ 0 ist die Zahl λ = rσ ( A ) ein Eigenwert von A. B EWEIS . W¨are die Matrix λI − A regul¨ar, so erg¨abe sich 0

(∗)



(∗∗)

( ( λ + ε )I − A)−1 → ( λI − A )−1

f¨ur 0 < ε → 0,

wobei die Ungleichung (∗) aus Theorem 9.17 resultiert, und (∗∗) folgt mit Korollar 4.50 u¨ ber die Stetigkeit der Matrixinversion. Daraus erh¨alt man ( λI − A )−1 ≥ 0 im Widerspruch zur Aussage von Theorem 9.17. 3

vergleiche Theorem 9.13

Abschnitt 9.3

237

Galerkin– Verfahren

9.2.5 Nachweis der Aussage in Teil (a) von Theorem 9.10 F¨ur den Nachweis der Aussage (9.15) betrachtet man die folgenden Matrizen D, D0 , S und S0 ∈ R (N −1)×( N −1) , D = 2I + h2 diag (r1 , . . . , rN −1 ), ⎛ 1 ⎜ ⎜ 0 ⎜ 2 + r1 h2 ⎜ ⎜ ⎜ 1 ⎜ pp ⎜ p ⎜ 2 + r2 h2 ⎜ S = ⎜ ⎜ ⎜ pp ⎜ p ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ 2 +

D0 = 2I, ⎞

⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ pp ⎟ p ⎟ ⎟ ⎟, ⎟ ⎟ 1 ⎟ 0 2 + rN −2 h2 ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ 1 0 rN −1 h2



S0

0

⎜ ⎜1 ⎜2 = ⎜ ⎜ ⎜ ⎝



1 2

⎟ ⎟ ⎟ ⎟ ⎟ pp pp 1⎟ p p 2 ⎠ 1 0 2

pp

p

pp

p

und erh¨alt damit die Darstellungen A = D ( I − S ),

A0 = D0 ( I − S0 ).

Mit Lemma 9.12 erh¨alt man   kπ  : k = 1, . . . , N − 1 σ ( S0 ) = cos N



{x : −1 < x < 1},

und offensichtlich gilt 0 ≤ S ≤ S0 , so dass nach Theorem 9.15 die Matrizen I − S0 und I − S regul¨ar sind und mehr noch 0 ≤ ( I − S )−1 ≤ ( I − S0 )−1 gilt. Weiterhin sind die Matrizen D und D0 offensichtlich regul¨ar mit D −1 ≤ D0−1 . Insgesamt erh¨alt man also die Regularit¨at der Matrix A sowie 0 ≤ A−1

=

( I − S )−1 D −1



( I − S0 )−1 D0−1

=

A−1 0 ,

was den Beweis von Teil (a) des Theorems 9.10 komplettiert. Bemerkung 9.19 Der vorgestellte Beweis l¨asst sich noch kompakter f¨uhren mithilfe der im anschließenden Kapitel behandelten Theorie der M Matrizen (siehe insbesondere Aufgabe 10.7). 

9.3 Galerkin–Verfahren In dem vorliegenden Abschnitt werden Galerkin Verfahren behandelt, die bei speziellen Problemstellungen und bei Verwendung geeigneter Ansatzr¨aume bessere Approximationseigenschaften als Differenzenverfahren besitzen.

238

Kapitel 9 Randwertprobleme

9.3.1 Einfuhrende ¨ Bemerkungen Im Folgenden wird der Ansatz f¨ur Galerkin Verfahren zur approximativen L¨osung von Randwertproblemen vorgestellt. Exemplarisch soll dies zun¨achst anhand des speziellen Sturm Liouvilleschen Randwertproblems −u  + ru = ϕ, u( a ) = u( b ) = 0, mit der nichtnegativen Funktion r : [ a, b ] → R + geschehen4 . Hierzu wird dieses Randwertproblem als Operatorgleichung Lu = ϕ geschrieben mit ⎫ ⎬ L : C [ a, b ] ⊃ DL → C [ a, b ], u → −u  + ru, (9.22) ⎭ DL = {u ∈ C 2 [ a, b ] : u( a ) = u( b ) = 0}, und im weiteren Verlauf bezeichne noch  u, v  2 :=

Z b a

u( x ) v ( x ) dx,

u, v ∈ C [ a, b ],

(9.23)

das L2 Skalarprodukt, und S ⊂ DL sei ein linearer Unterraum mit dim S < ∞. Als Raum S kann hier beispielsweise der Raum der kubischen Splines mit nat¨urlichen Randbedingungen verwendet werden. In der vorliegenden speziellen Situation ist die Galerkin Approximation s ∈ S folgendermaßen erkl¨art5 :  s ∈ S,

 L s , ψ  2 =  ϕ, ψ  2

f¨ur alle ψ ∈ S.

(9.24)

Interessiert ist man an der Verwendung von solchen R¨aumen S, f¨ur die einerseits der Fehler s − u bez¨uglich der L2 Norm || · ||2 oder anderer g¨angiger Normen m¨oglichst klein ausf¨allt,  und andererseits soll die zugeh¨orige Galerkin Approximation mit m¨oglichst wenig Aufwand bestimmt werden k¨onnen. Im weiteren Verlauf werden die folgenden Themen abgehandelt: •

Galerkin Verfahren werden in einer allgemeinen Form und f¨ur eine große Klasse von Problemstellungen definiert sowie ihre Konvergenzeigenschaften behandelt ( u¨ bern¨achster Abschnitt 9.3.3).



Die Bedeutung der in Abschnitt 9.3.3 erzielten Konvergenzresultate sollen anhand des Sturm Liouvilleschen Differenzialoperators Lu = −u  + ru aus (9.22) erl¨autert werden. Die daf¨ur ben¨otigten Eigenschaften von L werden in dem nachfolgenden Abschnitt 9.3.2 hergeleitet.

9.3.2 Eigenschaften des Differenzialoperators Lu = −u $$ + ru Im Folgenden werden einige Eigenschaften des Differenzialoperators Lu = −u  + ru aus (9.22) vorgestellt. Als Erstes geht es darum, das anhand des Modellbeispiels aus (9.22) betrachtete Galerkin Verfahren dahingehend sinnvoll zu verallgemeinern, dass eine Verwendung des Raums S der linearen Splinefunktionen infrage kommt, der aufgrund der fehlenden Differenzierbarkeitseigenschaften nicht in dem Definitionsbereich DL des Sturm Liouvilleschen 4 5

vergleiche (9.7) (9.8) Die konkrete Art der Berechnung wird in Abschnitt 9.3.4 behandelt.

Abschnitt 9.3

239

Galerkin– Verfahren

Differenzialoperators enthalten ist. Dabei ist die folgende symmetrische Bilinearform hilfreich, ⎫ Z b ⎬ [[u, v ]] := a (u  v  + ruv )( x ) dx, u, v ∈ C∆1 [ a, b ], (9.25) C∆1 [ a, b ] = {u : [ a, b ] → R : u ist st¨uckweise stetig differenzierbar}.⎭ ¨ stetig differenzierbar, falls sie auf dem Hierbei heißt eine Funktion u : [ a, b ] → R stuckweise Intervall [ a, b ] stetig ist und eine Zerlegung ∆ = {a = x0 < x1 < . . . < xN = b} existiert, so dass auf jedem der offenen Teilintervalle ( x0 , x1 ), ( x1 , x2 ), . . . , ( xN −1 , xN ) die Ableitung der Funktion u existiert und dort eine stetige Funktion darstellt. Das Symbol ∆ in C∆1 [ a, b ] bezieht sich nicht auf eine vorab festgelegte Zerlegung. Die Bedeutung des in (9.25) auftretenden Integrals mit st¨uckweise stetig differenzierbaren Funktionen u, v wird klar mit der folgenden Setzung, Z b a

u  ( x ) v  ( x ) dx =

M Z  k=1

zk

zk−1

u  ( x ) v  ( x ) dx,

(9.26)

wobei die Zahlen a = z0 < z1 < . . . < zM = b so gew¨ahlt sind, dass die Funktion u  v  auf jedem der offenen Teilintervalle ( z0 , z1 ), ( z1 , z2 ), . . . , ( zM −1 , zM ) definiert und stetig ist. Wegen der fehlenden Setzung der Funktion u  v  an den Stellen z0 , . . . , zM sind die die Integrale auf der rechten Seite von (9.26) als uneigentliche Integrale zu verstehen. Entsprechend ist f¨ur st¨uck'b weise stetig differenzierbare Funktionen u : [ a, b ] → R der Wert ||u  ||2 = ( a u  ( x )2 dx)1/2 zu verstehen. Mit dem folgenden Lemma wird der Zusammenhang zwischen der angegebenen Bilinearform und dem Sturm Liouvilleschen Differenzialoperator L beschrieben: Lemma 9.20 Es gilt [[u, v ]]

=

 Lu, v  2

f¨ur u ∈ DL ,

v ∈ D,

(9.27)

mit D = {u ∈ C∆ [ a, b ] : u( a ) = u( b ) = 0}. 1

B EWEIS . Auch f¨ur st¨uckweise stetig differenzierbare Funktionen sind die Regeln der partiellen Integration anwendbar, und so erh¨alt man Z b Z b b  Lu, v  2 = (–u  + ru)( x ) v ( x )dx = −(u  v )( x ) a + (u  v  + ruv )( x ) dx a

= 0 +

Z b a

a

 

(u v + ruv )( x ) dx

=

[ u, v ]].

Bemerkung 9.21 Man beachte, dass der Ausdruck [[u, v ]] auch f¨ur Funktionen u ∈ D\DL definiert ist. Aufgrund der Identit¨at (9.27) stellt die Bilinearform [[·, ·]] somit bez¨uglich des ersten Eingangs eine Fortsetzung der Bilinearform  L·, ·2 dar. Diese Eigenschaft erm¨oglicht die Erweiterung des in (9.24) anhand des Sturm Liouvilleschen Differenzialoperators Lu = −u  + ru eingef¨uhrten Galerkin Verfahrens auch auf solche Ansatzr¨aume S ⊂ D, die nicht in DL enthalten sind (vergleiche Definition 9.28 unten). 

240

Kapitel 9 Randwertprobleme

Als unmittelbare Konsequenz aus Theorem 9.20 und der Symmetrie der Bilinearform [[·, ·]] erh¨alt man die Symmetrie des Sturm Liouvilleschen Differenzialoperators L. Korollar 9.22 Der Sturm Liouvillesche Differenzialoperator L in (9.22) ist symmetrisch, es gilt also  Lu, v  2

=

 u, Lv  2

f¨ur u, v ∈ DL .

B EWEIS . Die Behauptung folgt unmittelbar aus Lemma 9.20,  Lu, v  2

=

[ u, v ]]

=

[[v , u]]

=

 Lv , u2

=

 u, Lv  2.

In dem n¨achsten Theorem werden die (sp¨ater ben¨otigte) positive Definitheit der Abbildung u → [[u, u]] nachgewiesen und g¨angige obere und untere Schranken f¨ur [[u, u]] hergeleitet. (Diese Schranken erm¨oglichen die Herleitung konkreter Fehlerabsch¨atzungen f¨ur die Galerkin Approximation.) Das folgende Lemma liefert hierf¨ur die technischen Hilfsmittel. 1/2

Lemma 9.23 Mit der Notation ||u||2 =  u, u2 gilt die Friedrichsche Ungleichung ||u||2



( b − a )||u  ||2

f¨ur u ∈ C∆1 [ a, b ]

mit u( a ) = 0.

(9.28)

B EWEIS . Aufgrund der Eigenschaft u( a ) = 0 gilt u( x )

=

Z x a

u  ( t ) dt

f¨ur x ∈ [ a, b ],

(9.29)

da der Haupsatz der Differenzial und Integralrechnung auch f¨ur st¨uckweise stetig differenzierbare Funktionen g¨ultig ist. Ausgehend von (9.29) liefert eine Anwendung der Cauchy Schwarzschen Ungleichung die folgende Absch¨atzung, = ||u  ||2   2 u( x ) 2 ≤

Z x a

12 dt ·

Z x a

u  ( t )2 dt = ( x − a )

Z x a

u  ( t )2 dt ≤ ( b − a )

Z b a

u  ( t )2 dt

f¨ur x ∈ [ a, b ], und die angegebene Ungleichung (9.28) resultiert nun unmittelbar aus der trivialen Absch¨atzung 'b ||v ||2 = ( a v ( s )2 ds)1/2 ≤ ( b − a )1/2 ||v ||∞ f¨ur v ∈ C [ a, b ]. Mithilfe des vorhergehenden Lemmas lassen sich obere und untere Schranken f¨ur [[u, u]] herleiten, die die Grundlage f¨ur nachfolgende konkrete Fehlerabsch¨atzungen darstellen. Theorem 9.24 Es gelten die Ungleichungen ||u  ||22 ≤ [[u, u]]



κ1 ||u  ||22

mit der Konstanten κ1 = 1 + ||r ||∞ ( b − a )2 .

f¨ur u ∈ C∆1 [ a, b ]

mit u( a ) = 0, (9.30)

Abschnitt 9.3

241

Galerkin– Verfahren

B EWEIS . Die angegebenen Ungleichungen erh¨alt man folgendermaßen, [[u, u]]

=

.......

=

Z b a

(∗)

( ( u  )2 + ru2 )( s ) ds





......

Z b a

u  ( s )2 ds

=

||u  ||22 ,

||u  ||22 + ||r ||∞ ||u||22

(∗∗)



κ1 ||u  ||22 ,

wobei die Absch¨atzungen (∗) und (∗∗) aus der Nichtnegativit¨at r ≥ 0 beziehungsweise der Friedrichschen Ungleichung resultieren. Die sp¨ater ben¨otigten Eigenschaften des speziellen Differenzialoperators Lu = −u  +ru stehen nun allesamt zur Verf¨ugung.

9.3.3 Galerkin– Verfahren – ein allgemeiner Ansatz Galerkin Verfahren lassen sich in den unterschiedlichsten Situationen einsetzen und werden hier daher in gen¨ugender Allgemeinheit betrachtet. Zun¨achst werden die entsprechenden Annahmen zusammengetragen. Voraussetzungen 9.25 (a) In einem reellen Vektorraum V wird die lineare Gleichung mit L : V ⊃ DL → V linear ,

Lu = ϕ

ϕ∈V

betrachtet, wobei DL ein linearer Unterraum von V ist. Diese Gleichung Lu = ϕ besitze eine L¨osung u∗ ∈ DL . Weiter sei  ·, · : V × V → R eine Bilinearform auf V. (b) Es bezeichne [[·, ·]] : D × D → R eine zweite Bilinearform auf einem linearen Unterraum D ⊂ V, wobei D eine Obermenge des Definitionsbereichs DL der Abbildung L darstellt, DL ⊂ D. Diese zweite Bilinearform [[·, ·]] sei positiv definit, [[u, u]] > 0

f¨ur 0 = u ∈ D,

und zwischen den beiden genannten Bilinearformen bestehe der folgende Zusammenhang, [[u, v ]]

=

 Lu, v 

f¨ur u ∈ DL ,

v ∈ D.

(9.31)

Beispiel 9.26 Der im vorangegangenen Abschnitt 9.3.2 betrachtete Differenzialoperator Lu −u  + ru erf¨ullt mit den in dem dortigen Zusammenhang betrachteten Bilinearformen die  Voraussetzung 9.25 genannten Bedingungen mit den Notationen V = C [ a, b ] und  ·, ·   ·, ·  2 .

= in = 

Bemerkung 9.27 (a) Unter den in Voraussetzung 9.25 genannten Bedingungen ist der Operator L notwendigerweise injektiv. Falls n¨amlich Lu = 0 erf¨ullt ist f¨ur eine Funktion u ∈ DL , so gilt 0

=

 Lu, u

=

[ u, u]]

;

u = 0.

242

Kapitel 9 Randwertprobleme

(b) Die Abbildung D  u → [[u, u]]1/2 bezeichnet man als Energienorm. Tats¨achlich erf¨ullt sie die Normeigenschaften, was offensichtlich ist im Fall einer symmetrischen Bilinearform [[·, ·]], die dann ein Skalarprodukt darstellt. Man kann aber auch f¨ur den nichtsymmetrischen Fall die Normeigenschaften der Energienorm nachweisen (Aufgabe 9.10). (c) Die Eigenschaft (9.31) dient in den nachfolgenden Betrachtungen lediglich dazu, Galerkin Verfahren in einer relativ allgemeinen Form zu erkl¨aren. Es existiert jedoch ein weiterer Anwendungsbereich, der hier kurz angesprochen werden soll. Aufgrund der Eigenschaft (9.31) stellt die L¨osung u∗ ∈ DL der Operatorgleichung Lu = ϕ auch eine L¨osung der Variationsgleichung finde u ∈ D

mit [[u, v ]]

=

 ϕ, v 

f¨ur alle v ∈ D

(9.32)

dar. Diese Variationsgleichung (9.32) erlangt in denjenigen Anwendungen eine eigenst¨andige Bedeutung, bei denen die Gleichung Lu = ϕ entgegen der Voraussetzung 9.25 nicht in D l¨osbar ist, die Variationsgleichung (9.32) jedoch eine L¨osung u∗ ∈ D besitzt. Solche L¨osungen bezeichnet man dann als verallgemeinerte oder schwache L¨osung von Lu = ϕ. Die nachfolgenden Resultate gelten auch f¨ur schwache L¨osungen.  Definition 9.28 Es seien die in Voraussetzung 9.25 genannten Bedingungen erf¨ullt. Zur approximativen L¨osung der Gleichung Lu = ϕ ist f¨ur einen gegebenen linearen Unterraum S ⊂ D mit dim S < ∞ die Galerkin–Approximation s ∈ S wie folgt erkl¨art, s ∈ S,

[[ s , ψ ]]

=

 ϕ, ψ 

f¨ur alle ψ ∈ S.

(9.33)

Dieses Verfahren wird als Galerkin Verfahren beziehungsweise im Falle der Symmetrie der Bilinearform [[·, ·]] auch als Ritz Verfahren bezeichnet. Bemerkung 9.29 (a) Wenn S ⊂ DL gilt, so kann man (9.33) in der folgenden klassischen und der (aus dem in (9.24) angegebenen Beispiel) bereits bekannten Form schreiben, s ∈ S,

 L s, ψ 

=

 ϕ, ψ 

f¨ur alle ψ ∈ S.

(b) Die Galerkin Approximation ist eindeutig bestimmt. Sind n¨amlich s, s ∈ S zwei Galerkin Approximationen, so gilt insbesondere s − s ∈ S und dann [[ s − s, s − s]] = 0, so dass aufgrund von Teil (b) der Annahme 9.25 notwendigerweise s = s gilt. (c) Wenn u∗ ∈ DL die L¨osung der Gleichung Lu = ϕ bezeichnet, so gilt f¨ur jedes Element s ∈ S:    s − u∗ , ψ = 0 f¨ur alle ψ ∈ S. (9.34) s ist Galerkin Approximation ⇐⇒ Dies folgt unmittelbar aus den Darstellungen (9.32) und (9.33). (d) Allgemeiner als in (9.33) kann man f¨ur lineare R¨aume S1 ⊂ D und S2 ⊂ V mit dim S1 = dim S2 < ∞ Approximationen s ∈ S1 von der folgenden Form betrachten, s ∈ S1 , 

[[ s , ψ ]]

=

 ϕ, ψ 

f¨ur ψ ∈ S2 .

(9.35)

In diesem Zusammenhang wird S1 als Ansatzraum und S2 als Testraum bezeichnet. Bei Galerkin Verfahren stimmen demnach Ansatz und Testraum u¨ berein. 

Abschnitt 9.3

243

Galerkin– Verfahren

Die folgende Minimaleigenschaft der Galerkin Approximation bildet die Grundlage f¨ur die Herleitung konkreter Fehlerabsch¨atzungen bei Galerkin Verfahren. Man beachte, dass hier die Symmetrie der Bilinearform [[·, ·]] ben¨otigt wird. Theorem 9.30 Es seien die in Voraussetzung 9.25 genannten Bedingungen erf¨ullt, und zus¨atzlich sei die Bilinearform [[·, ·]] : D × D → R symmetrisch. Dann minimiert die Galerkin Approximation s ∈ S in dem Raum S ⊂ D den Fehler bez¨uglich der Energienorm, es gilt also     = min s − u∗ , s − u∗ . (9.36) s − u∗ , s − u∗ s∈S

B EWEIS . Die Aussage erh¨alt man durch folgende Rechnung, bei der s ∈ S beliebig gew¨ahlt ist,   s − u∗ , s − u∗ = 0 nach (9.34)  

    = s − u∗ , s − u∗ + s − s, s − u∗     + s − u∗ , s − s = s − u∗ , s − u∗     ....... −  s − s,  s − s + s − u∗ , s − s =

 

  ≥ 0 = 0 ....... . ≤

Die in Theorem 9.30 vorgestellte Minimaleigenschaft der Galerkin Approximation bez¨uglich der Energienorm ist ein erster Schritt zur Herleitung konkreter Fehlerabsch¨atzungen f¨ur das Galerkin Verfahren. Ausgangspunkt weiterer Fehlerabsch¨atzungen ist das folgende triviale Resultat, das man in den Anwendungen typischerweise mit speziellen Normen ||| · ||| : D → R + einsetzt. Theorem 9.31 Es seien die in Voraussetzung 9.25 genannten Bedingungen erf¨ullt mit einer symmetrischen Bilinearform [[·, ·]], und bez¨uglich einer nichtnegativen Abbildung ||| · ||| : D → R + gelte c1 |||u|||2



[[u, u]]



c2 |||u|||2

f¨ur alle u ∈ D

mit gewissen Konstanten c2 ≥ c1 > 0. Dann gilt ||| s − u∗ |||



c min |||s − u∗ ||| s∈S

mit c =

"

c2 . c1

(9.37)

(9.38)

B EWEIS . Die Aussage folgt unmittelbar aus der Eigenschaft (9.36). In der Situation (9.38) nennt man das Galerkin Verfahren quasioptimal bez¨uglich ||| · |||, da die Galerkin Approximation bis auf einen konstanten Faktor aus dem Raum S die optimale Approximation an u∗ darstellt. Auch f¨ur nichtsymmetrische Bilinearformen [[·, ·]] erh¨alt man unter vergleichbaren Bedingungen die Quasioptimalit¨at der Galerkin Approximation.

244

Kapitel 9 Randwertprobleme

Theorem 9.32 (Lemma von C´ea) Es seien die in Voraussetzung 9.25 genannten Bedingungen erf¨ullt und bez¨uglich einer Abbildung ||| · ||| : D → R + gelte c1 |||u|||2 ≤ [[u, u]]

f¨ur u ∈ D,

[[u, v ]] ≤ c2 |||u||||||v|||

f¨ur u, v ∈ D

(9.39)

mit gewissen Konstanten c2 ≥ c1 > 0. Dann gilt ||| s − u∗ ||| ≤ c mins∈S |||s − u∗ ||| mit c = c2 /c1 , das Galerkin Verfahren ist also quasioptimal bez¨uglich ||| · |||. B EWEIS . Die Aussage erh¨alt man durch folgende Rechnung, bei der s ∈ S beliebig gew¨ahlt ist, c1 ||| s − u∗ |||2

(∗)

≤ =

(∗∗)



 

s − u∗ , s − u∗ s − u∗ , s − u∗

 

+

c2 ||| s − u∗ ||||||s − u∗ |||,

 s−s s − u∗ ,  

  = 0 

wobei man die Absch¨atzungen (∗) und (∗∗) jeweils unmittelbar aus den Bedingungen in (9.39) erh¨alt. Eine Division durch ||| s − u∗ ||| liefert nun (im Fall ||| s − u∗ ||| = 0, andernfalls ist die Aussage sowieso trivial) die Quasioptimalit¨at. Bemerkung 9.33 Typischerweise ist in Theorem 9.32 die Abbildung ||| · ||| eine Norm, und die erste der beiden Bedingungen in (9.39) wird dann als Koerzivit¨at der Bilinearform [[·, ·]] bez¨uglich ||| · ||| bezeichnet. Die zweite Bedingung in (9.39) stellt eine Beschr¨anktheitsbedingung an die Bilinearform [[·, ·]] dar. 

9.3.4 Systemmatrix Zur konkreten Berechnung der Galerkin Approximation ben¨otigt man noch eine Basis f¨ur den Raum S: Lemma 9.34 Es seien die in Voraussetzung 9.25 genannten Bedingungen erf¨ullt und das SyN stem s1 , . . . , sN ∈ S bilde eine Basis von S. Es ist das Element s = k=1 ck sk ∈ S mit den Koeffizienten c1 , . . . , cN ∈ R genau dann Galerkin Approximation, wenn die Koeffizienten c1 , . . . , cN ∈ R dem folgenden linearen Gleichungssystem gen¨ugen, ⎞⎛ ⎞ ⎞ ⎛ ⎛ , s ]] p p p [[sN , s1 ]]  [[s c  ϕ, s 1 1 1 1 ⎟⎜ ⎟ ⎟ ⎜ ⎜ ⎟⎜ ⎟ ⎟ ⎜ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ p p ⎟ p pp ⎟ ⎜ ⎟. ⎜ ⎜ ppp p p p (9.40) p p p ⎟⎜ p ⎟ = ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎟ ⎜ ⎜ ⎠⎝ ⎠ ⎠ ⎝ ⎝ [[s1 , sN ]] p p p [[sN , sN ]] cN  ϕ, sN  B EWEIS . Nach Definition (9.33) ist mit der gegebenen Basis von S ein Element s ∈ S genau dann Galerkin Approximation, wenn s ∈ S und [[s, sj ]] =  ϕ, sj  f¨ur j = 1, 2, . . . , N gilt. Mit  dem Ansatz s = N k=1 ck sk ∈ S ist dies gleichbedeutend mit

Abschnitt 9.3

245

Galerkin– Verfahren N 

[[sk , sj ]]ck

=

 ϕ, sj  ,

j = 1, 2, . . . , N.

k=1

Die Matrixversion hierzu ist identisch mit (9.40).

Bemerkung 9.35 (a) Die in (9.40) auftretende Matrix wird als Systemmatrix oder auch als Steifigkeitsmatrix bezeichnet und ist regul¨ar aufgrund der Eindeutigkeit der Galerkin Approximation (siehe Teil (b) von Bemerkung 9.29). Daraus erh¨alt man auch unmittelbar die Existenz der Galerkin Approximation. (b) Das Gleichungssystem (9.40) stellt lediglich eine “Halbdiskretsierung“ der gegebenen Operatorgleichung Lu = ϕ dar, denn sowohl die Eintr¨age in der Systemmatrix als auch die Komponenten des Vektors auf der rechten Seite des Gleichungssystems sind in der Regel nicht exakt bekannt und m¨ussen numerisch berechnet werden. Im Fall der beiden speziellen Bilinearformen aus Voraussetzung 9.25 kann dies beispielsweise mittels Quadraturformeln geschehen. Allgemein bezeichnet man solche Verfahren, bei denen die Eintr¨age in der Systemmatrix beziehungsweise der rechten Seite des Gleichungssystems (9.40) durch exakt auswertbare N¨aherungsformeln approximiert werden, als volldiskrete Galerkin Verfahren. 

9.3.5 Finite– Elemente– Methode In der Praxis ist der zugrunde liegende Raum V typischerweise ein Funktionenraum und man verwendet als Basis des zum Galerkin Verfahren geh¨orenden Raums S oft Funktionen s1 , . . . , sN ∈ S mit einem jeweils kleinen Tr¨ager, es gilt also sk = 0 außerhalb einer vom jeweiligen Index k abh¨angenden Menge und sk · sj = 0 f¨ur einen Großteil der Indizes. In diesem Fall wird das zugeh¨origes Galerkin Verfahren auch als Finite Elemente Methode bezeichnet.

Beispiel 9.36 Zu der Zerlegung ∆ = {a = x0 < x1 < . . . < xN = b} eines Intervalls [ a, b ] sei S der Raum der linearen Splines, S = S∆,1 . Eine Basis dieses ( N + 1 ) dimensionalen

Vektorraums erh¨alt man durch Hutfunktionen (lineare B Splines), die folgendermaßen erkl¨art sind, ⎧ 1 ⎪ ( x − xj−1 ), falls x ∈ [ xj−1 , xj ], ⎪ ⎪ ⎨ hj−1 1 sj ( x ) = (x − x ), falls x ∈ [ xj , xj+1 ], hj j+1 ⎪ ⎪ ⎪ ⎩ 0 sonst

⎫ ⎪ ⎪ ⎪ ⎬ ⎪ ⎪ ⎪ ⎭

j = 0, 1, . . . , N, (9.41)

wobei hj = xj+1 − xj , j = 0, 1, . . . , N − 1 die Knotenabst¨ande bezeichnet. In (9.41) sind in den F¨allen “j = 0“ beziehungsweise “j = N “ die Situationen “x ∈ [ x−1 , x0 ]“ beziehungsweise “x ∈ [ xN , xN +1 ]“ ohne Relevanz. Die vorliegende Situation ist in Bild 9.1 veranschaulicht.

246

Kapitel 9 Randwertprobleme

1

0

...... ........ . .... ... ..

s0..

s1 s2

s3

s5

s4

. .. .. .. .... .......... ....... ....... ..... .. .... .... .... .............. ........ .... .... ... .. ... ...... .... ....... .... ... ....... ... ... .. ..... .. ....... .... ....... .... .... .... ... .... ... .... ....... .... ... ........ ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....... ... . .... ... .... ... ..... ................... ..... .... ..... ....... . ...... ...... ............. ... .. ... .. .... ...... .... ...... ....... ....... .... .. ... .. .... .... ... ....... ... ........ .... ... .... ... .... .... .... ....... ....... .... ... ... ........ ... ....... ... ...... .... . .... .... . . . . . . . . . ....... ... .. . .... ......... ... .... .... ... ....... ... ..... .......... ...... .... ..................................... ....

a = x0

x1 x2 x3

x5 = b

x4

x

Bild 9.1 Darstellung der Hutfunktionen an einem Beispiel F¨ur das Referenzbeispiel (9.22) mit den homogenen Randbedingungen verwendet man sinnvollerweise R¨aume S mit in den Randpunkten a und b verschwindenden Funktionen, beispielsweise also den Raum der linearen Splines S∆,1 mit Nullrandbedingungen, S = {s ∈ S∆,1 : s( a ) = s( b ) = 0}. Eine Basis dieses ( N − 1 ) dimensionalen Vektorraums bilden die Hutfunktionen  s1 , . . . , sN −1 . Beispiel 9.37 Mit der Notation xj = a + jh ∈ R f¨ur j = −3, −2, . . . , N + 3 mit h = ( b − a )/N sei S der Raum der kubischen Splines zur a¨ quidistanten Zerlegung ∆ = {a = x0 < x1 < . . . < xN = b} des Intervalls [ a, b ]. Eine Basis dieses ( N + 3 ) dimensionalen Vektorraums S = S∆,3 erh¨alt man beispielsweise, indem man hilfsweise auf dem Intervall [ x−3 , xN +3 ] und  = {x−3 < x−2 < . . . < xN +3 } die eindeutig bestimmten kubischen Splizur Zerlegung ∆ nefunktionen s−1 , s0 , . . . , sN , sN +1 ∈ S∆,3 urlichen Randbedingungen und den Funktib mit nat¨ onswerten sj ( xj ) = 2/3, sj ( xj±1 ) = 1/6 und sj ( x ) = 0 in den restlichen Knoten heranzieht. Bei diesen Funktionen handelt es sich um spezielle kubische B Splines, deren explizite Form beispielsweise in Oevel [75] angegeben ist. Durch Einschr¨ankung der Definitionsbereiche dieser B Splines auf das Intervall [ a, b ] erh¨alt man eine Familie von Funktionen, die eine Basis von S = S∆,3 darstellt. Die vorliegende Situation ist in Bild 9.2 veranschaulicht.

2/3

..... ........ ..

1/6 0 x−1

s0

s1

s2

s3

s4

s5

.......... ......... ..... ......... .................. .................. ..... ....... ........... ....... ........... ....... ...... ...... .... ..... .... .... .... .... ..... ... .... .... .... .... .... ... .... .... .... .... .... ... .... ...... ... ..... ... .... ... ..... ... ..... ... ... ... .. ... ... ... ... ...... ...... . . ..... . . . . . . . . ..... ...... ..... ..... ...... ... ... ... ... ... ..... ... ... ... ..... ... ..... ... ... ..... ... ... ..... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... . ... ... . . . . . . . . . . . ... ... ... . ... . . . ... ... ... ..... ... .... ... .... ... ... .... ... ... ... ... ... .. ... ... ........ .. . . . . . . . . . ...... . . . . .. ........ ....... ........ .... ......... . . . . . . . . . . . . .... . . . ..... . ...... ..... ..... .... ..... .......... ..... ..... . . ...... ..... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....... ....... . ....... ....... . ....... ...................... ...................... ...................... ...................... ....................... ........................ ................................................ ................................................. .................................................. .................................................. .........................

s−1

x0 = a

s6

x1

x2

x3

x4

x5 = b

...................

x

x6

Bild 9.2 Darstellung von kubischen B– Splines anhand eines Beispiels (N = 5) Ist bei Verwendung der Finite Elemente Methode der zugrunde liegende Operator L ein Differenzialoperator, so besitzt die zugeh¨orige Systemmatrix bei richtiger Anordnung der Basiselemente typischerweise eine Bandstruktur, so dass sich das entsprechende Gleichungssystem (9.40) mit verh¨altnism¨aßig geringem Aufwand l¨osen l¨asst. Die Situation wird im nachfolgenden Abschnitt verdeutlicht.

Abschnitt 9.3

247

Galerkin– Verfahren

9.3.6 Anwendungen Im Folgenden wird nun wieder das spezielle Sturm Liouvillesche Randwertproblem aus Abschnitt 9.3.1 betrachtet: Es bezeichne L : C [ a, b ] ⊃ DL → C [ a, b ] den speziellen Differenzialoperator aus (9.22). Weiter bezeichnet  ·, ·2 das L2 Skalarprodukt (siehe (9.23)), und [[·, ·]] : (9.42) C∆1 [ a, b ] × C∆1 [ a, b ] → R sei die Bilinearform (9.25). Die Gleichung Lu = ϕ besitze eine L¨osung u∗ ∈ DL . Ausgehend von der in (9.42) beschriebenen Situation werden nun die Approximationseigenschaften des Galerkin Verfahrens bez¨uglich spezieller Ansatzr¨aume S vorgestellt. Vorbereitend wird die folgende allgemeine Absch¨atzung festgehalten, die eine unmittelbare Konsequenz aus den bereits gewonnenen Resultaten ist. Korollar 9.38 Ausgehend von der in (9.42) beschriebenen Situation sei zu einem vorgegebenen Ansatzraum S ⊂ D = {u ∈ C∆1 [ a, b ] : u( a ) = u( b ) = 0} die zugeh¨orige Galerkin Approximation mit s ∈ S bezeichnet. Hier gilt die folgende Fehlerabsch¨atzung, || s − u∗ ||2



κ min ||s  − u∗ ||2 s∈S

(9.43)

mit κ = (1 + ||r ||∞ (b − a)2 )1/2 . B EWEIS . Die Aussage folgt unmittelbar aus den Theoremen 9.24, 9.30 und 9.31. Im Folgenden werden f¨ur S lineare beziehungsweise kubische Spliner¨aume mit Nullrandbedingungen herangezogen. F¨ur die Absch¨atzung der rechten Seite von (9.43) lassen sich in dieser Situation die bereits bekannten Schranken f¨ur den jeweils bei der Interpolation auftretenden Fehler verwenden. Korollar 9.39 Zu einer gegebenen Zerlegung ∆ = {a = x0 < x1 < . . . < xN = b} bezeichne S den Raum der linearen Splinefunktion mit Nullrandbedingungen, S = {s ∈ S∆,1 : s( a ) = s( b ) = 0}.

(9.44)

Mit den Notationen aus (9.42) gilt f¨ur die zugeh¨orige Galerkin Approximation s ∈ S die folgende Absch¨atzung, || s − u∗ ||2



chmax ||u∗ ||∞

mit einer Konstanten c ≥ 0, wobei u∗ ∈ C 2 [ a, b ] angenommen wird. B EWEIS . Dieses Resultat erh¨alt man als unmittelbare Konsequenz aus Korollar 9.38 unter Ber¨ucksichtigung von Aufgabe 2.7. Bemerkung 9.40 In der Situation von Korollar 9.39 ist man auch an Absch¨atzungen f¨ur den Fehler  s − u∗ interessiert, die aber mit den in diesem Abschnitt hergeleiteten Techniken nicht

248

Kapitel 9 Randwertprobleme

mit der optimalen Ordnung hergeleitet werden k¨onnen. Mit einer etwas genaueren Wahl der zugrunde liegenden R¨aume und mit einer verfeinerten Technik (die als Dualit¨ats oder Aubin Nitsche Trick bezeichnet wird) l¨asst sich aber f¨ur das Galerkin Verfahren mit dem Ansatzraum aus (9.44) zur L¨osung des Sturm Liouvilleschen Randwertproblems mit homogenen Randbedingungen (9.7) (9.8) die Absch¨atzung || s − u∗ ||2 = O(h2max ) nachweisen.  In der vorliegenden Situation (9.42), (9.44) mit den Hutfunktionen s1 , . . . , sN −1 (siehe Beispiel 9.36) als Basis von S soll noch die zugeh¨orige Systemmatrix betrachtet werden. Wegen sk sj = 0 f¨ur |k − j | ≥ 2 gilt auch [[sk , sj ]] = 0

f¨ur |k − j | ≥ 2,

so dass die zugeh¨orige Systemmatrix eine Tridiagonalmatrix darstellt, deren Eintr¨age folgendes Aussehen besitzen: [[sj , sj−1 ]] = [[sj−1 , sj ]] = − [[sj , sj ]] =

1 hj−1

1 hj−1

− +

1 h2j−1

Z x j xj−1

Z x j

1 h2j−1

xj−1

+

1 h2j

( x − xj−1 ) ( xj − x ) r ( x ) dx, 1 hj

( x − xj−1 )2 r ( x ) dx +

Z x j+1 xj

j = 2, 3, . . . , N − 1,

( xj+1 − x )2 r ( x ) dx,

j = 1, 2, . . . , N − 1,

mit hj = xj+1 − xj f¨ur j = 0, 1, . . . , N − 1. Beispiel 9.41 F¨ur die spezielle Situation (9.22)– (9.25) werde zu der Zerlegung ∆ = {a = x0 < x1 < . . . < xN = b} der Raum S der kubischen Splines mit Nullrandbedingungen betrachtet, . S = s ∈ S∆,3 : s( a ) = s( b ) = 0 . Mit der Notation hj = xj+1 − xj f¨ur j = 0, 1, . . . , N − 1 sei die Uniformit¨atsbedingung max

j=0,...,N −1

hj ≤ K

min

j=0,...,N −1

hj

erf¨ullt mit einer Konstanten K ≥ 0 von moderater Gr¨oße. Dann gilt f¨ur die zugeh¨orige Galerkin Approximation s ∈ S die folgende Absch¨atzung, || s − u∗ ||2



ch3max ||u(∗4) ||∞

(hmax :=

max

j=0,...,N −1

hj ),

mit der Konstanten c = (1 + ||r ||∞ (b − a))1/2 2K, wobei u∗ ∈ C 4 [ a, b ] und u  ( a ) = u  ( b ) = 0 vorausgesetzt wird. Dieses Resultat ist eine unmittelbare Konsequenz aus Korollar 9.38 und Theorem 2.16, wobei man in (9.43) den die Funktion u∗ interpolierenden kubischen Spline s mit nat¨urlichen Randbedingungen betrachtet.  Bemerkung 9.42 Auch in der Situation von Beispiel 9.41 ist man an Absch¨atzungen f¨ur den Fehler s − u∗ interessiert. Unter leicht modifizierten Bedingungen l¨asst sich auch hier mit dem bereits angesprochenen Aubin Nitsche Trick die Absch¨atzung || s − u∗ ||2 = O(h4max ) nachweisen. 

Abschnitt 9.3

249

Galerkin– Verfahren

9.3.7 Das Energiefunktional Als Erg¨anzung zu der in der Voraussetzung 9.25 beschriebenen allgemeinen Situation wird im Folgenden das Energiefunktional vorgestellt, mit dem sich einerseits die L¨osung der Gleichung Lu = ϕ und andererseits die zugeh¨orige Galerkin Approximation charakterisieren lassen. Definition 9.43 In der Situation von Voraussetzung 9.25 ist das zugeh¨orige Energiefunktional J : D → R folgendermaßen erkl¨art, J (u)

=

1 [[u, u]] −  u, ϕ 2

f¨ur u ∈ D.

Das folgende Theorem zeigt, dass sich der Wert des Energiefunktionals nur um eine Konstante von dem Fehler in der Energienorm unterscheidet. Theorem 9.44 Es seien die in Voraussetzung 9.25 genannten Bedingungen erf¨ullt mit einer symmetrischen Bilinearform [[·, ·]]. Dann gilt J (u)

=

 1 [[u − u∗ , u − u∗ ]] − [[u∗ , u∗ ]] 2

f¨ur u ∈ D,

wobei wieder u∗ ∈ DL die L¨osung der Gleichung Lu = ϕ bezeichnet. B EWEIS . Man erh¨alt die Aussage des Theorems durch folgende Rechnung, 2J ( u ) = [[u, u]] − 2 u, ϕ = [ u, u]] − 2 u, Lu∗  =   = [[u, u]] − 2[[u, u∗ ]] + [[u∗ , u∗ ]] − [[u∗ , u∗ ]]   u ∈ D. = u − u∗ , u − u∗ − [[u∗ , u∗ ]],

[ u, u]] − 2[[u, u∗ ]]

Als unmittelbare Konsequenz der Theoreme 9.30 und 9.44 erh¨alt man die folgende Minimaleigenschaft. Korollar 9.45 In der Situation von Theorem 9.44 gilt J ( u∗ ) = min J ( u ) u∈D

=

1 2

− [[u∗ , u∗ ]],

J ( s) = min J ( s ), s∈S

wobei s ∈ S die Galerkin Approximation zu einem gegebenem Ansatzraum S bezeichnet. Bemerkung 9.46 Die Ergebnisse in Theorem 9.44 und Korollar 9.45 behalten ihre G¨ultigkeit f¨ur den Fall, dass die Gleichung Lu = ϕ entgegen der Annahme 9.25 nicht in DL l¨osbar ist, jedoch eine verallgemeinerte L¨osung u∗ ∈ D existiert. Demnach ist ein Element u ∈ D genau dann verallgemeinerte L¨osung der Gleichung Lu = ϕ, wenn es das Energiefunktional minimiert. 

250

Kapitel 9 Randwertprobleme

9.4 Einfachschießverfahren Eine weitere M¨oglichkeit zur L¨osung von Randwertproblemen bei gew¨ohnlichen Differenzialgleichungen bietet das im Folgenden vorgestellte Einfachschießverfahren, das anhand des allgemeinen Randwertproblems u  = f ( x, u, u  ), u( a ) = α, u( b ) = β betrachtet wird6 . Im Folgenden wird ohne weitere Spezifikation an die Funktion f beziehungsweise an die Randbedingungen angenommen, dass f¨ur das vorliegende Randwertproblem eine eindeutig bestimmte L¨osung u : [ a, b ] → R existiert. Ausgangspunkt des Einfachschießverfahrens ist die Betrachtung korrespondierender Anfangswertprobleme f¨ur die vorliegende gew¨ohnliche Differenzialgleichung 2. Ordnung, u  = f ( x, u, u  ), u( a ) = α,

x ∈ [ a, b ],

(9.45)



u ( a ) = s,

(9.46)

deren L¨osung f¨ur jede Zahl s ∈ R existiere und mit u( ·, s ) : [ a, b ] → R

(9.47)

bezeichnet wird. Dabei ist s = s∗ ∈ R so zu bestimmen, dass u( b, s∗ ) = β gilt und damit die Funktion u( ·, s∗ ) : [ a, b ] → R die L¨osung des vorgegebenen Randwertproblems u  = f ( x, u, u  ), u( a ) = α, u( b ) = β darstellt, also u( ·, s∗ ) = u( · ) auf dem Intervall [ a, b ] erf¨ullt ist. Diese Bestimmung von s∗ erfolgt typischerweise iterativ, was die Bezeichnung Einfachschießverfahren begr¨undet und in Bild 9.3 veranschaulicht ist. u ..... ......... ...

α β

u( ·, 1 )

............................ ...... ..... .... ..... ...................................... ... ................. ... ... ........... .......................... ... . . .......... . . ... ............. ........ . ............... . . ... ... ... . .. . ....... . ...... ....... ..................... .. .. . .. . ...... .. .. . .... ...... .. .......... .... . . . . ...... .. ... .... ...... .. ... ..... .. ... . . . .. ..... ... ..... . ... ..... .. ..... .. ..... .. .... .. .... .. . . .. .. ........ .. . .. . .. .. .

u( ·, 0.5 )

u( ·, s∗ ) = u(·) ............................................

a

x

b

Bild 9.3 Veranschaulichung der Situation beim Einfachschießverfahren Die nach dem vorliegenden Ansatz entstandene Problemstellung ist a¨ quivalent zu einer Bestimmung der (eindeutig bestimmten) Nullstelle s∗ ∈ R der nichtlinearen Funktion F ( s ) := u( b, s ) − β,

s ∈ R.

(9.48)

Zur n¨aherungsweisen L¨osung dieses Nullstellenproblems lassen sich die in Kapitel 5 vorgestellten Iterationsverfahren einsetzen, von denen im Folgenden zwei Verfahren genauer betrachtet werden. 6

vergleiche (9.1) – (9.2) auf Seite 226

Abschnitt 9.4

251

Einfachschießverfahren

9.4.1 Numerische Realisierung des Einfachschießverfahrens mit dem Newton-Verfahren Eine M¨oglichkeit zur numerischen Realisierung des Einfachschießverfahrens besteht in der Anwendung des Newton Verfahrens, sn+1 = sn −

F ( sn ) , F  ( sn )

n = 0, 1, . . . .

(9.49)

Dabei sind in jedem Schritt des Newton Verfahrens (9.49) zum einen eine Auswertung der Funktion F und damit das L¨osen eines Anfangswertproblems der Form (9.45) (9.46) erforderlich, was wiederum numerisch mit einem der in den Kapiteln 7 und 8 vorgestellten Ein beziehungsweise Mehrschrittverfahren geschieht. Des Weiteren f¨allt in jedem Schritt des Newton Verfahrens (9.49) eine Auswertung der Ableitung ∂u

F  ( s ) = ∂s ( b, s ), s ∈ R, an. An jeder Stelle s erh¨alt man eine solche Ableitung F  ( s ) als die L¨osung eines Anfangswertproblems f¨ur eine (von s abh¨angende) gew¨ohnliche Differenzialgleichung 2. Ordnung: Lemma 9.47 Bei hinreichend guten Differenzierbarkeitseigenschaften der beteiligten Funktionen stellt f¨ur jeden Wert s ∈ R die Funktion ∂u

v := ∂s ( ·, s ) : [ a, b ] → R die L¨osung eines Anfangswertproblems f¨ur eine spezielle lineare gew¨ohnliche Differenzialgleichung 2. Ordnung dar, v  ( x ) = g1 ( x, s ) v ( x ) + g2 ( x, s ) v  ( x ), v ( a ) = 0,

x ∈ [ a, b ], v  ( a ) = 1.

(9.50)

Die spezielle Form der Funktionen g1 ( ·, s ), g2 ( ·, s ) : [ a, b ] → R ist im Beweis angegeben. B EWEIS . Die Aussage erh¨alt man unter Anwendung der Kettenregel,  ∂3 u d  ∂u ( x, s ) = f x, u( x, s ), ∂x ( x, s ) ds ∂s∂x2   ∂f  ∂u ∂f  ∂u = x, u( x, s ), ( x, s ) v ( x ) + x, u( x, s ), ( x, s ) v  ( x ), x ∈ [ a, b ], ∂u ∂x ∂x ∂u 

 

  =: g1 ( x, s ) =: g2 ( x, s )

v  ( x ) =

beziehungsweise u( a, · ) ≡ α

;

v ( a ) = 0,

∂u ( a, s ) = s ∂x

;

v  ( a ) = 1.

Zu beachten ist noch, dass die im Anschluss von (9.49) beschriebene Anwendung spezieller Ein oder Mehrschrittverfahren zur numerischen Berechnung von F ( s ) gleichzeitig Approximationen f¨ur die Funktionen u( ·, s ) und ∂∂xu ( ·, s ) auf einem Gitter a = x0 < x1 < . . .
0. In Aufgabe 9.13 sind Bedingungen angegeben, die eine Kontraktionseigenschaft und damit Konvergenz der Fixpunktiteration (9.51) gew¨ahrleisten.

Weitere Themen und Literaturhinweise Die Theorie der Randwertprobleme f¨ur gew¨ohnliche Differenzialgleichungssysteme wird beispielsweise in Heuser [51] und in Dallmann/Elster [14] einf¨uhrend behandelt. Dort findet man auch zahlreiche Beispiele f¨ur spezielle Randwertprobleme. Eine Auswahl existierender Lehrb¨ucher mit Abschnitten u¨ ber die numerische L¨osung von Randwertproblemen bildet Golub/Ortega [34], Kress [60], Schwarz/Kl¨ockner [90], Stoer/Bulirsch [96] und Weller [106]. Ausf¨uhrliche Erl¨auterungen u¨ ber die Finite Elemente Methode in mehreren Raumdimensionen zur L¨osung von Randwertproblemen f¨ur partielle Differenzialgleichungen findet man beispielsweise in Braess [6], Goering / Roos /Tobiska [30], Großmann/Roos [40], Hanke-Bourgeois [49], Knabner/Angermann [58], Jung/Langer [56] und in Schwetlick/Kretzschmar [92]. Den Aubin Nitsche Trick zur Herleitung von Fehlerabsch¨atzungen f¨ur das Galerkin Verfahren findet man in [6] oder Finckenstein [24], Band 2. Die Theorie der nichtnegativen Matrizen wird beispielsweise in Berman/Plemmons [3] und in Horn/Johnson [55] behandelt. Einfachschießverfahren lassen sich problemlos auf allgemeinere Randwertprobleme (etwa mit nichtlinearen Randbedingungen) u¨ bertragen. Gelegentlich stellen sich bei Einfachschießverfahren jedoch Instabilit¨aten gegen¨uber Datenst¨orungen ein (dieser Effekt wird in Aufgabe 9.14 anhand eines Randwertproblems f¨ur eine einfache lineare Differenzialgleichung 2. Ordnung demonstriert), weswegen in der Praxis auch Mehrfachschießverfahren eingesetzt werden, die hier jedoch nicht weiter behandelt werden. Eine Einf¨uhrung hierzu findet man etwa [96], wo auch ein Vergleich der einzelnen zur L¨osung von Randwertproblemen bei gew¨ohnlichen Differenzialgleichungen verwendeten Verfahren angestellt wird.

¨ Ubungsaufgaben

253

¨ Ubungsaufgaben Aufgabe 9.1 Im Folgenden wird das Randwertproblem u  ( x ) + p( x )u  ( x ) + r ( x )u( x ) = ϕ( x ), u( a ) = α,

x ∈ [ a, b ],

u( b ) = β,

betrachtet mit Zahlen α, β ∈ R und Funktionen p, r, ϕ ∈ C [ a, b ] mit r ( x ) ≤ 0 f¨ur x ∈ [ a, b ]. Approximation der Ableitungen u  und u  durch zentrale Differenzenquotienten erster beziehungsweise zweiter Ordnung auf einem a¨ quidistanten Gitter xj = a + j ( b − a )/N f¨ur j = 1, 2, . . . , N − 1 f¨uhrt mit einer gewissen Matrix A ∈ R (N −1 )×( N −1) und einem gewissen Vektor b ∈ R N −1 auf ein lineares Gleichungssystem Av = b f¨ur v = (v1 , v2 , . . . , vN −1 ) ∈ R N −1 , mit den N¨aherungen vj ≈ u( xj ). Man gebe A und b an und zeige, dass das Gleichungssystem f¨ur hinreichend kleine Werte von h eindeutig l¨osbar ist. Aufgabe 9.2 F¨ur eine Matrix A ∈ R N×N sei eine regul¨are Zerlegung gegeben, also eine Zerlegung der Form A = B − P,

B, P ∈ R N×N ,

B regul¨ar,

B −1 ≥ 0,

P ≥ 0.

¨ Dann gilt die folgende Aquivalenz: A regul¨ar,

A−1 ≥ 0

⇐⇒

I − B −1 P regul¨ar,

(I − B −1 P )−1 ≥ 0.

Ist eine dieser beiden Bedingungen erf¨ullt, so gilt rσ (B −1 P ) < 1. Aufgabe 9.3 Eine Matrix A ∈ R N×N sei regul¨ar mit einer nichtnegativen Inversen, A−1 ≥ 0. Man zeige: f¨ur jede regul¨are Zerlegung A = B − P der Matrix A gilt rσ ( B −1 P ) =

rσ ( A−1 P ) . 1 + rσ ( A−1 P )

Aufgabe 9.4 Gegeben sei eine regul¨are Matrix A ∈ R N×N mit A−1 ≥ 0 und zwei regul¨aren Zerlegungen A = B1 − P1 = B2 − P2 , wobei P1 ≤ P2 gelte. Man weise die Ungleichungen rσ ( B1−1 P1 ) ≤ rσ ( B2−1 P2 ) < 1 nach. Aufgabe 9.5 F¨ur eine Funktion ϕ ∈ C [ 0, 1 ] betrachte man das Randwertproblem u  = ϕ( x ),

u( 0 ) = u( 1 ) = 0.

(a) Man zeige, dass sich die L¨osung von (9.52) in der Form u( x ) =

Z 1 0

G(x, ξ )ϕ( ξ ) dξ,

x ∈ [ 0, 1 ],

schreiben l¨asst mit der Greenschen Funktion 1 G( x, ξ ) =

ξ ( x − 1 ),

falls ξ ≤ x,

x(ξ − 1),

sonst.

(9.52)

254

Kapitel 9 Randwertprobleme .

(b) Die Funktionen u beziehungsweise u + .............. u seien L¨osungen des Randwertproblems (9.52) beziehungsweise der fehlerbehafteten Version (u + .............. u)  = ϕ + .............. ϕ .

.

.

.

.

(u + ............... u)( 0 ) = (u + .............. u)( 1 ) = 0,

auf [ 0, 1 ],

.

.

mit ............... ϕ ∈ C [ 0, 1 ], |.............. ϕ( x ) | ≤ ε f¨ur x ∈ [ 0, 1 ]. Man zeige |............... u( x ) | ≤ εx(1 − x)/2 f¨ur x ∈ [ 0, 1 ]. (c) Das Differenzenverfahren mit zentralen Differenzenquotienten zweiter Ordnung liefert als L¨osung eines lineares Gleichungssystems A0 v = b N¨aherungswerte vj f¨ur u( xj ) mit xj = j/N, j = 1, 2, . . . , N − 1. F¨ur die fehlerbehaftete Variante .

.

A0 ( v + .............. v ) = b + .............. b

mit

.... ..........

b ∈ R N −1 ,

.

||............. b||∞ ≤ ε

weise man Folgendes nach, .

|.............. vj | ≤

ε xj (1 − xj ) 2

f¨ur j = 1, 2, . . . , N − 1.

Aufgabe 9.6 Die lineare Abbildung ∆ : R N +1 → R N −1 sei definiert durch (∆v )j := bj vj−1 − aj vj + cj vj+1 ,

j = 1, 2, . . . , N − 1,

mit Koeffizienten bj > 0, cj > 0 und aj ≥ bj + cj f¨ur j = 1, 2, . . . , N − 1. (a) Man beweise das folgende diskrete Maximumprinzip: Wenn f¨ur den Vektor v = (v0 , . . . , vN ) ∈ R N +1 mit ∆v ≥ 0 die folgende Bedingung erf¨ullt ist, vj∗ = max vj j=0,...,N

f¨ur ein 1 ≤ j∗ ≤ N − 1,

so gilt v0 = v1 = . . . = vN . (b) Man beweise die inverse Monotonie der Abbildung −∆: Wenn f¨ur Zahlen uj und vj ∈ R (j = 0, . . . , N ) die Bedingungen −∆u ≤ −∆v,

u0 ≤ v0 ,

uN ≤ vN ,

erf¨ullt sind, so gilt u ≤ v. Aufgabe 9.7 Gegeben sei eine Zerlegung ∆ = {a = x0 < x1 < . . . < xN = b} des Intervalls [ a, b ], und hmax = maxj=0,...,N −1 {xj+1 − xj } bezeichne den maximalen Knotenabstand. Man zeige: f¨ur jede Funktion f ∈ C∆1 [ a, b ] mit f ( x0 ) = f ( x1 ) = . . . = f ( xN ) = 0 gilt die Absch¨atzung ||f ||2 ≤

hmax ||f  ||2 .

Aufgabe 9.8 Gegeben sei der Differenzialoperator L : C [ a, b ] ⊃ DL → C [ a, b ], u → −(pu  )  + ru,  DL = u ∈ C 2 [ a, b ] : u( a ) = αu( b ) + u  ( b ) = 0 , mit p ∈ C 1 [ a, b ], r ∈ C [ a, b ], p( x ) ≥ p0 > 0, r ( x ) ≥ 0 f¨ur x ∈ [ a, b ] und mit α ≥ 0. Die Bilinearform [[·, ·]] auf C∆1 [ a, b ] sei durch [[u, v ]] =

Z b a

[pu  v  + ruv ] dx + α(puv )( b ),

u, v ∈ C∆1 [ a, b ],

definiert, und  ·, ·2 sei das L2 Skalarprodukt auf C [ a, b ]. Man zeige Folgendes: (a) Die Bilinearform [[·, ·]] stellt eine Fortsetzung der Abbildung  L·, ·2 dar, und bez¨uglich des Skalarprodukts  ·, ·2 ist die Abbildung L symmetrisch.

¨ Ubungsaufgaben

255

(b) Man zeige c1 ||u||2∞ ≤ [[u, u ]] ≤ c2 ||u  ||2∞ f¨ur u ∈ C∆1 [ a, b ] mit u( a ) = 0, mit geeigneten Konstanten c1 und c2 . Aufgabe 9.9 Gegeben sei der folgende Differenzialoperator vierter Ordnung, L : C [ a, b ] ⊃ DL → C [ a, b ], u → (pu  )  + ru,  DL = u ∈ C 4 [ a, b ] : u( a ) = u  ( a ) = u  ( b ) = u  ( b ) = 0 , mit p ∈ C 2 [ a, b ], r ∈ C [ a, b ], p( x ) ≥ p0 > 0, r ( x ) ≥ 0 f¨ur x ∈ [ a, b ], und  ·, ·2 sei das L2 Skalarprodukt auf C [ a, b ]. (a) Man zeige, dass die Abbildung L symmetrisch und positiv definit bez¨uglich  ·, ·2 ist. (b) Auf dem Raum C∆2 [ a, b ] = {u ∈ C 1 [ a, b ] → R : u  st¨uckweise stetig differenzierbar } bestimme man eine Bilinearform [[·, ·]], die eine Fortsetzung der Abbildung  L·, ·2 darstellt und f¨ur die Absch¨atzungen von der Form c1 ||u||2∞ ≤ [[u, u ]] ≤ c2 ||u  ||2∞ gelten f¨ur u ∈ C∆2 [ a, b ] mit u( a ) = u  ( a ) = 0. Aufgabe 9.10 Man zeige: F¨ur eine positiv definite Bilinearform [[·, ·]] : D × D → R auf einem reellen Vektorraum D gilt die verallgemeinerte Cauchy Schwarzsche Ungleichung, |[[u, v ]] + [[v , u]]|



2[[u, u ]]1/2 [[v , v ]]1/2

f¨ur u, v ∈ D.

Daraus leite man die Dreiecksungleichung f¨ur die zugeh¨orige Norm D  u → [[u, u ]]1/2 her. Aufgabe 9.11 (Fehlerquadratmethode ) Es seien V und W reelle Vektorr¨aume, die Abbildung L : V → W sei injektiv und linear, und  ·, · sei ein Skalarprodukt auf W mit der zugeh¨origen Norm || · ||. ¨ Außerdem seien u∗ ∈ V und ϕ ∈ W. Man weise die Aquivalenz der folgenden drei Aussagen nach: (i) u∗ l¨ost die Minimierungsaufgabe ||Lu − ϕ|| → min f¨ur u ∈ V. (ii) Es gilt  Lu∗ , Lv  =  ϕ, Lv  f¨ur jedes v ∈ V. (iii) Es gilt Lu∗ − ϕ ∈ R( L )⊥ , dem orthogonalen Komplement des Bildraums von L bez¨uglich  ·, ·.  Ist weiter der Vektorraum V endlich dimensional mit Basis v1 , . . . , vN und gilt u∗ = N k=1 ck vk mit gewissen Koeffizienten c1 , . . . , cN , so ist jede der Eigenschaften (i), (ii) und (iii) a¨ quivalent zu der Eigenschaft Ac = b mit den Notationen A = ( Lvj , Lvk  )N j,k=1 ,

b = ( ϕ, Lvj  )N j=1 ,

c = (c1 , . . . , cN ).

Aufgabe 9.12 Gegeben sei das Randwertproblem Lu = −u  + xu = −x3 + x2 + 2,

x ∈ [ 0, 1 ],

u(0) = u(1) = 0.

Wie lautet das Ritzsche Gleichungssystem, wenn als Ansatzfunktionen trigonometrische Polynome von √ der Form vk ( x ) = 2 sin kπx, k = 1, 2, . . . , N verwendet werden? Aufgabe 9.13 Man betrachte das Randwertproblem u  = f ( x, u, u  ), u( a ) = α, u( b ) = β mit einer stetig partiell differenzierbaren Funktion f : [ a, b ] × R 2 → R, die die folgenden Bedingungen erf¨ulle,   ∂f  ∂f  0 < (x, v1 , v2 ) ≤ K, (x, v1 , v2 ) ∈ [ a, b ] × R 2 ,   (x, v1 , v2 )  ≤ L, ∂u ∂u

mit gewissen Konstanten K, L ≥ 0. Sei u( ·, s ) L¨osung des zugeh¨origen Anfangswertproblems (9.45) (9.46).

256

Kapitel 9 Randwertprobleme

(a) F¨ur die Ableitung der zum Einfachschießverfahren korrespondierenden Funktion F ( s ) = u( b, s )−β weise man die Ungleichungen 0 < κ1 ≤ F  ( s ) ≤ κ2 f¨ur s ∈ R nach, mit den Konstanten κ1 := κ2 :=

 1 1 − exp(−L(b − a)) , L  b−a 2exp(L b−a 2 ) , sinh C C 2

6 mit C := L

1+

4K . L2

(b) Man weise nach, dass das Iterationsverfahren s(n+1) = Φ(s(n) ) := s(n) − γF (s( n) )

f¨ur n = 0, 1, . . .,

(0)

f¨ur jeden Startwert s und jeden Wert 0 < γ < 2/κ2 gegen die (einzige) Nullstelle s∗ der Funktion F konvergiert. F¨ur γ = 2/(κ1 + κ2 ) weise man die folgende a priori Fehlerabsch¨atzung nach:  κ − κ n |F (s( 0) )| 2 1 , n = 0, 1, . . . . |s( n) − s∗ | ≤ κ2 + κ1 κ1 Aufgabe 9.14 Zur L¨osung des Randwertproblems u  = 100u

u( 0 ) = 1,

auf [ 0, 3 ],

u( 3 ) = e−30 ,

betrachte man die L¨osung u( ·, s ) des Anfangswertproblems u  = 100u, u( 0 ) = 1, u  ( 0 ) = s. Man berechne u( 3, sε ) f¨ur sε = s∗ ( 1 + ε ), wobei s∗ die L¨osung der Gleichung u( 3, s∗ ) = e−30 bezeichnet und ε > 0 beliebig ist. Ist in diesem Fall das Einfachschießverfahren eine geeignete Methode zur L¨osung des vorliegenden Randwertproblems? Aufgabe 9.15 (Numerische Aufgabe) Man l¨ose numerisch das Randwertproblem u  ( x ) + 6x( 1 − x )u  ( x ) + u( x )2

=

x4 + 10x3 − 17x2 + 6x − 2,

x ∈ [ 0, 1 ],

u( 0 ) = u( 1 ) = 0, mit dem Einfachschießverfahren. Zur Nullstellensuche verwende man das Newton Verfahren einmal mit Startwert s(0) = 1 und einmal mit s(0) = 20. Die jeweiligen Anfangswertprobleme l¨ose man numerisch mit dem expliziten Eulerverfahren mit Schrittweite h = 1/30. Man gebe die N¨aherungen vj zu den Gitterpunkten xj = jh, j = 0, 1, . . . , 30, tabellarisch an.

257

10 Gesamtschritt-, Einzelschritt- und Relaxationsverfahren zur L¨osung linearer Gleichungssysteme 10.1 Iterationsverfahren zur L¨osung linearer Gleichungssysteme Zur L¨osung linearer Gleichungssysteme Ax = b



A ∈ R N×N regul¨ar,

b ∈ RN



(10.1)

mit der eindeutigen L¨osung x∗ = A−1 b ∈ R N werden in den beiden folgenden Kapiteln 10 und 11 einige spezielle Iterationsverfahren vorgestellt. Dabei hat man sich unter einem Iterationsverfahren ganz allgemein ein Verfahren vorzustellen, bei dem – ausgehend von einem beliebigen Startvektor x(0) ∈ R N – sukzessive Vektoren x( 1) , x( 2) , . . . ∈ R N berechnet werden gem¨aß der zum jeweiligen Verfahren geh¨orenden Iterationsvorschrift.

10.1.1 Hintergrund zum Einsatz iterativer Verfahren bei linearen Gleichungssystemen Iterative Verfahren werden unter anderem zur schnellen approximativen L¨osung linearer Gleichungssysteme (10.1) eingesetzt. Im Vergleich dazu ben¨otigen die in Kapitel 4 vorgestellten direkten Verfahren zur L¨osung eines Gleichungssystems von der Form (10.1) im Allgemeinen1 cN 3 + O( N 2 ) arithmetische Operationen mit einer gewissen Konstanten c > 0. Demgegen¨uber setzt sich bei jedem der vorzustellenden Iterationsverfahren ein einzelner Iterationsschritt typischerweise wie folgt zusammen: •

es treten ein oder zwei Matrix Vektor Multiplikationen auf, die mit jeweils N 2 Multiplikationen zu Buche schlagen,



zudem sind mehrere kleine Operationen notwendig wie etwa die Berechnung von Skalarprodukten oder Summen von Vektoren, bei denen insgesamt O( N ) arithmetische Operationen anfallen.

Insgesamt erfordert die Durchf¨uhrung eines Iterationsschrittes also O( N 2 ) arithmetische Operationen. Liefert nun das Iterationsverfahren nach einer vertretbaren Anzahl von n  N Iterationsschritten hinreichend gute Approximationen x( n) ≈ x∗ , so betr¨agt der Gesamtaufwand insgesamt also deutlich weniger als die oben genannten cN 3 + O( N 2 ) arithmetischen Operationen. 1

das heißt, bei voll besetzter Matrix A ohne spezielle Struktur

258

Kapitel 10

Gesamtschritt-, Einzelschritt- und Relaxationsverfahren

Weitere zu beachtende Aspekte im Zusammenhang mit dem Einsatz iterativer Verfahren sind in der nachfolgenden Bemerkung aufgef¨uhrt. Bemerkung 10.1 (a) Bereits bei der numerischen L¨osung nichtlinearer Gleichungssysteme in Kapitel 5 sind einige Iterationsverfahren vorgestellt worden, dort vor dem Hintergrund fehlender direkter Methoden. Nat¨urlich lassen sich einige der dort vorgestellten Resultate – so zum Beispiel der Banachsche Fixpunktsatz (Theorem 5.7) – zur approximativen L¨osung linearer Gleichungssysteme verwenden. In den beiden folgenden Kapiteln 10 11 wird sich jedoch Folgendes herausstellen: •



F¨ur gewisse Fixpunktiterationen lassen sich auch bei fehlender Kontraktionseigenschaft noch Konvergenzresultate nachweisen, und dies gr¨oßtenteils bei beliebiger Wahl des Startwerts x( 0) ∈ R N . F¨ur Gleichungssysteme Ax = b mit speziellen Eigenschaften – etwa Monotonie oder Symmetrie von A – lassen sich besonders effiziente Methoden einsetzen.

(b) In den Anwendungen treten h¨aufig Fragestellungen auf, deren Modellierung und anschließende Diskretisierung auf große lineare Gleichungssysteme Ax = b mit schwach besetzten (ein Großteil der N 2 Eintr¨age ist also identisch null) Matrizen A ∈ R N×N f¨uhren. Ein Modellbeispiel hierzu ist in Abschnitt 10.2.1 angegeben. Die bereits getroffenen Aussagen u¨ ber direkte und iterative L¨oser lassen sich mit entsprechenden Modifikationen bez¨uglich des Aufwands u¨ bertragen. 

10.2 Lineare Fixpunktiteration Eine Klasse von Iterationsverfahren zur approximativen Bestimmung der L¨osung x∗ der Gleichung (10.1) gewinnt man durch Umformulierung von Ax = b in eine Fixpunktgleichung der Form x = Hx + z,

(10.2)

mit einer geeigneten zun¨achst nicht n¨aher spezifizierten Iterationsmatrix H ∈ R N×N sowie einem geeigneten Vektor z ∈ R N . Es sei nur angenommen, dass die L¨osung x∗ ∈ R N der Gleichung (10.1) zugleich einziger Fixpunkt von (10.2) ist. Die zur Fixpunktgleichung (10.2) geh¨orende lineare Fixpunktiteration lautet dann x(n+1) = Hx( n) + z,

n = 0, 1, . . .,

(10.3)

wobei x( 0) ∈ R N ein frei w¨ahlbarer Startvektor ist. Im Folgenden werden f¨ur lineare Fixpunktiterationen der Form (10.3) Resultate f¨ur (globale) Konvergenz im Sinne der folgenden Definition geliefert. Definition 10.2 Das Verfahren (10.3) zur Bestimmung von x∗ ∈ R N heißt konvergent, wenn f¨ur jeden Startwert x(0) ∈ R N Folgendes gilt, ||x( n) − x∗ || → 0

f¨ur n → ∞.

(10.4)

Abschnitt 10.2

259

Lineare Fixpunktiteration

Hier bezeichnet || · || : R N → R eine nicht n¨aher spezifizierte Vektornorm. Ein nicht konvergentes Verfahren (10.3) nennt man divergent. Theorem 10.3 Das station¨are Iterationsverfahren (10.3) ist konvergent genau dann, wenn die Ungleichung rσ ( H ) < 1 erf¨ullt ist. B EWEIS . Nach Voraussetzung gilt x∗ = Hx∗ + z, und somit gelten die Fehlerdarstellungen x( n+1) − x∗ = H ( x( n) − x∗ ) beziehungsweise x( n) − x∗

=

H n ( x( 0) − x∗ ),

n = 0, 1, . . . .

(10.5)

Konvergenz ist demnach gleichbedeutend mit H n → 0 f¨ur n → ∞. Dies wiederum ist nach Theorem 9.13 a¨ quivalent zur Eigenschaft rσ ( H ) < 1. Bemerkung 10.4 Ebenfalls nach Theorem 9.13 ist das station¨are Iterationsverfahren (10.3) konvergent genau dann, wenn eine Vektornorm || · || : R N → R existiert, so dass f¨ur die zugeh¨orige Matrixnorm die Ungleichung ||H || < 1 erf¨ullt ist. F¨ur spezielle Matrizen A und spezielle Verfahren (10.3) ist es jedoch h¨aufig so, dass dieses Kriterium f¨ur g¨angige und leicht zu berechnende Normen nicht erf¨ullt ist, obwohl die (oft auch nachweisbare) Ungleichung rσ ( H ) < 1 erf¨ullt ist und somit Konvergenz vorliegt.  Die Konvergenz der linearen Fixpunktiteration (10.3) ist umso besser, je kleiner der Spektralradius rσ ( H ) ausf¨allt: Theorem 10.5 Zu einer beliebigen Matrix H ∈ R N×N und jeder Zahl ε > 0 existiert eine Vektornorm || · || : R N → R, mit der f¨ur das station¨are Iterationsverfahren (10.3) die folgende Absch¨atzung gilt,     (n)  x − x∗  ≤ (rσ ( H ) + ε)n  x( 0) − x∗ , n = 0, 1, . . . .

B EWEIS . Die Aussage ist eine unmittelbare Konsequenz aus der Darstellung (10.5) und dem folgenden Lemma. Lemma 10.6 Zu jeder Matrix H ∈ R N×N und jeder Zahl ε > 0 existiert eine Vektornorm || · || : R N → R, so dass f¨ur die zugeh¨orige Matrixnorm die folgende Ungleichung gilt: ||H || ≤ rσ ( H ) + ε.

B EWEIS . Mit der Notation a := 1/(rσ ( H ) + ε) erh¨alt man rσ ( aH ) = arσ ( H ) < 1, und Theorem 9.13 liefert dann die Existenz einer Vektornorm || · || : R N → R, so dass f¨ur die zugeh¨orige Matrixnorm die Ungleichung ||aH || < 1 erf¨ullt ist. Daraus erh¨alt man unmittelbar die Aussage des Lemmas. Als unmittelbare Konsequenz aus Lemma 10.6 erh¨alt man Folgendes:

260

Kapitel 10

Gesamtschritt-, Einzelschritt- und Relaxationsverfahren

Korollar 10.7 F¨ur jede Matrix H ∈ R N×N gilt  rσ ( H ) = inf ||H || : die Matrixnorm ist durch eine reelle Vektornorm induziert . (10.6) In Aufgabe 10.1 wird ein Kriterium daf¨ur angegeben, wann in (10.6) das Minimum angenommen wird.

10.2.1 Ein Modellbeispiel Problemstellung Im Folgenden wird ein Beispiel vorgestellt, bei dem die noch vorzustellenden iterativen Verfahren sinnvoll angewendet werden k¨onnen2 . Es handelt sich hierbei um ein Dirichletsches Randwertproblem f¨ur die Poisson Gleichung,



∂2 u ∂2 u 2 − ∂x ∂y 2

= f

u = 0

auf Ω := ( 0, 1 )2 ,

(10.7)

auf Γ := Rand von [ 0, 1 ]2 ,

(10.8)

wobei f : [ 0, 1 ]2 → R eine gegebene stetige Funktion ist, und die Funktion u : [ 0, 1 ]2 → R ist zu bestimmen. Im Folgenden wird vorausgesetzt, dass das Randwertproblem (10.7) (10.8) eine eindeutig bestimmte stetige und im Inneren von [ 0, 1 ]2 zweimal stetig differenzierbare L¨osung u : [ 0, 1 ]2 → R besitzt.3 Der Ansatz fur ¨ Differenzenverfahren Zur numerischen L¨osung des Randwertproblems (10.7) (10.8) mittels Differenzenverfahren wird das zugrunde liegende Intervall [ 0, 1 ]2 mit Gitterpunkten versehen, die hier a¨ quidistant gew¨ahlt seien, xj = jh,

yk = kh,

j, k = 0, 1, . . . , M

(h =

1 M

).

(10.9)

Die inneren Gitterpunkte sind in Bild 10.1 dargestellt. Bez¨uglich dieses Gitters (10.9) wird das Randwertproblem (10.7) (10.8) in zweierlei Hinsicht diskretisiert: die Poisson Gleichung (10.7) wird nur an den inneren Gitterpunkten ( xj , yk ), 1 ≤ j, k ≤ M − 1 betrachtet, und die partiellen Ableitungen werden dort jeweils durch zentrale Differenzenquotienten 2. Ordnung approximiert, ⎫ −u( xj−1 , yk ) + 2u( xj , yk ) − u( xj+1 , yk ) ∂2 u ⎪ ( h2 ), ⎪ + O − 2 ( xj , yk ) = ⎪ ⎪ ∂x h2 ⎪ ⎬ 2 −u( xj , yk−1 ) + 2u( xj , yk ) − u( xj , yk+1 ) ∂ u ( h2 ), ⎪ (10.10) − 2 ( xj , yk ) = + O ⎪ ∂y h2 ⎪ ⎪ ⎪ j, k = 1, 2, . . . , M − 1, ⎭ 2 3

vergleiche Bemerkung 10.1 Unter zus¨atzlichen Voraussetzungen an f ist diese Annahme erf¨ullt ( Hackbusch [43], Kapitel 3 ).

Abschnitt 10.2

261

Lineare Fixpunktiteration

1 (M − 1)h (M − 2)h .. . .. . 2h h 0

.................................................................................................................................................................................... ... .... ... ... ... ... ... ... .... ... .... .... .... .... .... .... .... .... .... ... ... ... .. .... .... .... .. ... ... ... .... .

0 h 2h

... ...

(M − 1)h

Bild 10.1 Darstellung des gegebenen Gitters

wobei hier u ∈ C 4 ([ 0, 1 ]2 ) angenommen wird. Vernachl¨assigung des Restglieds in (10.10) f¨uhrt auf das folgende gekoppelte System von N = ( M − 1 )2 linearen Gleichungen,

−Uj−1,k − Uj,k−1 + 4Uj,k − Uj,k+1 − Uj+1,k h2

=

j, k = 1, . . . , M − 1, (10.11)

fj,k ,

f¨ur die Approximationen



Uj,k

j, k = 1, 2, . . . , M − 1,

u( xj , yk ),

wobei in (10.11) noch

Uj,0

= fj,k

U0,k =

=

0,

f ( xj , yk ),

j, k = 1, 2, . . . , M − 1, ......

gesetzt ist. Zu jedem Gitterpunkt ( xj , yk ) korrespondiert in nat¨urlicher Weise sowohl die Unbekannte Uj,k als auch eine Gleichung aus (10.11). Ordnet man in Bild 10.1 diese Gitterpunkte beziehungsweise die entsprechenden Unbekannten und Gleichungen zeilenweise (von links nach rechts) und dann aufw¨arts an, so erh¨alt man die folgende Matrixdarstellung f¨ur die Gleichungen (10.11),

262 ⎛

Kapitel 10



⎞⎛

−1

4 −1

⎜ ⎜ −1 ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ −1 ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ 1 ⎜ ⎜ ⎜ h2 ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

pp

p

pp

p

pp

p

pp

p −1

pp

p pp

p

−1 4

−1 pp

4 −1 pp

Gesamtschritt-, Einzelschritt- und Relaxationsverfahren

−1

p pp

pp pp

p

p

p

pp

p −1

−1

p pp

p

pp

p pp

p pp

−1 4 pp

pp

p pp

−1

p pp

p pp

pp

p pp

p pp

p

pp

p pp

p

p

p

−1

4 −1 pp

p p −1 p p p p

p pp

 =:A

p

pp

p

−1

p

pp

p

U1,1

⎟⎜ pp ⎟⎜ p ⎟⎜ ⎟⎜ pp ⎟⎜ p ⎟⎜ ⎟⎜ ⎟⎜ ⎟ ⎜ UM −1,1 ⎟⎜ ⎟⎜ ⎟ ⎜ U1,2 ⎟⎜ ⎟⎜ pp ⎟⎜ p ⎟⎜ ⎟⎜ ppp ⎟⎜ ⎟⎜ ⎟⎜ ⎟ ⎜ UM −1,2 ⎟⎜ ⎟⎜ pp ⎟⎜ p ⎟⎜ ⎟⎜ pp ⎟⎜ p ⎟⎜ ⎟⎜ pp ⎟⎜ p ⎟⎜ ⎟⎜ pp ⎟⎜ p −1 ⎟ ⎜ ⎟⎜ ⎟⎜ ⎟ ⎜ U1,M −1 ⎟⎜ ⎟⎜ pp ⎟⎜ p ⎟⎜ ⎟⎜ pp ⎟ ⎜ p −1 ⎠ ⎝

−1 4



UM −1,M −1





f1,1

⎟ ⎜ pp ⎟ ⎜ p ⎟ ⎜ ⎟ ⎜ pp ⎟ ⎜ p ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ fM −1,1 ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ f1,2 ⎟ ⎜ ⎟ ⎜ pp ⎟ ⎜ p ⎟ ⎜ ⎟ ⎜ ppp ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ fM −1,2 ⎟ ⎜ ⎟ = ⎜ pp ⎟ ⎜ p ⎟ ⎜ ⎟ ⎜ pp ⎟ ⎜ p ⎟ ⎜ ⎟ ⎜ pp ⎟ ⎜ p ⎟ ⎜ ⎟ ⎜ pp ⎟ ⎜ ⎟ ⎜ p ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ f1,M −1 ⎟ ⎜ ⎟ ⎜ pp ⎟ ⎜ p ⎟ ⎜ ⎟ ⎜ pp ⎟ ⎜ p ⎠ ⎝

⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠

fM −1,M −1

Die zugrunde liegende Matrix A ∈ R N×N mit N = ( M − 1 )2 ist schwach besetzt und dient im Folgenden als ein Referenzbeispiel f¨ur die vorzustellenden speziellen Klassen von Matrizen. Bemerkung 10.8 In dem Differenzenschema (10.11) treten auf der linken Seite der Gleichung f¨ur jeden Index ( j, k ) die N¨aherungen zum Gitterpunkt ( xj , yk ) und seinen vier Nachbarn auf, weshalb man hier von einer Funfpunkteformel ¨ oder auch von einem Funfpunktestern ¨ spricht. Die zur Gewinnung der Matrixdarstellung angegebene Reihung der Gitterpunkte wird als lexikografische Anordnung bezeichnet. 

10.3 Einige spezielle Klassen von Matrizen und ihre Eigenschaften In Vorbereitung auf die nachfolgenden Abschnitte 10.4 und 10.5 u¨ ber das Gesamt und das Einzelschrittverfahren sollen zun¨achst einige spezielle Klassen von Matrizen betrachtet werden.

10.3.1 Irreduzible Matrizen Auch im Folgenden liegt das Hauptaugenmerk auf reellen Matrizen. Aus technischen Gr¨unden wie etwa anstehenden Spektralbetrachtungen werden nun jedoch auch komplexe Matrizen und Normen zugelassen.

Abschnitt 10.3

263

Einige spezielle Klassen von Matrizen

Definition 10.9 Eine Matrix B = (bjk ) ∈ CN×N heißt reduzibel, falls Mengen J , K ⊂ {1, 2, . . . , N } mit folgenden Eigenschaften existieren: J = ∅,

K = ∅,

bjk = 0

J ∩ K = ∅,

∀ j ∈ J,

J ∪K

=

{1, 2, . . . , N }, (10.12)

k ∈ K.

Andernfalls heißt die Matrix irreduzibel. Beispiel 10.10 Die Matrix



1 2 0



⎜ ⎟ ⎜ –1 1 0 ⎟ ⎝ ⎠ 3 0 1 ist reduzibel: man betrachte J = {1, 2} und K = {3}.



Die Bezeichnung “reduzibel“ begr¨undet sich in der folgenden Eigenschaft: Bemerkung 10.11 Die L¨osung eines gegebenen nichtsingul¨aren Gleichungssystems Ax = b mit einer reduziblen Matrix A = ( ajk ) ∈ CN×N l¨asst sich in zwei kleinere Teilaufgaben zerlegen (die Notation sei entsprechend Definition 10.9 gew¨ahlt): (i) man bestimmt zun¨achst die Unbekannten xj , j ∈ J , des linearen Gleichungssystems N 

ajk xk

=

k=1



ajk xk

!

=

bj ,

j ∈ J.

k∈J

(ii) Anschließend bestimmt man die Unbekannten xj , j ∈ K, des linearen Gleichungssystems  k∈K

ajk xk

!

=

bj −

 k∈J

ajk xk ,

j ∈ K. 

Beispiel 10.12 Eine Tridiagonalmatrix ist irreduzibel genau dann, wenn jeder ihrer Nebendiagonaleintr¨age von null verschieden ist.  B EWEIS . Die Tridiagonalmatrix sei mit B = ( bjk ) ∈ CN×N bezeichnet. “=⇒“: F¨ur einen beliebigen Index j∗ ∈ {1, . . . , N − 1} sind die Mengen J = {1, . . . , j∗ } und K = {j∗ + 1, . . . , N } nichtleer und disjunkt mit J ∪ K = {1, . . . , N }. Da f¨ur beliebige Indizes j ∈ J und k ∈ K mit |j − k | ≥ 2 ohnehin bjk = 0 gilt, ist aufgrund der Irreduzibilit¨at der Matrix B notwendigerweise bj∗ ,j∗ +1 = 0. Die Eigenschaft bj∗ +1,j∗ = 0 erschließt man nach Vertauschen von J und K genauso. “⇐=“: F¨ur beliebige Mengen J , K ⊂ {1, 2, . . . , N } von der Form (10.12) existieren notwendigerweise Indizes j ∈ J , k ∈ K, die benachbart sind, es gilt also k = j + 1 oder k = j − 1. F¨ur solche Indizes gilt aufgrund der Annahme bjk = 0, und infolgedessen ist die Matrix B irreduzibel.

264

Kapitel 10

Gesamtschritt-, Einzelschritt- und Relaxationsverfahren

Beispiel 10.13 Die zu dem vorgestellten Modellbeispiel aus Abschnitt 10.2.1 geh¨orende Matrix ist irreduzibel diagonaldominant (Aufgabe 10.5).  Die folgenden elementaren Eigenschaften werden ebenfalls noch ben¨otigt. Lemma 10.14 Die Matrix B ∈ CN×N sei irreduzibel. (a) F¨ur jede Diagonalmatrix D ∈ CN×N ist mit B auch die Matrix B + D irreduzibel. (b) F¨ur Zahlen cjk ∈ R mit cjk = 0 f¨ur j = k ist mit B = ( bjk ) auch die Matrix (cjk bjk ) ∈ CN×N irreduzibel. B EWEIS . Ist eine Matrix irreduzibel, so a¨ ndert sich diese Eigenschaft aufgrund der Definition offenkundig nicht, wenn man die Diagonaleintr¨age beliebig ab¨andert. Entsprechendes gilt, wenn die nichtverschwindenden Nichtdiagonaleintr¨age beliebig zu nichtverschwindenden Eintr¨agen abge¨andert werden. Definition 10.15 Eine Matrix B = (bjk ) ∈ CN×N heißt irreduzibel diagonaldominant, falls B irreduzibel ist und weiter Folgendes gilt, N 

|bjk | ≤ |bjj |,

j = 1, 2, . . . , N,

⎫ ⎪ ⎪ ⎬

f¨ur mindestens ein j ∈ {1, 2, . . . , N }.

⎪ ⎪ ⎭

k=1 k=j ......


1 von Uberrelaxation. In dem vorliegenden Abschnitt werden f¨ur zwei Klassen von Matrizen allgemeine Konvergenzresultate zum Relaxationsverfahren hergeleitet. Eine optimale Wahl des Relaxationsparameters ω wird dabei nicht weiter diskutiert. Die erzielten Resultate sind aber bereits f¨ur den Fall ω = 1 (Einzelschrittverfahren) von Interesse. Bemerkung 10.28 Eine besondere Bedeutung erlangt das Relaxationsverfahren f¨ur die spezielle Klasse der konsistent geordneten Matrizen A, die im n¨achsten Abschnitt 10.7 behandelt werden. F¨ur solche Matrizen A l¨asst sich der Spektralradius der Iterationsmatrix H( ω ) als Funktion des Relaxationsparameters ω genau ermitteln beziehungsweise die Wahl von ω optimieren.  F¨ur allgemeine Matrizen A ∈ R N×N mit nichtverschwindenden Diagonalelementen gilt das folgende Resultat, mit dem sich die Wahl vern¨unftiger Relaxationsparameter schnell einschr¨anken l¨asst. Theorem 10.29 (Kahan) F¨ur die Iterationsmatrix des Relaxationsverfahrens gilt rσ ( H( ω ))



|ω − 1|,

ω ∈ R.

B EWEIS . Mit der Bezeichnung λ1 , . . . , λN ∈ C f¨ur die entsprechend ihrer Vielfachheit gez¨ahlten Eigenwerte von H( ω ) gilt aufgrund der Darstellung (10.19) Folgendes,   λj = det H( ω ) = det(I − ωD−1L)−1 det ( 1 − ω )I − ωD−1R = ( 1 − ω )N ,

  j=1 = 1 N 

so dass notwendigerweise |λj | ≥ |1 − ω | f¨ur mindestens einen Index 1 ≤ j ≤ N gilt. Korollar 10.30 Das Relaxationsverfahren ist h¨ochstens f¨ur 0 < ω < 2 konvergent. B EWEIS . F¨ur ω ∈ ( 0, 2 ) gilt nach Theorem 10.29 die Ungleichung rσ ( H( ω )) ≥ 1, so dass nach Theorem 10.3 keine Konvergenz vorliegen kann. Ein erstes hinreichendes Kriterium f¨ur die Konvergenz des Relaxationsverfahrens liefert das folgende Theorem.

272

Kapitel 10

Gesamtschritt-, Einzelschritt- und Relaxationsverfahren

Theorem 10.31 (Ostrowski, Reich) F¨ur eine symmetrische, positiv definite Matrix A ∈ R N×N ist das zugeh¨orige Relaxationsverfahren f¨ur jeden Wert 0 < ω < 2 durchf¨uhrbar und konvergent, rσ ( H( ω )) < 1

f¨ur 0 < ω < 2.

B EWEIS . Aufgrund der Definitheit der Matrix A gilt ajj = e ur alle j, was insbej Aej > 0 f¨ sondere die Durchf¨uhrbarkeit des Relaxationsverfahrens nach sich zieht. F¨ur den Nachweis der Konvergenz berechnet man zun¨achst  −1 H( ω ) = I − ω ( D + ωL )−1 A = I − ω1 D + L A  −1  = I − 2( Q + I )−1 = (Q − I )( Q + I )−1 , = I − 2 2A−1 ω1 D + L   mit Q := 2A−1 ω1 D + L − I. Im Folgenden wird σ ( Q ) ⊂ {λ ∈ C : Re λ > 0}

(10.20)

nachgewiesen. Wegen σ(H( ω ) )

=

λ−1 λ+1

: λ ∈ σ(Q)



und  λ − 1 2     λ+1

=

(Re λ − 1)2 + (Im λ)2 (Re λ + 1)2 + (Im λ)2


0

erh¨alt man dann die Aussage des Theorems. F¨ur den Nachweis von (10.20) betrachtet man λ ∈ C und 0 = x ∈ CN mit Qx = λx und erh¨alt zun¨achst   λAx = 2 ω1 D + L x − Ax. Skalare Multiplikation mit dem Vektor x liefert   (Re λ) xH Ax = 2Re xH ω1 D + L x − xH Ax     > 0 = xH ω2 D + L + LH x − xH (D + L + R)x 

> 0, da ajj >0 ∀ j

=

 2

ω



 − 1 xH Dx,

=R

und daraus folgt Re λ > 0.

10.6.1 M– Matrizen Im Folgenden wird eine weitere Klasse von Matrizen vorgestellt, bei denen das Relaxationsverfahren einsetzbar ist. Definition 10.32 Eine Matrix A = (ajk ) ∈ R N×N heißt M Matrix, falls Folgendes gilt,

Abschnitt 10.6

273

Das Relaxationsverfahren und erste Konvergenzresultate

(a) Die Matrix A ist regul¨ar und besitzt eine Inverse mit ausschließlich nichtnegativen Eintr¨agen, A−1 ≥ 0. (b) Alle Eintr¨age der Matrix A außer denen auf der Diagonalen sind nichtpositiv, ajk ≤ 0 f¨ur alle Indizes j, k mit j = k. M Matrizen lassen sich folgendermaßen charakterisieren: ¨ Theorem 10.33 F¨ur eine Matrix A = ( ajk ) ∈ R N×N gilt die folgende Aquivalenz, ⎧ ⎫ ⎪ ⎪ a > 0 f¨ u r j = 1, . . . , N, ⎪ ⎪ jj ⎪ ⎪ ⎨ ⎬ A ist M Matrix ⇐⇒ ajk ≤ 0 f¨ur alle j, k mit j = k, ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ ⎭ rσ ( D −1 ( L + R )) < 1,

(10.21)

mit der Zerlegung A = D+L+R in Diagonal , unteren und oberen Anteil entsprechend (10.15). Die Inverse jeder M Matrix A besitzt die nichtnegative Neumannsche Reihenentwicklung A−1

=

∞  

ν − D −1 (L + R) D −1

   ν=0



0.

(10.22)

≥0

≥0

B EWEIS . “⇐=“ Mit der Identit¨at I − D−1 A = −D −1 ( L + R ) und den Voraussetzungen D regul¨ar,

D −1 ≥ 0,

−( L + R ) ≥ 0,

rσ ( –D −1 ( L + R )) < 1,

erh¨alt man unter Anwendung von Theorem 9.13 die Regularit¨at der Matrix A sowie die nichtnegative Neumannsche Reihenentwicklung (10.22) f¨ur die Inverse A−1 , womit die Richtung “⇐=“ nachgewiesen ist. F¨ur den Nachweis der anderen Implikation “=⇒“ sei nun A eine M Matrix. Wenn akk ≤ 0 f¨ur ein k ∈ {1, . . . , N } gilt, so erh¨alt man f¨ur den Vektor a( k ) = (ajk )j ∈ R N die Ungleichung a( k ) ≤ 0 und daraus den Widerspruch k ter Einheitsvektor ek = A−1 a( k ) ≤ 0. F¨ur den Nachweis der Ungleichung rσ ( B ) < 1 mit B := −D −1 ( L + R ) stellt man Folgendes fest, B ≥ 0,

I − B = D−1 A regul¨ar,

( I − B )−1 = A−1 D ≥ 0,

und Theorem 9.17 liefert die behauptete Ungleichung rσ ( B ) < 1. Beispiel 10.34 Die Matrix zu dem in Abschnitt 10.2.1 vorgestellten Modellbeispiel ist eine M Matrix, denn als irreduzibel diagonaldominante Matrix gilt f¨ur sie nach Theorem 10.19 die Ungleichung rσ ( D −1 ( L + R )) < 1.  Theorem 10.35 F¨ur eine M Matrix A ∈ R N×N ist das Relaxationsverfahren durchf¨uhrbar und f¨ur jeden Parameter 0 < ω ≤ 1 konvergent, rσ ( H( ω )) < 1

f¨ur 0 < ω ≤ 1.

274

Kapitel 10

Gesamtschritt-, Einzelschritt- und Relaxationsverfahren

B EWEIS . Die Durchf¨uhrbarkeit ist aufgrund des Nichtverschwindens der Diagonaleintr¨age der Matrix A (siehe Theorem 10.33) gew¨ahrleistet. Im Folgenden wird H( ω ) ≥ 0,

I − H( ω )

regul¨ar,

(I − H( ω ) )−1 ≥ 0,

(10.23)

nachgewiesen. Die Aussage des Theorems erh¨alt man dann unmittelbar mit Theorem 9.17. Nach Voraussetzung gilt (mit der Zerlegung D + L + R = A aus (10.15)) D regul¨ar,

D ≥ 0,

D−1 ≥ 0,

R ≤ 0,

L ≤ 0.

Damit ist insbesondere die Matrix D + ωL regul¨ar, und die Eigenschaft H( ω ) ≥ 0 resultiert dann aus ( D + ωL )−1 ≥ 0, was man wie folgt einsieht, σ(−ωD−1 L) = {0}, −ωD−1 L ≥ 0,  −1 (∗) ; I − ( –ωD−1 L ) = (I + ωD−1L)−1 ≥ 0, wobei man die Schlussfolgerung (∗) mit Theorem 9.17 erh¨alt. Die beiden anderen Aussagen in (10.23) ergeben sich folgendermaßen,   = ω ( D + ωL )−1 A, I − H( ω ) = ( D + ωL )−1 D + ωL − ( 1 − ω )D + ωR

    regul¨ar −1 −1 −1 1 1 = ω A ( D + ωL ) = ω A A − ( 1 − ω )L − R (I − H( ω ) )   = ω1 I + ω1 A−1 − ( 1 − ω )L − R ≥ 0.  

  ≥0

≥0

Dies komplettiert den Beweis von Theorem 10.35. Bemerkung 10.36 Beim Relaxationsverfahren f¨ur M Matrizen gilt spezieller rσ ( H( ω2 )) ≤ rσ ( H( ω1 )) < 1 f¨ur 0 < ω1 ≤ ω2 ≤ 1 (Aufgabe 10.10), so dass innerhalb des Parameterintervalls 0 < ω ≤ 1 die Wahl ω = 1 optimal ist. 

10.7 Das Relaxationsverfahren fur ¨ konsistent geordnete Matrizen Es soll nun noch eine Klasse von Matrizen behandelt werden, bei denen sich der Spektralradius der zugeh¨origen Iterationsmatrix H( ω ) als Funktion des Relaxationsparameters ω genau ermitteln beziehungsweise die Wahl von ω optimieren l¨asst. Definition 10.37 Eine Matrix A = (ajk ) ∈ R N×N mit ajj = 0 f¨ur alle j heißt konsistent geordnet, falls die Eigenwerte der Matrix J ( α ) := αD−1 L + α−1 D −1 R



CN×N ,

0 = α ∈ C,

(10.24)

unabh¨angig von α sind, wenn also die Identit¨at σ ( J ( α )) = σ ( J ( 1 )) gilt f¨ur 0 = α ∈ C. Hierbei bezeichnet A = D +L+R die Zerlegung in Diagonal , unteren und oberen Anteil entsprechend (10.15).

Abschnitt 10.7

275

Relaxationsverfahren f¨ur konsistent geordnete Matrizen

Beispiel 10.38 Eine Block Tridiagonalmatrix



⎛ D1 C 1

⎜ ⎜ ⎜ p ⎜ B1 p p ⎜ ⎜ pp ⎜ p ⎜ ⎝

=

A

⎟ ⎟ ⎟ p ⎟ ⎟ ∈ R N×N ⎟ pp p CM −1 ⎟ ⎟ ⎠ BM −1 DM pp

 mit regul¨aren Diagonalmatrizen Dk ∈ R Nk×Nk , k = 1, 2, . . . , M (mit M k=1 Nk = N ) ist konsistent geordnet. (Die Nebendiagonalmatrizen seien hierbei von entsprechender Dimension,  es gilt also Bk ∈ R Nk+1×Nk und Ck ∈ R Nk×Nk+1 f¨ur k = 1, 2, . . . , M − 1.)

B EWEIS . Hier gilt



−1

D L

=



⎞ 0

⎜ ⎜ ⎜ ⎜ D −1 B ⎜ 2 1 ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

pp pp

p p

pp

p

−1 DM BM −1 0

⎟ ⎟ ⎟ ⎟ ⎟ ⎟, ⎟ ⎟ ⎟ ⎟ ⎠

D −1 R

=



−1 ⎜ 0 D1 C 1 ⎜ ⎜ pp pp ⎜ p p ⎜ ⎜ ⎜ ⎜ pp −1 p DM ⎜ −1 CM −1 ⎜ ⎝ 0

und somit ⎛

J (α)

=



⎟ ⎜ 0 α−1 D1−1 C1 ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ pp pp ⎜ αD−1 B1 ⎟ p p ⎜ 2 ⎟ ⎜ ⎟ ∈ R N×N . ⎜ ⎟ ⎜ ⎟ pp pp ⎜ −1 −1 p p α DM −1 CM −1 ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎝ ⎠ −1 αDM BM −1 0

⎟ ⎟ ⎟ ⎟ ⎟ ⎟, ⎟ ⎟ ⎟ ⎟ ⎠

276

Kapitel 10

Gesamtschritt-, Einzelschritt- und Relaxationsverfahren

Mit einer geeigneten Transformationsmatrix Sα von Diagonalgestalt erh¨alt man schließlich die ¨ Ahnlichkeit der Matrizen J ( 1 ) und J ( α ): ⎞





⎜ ⎜ ⎜ ⎜ := ⎜ ⎜ ⎜ ⎜ ⎝

α0 IN1 α1 IN2 pp

p

⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠





⎜ ⎜ 0 α0 D1−1 C1 ⎜ ⎜ ⎜ ⎜ ⎜ pp ⎜ αD2−1 B1 p p p p ⎜ ⎜ ( ) Sα J 1 = ⎜ ⎜ ⎜ pp pp −1 ⎜ αM −2DM p p −1 CM −1 ⎜ ⎜ ⎜ ⎜ ⎝ −1 αM −1DM BM −1 0

αM −1 INM

;

⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠

beziehungsweise Sα J ( 1 ) Sα−1 = J ( α ). Beispiel 10.39 Die Matrix aus dem Modellbeispiel in Abschnitt 10.2.1 ist konsistent geordnet (Aufgabe 10.14).  Das folgende Theorem 10.41 stellt eine Beziehung her zwischen den Eigenwerten von HGes = −D−1 ( L + R ) und denen von H( ω ). Zuvor wird die folgende Eigenschaft konsistent geordneter Matrizen festgehalten: Lemma 10.40 Bei konsistent geordneten Matrizen A ∈ R N×N liegt die Menge der Eigenwerte σ ( HGes ) ⊂ C der zum Gesamtschrittverfahren geh¨orenden Iterationsmatrix HGes symmetrisch zum Ursprung, es gilt also σ ( HGes ) = σ ( –HGes ). B EWEIS . Mit der Notation (10.24) gilt J ( 1 ) = −HGes und J ( –1 ) = HGes , woraus die Aussage unmittelbar folgt. Theorem 10.41 Die Matrix A ∈ R N×N sei konsistent geordnet, und sei 0 = ω ∈ R. Weiter √ sei 0 = λ ∈ C eine beliebige Zahl und λ ∈ C eine der beiden Wurzeln von λ. Dann gilt die ¨ folgende Aquivalenz: λ ∈ σ(H( ω ) )

⇐⇒

λ+ω−1 √ ∈ σ(HGes ). ω λ

(10.25)

Abschnitt 10.7

Relaxationsverfahren f¨ur konsistent geordnete Matrizen

B EWEIS . Sei 0 = λ ∈ C und λI − H( ω ) = = = =

277



λ ∈ C eine der beiden Wurzeln von λ. Es gilt dann   ( D + ωL )−1 λ( D + ωL ) − ( 1 − ω )D + ωR   ( D + ωL )−1 ( λ + ω − 1 )D + ω ( λL + R )    (I + ωD−1L)−1 ( λ + ω − 1 )I + ωλ1/2 λ1/2 D −1 L + λ−1/2 D −1 R λ+ω −1   ωλ1/2 (I + ωD−1 L)−1 I + λ1/2 D −1 L + λ−1/2 D −1 R 1/2 ωλ

  regul¨ar

beziehungsweise λ ∈ σ ( H( ω )) ⇐⇒     λ+ω−1 ∈ σ − λ1/2 D −1 L − λ−1/2 D −1 R = σ − D −1 L − D −1 R ,

 

  ωλ1/2 = J (–1) = HGes = J (–λ1/2 ) ¨ was mit der im Theorem angegebenen Aquivalenz u¨ bereinstimmt. Korollar 10.42 (Der Fall ω = 1) F¨ur jede konsistent geordnete Matrix A ∈ R N×N gilt rσ ( HEin )

=

rσ ( HGes )2 .

F¨ur eine konsistent geordnete Matrix A ∈ R N×N sind demnach Gesamt und Einzelschrittverfahren entweder beide konvergent oder divergent, und im Fall der Konvergenz ist das Einzelschrittverfahren doppelt so schnell wie das Gesamtschrittverfahren. Mit dem folgenden Theorem wird das Verhalten von rσ ( H( ω )) in Abh¨angigkeit von ω beschrieben. Eine entsprechende Veranschaulichung liefert Bild 10.2 auf Seite 279. Theorem 10.43 Die Matrix A ∈ R N×N sei konsistent geordnet, und die Eigenwerte der Matrix HGes = −D −1 ( L + R ) seien allesamt reell und betragsm¨aßig kleiner als eins, es sei also σ ( D −1 ( L + R )) ⊂ ( –1, 1 ) erf¨ullt. Dann gilt ⎧  2 / ⎨ 1 ωGes + ω 22 − 4( ω − 1 ) , 0 < ω ≤ ω∗ , Ges 4 rσ ( H( ω )) = ⎩ ω − 1, ω∗ ≤ ω ≤ 2, mit Ges := rσ ( D −1 ( L + R )) und ω∗ :=

1+

/

2 1 − 2Ges

.

B EWEIS . Sei 0 < ω ≤ 2 mit ω = 1 fest gew¨ahlt.6 (a) In einem ersten Schritt werden (vergleiche Theorem 10.41) f¨ur jede Zahl µ ∈ R die L¨osungen λ ∈ C der Gleichung √ (10.26) λ − ωµ λ + ω − 1 = 0, 6

Die Situation ω = 1 ist bereits mit Korollar 10.42 abgekl¨art.

278

Kapitel 10

Gesamtschritt-, Einzelschritt- und Relaxationsverfahren

bestimmt. In der Tat besitzt die Gleichung (10.26) zwei L¨osungen λ1/2 = λ1/2 ( µ ) ∈ C, f¨ur die entsprechend der Annahme ω = 1 notwendigerweise λ1/2 = 0 gilt. Explizite Darstellungen sind 

λ1/2

1 := 4 ωµ

/ 1 λ1/2 := 2

±



⎫ ⎪ ⎪ ⎬

2 / ω 2 µ 2 − 4( ω − 1 ) ,  ........ ,

(10.27)

⎪ ⎪ ⎭

und daraus erh¨alt man |λ1/2 |

⎧  2 / ⎨ 1 ωµ ± ω 2 µ 2 − 4( ω − 1 ) , 4

=



4( ω − 1 ) , ω2 ....... , µ2
2, scheidet aus

⇐⇒ ω



=

......

2 / = ω∗ ∈ [ 1, 2 ]. 1 + 1 − 2Ges

Dies komplettiert den Beweis des Theorems. Der Verlauf des Spektralradius rσ ( H( ω )) in Abh¨angigkeit des Relaxationsparameters ω ist in Bild 10.2 dargestellt. 1

.... ........ .. ... ........................................................................ . ................. ... ............ .... ......... ... ........ .... ....... ... ...... . . . ..... .... .... ... .... .... ... ... ... .... ... ... . ... . . . ... ... .. ...... .. ... .. ... . . . . . . . . . . . . . . . . . . . . . . . .... .. . . . . . . . . . . . ............................. . .

rσ ( H( ω ))

ω∗ − 1 0

0

1

ω∗

ω

2

Bild 10.2 Darstellung des Verlaufs der Funktion ω → rσ (H( ω ) ) Bemerkung 10.44 Typischerweise ist der Spektralradius Ges und somit der optimale Relaxationsparameter ω∗ nicht genau bekannt. Wegen lim

ω→ω∗−

drσ ( H( ω )) dω

=

−∞,

lim

ω→ω∗+

drσ ( H( ω )) dω

=

1,

w¨ahlt man den Relaxationsparameter ω besser etwas zu groß als etwas zu klein.



Weitere Themen und Literaturhinweise Die hier vorgestellten Iterationsverfahren und Klassen von Matrizen werden in zahlreichen Lehrb¨uchern behandelt, so beispielsweise in Berman/Plemmons [3], Finckenstein [24], Golub/Ortega [34], H¨ammerlin/Hoffmann [45], Hackbusch [44], Hanke-Bourgeois [49], Kress [60], Meister [67], Oevel [75], Schaback/Wendland [88], Schwarz/Kl¨ockner [90], Stoer/Bulirsch [96] und Windisch [108]. Insbesondere in [44] finden Sie auch Ausf¨uhrungen u¨ ber die hier außer in Aufgabe 10.15 nicht weiter betrachteten Block Relaxationsverfahren. Informationen u¨ ber die hier nicht behandelte Zweigitteriteration beziehungsweise die allgemeineren Mehrgitterverfahren findet man beispielsweise in [44] und in [60].

280

Kapitel 10

Gesamtschritt-, Einzelschritt- und Relaxationsverfahren

¨ Ubungsaufgaben Aufgabe 10.1 F¨ur jede Matrix H ∈ R N×N sind die folgenden Aussagen a¨ quivalent: (i) es existiert eine Vektornorm || · || : CN → R, so dass f¨ur die induzierte Matrixnorm gilt ||H || = rσ ( H ); (ii) jedem Eigenwert λ ∈ C von H mit |λ| = rσ ( H ) entsprechen nur lineare Elementarteiler. Aufgabe 10.2 (a) Welche der drei Matrizen ⎛ ⎞ ⎛ ⎞ 2 0 1 2 0 1 ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜1 2 0⎟ , ⎜1 1 0⎟ , ⎝ ⎠ ⎝ ⎠ 0 1 2 0 1 1



⎞ 1 0 1

⎜ ⎟ ⎜ ⎟ ⎜1 1 0⎟ ⎝ ⎠ 0 1 1

ist strikt diagonaldominant? Soweit dies m¨oglich ist, ziehe man daraus jeweils Schlussfolgerungen u¨ ber die Konvergenz des Gesamtschrittverfahrens. (b) Zu Testzwecken soll f¨ur jede der genannten Matrizen sowie jeweils der rechten Seite b = ( 0, 0, 0 ) das dazugeh¨orige lineare Gleichungssystem n¨aherungsweise mit dem Gesamtschrittverfahren gel¨ost werden. Als Startvektor verwende man jeweils x( 0) = ( 1, 1, 1 ). Man gebe jeweils eine allgemeine Darstellung der n ten Iterierten x(n) ∈ R 3 an und diskutiere die Ergebnisse im Hinblick auf Konvergenz. Aufgabe 10.3 Gegeben seien die Matrizen ⎛

A

=

0 ⎜ ⎜ ⎜0 ⎜ ⎜ ⎜1 ⎝ 1



⎞ 1 0 1

⎟ ⎟ 0 1 0⎟ ⎟, ⎟ 0 0 1⎟ ⎠ 0 1 0

⎞ 0 1 0 0 1

B

=

⎜ ⎟ ⎜ ⎟ ⎜1 0 0 0 1⎟ ⎜ ⎟ ⎜ ⎟ ⎜0 0 0 1 0⎟ . ⎜ ⎟ ⎜ ⎟ ⎜0 0 2 0 0⎟ ⎝ ⎠ 2 2 0 0 1

Man zeige, dass A irreduzibel beziehungsweise B reduzibel ist. Aufgabe 10.4 Zu gegebener Matrix A = (ajk ) ∈ R N×N und beliebigen Indizes j, k ∈ {1, . . . , N } mit j = k heißt eine Familie von Indizes j0 , j1 , . . . , jM ∈ {1, 2, . . . , N } mit j0 = j, jM = k eine j und k verbindende Kette, falls ajr−1 ,jr = 0 gilt f¨ur r = 1, 2, . . . , M . Man zeige Folgendes: Eine Matrix A ∈ R N×N ist irreduzibel genau dann, wenn f¨ur alle Indizes j, k ∈ {1, . . . , N } mit j = k eine j und k verbindende Kette existiert. Aufgabe 10.5 Man zeige, dass die zu dem vorgestellten Modellbeispiel aus Abschnitt 10.2.1 geh¨orende Matrix irreduzibel diagonaldominant ist. Aufgabe 10.6 Sei A = (ajk ) ∈ R N×N eine irreduzibel diagonaldominante Matrix mit ajj > 0 f¨ur j = 1, 2, . . . , N . Man zeige: (a) F¨ur alle Eigenwerte λ ∈ C von A gilt Re λ > 0. (b) Ist die Matrix A symmetrisch, so ist sie auch positiv definit.  ∈ R N×N betrachte man Zerlegungen A = D + L + R bezieAufgabe 10.7 F¨ur zwei Matrizen A, A =D  +L +R  jeweils in Diagonal sowie unteren und oberen Anteil. Man zeige: wenn A hungsweise A

¨ Ubungsaufgaben

281

 sowie L + R ≤ L +R  ≤ 0 erf¨ullt sind, so ist eine M Matrix ist und die Ungleichungen 0 ≤ D ≤ D −1 −1   auch A eine M Matrix und es gilt 0 ≤ A ≤ A . ¨ der folgenden vier Aufgabe 10.8 F¨ur eine Matrix A = (ajk ) ∈ R N×N beweise man die Aquivalenz Aussagen: (i) A ist M Matrix; (ii) A + sI ist M Matrix f¨ur alle s ≥ 0; (iii) es gibt eine Matrix B ∈ R N×N mit B ≥ 0 und eine Zahl s > rσ ( B ), so dass die Identit¨at A = sI−B gilt; (iv) die Nichtdiagonaleintr¨age ajk , j = k, der Matrix A sind nichtpositiv, und alle Eigenwerte von A besitzen einen positiven Realteil, σ ( A ) ⊂ {λ ∈ C : Re λ > 0}. Aufgabe 10.9 Gegeben sei das lineare Randwertproblem −u  ( x ) +

1 u  ( x ) = ϕ( x ), 1+x

u( 0 ) = 0,

0 < x < 1,

u( 1 ) = 0. (10.33)

Diskretisierung von (10.33) mit zentralen Differenzenquotienten zweiter beziehungsweise erster Ordnung bei konstanter Gitterweite h = 1/N f¨uhrt auf ein lineares Gleichungssystem Av = b. Man zeige Folgendes: (a) F¨ur h < 2 ist A ∈ R (N −1 )×( N −1) eine M Matrix. (b) F¨ur die Hilfsfunktion θ(x) = −

( 1 + x )2

ln ( 1 + x ) + 23 x(x + 2)ln2 2 und mit den Notationen vj = θ ( xj ), xj = jh f¨ur j = 1, 2, . . . , N −1 und e = (1, . . . , 1) ∈ R N −1 gilt die Absch¨atzung ||Av − e||∞ ≤

1 2 4h

(und damit ( Av )j ≥ 1 − h2 /4 f¨ur j = 1, 2, . . . , N − 1). (c) F¨ur eine von h unabh¨angige Konstante M gilt ||A−1 ||∞ ≤ M . (d) F¨ur die L¨osung u von (10.33) und die L¨osung v∗ des Gleichungssystems Av = b gilt mit der Notation −1 z = (u( xj ) )N angigen Konstanten K die Absch¨atzung ||v∗ −z ||∞ ≤ Kh2 . j=1 und einer von h unabh¨ Aufgabe 10.10 F¨ur eine gegebene M Matrix A ∈ R N×N weise man die folgenden Absch¨atzungen nach: rσ ( H( ω2 ))



rσ ( H( ω1 )) < 1

f¨ur 0 < ω1 ≤ ω2 ≤ 1.

Aufgabe 10.11 Im Folgenden wird das Randwertproblem u  ( x ) + p( x )u  ( x ) + r ( x )u( x ) = ϕ( x ),

x ∈ [ a, b ],

u( a ) = u( b ) = 0,

betrachtet mit Funktionen p, r, ϕ ∈ C [ a, b ] mit r ( x ) ≤ 0 f¨ur x ∈ [ a, b ]. Eine Diskretisierung der Ableitungen mittels zentraler Differenzenquotienten bei konstanter Schrittweite h = ( b − a )/N f¨uhrt mit den Notationen xj = a + jh, pj = p( xj ) und rj = r ( xj ), ϕj = ϕ( xj ) f¨ur j = 1, 2, . . . , N − 1 sowie

282

Kapitel 10

Gesamtschritt-, Einzelschritt- und Relaxationsverfahren



⎞ h 2 p1 )

2 −(1 − ⎜ ⎜ ⎜ ⎜ ⎜ −(1 + h p ) 2 −(1 − h2 p2 ) ⎜ 2 2 ⎜ 1 ⎜ ⎜ pp pp A = 2⎜ p p −(1 + h2 p3 ) h ⎜ ⎜ ⎜ ⎜ pp ⎜ 2 −(1 − h2 pN −2 ) p ⎜ ⎜ ⎝ −(1 + h2 pN −1 ) 2

⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠

−1 und D = diag (r1 , r2 , . . . , rN −1 ), c = (ϕj )N j=1 , auf das Gleichungssystem (A + D )v = c.

(a) Man zeige, dass A + D eine M Matrix ist, falls Folgendes erf¨ullt ist, . inf Re λ : λ ∈ σ ( A ) + h max |p(x)| ≤ 2, inf

x ∈ [ a, b ]

x ∈ [ a, b ]

r ( x ) > 0.

(b) Im Fall p( x ) ≡ 0 und h ≤ ( b − a )/2 ist A + D eine M Matrix, wenn Folgendes erf¨ullt ist,  π 4  π 2 h2 inf r ( x ) > − + . 12 b−a b−a x ∈ [ a, b ] Aufgabe 10.12 Ist die Matrix ⎛

2 −1 pp pp p p −1 1 ⎜ ⎜ A = 2⎜ pp pp h ⎝ p p −1 −1 2

⎞ ⎟ ⎟ × ⎟ ∈ R (N −1) (N −1) ⎠

mit h = 1/N positiv definit beziehungsweise eine M Matrix beziehungsweise konsistent geordnet? Man bestimme als Funktion von h die Eigenwerte von I − D −1 A und den zugeh¨origen Spektralradius rσ ( I − D−1 A ), den optimalen Parameter ω∗ f¨ur das Relaxationsverfahren sowie den Spektralradius rσ ( H( ω∗ )) der entsprechenden Iterationsmatrix H( ω∗ ). Aufgabe 10.13 Man zeige, dass regul¨are Dreiecksmatrizen konsistent geordnet sind. Aufgabe 10.14 Gegeben sei eine Block Tridiagonalmatrix von der speziellen Form ⎛ ⎞

A

⎜ B b1 D ⎜ ⎜ ⎜ ⎜ a1 D p p p ⎜ ⎜ ⎜ ⎜ 0 ppp ⎜ ⎜ ⎝

=

⎟ ⎟ ⎟ ⎟ pp ⎟ p ⎟ × ⎟ ∈ RN N ⎟ pp bM −1 D ⎟ p ⎟ ⎟ ⎠ aM −1 D B

mit der Diagonalmatrix D = diag (b11 , . . . , bKK ) wobei 0 = bjj die Diagonaleintr¨age von B ∈ R K×K bezeichne. Mit der Zerlegung B = D + L + R entsprechend (10.15) und mit J (α)

=

αD−1 L + α−1 D −1 R,

0 = α ∈ C

¨ Ubungsaufgaben

283

gelte J ( α ) = Sα J ( 1 )Sα−1 f¨ur 0 = α ∈ C mit einer geeigneten Transformationsmatrix Sα ∈ R N×N . Man zeige, dass die Matrix A konsistent geordnet ist. Aufgabe 10.15 Es sei ⎛

⎞ p p p A1M A 11 ⎜ ⎟ ⎜ ⎟ ⎜ p ⎟ p ⎟ pp p p A=⎜ p p ⎟ ⎜ p ⎜ ⎟ ⎝ ⎠ AM 1 p p p AM M eine quadratische Matrix mit quadratischen Diagonalbl¨ocken Ajj , j = 1, 2, . . . , M , und die Block Diagonalmatrix D = diag (A11 , . . . , AN N ) sei nichtsingul¨ar. Weiter bezeichne ⎛ ⎞ ⎞ ⎛ A12 p p p A1M ⎜ ⎟ ⎟ ⎜ p pp ⎜ A ⎟ ⎟ ⎜ p pp ⎜ 21 ⎟ ⎟ ⎜ L = ⎜ p p R = ⎜ ⎟, ⎟, ⎜ pp ⎟ ⎟ ⎜ pp A M −1,M ⎝ ⎠ ⎠ ⎝ AM 1 p p p AM,M −1 und H( ω )

( D + ωL )−1 ( ( 1 − ω )D − ωR )

=

( ω = 0 ).

In den folgenden Teilaufgaben (a) und (b) seien f¨ur eine Zahl p > 1 die Eigenwerte von J (α)

=

αD−1 L + α−(p−1) D−1 R,

0 = α ∈ C,

(10.34)

unabh¨angig von α, es gelte also σ ( J ( α )) = σ ( J ( 1 )) f¨ur α = 0. Man weise Folgendes nach: (a) Ist µ ∈ σ(D−1 (L + R )) erf¨ullt und die Zahl λ ∈ C eine L¨osung der Gleichung =

(λ + ω − 1)p

λp−1 ω p µp ,

(10.35)

so gilt λ ∈ σ ( H( ω )). Ist umgekehrt 0 = λ ∈ σ ( H( ω )) und erf¨ullt µ die Gleichung (10.35), dann ist µ ∈ σ(D−1 (L + R )). (b) F¨ur µ = 0 gilt µ ∈ σ(D−1 (L + R ))

⇐⇒

µp ∈ σ ( H( 1 )),

und rσ ( D−1 ( L + R ))p = rσ ( H( 1 )). (c) Sei nun A von der speziellen Gestalt ⎛

A

=

A11 0 · · ·

⎜ ⎜ ⎜ ⎜ A21 ⎜ ⎜ ⎜ 0 ⎜ ⎜ ⎜ p ⎜ pp ⎜ ⎝ 0

pp

⎞ A1M

0

p

pp

p

pp

p

pp

p

pp

p

p pp

pp

p

pp

p

pp

p

0

0

⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟. ⎟ ⎟ ⎟ ⎟ ⎟ ⎠

· · · 0 AM,M −1 AM M

Man zeige, dass mit p = M ≥ 2 die Eigenwerte der Matrix J ( α ) aus (10.34) unabh¨angig von α sind.

284

Kapitel 10

Gesamtschritt-, Einzelschritt- und Relaxationsverfahren

Aufgabe 10.16 (Numerische Aufgabe) Zur numerischen L¨osung des Randwertproblems u  ( x ) + u( x ) = ex ,

x ∈ [ 0, π/2 ],

betrachte man auf einem a¨ quidistanten Gitter der Weite h = vj+1 − ( 2 − h2 )vj + vj−1 = h2 ezj ,

u( 0 ) = u( π/2 ) = 0, π 2N

das zugeh¨orige Differenzenschema j = 1, 2, . . . , N − 1,

(10.36)

mit zj = jh. F¨ur N = 30 beziehungsweise N = 200 bestimme man eine approximative L¨osung von (10.36) mithilfe des Relaxationsverfahrens mit den folgenden Relaxationsparametern, ω = 0.1, 0.2, 0.3, . . . , 2.0, 2.1, wobei die Iteration jeweils abgebrochen werden soll, wenn mehr als 1000 Iterationen (f¨ur N = 200 mehr als 2000 Iterationen) ben¨otigt werden oder falls ||x( n) − x(n−1) ||∞ ≤ 10−5 ausf¨allt. Als Startwert w¨ahle man jeweils x(0) = 0. F¨ur jede Wahl von ω gebe man die Anzahl der ben¨otigten Iterationsschritte n, ||x( n) − x(n−1) ||∞ und den Fehler maxj=1,...,N −1 |x(jn) − u(zj )| tabellarisch an.

285

11 Verfahren der konjugierten Gradienten und GMRES–Verfahren 11.1 Vorbetrachtungen Ziel der nachfolgenden Betrachtungen ist erneut die approximative L¨osung eines regul¨aren linearen Gleichungssystems Ax = b

(A ∈ R N×N regul¨ar,

b ∈ RN )

(mit der eindeutigen L¨osung x∗ = A−1 b ∈ R N ), und hierzu seien {0}



D1



D2



...



RN

(11.1)

zun¨achst nicht weiter spezifizierte (endlich oder unendlich viele) lineare Unterr¨aume. Im Folgenden werden zwei Ans¨atze zur Bestimmung von (unterschiedlichen) Vektorfolgen xn ∈ Dn , n = 1, 2, . . . , vorgestellt.1 Definition 11.1 (a) F¨ur gegebene Ansatzr¨aume (11.1) hat der Ansatz des orthogonalen Residuums zur Bestimmung von Vektoren x1 , x2 , . . . ∈ R N die folgende Form,  xn ∈ Dn , n = 1, 2, . . . . (11.2) Axn − b ∈ Dn⊥ (b) Der Ansatz des minimalen Residuums zur Bestimmung von Vektoren x1 , x2 , . . . ∈ R N hat f¨ur gegebene Ansatzr¨aume (11.1) die folgende Form, xn



||Axn − b||2

=



Dn , min ||Ax − b||2

n = 1, 2, . . . .

(11.3)

x∈Dn

Hierbei bezeichnet wie u¨ blich  M⊥ := y ∈ R N : yx = 0

f¨ur jedes x ∈ M ,

M ⊂ R N beliebig,

das orthogonale Komplement einer Menge M, und || · ||2 bezeichnet wieder die euklidische Vektornorm. Schließlich bezeichnet im Folgenden zu jedem x ∈ R N der Vektor Ax − b das zugeh¨orige Residuum2 , was die Bezeichnungen f¨ur die beiden in Definition 11.1 vorgestellten Ans¨atze erkl¨art. 1

Im Unterschied zum vorigen Kapitel 10 wird nun wieder die etwas knappere Tiefstellung f¨ur den Laufindex n gew¨ahlt. Dies ist hier ohne weiteres m¨oglich, da die einzelnen Eintr¨age in den vektorwertigen Iterierten im Folgenden keine spezielle Rolle spielen. 2 In der Literatur findet man die Bezeichnung “Residuum“ oft auch f¨ur den Vektor b − Ax anstelle Ax − b.

286

Kapitel 11

CG – und GMRES – Verfahren

Bemerkung 11.2 Nat¨urliche Fragestellungen im Zusammenhang mit den beiden vorgestellten Ans¨atzen sind jeweils Existenz und Eindeutigkeit der Vektoren xn . Zudem gilt es, Algorithmen zur Bestimmung dieser Vektoren anzugeben sowie Absch¨atzungen f¨ur den Fehler ||xn − x∗ || herzuleiten bez¨uglich g¨angiger Normen. Schließlich sind spezielle Ansatzr¨aume f¨ur D1 , D2 , . . . auszuw¨ahlen.  Bei der Wahl spezieller Ansatzr¨aume in (11.1) werden die im Folgenden definierten Krylovr¨aume eine hervorgehobene Rolle spielen: Definition 11.3 Zu gegebener Matrix A ∈ R N×N und einem Vektor b ∈ R N ist die Folge der Krylovr¨aume wie folgt erkl¨art, . n = 0, 1, . . . . Kn ( A, b ) = span b, Ab, . . . , An−1 b ⊂ R N , Offensichtlich sind die Krylovr¨aume aufsteigend, es gilt {0} = K0 ( A, b ) ⊂ K1 ( A, b ) ⊂ . . . . Weitere Eigenschaften von eher technischer Natur werden zu einem sp¨ateren Zeitpunkt vorgestellt3.

11.1.1 Ausblick In dem vorliegenden Kapitel werden nun die beiden in Definition 11.1 angegebenen Ans¨atze mit den speziellen R¨aumen Dn = Kn ( A, b ) behandelt.4 (a) Der Ansatz des orthogonalen Residuums mit den R¨aumen Dn = Kn ( A, b ) wird f¨ur symmetrische, positiv definite Matrizen A ∈ R N×N betrachtet. Dies f¨uhrt auf das klassische Verfahren der konjugierten Gradienten. Einzelheiten hierzu werden in den Abschnitten 11.2 11.4 vorgestellt. F¨ur allgemeine (also indefinite oder nichtsymmetrische) regul¨are Matrizen A ∈ R N×N kann man zu den Normalgleichungen AAx = Ab u¨ bergehen und hierf¨ur das angesprochene Verfahren der konjugierten Gradienten betrachten. Einige Details zu diesem Ansatz finden sich in Abschnitt 11.5. (b) Schließlich wird f¨ur die R¨aume Dn = Kn ( A, b ) der Ansatz des minimalen Residuums betrachtet. Dies f¨uhrt auf das (in Abschnitt 11.6 behandelte) GMRES Verfahren, welches universell einsetzbar ist, weitere Voraussetzungen an die Matrix A wie etwa Symmetrie entfallen hier.

11.2 Der Ansatz des orthogonalen Residuums fur ¨ positiv definite Matrizen In dem vorliegenden Abschnitt 11.2 wird der Ansatz des orthogonalen Residuums f¨ur allgemeine Ansatzr¨aume der Form (11.1) betrachtet unter der zus¨atzlichen Annahme, dass A ∈ R N×N eine 3 4

siehe Lemma 11.31 auf Seite 307 Diese Verfahren werden allgemein als Krylovraummethoden bezeichnet.

Abschnitt 11.2

287

Der Ansatz des orthogonalen Residuums

symmetrische, positiv definite Matrix ist.

11.2.1 Existenz, Eindeutigkeit und Minimaleigenschaft Im Folgenden wird f¨ur eine gegebene symmetrische, positiv definite Matrix A ∈ R N×N die Existenz und Eindeutigkeit der zum Ansatz des orthogonalen Residuums (11.2) geh¨orenden Vektoren xn diskutiert. Hierzu werden die folgenden Notationen eingef¨uhrt:  x, y  2

= xy,

 x , y A

= xAy,

x, y ∈ R N , ||x||A

,

........

=

( xAx )1/2 ,

x ∈ RN .

Bemerkung 11.4 ( 1 ) Die neue Notation  ·, ·  2 f¨ur das klassische skalare Produkt wird wegen der gelegentlich einfacheren Lesbarkeit eingef¨uhrt. ( 2 ) Wie man leicht nachrechnet, bildet im Falle einer symmetrischen, positiv definiten Matrix A ∈ R N×N die Abbildung  · , ·  A ein Skalarprodukt auf R N , und || · ||A stellt offensichtlich die zugeh¨orige Norm dar; diese bezeichnet man als A Norm. ( 3 ) Aufgrund der Natur des Ansatzes des orthogonalen Residuums erh¨alt man Fehlerabsch¨at-

zungen zun¨achst nur bez¨uglich der A Norm. Fehlerabsch¨atzungen bez¨uglich der nat¨urlicheren ¨ von Normen hergeleitet.  euklidischen Norm || · ||2 werden dann noch u¨ ber die Aquivalenz Das folgende Resultat liefert f¨ur den Ansatz des orthogonalen Residuums neben Existenz und Eindeutigkeit auch eine Minimaleigenschaft, mit der zu einem sp¨ateren Zeitpunkt5 noch konkrete Fehlerabsch¨atzungen hergeleitet werden. Theorem 11.5 Zu gegebener symmetrischer, positiv definiter Matrix A ∈ R N×N sind f¨ur n = 1, 2, . . . die Vektoren xn aus dem Ansatz des orthogonalen Residuums (11.2) – mit allgemeinen Ansatzr¨aumen Dn entsprechend (11.1) – eindeutig bestimmt, und es gilt ||xn − x∗ ||A

=

min ||x − x∗ ||A ,

n = 1, 2, . . . .

x∈Dn

(11.4)

B EWEIS . Bei fest gew¨ahltem Index n betrachtet man f¨ur den Nachweis der Eindeutigkeit zwei Vektoren xn , x n mit der Eigenschaft (11.2). Hier gilt  A( xn − x n ) , xn − x n  2     ⊥ ∈ Dn

=

0

;

xn = x n .

∈ Dn

F¨ur den Nachweis der Existenz setzt man mit einer beliebigen Basis d0 , d1 , . . . , dm−1 von Dn (mit m := dimDn ) wie folgt an, xn =

m−1  k=0

5

siehe Abschnitt 11.4

αk dk

(11.5)

288

Kapitel 11

CG – und GMRES – Verfahren

und erh¨alt damit xn gen¨ugt (11.2) ⇐⇒ ⇐⇒

⇐⇒

Axn − b ∈ Dn⊥

(11.6)

 Axn − b, dj  2 = 0 m−1 

f¨ur j = 0, 1, . . . , m − 1,

 Adk , dj  2 αk =  b, dj  2

......

,

(11.7)

k=0

was ein lineares System von m Gleichungen f¨ur die m Koeffizienten α0 , . . . , αm−1 darstellt. Infolgedessen und aufgrund der Eindeutigkeit der L¨osung – diese wurde im ersten Teil dieses Beweises bereits nachgewiesen – ist dieses Gleichungssystem also l¨osbar. Schließlich ist noch die Minimaleigenschaft (11.4) nachzuweisen. Hierzu berechnet man f¨ur einen beliebigen Vektor x ∈ Dn Folgendes, ||x − x∗ ||2A = ||xn − x∗ + x − xn ||2A =0  

2 = ||xn − x∗ ||A + 2  A(xn − x∗ ) , x − xn  2 + ||x − xn ||2A

    ≥ ||xn − x∗ ||2A .

⊥ ∈ Dn

∈ Dn

Dies komplettiert den Beweis des Theorems.

11.2.2 Der Ansatz des orthogonalen Residuums (11.2) fur ¨ gegebene A– konjugierte Basen Mit dem Beweis von Theorem 11.5 ist bereits eine M¨oglichkeit zur Durchf¨uhrung des Ansatzes des orthogonalen Residuums vorgestellt worden; ausgehend von einer Basis d0 , . . . , dm−1 f¨ur Dn hat man nur das durch den Ansatz (11.5) entstehende Gleichungssystem (11.7) zu l¨osen. Im Folgenden soll ein Spezialfall behandelt werden, bei dem dieses Gleichungssystem (11.7) von Diagonalgestalt ist. Definition 11.6 Es sei A ∈ R N×N eine symmetrische, positiv definite Matrix. Gegebene Vektoren d0 , d1 , . . . , dn∗ −1 ∈ R N \{0} mit n∗ ≤ N heißen A konjugiert, falls Folgendes gilt,  Adk , dj  2 = 0

f¨ur k = j.

Bemerkung 11.7 A-Konjugiertheit ist also gleichbedeutend mit paarweiser Orthogonalit¨at be z¨uglich des Skalarprodukts  · , ·  A . Unter Fortf¨uhrung des Ansatzes (11.5) (11.7) l¨asst sich im Falle symmetrischer positiv definiter Matrizen A ∈ R N×N der Ansatz des orthogonalen Residuums (11.2) besonders einfach verwirklichen, falls eine A konjugierte Basis von Dn gegeben ist. Genauer gilt Folgendes: Theorem 11.8 F¨ur eine gegebene symmetrische, positiv definite Matrix A ∈ R N×N und A konjugierte Vektoren d0 , d1 , . . . , dn∗ −1 ∈ R N \{0} mit n∗ ≤ N gelte . n = 0, 1, . . . , n∗ . Dn = span d0 , d1 , . . . , dn−1 ,

Abschnitt 11.2

289

Der Ansatz des orthogonalen Residuums

Dann erh¨alt man f¨ur den Ansatz des orthogonalen Residuums (11.2) die folgenden Darstellungen f¨ur n = 1, 2, . . . , n∗ : xn =

n−1 

αk dk ,

mit αk = −

k=0

 rk , d k  2 ,  Adk , dk  2

rk := Axk − b,

(11.8) k ≥ 1,

r0 := −b. (11.9)

B EWEIS . Aus der Vorgehensweise des Ansatzes (11.5) (11.7) (mit m = n) im Beweis von Theorem 11.5 erh¨alt man im Fall der nun vorliegenden A Konjugiertheit zun¨achst Folgendes, xn =

n−1 

mit αk :=

αk dk ,

k=0

 b, dk  2  Adk , dk  2

( n = 1, 2, . . . , n∗ ), (11.10)

und die Zahl αk in (11.10) stimmt mit der aus (11.8) u¨ berein, was f¨ur k = 0 klar ist und f¨ur k ≥ 1 so folgt:  b − Axn , dn  2 =  b, dn  2 −   = −rn

n−1  k=0

αk  Adk , dn  2 =  b, dn  2 ,

  = 0

n = 0, 1, . . . , n∗ .

Dies komplettiert den Beweis. Bemerkung 11.9 (a) Der Darstellung (11.8) entnimmt man, dass die Zahl αk unabh¨angig von n ist und somit Folgendes gilt, xn+1 = xn + αn dn ,

rn+1 = rn + αn Adn

(n = 0, . . . , n∗ − 1;

x0 := 0), (11.11)

womit sich die Durchf¨uhrung des Verfahrens (11.8) weiter vereinfacht. Man beachte, dass die Berechnung des Matrix Vektor Produkts Adn f¨ur die Bestimmung von αn sowieso erforderlich ist, und mittels (11.11) erh¨alt man dann das Residuum rn+1 auf einfache Weise, also ohne Berechnung eines weiteren Matrix Vektor Produkts. (Die meisten Abbruchkriterien basieren auf den Werten des Residuums, weshalb dieses von Bedeutung ist.) (b) Aufgrund der ersten Identit¨at in (11.11) bezeichnet man den Vektor dn als Suchrichtung, und die Zahl αn wird als Schrittweite bezeichnet. Diese Bezeichnungsweise verwendet man im ¨ Ubrigen auch bei anderen Verfahren der Form (11.11). (c) Ebenfalls mit der ersten Identit¨at in (11.11) wird klar, das im Prinzip eine simultane Berechnung der Suchrichtungen und Approximationen in der Reihenfolge d0 , x1 , d1 , x2 , . . . m¨oglich ist. In der Praxis wird im Fall Dn = Kn ( A, b ) auch so vorgegangen. Einzelheiten werden im nachfolgenden Abschnitt 11.3 behandelt. (d) F¨ur vorgegebene Suchrichtungen in der Vorschrift (11.11) sind die Schrittweiten aus (11.8) optimal in dem folgenden Sinne, ||xn+1 − x∗ ||A

=

min ||xn + tdn − x∗ ||A . t∈R

Der Nachweis daf¨ur ist elementar und wird hier nicht gef¨uhrt.



290

Kapitel 11

CG – und GMRES – Verfahren

11.3 Das CG–Verfahren fur ¨ positiv definite Matrizen 11.3.1 Einleitende Bemerkungen F¨ur den Ansatz des orthogonalen Residuums sollen im Folgenden nun speziell Krylovr¨aume als Ansatzr¨aume herangezogen werden. Definition 11.10 Zu gegebener symmetrischer, positiv definiter Matrix A ∈ R N×N ist das Verfahren der konjugierten Gradienten gegeben durch Ansatz (11.2) mit der speziellen Wahl Dn = Kn ( A, b ),

n = 0, 1, . . . .

(11.12)

Dieses Verfahren bezeichnet man auch kurz als CG Verfahren, wobei die Notation “CG“ von der englischen Bezeichnung “method of conjugate gradients“ herr¨uhrt. Der Grund f¨ur die Bezeichnungsweise “konjugierte Gradienten“ wird sp¨ater geliefert6 . F¨ur die praktische Durchf¨uhrung des CG Verfahrens liefert Theorem 11.8 einen ersten Ansatz. Die noch ausstehende Konstruktion A konjugierter Suchrichtungen in dem Raum Kn ( A, b ) ist das Thema des folgenden Abschnitts 11.3.2.

11.3.2 Die Berechnung A– konjugierter Suchrichtungen in Kn ( A, b ) Das folgende Lemma behandelt die Berechnung A konjugierter Suchrichtungen in Kn ( A, b ) f¨ur n = 0, 1, . . . . Ausgehend von den Notationen aus Theorem 11.8 wird f¨ur jetzt fixierten Index n dabei so vorgegangen, dass – ausgehend von einer bereits konstruierten A konjugierten Basis d0 , . . . , dn−1 f¨ur Kn ( A, b ) – eine A konjugierte Basis f¨ur Kn+1 ( A, b ) gewonnen wird durch eine Gram Schmidt Orthogonalisierung der Vektoren d0 , . . . , dn−1, −rn ∈ R N bez¨uglich des Skalarprodukts  · , ·  A . Wie sich im Beweis von Lemma 11.11 herausstellt, gen¨ugt hierf¨ur eine Gram Schmidt Orthogonalisierung der beiden Vektoren dn−1, −rn ∈ R N . Lemma 11.11 Zu gegebener symmetrischer, positiv definiter Matrix A ∈ R N×N und mit den Notationen aus Theorem 11.8 seien die Suchrichtungen speziell wie folgt gew¨ahlt: d0 := b sowie dn := −rn + βn−1 dn−1,

βn−1 :=

 Arn , dn−1 2 ,  Adn−1 , dn−1 2

n = 1, 2, . . . , n∗ − 1, (11.13)

wobei n∗ den ersten Index mit rn∗ = 0 bezeichnet. Mit dieser Wahl sind die Vektoren d0 , d1 , . . . , dn∗ −1 ∈ R N A konjugiert und es gilt . . span d0 , . . . , dn−1 = span b, r1 , r2 , . . . , rn−1 = Kn ( A, b ),

6

siehe Bemerkung 11.15

n = 1, 2, . . . , n∗ . (11.14)

Abschnitt 11.3

291

Das CG – Verfahren f¨ur positiv definite Matrizen

B EWEIS . Mittels vollst¨andiger Induktion u¨ ber n = 1, 2, . . . , n∗ werden sowohl die A Konjugiertheit der Vektoren d0 , d1 , . . . , dn−1 ∈ R N als auch die beiden Identit¨aten in (11.14) nachgewiesen. Wegen span {d0 }

=

span {b}

=

K1 ( A, b )

ist der Induktionsanfang klar, und im Folgenden sei angenommen, dass die Vorschrift (11.13) ein System d0 = b, d1 , d2 , . . . , dn−1 von A konjugierten Vektoren mit der Eigenschaft (11.14) liefert mit einem fixierten Index 1 ≤ n ≤ n∗ − 1. Gem¨aß (11.2) gilt rn ∈ Kn ( A, b )⊥ , und im Fall rn = 0 sind demnach die Vektoren d0 , . . . , dn−1, −rn linear unabh¨angig. Eine Gram Schmidt Orthogonalisierung dieser Vektoren bez¨uglich des Skalarprodukts  · , ·  A liefert den Vektor dn := −rn +

n−1  k=0

 Arn , dk 2 d  Adk , dk 2 k

(∗)

=

−rn + βn−1 dn−1 ,

(11.15)

wobei man die Identit¨at (∗) aus den Eigenschaften A(Kn−1 ( A, b ) ) ⊂ Kn ( A, b ) sowie rn ∈ Kn ( A, b )⊥ erschließt:  Arn , dk  2

=

 rn , Adk  2

=

0,

k = 0, 1, . . . , n − 2.

Nach Konstruktion sind die Vektoren d0 , . . . , dn−1, dn A konjugiert und es gilt span {d0 , . . . , dn−1 , dn } = span {b, r1 , r2 , . . . , rn }. Aufgrund der zweiten Identit¨at in (11.11) gilt zudem span {b, r1 , r2 , . . . , rn } ⊂ Kn+1 ( A, b ), so dass aus Dimensionsgr¨unden auch hier notwendigerweise Gleichheit vorliegt. Dies komplettiert den Beweis des Lemmas. Bemerkung 11.12 Mit dem durch Lemma 11.11 beschriebenen Abbruch wird gleichzeitig die L¨osung des Gleichungssystems Ax = b geliefert, es gilt also xn∗ = x∗ . Dabei gilt notwendigerweise n∗ ≤ N, denn aufgrund der linearen Unabh¨angigkeit der beiden Vektorsysteme in (11.14) erh¨alt man dim Kn ( A, b ) = n f¨ur n = 0, 1, . . . , n∗ .  Als unmittelbare Konsequenz aus dem Beweis von Lemma 11.11 erh¨alt man f¨ur die Schrittweiten noch die folgende Darstellung, wie man sie u¨ blicherweise auch in numerischen Implementierungen verwendet: Lemma 11.13 In der Situation von Lemma 11.11 gelten die Darstellungen αn = βn−1 =

||rn ||22 ,  Adn , dn  2 ||rn ||22 , ||rn−1 ||22

n = 0, 1, . . . , n∗ − 1, n = 1, 2, . . . , n∗ − 1

( r0 := −b ).

(11.16) (11.17)

292

Kapitel 11

CG – und GMRES – Verfahren

B EWEIS . Mit rn ∈ Kn ( A, b )⊥ sowie der Setzung (11.13) f¨ur die Suchrichtung dn erh¨alt man − rn , dn  2 = ||rn ||22, und zusammen mit (11.8) liefert dies (11.16). Diese Darstellung (11.16) f¨ur αn zusammen mit der Identit¨at7 rn = rn−1 + αn−1 Adn−1 liefert schließlich Folgendes, ||rn ||22

=

 rn , rn−1  2 + αn−1  rn , Adn−1  2

  = 0

=

βn−1 ||rn−1 ||22 ,

und daher gilt auch die angegebene Darstellung (11.17) f¨ur βn−1 . Dies komplettiert den Beweis des Lemmas.

11.3.3 Der Algorithmus zum CG– Verfahren Tr¨agt man die Resultate aus Theorem 11.8, Darstellung (11.11), Lemma 11.11 sowie Lemma 11.13 zusammen, so ergibt sich der folgende Algorithmus f¨ur das Verfahren der konjugierten Gradienten. Algorithmus 11.14 Schritt 0: Setze r0 = −b. F¨ur n = 0, 1, . . . : (a) Wenn rn = 0, so Abbruch, n = n∗ . (b) Wenn andererseits rn = 0, so verfahre man in Schritt n + 1 wie folgt, 1 dn =

−rn + βn−1 dn−1,

βn−1

=

−r0 ,

xn+1 = xn + αn dn ,

αn

|| rn ||22 , || rn−1 ||22

=

|| rn ||22

wenn

n≥1

wenn

n = 0

 Adn , dn 2

rn+1 = rn + αn Adn .

, 

Bemerkung 11.15 Die in Definition 11.10 eingef¨uhrte Bezeichnung “Verfahren der konjugierten Gradienten“ hat ihre Ursache in den beiden folgenden Eigenschaften: •

F¨ur jeden Index n ist das Residuum rn identisch mit dem Gradienten des Energiefunktionals J ( x ) = 12  Ax, x  2 −  x, b  2 an der Stelle xn , es gilt also rn = ∇J ( xn ); siehe hierzu Aufgabe 11.2.



Es gilt  rn , rk  2 = 0

f¨ur n = k.

Dies folgt unmittelbar aus den Eigenschaften (11.2) sowie (11.14). 7

vergleiche (11.11)



Abschnitt 11.4

293

Die Konvergenzgeschwindigkeit des CG – Verfahrens

11.4 Die Konvergenzgeschwindigkeit des CG–Verfahrens Mit Bemerkung 11.12 wird klar, dass das CG Verfahren als direktes Verfahren interpretiert werden kann, das nach endlich vielen Schritten die exakte L¨osung von Ax = b liefert, xn∗ = x∗ . Aufgrund der eingangs von Abschnitt 10 angestellten Bemerkungen sind jedoch auch die Approximationseigenschaften der Iterierten x1 , x2 , . . . von Interesse. Aus diesem Grund werden in dem vorliegenden Abschnitt ausgehend von der Optimalit¨atseigenschaft (11.4) konkrete Fehlerabsch¨atzungen f¨ur das Verfahren der konjugierten Gradienten hergeleitet. Hierbei ist das folgende Lemma n¨utzlich. Lemma 11.16 Zu einer gegebenen symmetrischen, positiv definiten Matrix A ∈ R N×N sei ( λk , vk )k=1,...,N ein vollst¨andiges System von (positiven) Eigenwerten λk > 0 und zugeh¨origen orthonormalen Eigenvektoren vk ∈ R N , es liegt also folgende Situation vor: vjvk = δjk ,

Avk = λk vk , Mit der Entwicklung x = lungen: p( A ) x =

N 

N

k=1 ck vk

∈ R N gelten f¨ur jedes Polynom p die folgenden Darstel-

ck p( λk )vk ,

k=1

||p( A )x||2 =

j, k = 1, 2, . . . , N.

 N

c2k p( λk )2

1/2

||p( A )x||A

,

=

 N

k=1

c2k λk p( λk )2

1/2 .

k=1

Insbesondere gilt also m1/2 ||x||2 ≤ ||x||A ≤ M 1/2 ||x||2 ,



x ∈ RN



m := min λk , k=1,...,N

M := max λk

⎞ . (11.18) ⎠

k=1,...,N

B EWEIS . Mit der angegebenen Entwicklung f¨ur x ∈ R N bez¨uglich der vorgegebenen Basis erh¨alt man unmittelbar Folgendes, Aν x =

N 

ck λνk vk ,

ν = 0, 1, . . .,

k=1

und daraus folgt die erste Identit¨at des Lemmas. Weiter berechnet man ||p( A )x||2 =

4 4 N j=1

=

  N

cj p( λj ) vj ,

N 

ck p( λk ) vk

5 51/2

k=1

cj ck p( λj ) p( λk )  vj , vk  2   j,k=1 = δjk

2

1/2

=

 N k=1

c2k p( λk )2

1/2 ,

294

Kapitel 11

CG – und GMRES – Verfahren

und analog erh¨alt man ||p( A )x||A =

  5 51/2 4 4  N N A cj p( λj )vj , ck p( λk ) vk j=1

=

4 4 N

cj λj p( λj ) vj ,

j=1

=

2

k=1 N 

ck p( λk ) vk

5 51/2

k=1

  N

cj ck λj p( λj ) p( λk )  vj , vk  2   j,k=1

2

1/2

=

 N

c2k λk p( λk )2

1/2 .

k=1

= δjk

Den ersten Schritt auf dem Weg zur Herleitung spezieller Absch¨atzungen f¨ur ||xn − x∗ ||A liefert das folgende Theorem. Theorem 11.17 Zu einer gegebenen symmetrischen, positiv definiten Matrix A ∈ R N×N gelten f¨ur das CG Verfahren die folgenden Fehlerabsch¨atzungen:   ||xn − x∗ ||A ≤ inf sup |p( λ ) | ||x∗ ||A f¨ur n = 0, 1, . . . , n∗ . p∈Πn , p( 0)=1

λ∈σ( A )

B EWEIS . F¨ur jedes Polynom p ∈ Πn mit p( 0 ) = 1 ist q ( t ) := (1 − p( t ) )/t ein Polynom vom Grad h¨ochstens n − 1, und somit gilt mit der Setzung x := q ( A )b Folgendes, x ∈ Kn ( A, b ),

x − x∗ = −p( A )x∗ .  N Mit Lemma 11.16 und der Entwicklung x∗ = N alt man k=1 ck vk ∈ R erh¨

||xn − x∗ ||A

≤ ||x − x∗ ||A =   = ||p( A )x∗ ||A

 N

c2k λk p( λk )2

1/2

k=1



= ||x∗ ||A  

 1/2 N sup |p( λ ) | c2k λk .

λ∈σ( A )

k=1

Zur Herleitung spezieller Absch¨atzungen des Fehlers xn − x∗ mittels Theorem 11.17 werden im Folgenden Tschebyscheff Polynome der ersten Art herangezogen8 , die auf dem Intervall [ –1, 1 ] die Darstellung Tn ( t ) = cos (n arccos t) besitzen. Das folgende Lemma wird f¨ur die Herleitung der genannten speziellen Fehlerabsch¨atzungen ben¨otigt: Lemma 11.18 F¨ur die Tschebyscheff Polynome der ersten Art T0 , T1 , . . . gilt

/ / 1 (t + t2 − 1)n + (t − t2 − 1)n f¨ur t ∈ R, Tn ( t ) = 2

κ+1 Tn κ − 1 ≥ 8

√ 1  κ + 1 n √ 2 κ−1

vergleiche Definition 1.22

f¨ur κ ∈ R,

κ > 1.

|t| ≥ 1, (11.19)

Abschnitt 11.4

295

Die Konvergenzgeschwindigkeit des CG – Verfahrens

B EWEIS . Auf dem Intervall [ –1, 1 ] besitzt Tn die folgende Darstellung, t=: cos θ

=

Tn ( t )

cos nθ



=

 1  inθ e + e−inθ 2

=

1 ( cos θ + isin θ )n + ( cos θ − isin θ )n 2

=

1 (t + i 2





/



/ n

 1 − t2 )n + t − i 1 − t2

  =: p( t )

mit t ∈ [ –1, 1 ].

(11.20)

Die nachfolgende Darstellung zeigt, dass die in (11.20) definierte Funktion p( t ) ein Polynom (vom H¨ochstgrad n) darstellt, p( t )

=

n 1   n  n−j j i j t 2 j=0

(

/

= 0 f¨ur j/2 ∈ N0

 

1 − t2 )j (1 + ( –1 )j ) ,

 

t ∈ R.

∈ Πj f¨ur j/2 ∈ N0

Zusammenfassend l¨asst sich feststellen, dass Tn und p zwei Polynome darstellen, die auf dem Intervall [ –1, 1 ] u¨ bereinstimmen, daher gilt notwendigerweise auch Tn ( t ) = p( t )

f¨ur t ∈ R.

Die im Lemma angegebene Darstellung von Tn ( t ) f¨ur |t| ≥ 1 folgt dann unmittelbar aus der √ √ Identit¨at i 1 − t2 = t2 − 1. F¨ur den Nachweis der Ungleichung (11.19) berechnet man f¨ur κ ≥ 1 / 6 κ+1 κ + 1 ± ( κ + 1 )2 − ( κ − 1 )2 κ + 1 2 −1 = ± κ−1 κ−1 κ−1 √ √ 2 ( κ ± 1) κ ± 1 = , = √ κ−1 κ ∓ 1 und daraus resultiert die Behauptung,  √κ − 1  n

 √κ + 1 n κ+1 1 Tn κ − 1 + √ = 2 √ κ−1 κ+1



=

1 2

√ κ+1 ± 2 κ κ−1

 √κ + 1 n √ . κ−1

Es werden nun die Resultate f¨ur die Konvergenzgeschwindigkeit des Verfahrens der konjugierten Gradienten vorgestellt. Theorem 11.19 Zu einer gegebenen symmetrischen, positiv definiten Matrix A ∈ R N×N gelten f¨ur das CG Verfahren die folgenden Fehlerabsch¨atzungen: ||xn − x∗ ||A ≤ 2γ n ||x∗ ||A ,

n = 0, 1, . . . ,

√ ||xn − x∗ ||2 ≤ 2 κA γ n ||x∗ ||2 , mit den Notationen κA := cond2 ( A ) und γ :=

√ κ −1 √ A . κA +1

.......

296

Kapitel 11

CG – und GMRES – Verfahren

B EWEIS . F¨ur den Nachweis der ersten Absch¨atzung wird im Normalfall κA > 1 Theorem 11.17 angewandt mit dem folgenden Polynom, p( λ ) :=

  Tn (M + m − 2λ)/(M − m)    , Tn (M + m) (M − m)

λ ∈ R,

wobei die Zahlen m und M wie schon in (11.18) den kleinsten beziehungsweise gr¨oßten Eigenwert der Matrix A bezeichnen. Offensichtlich gilt p ∈ Πn und p( 0 ) = 1, wegen σ ( A ) ⊂ [ m, M ] und max |p( λ ) |

m≤λ≤M

=

  M + m −1  Tn  M −m

=

  κA + 1 −1  Tn  κA − 1

(11.19)



2γ n

erh¨alt man die erste Absch¨atzung des Theorems f¨ur die Situation κA > 1. (Der degenerierte Fall κA = 1 ist gleichbedeutend mit A = λI f¨ur ein λ > 0 und f¨uhrt auf x1 = x∗ .) Die zweite Absch¨atzung des Theorems ist eine unmittelbare Konsequenz aus der ersten Absch¨atzung und der Norm¨aquivalenz (11.18).

11.5 Das CG–Verfahren fur ¨ die Normalgleichungen Ist das regul¨are lineare Gleichungssystem Ax = b symmetrisch indefinit oder aber nichtsymmetrisch, so kann man zu den Normalgleichungen AAx = Ab u¨ bergehen und hierauf das klassische CG Verfahren anwenden. Diesen Ansatz bezeichnet man als CGNR Verfahren. Bemerkung 11.20 (a) Als unmittelbare Konsequenz aus Theorem 11.5 ergibt sich f¨ur die Iterierten des CGNR Verfahrens die Minimaleigenschaft ||Axn − b||2

=

min

x∈K n (AA,Ab)

||Ax − b||2 .

(11.21)

Diese Eigenschaft (11.21) begr¨undet den Buchstaben “R“ in der Notation CGNR, da in dieser Variante das Residuum minimiert wird, und der Buchstabe “N“ steht f¨ur “Normalgleichungen“. Aufgrund der Eigenschaft (11.21) ist auch unmittelbar klar, dass das CGNR Verfahren f¨ur die spezielle Wahl Dn = K n ( AA, Ab ), n = 0, 1, . . ., mit dem Ansatz des minimalen Residuums (11.3) u¨ bereinstimmt. (b) Einen Algorithmus zur Bestimmung der Iterierten des CGNR Verfahrens erh¨alt man durch ¨ Ubertragung des Algorithmus 11.14 angewandt auf die Normalgleichungen AAx = Ab. Dabei sind in jedem Iterationsschritt zwei Matrix Vektor Multiplikationen erforderlich (zur Berechnung von Adn und AAdn ). Man beachte, dass die numerisch kostspielige Berechnung der Matrix AA daf¨ur nicht erforderlich ist.

Abschnitt 11.6

297

Arnoldi– Prozess

(c) Als Konsequenz aus Theorem 11.19 erh¨alt man f¨ur das CGNR Verfahren die folgenden Fehlerabsch¨atzungen: ||Axn − b||2 ≤ 2γ n ||b||2 ,

n = 0, 1, . . . ,

||xn − x∗ ||2 ≤ 2κA γ n ||x∗ ||,

......

κ −1

mit den Notationen κA := cond2 ( A ) und γ := A . Man beachte, dass die in Theorem κA + 1 √ 11.19 auftretenden Gr¨oßen κA hier durch κA ersetzt werden mussten, was sich bei schlecht konditionierten Problemen (κA  1) als ung¨unstig erweist. 

11.6 Arnoldi–Prozess 11.6.1 Vorbetrachtungen zum GMRES– Verfahren Eine weitere M¨oglichkeit zur L¨osung eines regul¨aren linearen Gleichungssystems Ax = b mit symmetrisch indefiniter oder aber nichtsymmetrischer Matrix A ∈ R N×N liefert das GMRES Verfahren: Definition 11.21 Das GMRES Verfahren ist definiert durch den Ansatz des minimalen Residuums (11.3) mit der speziellen Wahl Dn = Kn ( A, b ), es gilt also xn ∈

Kn ( A, b ),

||Axn − b||2 =

min

x∈K n (A,b)

||Ax − b||2 ,

n = 1, 2, . . . .

(11.22)

Die Abk¨urzung “GMRES“ hat ihren Ursprung in der englischen Bezeichnung “generalized minimal residual method“. Urspr¨unglich wurde dieses Verfahren f¨ur symmetrische Matrizen A betrachtet und dabei mit MINRES bezeichnet. F¨ur n = 1, 2, . . . ist die grunds¨atzliche Vorgehensweise zur Realisierung des GMRES Verfahrens folgendermaßen: (a) Mittels des gleich zu beschreibenden Arnoldi Prozesses wird bez¨uglich des euklidischen Skalarprodukts eine Orthogonalbasis von Kn ( A, b ) erzeugt. (b) Mittels dieser Orthogonalbasis l¨asst sich das Minimierungsproblem (11.22) als ein einfacheres Minimierungsproblem formulieren, das schnell gel¨ost werden kann. Details hierzu werden in Abschnitt 11.7 vorgestellt. Der vorliegende Abschnitt 11.6 befasst sich mit dem in (a) angesprochenen Arnoldi Prozess.

11.6.2 Arnoldi– Prozess Die Vorgehensweise beim Arnoldi Prozess ist schnell beschrieben: ausgehend von einem gegebenen normierten Vektor q1 ∈ R N wird bez¨uglich des klassischen Skalarprodukts  ·, ·  2

298

Kapitel 11

CG – und GMRES – Verfahren

eine Folge paarweise orthonormaler Vektoren q1 , q2 , . . . generiert durch Gram Schmidt Orthogonalisierung der Vektoren q1 , Aq1 , Aq2 , . . .9 . Der folgende Algorithmus beschreibt die genaue Vorgehensweise. Algorithmus 11.22 (Arnoldi Prozess) Ausgehend von einem gegebenem Vektor 0 = b ∈ R N setzt man q1 = b/||b||2 ∈ R N und geht folgendermaßen vor f¨ur n = 1, 2, . . . : (a) (Orthogonalisierung) Man setzt hjn := ( Aqn )qj ∈ R, qn+1 := Aqn −

n 

j = 1, 2, . . . , n,

(11.23)

hjn qj ∈ R N .

(11.24)

j=1

(b) (Normierung) Im Fall qn+1 = 0 bricht der Prozess ab; der Abbruchindex wird mit n∗ = n bezeichnet. Wenn andererseits qn+1 = 0 gilt, so setzt man hn+1,n := || qn+1 ||2 ∈ R,

qn+1 :=

1 q ∈ RN . || qn+1 ||2 n+1

(11.25) 

Bemerkung 11.23 (a) Der Arnoldi Prozess hat eine eigenst¨andige Bedeutung und kann beispielsweise auch zur numerischen Behandlung von Eigenwertproblemen eingesetzt werden; mehr Details hierzu sp¨ater10 . (b) Den Setzungen (11.23) (11.24) entnimmt man, dass der Arnoldi Prozess genau dann abbricht, wenn erstmalig Aqn ∈ span {q1 , . . . , qn } gilt.  Das folgende Lemma stellt die wichtigsten Eigenschaften im Zusammenhang mit dem Arnoldi Prozess zusammen. Lemma 11.24 Die durch den Arnoldi Prozess erzeugten Vektoren q1 , q2 , . . . , qn∗ ∈ R N sind paarweise orthonormal, und es gilt . span q1 , q2 , . . . , qn

=

. span q1 , . . . , qn−1 , Aqn−1

=

Kn ( A, b )

(11.26)

f¨ur n = 1, 2, . . . , n∗ . Ist die Matrix A regul¨ar, so gilt f¨ur die eindeutige L¨osung x∗ ∈ R N des Gleichungssystems Ax = b Folgendes, x∗ ∈ Kn∗ ( A, b ).

9 10

(11.27)

Die zu orthogonalisierenden Vektoren werden also erst im Verlauf des Prozesses generiert und sind nicht von vornherein gegeben. siehe Bemerkung 11.27

Abschnitt 11.6

299

Arnoldi– Prozess

B EWEIS . Die paarweise Orthogonalit¨at erh¨alt man mittels vollst¨andiger Induktion u¨ ber n (unter Verwendung von (11.23)):  qj qn+1

=

 1  ( Aqn )qj − hjn hn+1,n

=

0,

j = 1, 2, . . . , n, n = 1, 2, . . . , n∗ − 1.

Schließlich gew¨ahrleistet die Setzung (11.25) die Eigenschaft ||qn+1 ||2 = 1. Die beiden Identit¨aten in (11.26) sollen nun mit vollst¨andiger Induktion u¨ ber n nachgewiesen werden. Wegen q1 = b/||b||2 ist die Behauptung richtig f¨ur n = 1, und es wird nun der Induktionsschritt 1 ≤ n−1 → n ≤ n∗ gef¨uhrt. Aufgrund von n ≤ n∗ sind die Vektoren q1 , . . . , qn−1 , Aqn−1 ∈ R N linear unabh¨angig, so dass nach Konstruktion die erste Identit¨at in (11.26) richtig ist. Die zweite Identit¨at in (11.26) erh¨alt man so: die Relation “⊂“ folgt aus Aqn−1 ∈ A(Kn−1 ( A, b ) ) ⊂ Kn ( A, b ); die Identit¨at “=“ ergibt sich dann aus Dimensionsgr¨unden: n = dim span {q1 , . . . , qn−1 , Aqn−1 }



dim Kn ( A, b ) ≤ n.

Die Aussage in (11.27) erh¨alt man so: nach Definition von n∗ in Algorithmus 11.22 gilt Aqn∗ ∈ span {q1 , . . . , qn∗ } = Kn∗ ( A, b ), und per Konstruktion gilt Aqj ∈ Kj+1( A, b ) ⊂ Kn∗ ( A, b ),

j = 1, 2, . . . , n∗ − 1,

so dass insgesamt A(Kn∗ ( A, b ) ) ⊂ Kn∗ ( A, b ) gilt beziehungsweise aus Dimensionsgr¨unden die Abbildung A : Kn∗ ( A, b ) → Kn∗ ( A, b ) bijektiv ist, und wegen b ∈ Kn∗ ( A, b ) gilt dann – wie in (11.27) angegeben – notwendigerweise auch x∗ ∈ Kn∗ ( A, b ). Dies komplettiert den Beweis. Bemerkung 11.25 (a) Mit der Aussage (11.26) wird klar, dass dim Kn ( A, b ) = n f¨ur n = 1, 2, . . . , n∗ gilt. Einige weitere Eigenschaften von Krylovr¨aumen werden zu einem sp¨ateren Zeitpunkt vorgestellt11 . Der Arnoldi Prozess bricht also notwendigerweise nach h¨ochstens N Schritten ab, n∗ ≤ N. (b) In Schritt n des Arnoldi Prozesses sind 2N ( N − 1 ) arithmetische Operationen zur Berechnung von Aqn erforderlich. Zudem fallen noch ( 3 + 2n )N arithmetische Operationen zur Bestimmung von hjn ∈ R, j = 1, . . . , n + 1 und qn+1 ∈ R N an. Im Fall n∗ = N ergeben sich insgesamt 3N 3 + O(N 2 ) arithmetische Operationen. (c) Ist die Matrix A symmetrisch, A = A, so gilt f¨ur j ≤ n − 2 die Identit¨at hjn = qnAqj = 0 aufgrund der Eigenschaften Aqj ∈ Kj+1 ( A, b ) ⊂ Kn−1 ( A, b ) und qn ∈ Kn ( A, b )⊥ . Die Gram Schmidt Orthogonalisierung (11.23) (11.24) geht hier also u¨ ber in eine Drei Term Rekursion (das heißt, f¨ur die Berechnung von qn+1 werden nur qn und qn−1 ben¨otigt): qn+1 := Aqn − hnn qn − hn−1,n qn−1 ,

n = 1, 2, . . . , n∗ .

Diesen Spezialfall f¨ur den Arnoldi Prozess bezeichnet man als Lanczos Prozess. 11

siehe Lemma 11.31



300

Kapitel 11

CG – und GMRES – Verfahren

Matrixversion des Arnoldi– Prozesses F¨ur die weiteren Anwendungen ist die folgende Matrixversion des Arnoldi Prozesses von Bedeutung. Theorem 11.26 F¨ur eine gegebene Matrix A ∈ R N×N und einen Vektor 0 = b ∈ R N gelten mit den Notationen aus dem Arnoldi Prozess die folgenden Identit¨aten: ⎛







⎟ ⎟ ⎜ ⎜ ⎜ ⎟ ⎟ ⎜ ⎜ ⎟ ⎟ ⎜ ⎜ ⎟ ⎟ ⎜ ⎜ ⎟ ⎟ ⎜ A ⎜q . . . q ⎟ = ⎜q . . . q ⎟ n⎟ n+1 ⎟ ⎜ 1 ⎜ 1 ⎟ ⎟ ⎜ ⎜ ⎟ ⎟ ⎜ ⎜ ⎠ ⎠ ⎝ ⎝

  =: Qn ∈ R N×n



⎞ h11 p p p

⎜ ⎜ ⎜ h21 p p p ⎜ ⎜ pp ⎜ p ⎝

h1n p pp

hnn

⎟ ⎟ ⎟ ⎟, ⎟ ⎟ ⎠

n = 1, . . . , n∗ − 1, (11.28)

hn+1,n

  =: Hn ∈ R (n+1)×n

beziehungsweise im letzten Schritt ⎛





⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ A ⎜q . . . q ⎟ n∗ ⎟ ⎜ 1 ⎜ ⎟ ⎜ ⎟ ⎠ ⎝

=



  =: Qn∗ ∈ R N×n∗



⎛ ⎞ ⎜ ⎟ h11 p p p ppp h1n∗ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎜ ⎟ ⎜h p p p ppp ⎟ ⎟ 21 ⎜ ⎟ ⎟. ⎜ q1 . . . qn ⎟ ⎜ ⎜ p p p ∗ ⎜ ⎟ ⎜ pp ⎟ pp pp ⎟ ⎜ ⎟ ⎝ ⎠ ⎜ ⎟ ⎝ ⎠ hn∗ ,n∗ −1 hn∗ n∗

  =: Hn∗ ∈ R n∗×n∗

(11.29)

B EWEIS . Es gen¨ugt der Nachweis von (11.29), da die Matrixprodukte in (11.28) f¨ur n = 1, . . . , n∗ − 1 jeweils gerade die ersten n Spalten der beiden Matrixprodukte von (11.29) darstel len. Ein Vergleich der n∗ Spalten der Matrixprodukte in (11.29) f¨uhrt auf Aqn = n+1 j=1 hjn qj beziehungsweise hn+1,n qn+1

=

Aqn −

n 

hjn qj ,

n = 1, 2, . . . , n∗ − 1,

j=1

sowie auf Aqn∗ = noldi Prozesses.

n∗

j=1 hjn∗ qj .

Dies entspricht genau den Setzungen (11.23) (11.25) des Ar-

Bemerkung 11.27 (a) In Kurzform bedeuten die Darstellungen (11.28) (11.29) Folgendes, AQn = Qn+1 Hn

(n = 1, 2, . . . , n∗ − 1),

AQn∗ = Qn∗ Hn∗ .

(11.30)

Abschnitt 11.7

301

GMRES auf der Basis des Arnoldi– Prozesses

(b) Bricht der Arnoldi Prozess nicht vorzeitig ab, gilt also n∗ = N, so erh¨alt man eine Faktorisierung der Form ⎛

⎞ h11

Q N AQN

=

⎜ ⎜ ⎜ ⎜ h21 ⎜ ⎜ ⎜ ⎜ ⎝

ppp pp pp

ppp

h1N

⎟ ⎟ ⎟ ⎟ ⎟ ∈ R N×N , pp ⎟ p ⎟ ⎟ ⎠

p pp

p pp

p

p

hN,N −1

−1 N ×N Q , N = QN ∈ R

hN N

¨ so dass die Matrix A durch orthogonale Ahnlichkeitstransformationen auf obere Hessenbergform gebracht worden ist, das heißt, die resultierende Matrix unterscheidet sich von einer oberen Dreiecksmatrix lediglich durch die nichtverschwindenden Eintr¨age auf der unteren Nebendiagonalen; eine solche Matrix bezeichnet man als Hessenbergmatrix. Eine Hessenbergform ist bei der numerischen Behandlung von Eigenwertproblemen von Vorteil, siehe Kapitel 13; dort ¨ werden auch andere orthogonale Ahnlichkeitstransformationen (Householder Transformatio nen, Givens Rotationen) zur Gewinnung einer Hessenbergform vorgestellt.

11.7 Realisierung von GMRES auf der Basis des Arnoldi– Prozesses 11.7.1 Einfuhrende ¨ Bemerkungen Im Folgenden wird eine Methode zur Umsetzung des GMRES Verfahrens vorgestellt, die die durch den Arnoldi Prozess generierten Orthogonalbasen der Krylovr¨aume K1 ( A, b ), K2 ( A, b ), . . . verwendet. Theorem 11.28 Mit den Notationen aus dem Arnoldi Prozess gelten f¨ur die Vektoren x1 , x2 , . . . ∈ R N aus dem GMRES Verfahren genau dann die Darstellungen xn = Qn zn ,

n = 1, 2, . . . , n∗ ,

(11.31)

wenn f¨ur n = 1, 2, . . . , n∗ der Vektor zn ∈ R n das folgende Minimierungsproblem l¨ost, ⎞ ||b||2 ⎜ 0 ⎟ := ⎝ pp ⎠ ∈ R min{n+1,n∗ } . p ⎛

||Hn z − cn ||2 → min

f¨ur z ∈ R n ,

mit cn

(11.32)

0 B EWEIS . F¨ur jeden Index n ≤ n∗ − 1 und jeden Vektor z ∈ R n gilt ||AQn z − b||2

=

   Qn+1 Hn z − Qn+1 cn  2

=

||Hn z − cn ||2 ,

(11.33)

302

Kapitel 11

CG – und GMRES – Verfahren

wobei die Norm || · ||2 in (11.33) die ersten beiden Male auf R N und und im dritten Fall auf R n+1 operiert; die letzte Identit¨at in (11.33) resultiert aus der Isometrieeigenschaft ||Qn y ||2 = ||y ||2. F¨ur den Index n = n∗ verh¨alt sich die Situation nicht viel anders; man hat nur in dem mittleren Ausdruck von (11.33) die beiden auftretenden Indizes n + 1 jeweils durch n zu ersetzen.

11.7.2 Allgemeine Vorgehensweise zur L¨osung des Minimierungsproblems (11.32) Im vorigen Abschnitt 11.7.1 ist auf der Basis des Arnoldi Prozesses das Problem der Bestimmung der Approximationen x1 , x2 , . . . ∈ R N des GMRES Verfahrens reduziert worden auf die L¨osung des linearen Ausgleichsproblems (11.32). Im Folgenden wird dargestellt, wie man die dabei auftretende Matrix Hn mit oberer Hessenbergstruktur schnell in eine orthogonale Matrix und eine verallgemeinerte obere Dreiecksmatrix von der folgenden Form faktorisiert: •

F¨ur n = 1, 2, . . . , n∗ − 1 bestimmt man sukzessive Faktorisierungen der Form ⎛

⎜ ⎜ Hn = Tn ⎜ ⎜ ⎝

⎞ Rn



⎟ ⎟ ⎟, ⎟ ⎠

Tn ∈ R (n+1)×( n+1) ,

0

⎜ Rn = ⎜ ⎝

∗ ppp ∗



p⎟ n×n p pp ⎟ ⎠ ∈ R ,

pp

0 ∈ Rn .



Tn−1 = Tn,

(11.34)

Nach der Bestimmung solcher Faktorisierungen kann das jeweilige Ausgleichsproblem (11.32) unmittelbar gel¨ost werden durch die Aufl¨osung des folgenden gestaffelten Gleichungssystems:12 ⎛ ⎞ Rn z = y ∈ R n ,

mit



⎞ ||b||2 ⎜y ⎟ ⎜ 0 ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ := Tn ⎜ pp ⎟ ∈ R n+1 ⎝ ⎠ ⎝ p ⎠ 0 ∗

(n = 1, 2, . . . , n∗ − 1).

F¨ur den Index n = n∗ verh¨alt sich die Situation nur geringf¨ugig anders. Hier bestimmt man eine Faktorisierung der Form •

⎛ Hn∗ = Tn∗ Rn∗ ,

Tn∗ ∈ R n∗×n∗ , Tn−1 = Tn∗ , ∗

⎜ Rn∗ = ⎜ ⎝

∗ ppp ∗ pp

p

p pp

⎞ ⎟ ⎟ ∈ R n∗×n∗ , ⎠

(11.35)



und die L¨osung des linearen Ausgleichsproblems (11.32) (die in dieser Situation gleichzeitig die L¨osung von Ax = b darstellt) kann dann leicht u¨ ber das folgende gestaffelte Gleichungssystem bestimmt werden, 12

Eine einf¨uhrende Behandlung dieser Vorgehensweise finden Sie in Abschnitt 4.8.5.

Abschnitt 11.7

303

GMRES auf der Basis des Arnoldi– Prozesses



⎞ ||b||2 ⎜ 0 ⎟ ⎜ ⎟ Rn∗ z = Tn∗ ⎜ pp ⎟ ∈ R n∗ . ⎝ p ⎠ 0 Im folgenden Abschnitt 11.7.3 wird beschrieben, wie man auf effiziente Art Faktorisierungen der Form (11.34) (11.35) gewinnt.

11.7.3 Detaillierte Beschreibung der Vorgehensweise zur L¨osung des Minimierungsproblems (11.32) Im Folgenden wird beschrieben, wie man f¨ur fixierten Index n ≤ n∗ ausgehend von einer Faktorisierung der Form ⎛ ⎞ Hn−1

=

⎜ ⎜ Tn−1 ⎜ ⎜ ⎝

Rn−1

⎟ ⎟ ⎟ ∈ R n×(n−1) , ⎟ ⎠

0 ∈ R n−1 ,

0 verf¨ahrt, um im Fall n ≤ n∗ − 1 eine Faktorisierung der Form (11.34) und im Fall n = n∗ eine Faktorisierung von der Gestalt (11.35) zu erhalten. Wie bisher auch soll zun¨achst die Situation n ≤ n∗ − 1 behandelt werden. Da die Hessenbergmatrix Hn eine einfache Erweiterung von Hn−1 darstellt, ist die folgende orthogonale Transformation von Hn naheliegend, ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ h 1n h1n ⎟ ⎜ ⎜ ⎟ ⎜ ⎟ ⎟ ⎜ ⎜ ⎟ ⎜ pp ⎟  ⎝ pp ⎠ ⎟   ⎜ ⎜ ⎟ T p Tn−1 0 ⎟ ⎜ Hn−1 p ⎟ n−1 ⎟ ⎜ ⎜ Tn−1 Hn−1 ⎟ ⎜ ⎜ ⎟ ⎜ ⎟ = ⎜ hnn ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ hnn ⎠ ⎜ ⎟ ⎜ ⎟ ⎝ ⎝ ⎝ ⎠ ⎠    0 hn+1,n 0 1 0 hn+1,n

  = Hn ⎞ ⎛ ⎛ ⎞ r1n ⎛ ⎞ r1n ⎟ ⎜ pp h1n ⎟ ⎜ p ⎟ ⎜ Rn−1 p ⎟ ⎜ ⎜ pp ⎟ ⎜ ⎟ ⎟ ⎜ ⎜ ⎟  ⎜ pp ⎟ (11.36) = ⎜ mit ⎜ ⎟ := Tn−1 ⎜ p ⎟ . rn−1,n ⎟ , ⎟ ⎜ ⎜ rn−1,n ⎟ ⎝ ⎠ ⎟ ⎜ ⎠ ⎝  0 ∗ ⎠ ⎝ hnn ∗ 0 ∗



Die untere der beiden mit “ ∗“ bezeichneten Zahlen stimmt mit hn+1,n u¨ berein, was im Folgenden aber keine Rolle mehr spielt. Man beachte, dass bei dieser Transformation tats¨achlich nur  x) zur Berechnung des letzten Spaleine Matrix Vektor Multiplikation (von der Gestalt Tn−1 tenvektors anf¨allt, da die Dreiecksmatrix Rn−1 als bekannt angenommen ist. Nun ist noch der

304

Kapitel 11

CG – und GMRES – Verfahren

Vektor ( ∗, ∗ ) ∈ R 2 orthogonal in ein Vielfaches des ersten Einheitsvektors zu transformieren, ohne dabei den Rest der in (11.36) auftretenden Matrix zu ver¨andern. Hierzu wird der Vektor w [n] ∈ R 2 , ||w [n] ||2 = 1, gem¨aß Lemma 4.62 auf Seite 87 so bestimmt, dass f¨ur die Householdermatrix W [ n ] = I2 − 2w [n](w [n] ) ∈ R 2×2 Folgendes gilt, ⎛ * + W [n]



* =



rnn 0

⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

+ bzw. a¨ quivalent

In−1

W [n]

⎛ ⎞ ⎞ ⎞⎛ r1n r1n ⎜ pp ⎟ pp ⎟ ⎟⎜ ⎜ p ⎟ p ⎟ ⎟⎜ ⎜ ⎟ ⎟ ⎟⎜ ⎜ ⎟ ⎟ ⎟ ⎜ rn−1,n ⎟ = ⎜ ⎜ rn−1,n ⎟ , ⎟⎜ ⎟ ⎜ ⎟ ⎟⎜ ⎜ ⎟ ⎠⎝ ∗ ⎟ ⎠ ⎝ rnn ⎠ 0



wobei wieder Is ∈ R s×s die Einheitsmatrix bezeichnet. So hat man bereits die gew¨unschte Faktorisierung gewonnen, ⎛

⎞⎛

⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠



In−1

0

0

W [n]





⎟ ⎟ 0⎟ ⎟ ⎟ Hn ⎟ ⎟ ⎠ 1 

 Tn−1

0

 =: Tn

⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

=





ppp



pp

pp p

p



⎟ ⎟ ⎟ ⎟ ∈ R (n+1)×n . ⎟ ⎟ ⎠

0

Nun soll noch die Situation n = n∗ behandelt werden, die sich geringf¨ugig von dem Fall n ≤ n∗ − 1 unterscheidet. Hier f¨uhrt man die folgende Transformation aus,



⎛ Tn∗ −1

⎜ ⎜ ⎜ ⎝

⎞ h1n∗ Hn∗ −1

pp p

⎜ ⎜ ⎟ ⎜ ⎟ ⎟ = ⎜ ⎜ ⎠ ⎝

hn∗ n∗

  = Hn∗



⎛ r1n∗ Rn∗ −1

pp p

rn∗ −1,n∗ 0

mit

⎟ ⎟ ⎟ ⎟ ⎟ ⎠

=:

Rn∗ ,

rn ∗ n ∗ ⎛ ⎛ ⎞ h1n∗ r1n∗ ⎜ ⎜ p ⎟ ⎜ pp  ⎜ pp ⎟ := T p n∗ −1 ⎜ ⎝ ⎠ ⎝ rn ∗ n ∗ hn n

⎞ ⎟ ⎟ ⎟, ⎠

∗ ∗

bei der lediglich eine Matrix Vektor Multiplikation von der Art Tn∗ −1 x anf¨allt. Die gew¨unschte Faktorisierung liegt nun schon vor; eine anschließende Elimination ist hier nicht erforderlich, so dass die Wahl Tn∗ = Tn∗ −1 zum Ziel f¨uhrt. Bemerkung 11.29 (a) Eine unmittelbare Folgerung aus der vorgestellten Vorgehensweise sind

Abschnitt 11.7

305

GMRES auf der Basis des Arnoldi– Prozesses

die folgenden Darstellungen, ⎛ ⎜ ⎜ Rn = ⎜ ⎝

r11



ppp

r1n

pp

p pp

p

⎟ ⎟ × ⎟ ∈ Rn n , ⎠

n = 1, 2, . . . , n∗ ,

rnn ⎞

⎛ Tn = Sn[ n ] Sn−1 · · · S1 , [n]

[n]

[n]

mit Sj

⎜ ⎜ := ⎜ ⎜ ⎝

Ij−1 W [j ]

j = 1, 2, . . . , n,

In−j

⎟ ⎟ ⎟ ∈ R (n+1)×( n+1) , ⎟ ⎠

n = 1, 2, . . . , n∗ − 1,

beziehungsweise Tn∗ = Tn∗ −1 . Naheliegenderweise verwendet man diese Faktorisierungen von Tn f¨ur die numerischen Berechnungen, die Berechnung eines Matrix Vektor Produkts von der  Form Tn−1 x wird also u¨ ber n zweidimensionale Matrix Vektor Multiplikationen realisiert. (b) Man beachte, dass bei der L¨osung des Minimierungsproblems (11.32) in jedem Schritt n lediglich O( N ) arithmetische Operationen erforderlich sind, so dass die numerische Hauptlast auf dem Arnoldi Prozess ruht. Insgesamt l¨asst sich festhalten, dass f¨ur jeden Schritt des GMRES Verfahrens lediglich eine Matrix Vektor Multiplikation sowie Operationen niedrigen Aufwands ben¨otigt werden, es fallen also 2N 2 +O( N ) arithmetische Operationen pro Iterationsschritt an. Dies ist ein Gewinn gegen¨uber dem CGNR Verfahren, bei dem zwei Matrix Vektor Multiplikationen pro Iterationsschritt erforderlich sind. Auf der anderen Seite ist anzumerken, dass GMRES sich nicht wie das CGNR Verfahren als einfache Zweitermrekursion realisieren l¨asst und der Speicherplatzbedarf wegen der ben¨otigten Matrizen Rn und orthogonalen Vektoren qn , n = 1, 2, . . . h¨oher ausf¨allt. Schließlich gestaltet sich die Gewinnung von Fehlerabsch¨atzungen f¨ur das GMRES Verfahren schwieriger, wie sich im nachfolgenden Abschnitt herausstellen wird. 

11.7.4 MATLAB– Programm fur ¨ GMRES Im Folgenden wird ein MATLAB Programm (das auch unter Octave l¨auft) f¨ur das GMRES Verfahren auf der Basis des Arnoldi Prozesses angegeben. Die Matrix A ∈ R N×N sowie der Vektor b ∈ R N sind dabei als gegeben angenommen. Der Algorithmus bricht in dieser Variante mit dem Schritt n = n∗ ab, er fungiert hier also als direkter L¨oser.

306

Kapitel 11

CG – und GMRES – Verfahren

% ................... gmres.m ...................... x = zeros(N,1); d = zeros(2,1); w = zeros(2,N);

res = zeros(N,1); u = zeros(2,1); Q = zeros(N,N); R = zeros(N,N); y = zeros(N,1); y(1) = norm(b);

h = zeros(N,1);

goahead = 1;

n = 1; %(*** Ende der Initialisierungen ***) Q(:,1) = b/norm(b); myeps = 0.000001; %(*** Start der Iteration; n = Iterationsschritt ***) while (goahead == 1) v = A*Q(:,n); z = v; for j= 1:n h(j) = Q(:,j)’*v; z = z - h(j)*Q(:,j); end qhat = z; normqhat = norm(qhat); if ( (normqhat = 2) R(1:n-1,n) = h(1:n-1); end %(*** Berechnung der neuen orthog. Transformation ***) if (goahead == 0) R(n,n) = h(n); else u = h(n:n+1); if (abs(u(1)) 0 ein δ > 0 mit der folgenden Eigenschaft: Zu jeder Matrix .............. A ∈ R N×N mit ...... ... || ..........A|| ≤ δ gibt es eine Nummerierung µ1 , . . . , µN ∈ C der Eigenwerte von A + .............A mit max |µk − λk |

k=1,...,N



(12.9)

ε.

Hierbei bezeichnet || · || : R N×N → R + eine Matrixnorm. B EWEIS . Siehe Mennicken/Wagenf¨uhrer [68] oder Werner [107].

12.3 Lokalisierung von Eigenwerten Im Folgenden wird ein wichtiges Einschließungsresultat f¨ur Eigenwerte vorgestellt. Theorem 12.9 (a) F¨ur eine Matrix A = (ajk ) ∈ R N×N gilt σ( A ) ⊂

N 7

Gj ,

j=1

mit den Gerschgorin Kreisen Gj :=



z ∈ C : |z − ajj |

N 



|ajk | ,

j = 1, 2, . . . , N.

k=1 k=j

(b) Wenn genauer die Vereinigung von q Gerschgorin Kreisen K (1) := Gj1 ∪ . . . ∪ Gjq

(j = jm

f¨ur = m)

disjunkt von der Menge der Vereinigung K der restlichen N − q Gerschgorin Kreise ist, so enth¨alt K (1) genau q Eigenwerte von A und K (2) enth¨alt genau N −q Eigenwerte von A (jeweils entsprechend ihrer algebraischen Vielfachheit gez¨ahlt). 8 B EWEIS . (a) F¨ur λ ∈ C ist die Bedingung λ ∈ N j=1 Gj gleichbedeutend mit (2)

|λ − ajj | >

N 

|ajk |,

j = 1, 2, . . . , N,

k=1 k=j

was wiederum gerade die strikte Diagonaldominanz der Matrix A − λI ∈ CN×N impliziert. Daher ist A − λI ∈ CN×N nichtsingul¨ar2, die Zahl λ also kein Eigenwert von A. Damit ist Teil 2

siehe Lemma 2.13 auf Seite 28

Abschnitt 12.3

317

Lokalisierung von Eigenwerten

(a) nachgewiesen. F¨ur den Nachweis der Aussage in (b) zerlegt man die Matrix A = (ajk ) in die Summe eines diagonalen und eines nichtdiagonalen Anteils, A = D + M mit D = diag (a11 , . . . , aN N ) ∈ R N×N ,

M = A − D,

und betrachtet in R N×N die Strecke von D nach A, ⎛ ⎜ a11 ⎜ ⎜ ⎜ ⎜ ta ⎜ 21 ⎜ ⎜ ⎜ A( t ) = D + tM = ⎜ ppp ⎜ ⎜ ⎜ ⎜ pp ⎜ p ⎜ ⎜ ⎝ taN 1

ta12 a22 pp

p

ppp

ppp



ppp

ta1N ⎟ ⎟ ⎟ ⎟ ppp ta23 ta2N ⎟ ⎟ ⎟ ⎟ ⎟ × p pp pp ⎟ ∈ RN N , p p pp ⎟ ⎟ ⎟ ⎟ pp pp taN −1,N ⎟ p p ⎟ ⎟ ⎠ p p p taN,N −1 aN N

0 ≤ t ≤ 1,

so dass A( 0 ) = D und A( 1 ) = A gilt. In den folgenden Punkten (i) (iii) werden nun einige Vorbereitungen getroffen f¨ur den anschließend in Punkt (iv) beschriebenen entscheidenden Beweisschritt. (i) Als Erstes soll σ ( A( t ))



K (1) ∪ K (2)

f¨ur 0 ≤ t ≤ 1

(12.10)

nachgewiesen werden. Hierzu bezeichne G1 ( t ), . . . , GN ( t ) die zu A( t ) geh¨orenden GerschgorinKreise,  N  Gj ( t ) = z ∈ C : |z − ajj | ≤ t |ajk | , j = 1, 2, . . . , N. k=1 k=j

Offensichtlich gilt Gj ( t ) ⊂ Gj ,

j = 1, 2, . . . , N

f¨ur 0 ≤ t ≤ 1,

und mit Teil (a) dieses Theorems erh¨alt man (12.10). (ii) Von den insgesamt N Eigenwerten von D = A( 0 ) befinden sich die q Eigenwerte aj1 j1 , . . . , ajq jq in der Menge K (1) und die restlichen N − q Eigenwerte liegen in K (2) , was unmittelbar aus der Eigenschaft ajj ∈ Gj f¨ur j = 1, 2, . . . , N folgt. (iii) Weiter beobachtet man vorbereitend noch ε := dist(K (1) , K (2) ) > 0,

(12.11)

= ∅ und der Abgeschlossenheit der Menwas aus der Disjunktheitsvoraussetzung K ∩ K (1) (2) gen K und K folgt. (iv) Die Eigenschaften (12.10) (12.11) und die Schlussfolgerung in (ii) zusammen mit der stetigen Abh¨angigkeit der Eigenwerte gegen¨uber Matrixst¨orungen ergeben nun Teil (b) des Theorems, wie im Folgenden noch detailliert nachgewiesen wird. Hierzu bezeichne  t0 := sup t ∈ [ 0, 1 ] : genau q Eigenwerte von A( t ) liegen in K (1) . (12.12) (1)

(2)

318

Kapitel 12

Eigenwertprobleme

Die Menge in (12.12) enth¨alt t = 0 und ist somit nichtleer. Wenn λ1 ( t0 ), . . . , λN ( t0 ) ∈ C die der algebraischen Vielfachheit nach gez¨ahlten Eigenwerte von A( t0 ) bezeichnen, so existiert nach Theorem 12.8 zu ε aus (12.11) eine Zahl δ > 0 und eine Nummerierung λ1 ( t ), . . . , λN ( t ) ∈ C der Eigenwerte von A( t ) mit   max  λk ( t ) − λk ( t0 )  < ε f¨ur t ∈ [ 0, 1 ], |t − t0 | < δ. (12.13) k=1,...,N

Aus der Eigenschaft (12.13) folgt zweierlei: zum einen wird das Maximum in (12.12) angenommen, denn gem¨aß der Definition von t0 gibt es ein t ∈ [ 0, 1 ] mit t0 − δ < t ≤ t0 , so dass die Menge K (1) genau q Eigenwerte von A( t ) enth¨alt, und genau N − q Eigenwerte von A( t ) sind in K (2) enthalten. (Die Situation ist in Bild 12.1 veranschaulicht.) Wegen (12.13), (12.10) und (12.11) enth¨alt die Menge K (1) mithin auch genau q Eigenwerte von A( t0 ). Zum anderen ist noch t0 = 1 nachzuweisen; wegen A( 1 ) = A ergibt sich daraus die Aussage des Theorems. W¨are t0 < 1, so enthielte f¨ur jedes t ∈ [ 0, 1 ] mit t0 < t ≤ t0 + δ die Menge K (1) genau q Eigenwerte von A( t ) (wieder aufgrund der Eigenschaften (12.13), (12.10) und (12.11)). Dies stellt einen Widerspruch zur Definition (12.12) dar und komplettiert den Beweis der Aussage des Theorems. ..... ......... .... .. .... ... .................................................... ......................... .............. .............. ........... ........... ......... ......... ........ ........ ....... ....... ...... . . . . . ..... ..... . .... . . . ... .... × ... . . . ... ... ... . . × × .. .... .. . .... .. ... ... ... .. . × × . ... ... ... . . .... .. ..... .... ...... ..... ...... ...... × ....... ...... ........ ....... ......... ........ . . . . . . . ............ . . .......... ................. ..............................................................................

λ5 (t0 )

λ1 (t0 )

Im z

λ1 (t)

λ5 (t)

λ2 (t0 )

.................... ......... ...... ...... ..... ..... ... .... ... ... ... . . . ... ... ... . ... ... . ... ... ... . . ... .... ... ... .... . ... . . ... .. ... ... × ... .... .. ... × .. ... .... ... .... .. ... .. .. .... .. . .... .. ... ... .... ... × . ... .. . . ... . × ... ... ... ... .. ... ... ... ... ... . . ... ... ... ... ... .. ... ... ... ... ... . . ... ... ... ... ... ... ... ... ... .... ... . . . ..... . ..... ...... ......... ...... .....................

←−− ε −−→

λ2 (t)

λ4 (t) λ3 (t)

λ4 (t0 )

λ3 (t0 )

............................................

Re z Bild 12.1 Veranschaulichung zweier Situationen im Beweis von Theorem 12.9 am Beispiel N = 5. Dargestellt ist die Verteilung der Eigenwerte von A(t0 ) und A(t) f¨ur t mit |t − t0 | ≤ δ. Die Ellipsen sollen die Mengen K1 beziehungsweise K2 umfassen.

Beispiel 12.10 F¨ur die Matrix ⎛

⎞ 5

⎜ ⎜ ⎜ ⎜ 1/2 A = ⎜ ⎜ ⎜ 1/2 ⎜ ⎝ 1/2

1/2 0 3

0

0

1

0

0

1/2

⎟ ⎟ ⎟ 0 ⎟ ⎟ ∈ R 4×4 ⎟ 1/2 ⎟ ⎟ ⎠ 6

Abschnitt 12.4

319

Variationss¨atze f¨ur symmetrische Eigenwertprobleme

ist die Lage der Gerschgorin Kreise in Bild 12.2 dargestellt. Aus Theorem 12.9 folgert man dann, dass es reelle Eigenwerte 0 ≤ λ3 ≤ 2 und 2.5 ≤ λ2 ≤ 3.5 gibt (komplexe Eigenwerte reeller Matrizen treten automatisch als konjugiert komplexe Paare auf). Die beiden anderen Eigenwerte liegen entweder im Intervall [ 4, 6.5 ] oder sind durch ein komplex konjugiertes Paar in G3 ∪ G4 gegeben. G1 1 0 −1

............................. ........ ...... ...... ..... .... ... ... ... .. ... .... ... .. .... .. .... . ... ... ... .. . . ... .. ... . . ... .. . . .... . .... ...... ...... ........ ..............................

1

C

G3

G2

G4

............................. ........ ...... ...... ..... .... ... ... .. ...... .. ........... ............. .... .... .... ... .... .... ... ... .... ..... .. .. ... ... ... ... ... .. ... .. ... ..... .... ....... ...................... ... ... ... .... .... ..... ...... ....... ...................................

........................ ..... ... ... ... ... .. .... . ... ... ... .. . . ..... ........................

3

5

7

Bild 12.2 Gerschgorin– Kreise f¨ur Beispiel 12.10



12.4 Variationsformulierung fur ¨ Eigenwerte von symmetrischen Matrizen Im Folgenden spielen orthogonale Komplemente von Mengen L ⊂ R N eine Rolle,  L⊥ := y ∈ R N : yx = 0 f¨ur jedes x ∈ L . Es ist L⊥ ⊂ R N ein linearer Unterraum. Falls L ⊂ R N ein linearer Unterraum ist, so gilt L ⊕ L⊥ = R N . Theorem 12.11 (Courant/Fischer) F¨ur eine symmetrische Matrix A ∈ R N×N mit Eigenwerten λ1 ≥ λ2 ≥ . . . ≥ λN gilt Folgendes, λk+1 =

λN −k =

min

max

xAx xx

=

max

min

xAx xx

=

L⊂R N linear 0=x∈L⊥ dim L ≤ k

L⊂R N linear dim L ≤ k

0=x∈L⊥

min

max

xAx , xx

(12.14)

max

min

xAx , xx

(12.15)

y1 ,...,yk ∈R N 0 = x ∈ R N xy =0, =1,...,k

y1 ,...,yk

∈R N

0 = x ∈ R N xy =0, =1,...,k

jeweils f¨ur k = 0, 1, . . . , N − 1. B EWEIS . Es wird nur der Nachweis f¨ur (12.14) gef¨uhrt, die Aussage (12.15) ergibt sich ganz entsprechend. Die zweite Identit¨at in (12.14) ist unmittelbar einsichtig, und im Folgenden soll die erste Identit¨at in (12.14) nachgewiesen werden. Dazu sei u1 , . . . , uN ∈ R N ein vollst¨andiges

320

Kapitel 12

Eigenwertprobleme

System von Eigenvektoren (zu den Eigenwerten λ1 , . . . , λN ), die aufgrund der Symmetrie der Matrix A zudem noch als paarweise orthonormal angenommen werden d¨urfen3 . Zum Beweis der Ungleichung “≤“ in (12.14) sei L ⊂ R N ein beliebiger linearer Unterraum mit dim L ≤ k. Dann gilt dim L⊥ ≥ N − k, und wegen dim span {u1 , . . . , uk+1 } = k + 1 existiert ein Vektor x ∈ span {u1 , . . . , uk+1 } ∩ L⊥ ,

xx = 1.

(12.16)

F¨ur den Vektor x aus (12.16) gilt insbesondere die Darstellung k+1 

x =

k+1 

α u ,

=1

|α |2 = 1,

=1

mit gewissen Koeffizienten α1 , . . . , αk+1 ∈ R. Weiter gilt Ax = k+1 

xAx =

λ |α |2



λk+1

=1

k+1 

k+1

|α |2

=1

=

λ α u sowie λk+1 ,

=1

was wegen x ∈ L⊥ gerade die angegebene Absch¨atzung “≤“ in (12.14) liefert. F¨ur den Beweis der Absch¨atzung “≥“ in (12.14) sei speziell L := span {u1 , . . . , uk } gew¨ahlt. F¨ur jeden Vektor x ∈ L⊥ mit xx = 1 gibt es eine Darstellung N 

x =

N 

α u ,

=k+1

|α |2 = 1,

=k+1

mit gewissen Koeffizienten αk+1, . . . , αN ∈ R. Daraus erh¨alt man Ax = weiter xAx =

N 

λ |α |2



λk+1

=k+1

N 

|α |2

=

N

=k+1 λ α u ,

λk+1 ,

=k+1

was gerade die Absch¨atzung “≥“ in (12.14) liefert. Als unmittelbare Folgerung aus Theorem 12.11 erh¨alt man: Korollar 12.12 (Satz von Rayleigh/Ritz) Unter den Bedingungen von Theorem 12.11 gilt λ1 =

max

0=x∈R N

xAx , xx

λN =

min

0=x∈R N

Bemerkung 12.13 Den Ausdruck R( x ) =

xAx , xx

bezeichnet man als Rayleigh Quotienten. 3

siehe auch (12.18) im Nachtrag zu diesem Kapitel

0 = x ∈ R N ,

xAx . xx

und

Abschnitt 12.5

321

St¨orungsresultate f¨ur Eigenwerte symmetrischer Matrizen

12.5 St¨orungsresultate fur ¨ Eigenwerte symmetrischer Matrizen Ein St¨orungsresultat f¨ur die Eigenwerte symmetrischer Matrizen ist bereits in Korollar 12.2 vorgestellt werden. F¨ur den Spezialfall symmetrischer St¨orungen liefert das folgende Theorem eine Versch¨arfung des genannten Resultats. ..

..

..

Theorem 12.14 Seien A, .............. A ∈ R N×N symmetrische Matrizen, und f¨ur B ∈ {A, .............. A, A + .............. A} bezeichne λ1 ( B ) ≥ λ2 ( B ) ≥ . . . ≥ λN ( B ) die monoton fallend angeordneten Eigenwerte der Matrix B. Dann gilt ...

λk ( A ) + λN (.............. A )



...

λk ( A + .............. A )



...

λk ( A ) + λ1 (.............. A ),

k = 1, 2, . . . , N,

und damit insbesondere    λk ( A + ................. A ) − λk ( A ) 



...

k = 1, 2, . . . , N.

||.............. A||2 ,

(12.17)

B EWEIS . Theorem 12.11 und Korollar 12.12 ergeben f¨ur k = 0, 1, . . . , N − 1

...

λk+1 (A + .............. A)

=

min

N ⊂R N linear dim N ≤k

≤ ...

λN −k (A + .............. A)

= ≥

max

0=x∈N ⊥

N ⊂R N linear dim N ≤k

......

xx

xx min

0=x∈N ⊥

 xAx xx

...

...

+ λ1 (.............. A ) = λk+1( A ) + λ1 (.............. A ), x................Ax xx .

+

 xAx xx

x...............Ax xx .

+

 xAx

......

max

 xAx

...

...

+ λN (.............. A ) = λN −k ( A ) + λN (.............. A ). .

.

Die Absch¨atzung (12.17) folgt nun unmittelbar aus der Identit¨at rσ (.............. A ) = ||.............. A||2 , siehe (4.35) auf Seite 79.

12.6 Nachtrag: Faktorisierungen von Matrizen Im Folgenden werden einige aus der linearen Algebra bekannte Matrix Faktorisierungen in Erinnerung gerufen. Detaillierte Erl¨auterungen hierzu findet man zum Beispiel in Fischer [26] oder im Fall der Schur Faktorisierung in Bunse/Bunse Gerstner [10] oder Opfer [76].

322

Kapitel 12

Eigenwertprobleme

12.6.1 Symmetrische Matrizen Eine Matrix A ∈ R N×N heißt symmetrisch, falls A = A gilt. Es existiert dann eine Orthonormalbasis u1 , . . . , uN ∈ R N bestehend aus Eigenvektoren von A. Bezeichnet man die zugeh¨origen Eigenwerte mit λ1 , . . . , λN ∈ R, so liegt folgende Situation vor: Auk

=

λk u k ,

u k u

=

δk ,

 (12.18)

k, = 1, 2, . . . , N.

Theorem 12.15 Die Matrix A ∈ R N×N sei symmetrisch mit Zerlegung (12.18). Dann gilt ⎛

A = UDU  mit D := diag (λ1 , . . . , λN ) ∈ R N×N ,



⎜ ⎟ U = ⎝u1 . . . uN ⎠ ∈ R N×N .

B EWEIS . Jeder Vektor x ∈ R N besitzt die Darstellung x =

N 

α u

=1

mit gewissen Koeffizienten α1 , . . . , αN ∈ R, und dann gilt UDU x

=

N 

α UDU u

=

=1

N  =1

α U De 

=

λ e

N 

α λ u

=

Ax.

=1

12.6.2 Diagonalisierbare Matrizen Die Matrix A ∈ R N×N heißt diagonalisierbar, falls eine Faktorisierung der Form T −1 AT = diag (λ1 , . . . , λN ) ∈ CN×N ,

(12.19)

existiert mit einer regul¨aren Matrix T ∈ CN×N . Die Zahlen λ1 , . . . , λN ∈ C stellen dann die Eigenwerte der Matrix A dar, und der k te Spaltenvektor uk ∈ R N von T = (u1 | . . . |uN ) ∈ CN×N ist ein Eigenvektor der Matrix A zum Eigenwert λk .

12.6.3 Schur– Faktorisierung Jede Matrix A ∈ R N×N ist a¨ hnlich zu einer Dreiecksmatrix, wobei die Transformationsmatrix Q ∈ CN×N unit¨ar gew¨ahlt werden kann, das heißt, Q−1 = QH . Die entsprechende Faktorisierung Q−1 AQ = R



Q ∈ CN×N unit¨ar,

wird als Schur Faktorisierung bezeichnet.

R ∈ CN×N untere Dreiecksmatrix



(12.20)

323

Weitere Themen und Literaturhinweise

Weitere Themen und Literaturhinweise Eine Auswahl existierender Lehrb¨ucher mit Abschnitten u¨ ber Variationsformulierungen sowie St¨orungsresultate f¨ur die Eigenwerte symmetrischer und nichtsymmetrischer Matrizen bildet Deuflhard/Hohmann [21], Golub/Van Loan [32], H¨ammerlin/Hoffmann [45], Hanke-Bourgeois [49], Horn/Johnson [55], Kress [60], Mennicken/Wagenf¨uhrer [68], Oevel [75], Parlett [78], Schaback/Wendland [88], Stoer/Bulirsch [96] und Werner [107]. Variationsformulierungen und St¨orungsresultate f¨ur Singul¨arwertzerlegungen findet man in [55], [32] und in Baumeister [2].

¨ Ubungsaufgaben Aufgabe 12.1 (a) Gegeben seien die (komplexen) Tridiagonalmatrizen ⎛ a ⎜ 1 ⎜ ⎜ c2 ⎜ A = ⎜ ⎜ ⎜ ⎝ 0

⎞ b2 a2 .. .

0

..

.

..

.

cN

⎟ ⎟ ⎟ ⎟ ⎟, ⎟ bN ⎟ ⎠ aN



⎛ ⎜ −a1 b2 ⎜ ⎜ ⎜ c2 −a2 . . . ⎜ B = ⎜ ⎜ .. .. ⎜ . . ⎜ ⎝ 0 cN

0 ⎟ ⎟ ⎟ ⎟ ⎟ ⎟. ⎟ bN ⎟ ⎟ ⎠ −aN

Man zeige: Die komplexe Zahl λ ist ein Eigenwert der Matrix A genau dann, wenn −λ ein Eigenwert der Matrix B ist. (b) F¨ur die reelle symmetrische Tridiagonalmatrix ⎛ a b2 ⎜ 1 ⎜ ⎜ b2 a2 . . . ⎜ A = ⎜ .. .. ⎜ . . ⎜ ⎝ 0 bN

⎞ 0

⎟ ⎟ ⎟ ⎟ × ⎟ ∈ RN N ⎟ bN ⎟ ⎠ aN

sei ak = −aN +1−k

f¨ur k = 1, 2, . . . , N,

bk = bN +2−k

f¨ur k = 2, 3, . . . , N,

erf¨ullt. Man weise Folgendes nach: eine Zahl λ ∈ C ist Eigenwert der Matrix A genau dann, wenn −λ ein Eigenwert von A ist. (c) Man zeige, dass die Eigenwerte der Tridiagonalmatrix ⎛ ⎞ 0 0 b2 ⎜ ⎟ ⎜ ⎟ ⎜ b2 0 . . . ⎟ ⎜ ⎟ × A = ⎜ ⎟ ∈ CN N . . ⎜ ⎟ . . . . bN ⎟ ⎜ ⎝ ⎠ 0 bN 0 symmetrisch zur Zahl 0 liegen und Folgendes gilt,

324

Kapitel 12  det ( A ) =

( –1 )N/2 |b2 b4 . . . bN |2 ,

0

Eigenwertprobleme

falls N gerade, sonst.

Aufgabe 12.2 Es sei A ∈ R N×N eine Matrix von der Form A = (I − 2vv )D (I − 2vv)

D = diag (λ1 , . . . , λN ) ∈ R N×N ,

mit

vv = 1.

v ∈ RN , Man zeige:

(a) Die Matrix A ist symmetrisch, und f¨ur k = 1, 2, . . . , N ist die Zahl λk ein Eigenwert von A mit der k ten Spalte aus der Matrix I − 2vv T als zugeh¨origem Eigenvektor. √ (b) Ist speziell v = (1, 1, . . . , 1)/ N , so erh¨alt man mit der Notation A = (ajk ) Folgendes, ajk =

1 (N λk δjk − 2λj − 2λk + 2r ), N

mit r =

N 2  λs . N s=1

Aufgabe 12.3 F¨ur eine symmetrische Matrix A ∈ R N×N und einen Vektor x = ( xk ) ∈ R N mit xk = 0 f¨ur k = 1, 2, . . . , N bezeichne dk :=

(Ax)k xk

f¨ur k = 1, 2, . . . , N.

Man zeige: f¨ur jede Zahl µ ∈ R enth¨alt das Intervall [ µ − , µ +  ] mit  := max1≤k≤N |dk − µ| mindestens einen Eigenwert λ der Matrix A. Aufgabe 12.4 Zu gegebener Jordanmatrix ⎛ ⎜ ⎜ ⎜ A := ⎜ ⎜ ⎝

λ 1 λ

0

0 ..

.

..

.



⎟ ⎟ ⎟ × ⎟ ∈ CN N 1⎟ ⎠

λ

CN×N

und einer St¨orungsmatrix B ∈ bezeichne λk ( θ ), k = 1, 2, . . . , N , die Eigenwerte der fehlerbehafteten Matrix A + θB, mit θ ∈ C. Man weise mit dem Satz von Gerschgorin (der auch f¨ur komplexe Matrizen richtig ist) Folgendes nach: (a)

max |λk ( θ ) − λ|

1≤k≤N



(||B ||∞ + 1)|θ |1/N

f¨ur |θ | ≤ 1.

(b) Die Absch¨atzung in (a) ist in Bezug auf den Exponenten 1/N von |θ | nicht zu verbessern. 8 Aufgabe 12.5 Sei A = (ajk ) ∈ R N×N eine irreduzible Matrix, und G = N j=1 Gj bezeichne die Vereinigung der Gerschgorin Kreise. Man zeige: f¨ur jeden Eigenwert λ der Matrix A mit λ ∈ ∂G gilt auch λ ∈ ∂Gj f¨ur j = 1, 2, . . . , N, und alle Komponenten eines zu λ geh¨orenden Eigenvektors sind betragsm¨aßig gleich groß. Aufgabe 12.6 Man zeige Folgendes: F¨ur eine symmetrische Matrix A ∈ R N×N enth¨alt jedes Intervall der Form [ µ − ||Ax − µx||2 , µ + ||Ax − µx||2 ] mit einer Zahl µ ∈ R und einem Vektor x ∈ R N mit ||x||2 = 1 mindestens einen Eigenwert der Matrix A.

¨ Ubungsaufgaben

325

Aufgabe 12.7 F¨ur eine symmetrische Matrix A ∈ R N×N mit den Eigenwerten λ1 ≥ λ2 ≥ . . . ≥ λN weise man Folgendes nach: λk

=

λN −k+1

=

max

min

xAx , xx

k = 1, 2, . . . , N,

min

max

xAx , xx

......

M ⊂R N

linear 0=x∈M dim M =k

M ⊂R N linear 0=x∈M dim M =k

...

.

...

...

Aufgabe 12.8 Seien A, ..............A ∈ R N×N symmetrische Matrizen, und f¨ur B ∈ {A, ..............A, A+..............A} bezeichne λ1 ( B ) ≥ λ2 ( B ) ≥ . . . ≥ λN ( B ) die angeordneten Eigenwerte der Matrix B. ...

(a) Durch Angabe einer geeigneten Matrix ...............A zeige man, dass die Absch¨atzungen4 ..

λk ( A ) + λN (.............. A )

..



λk ( A + .............. A )

..



λk ( A ) + λ1 (.............. A )

f¨ur k = 1, 2, . . . , N,

nicht zu verbessern sind. ..

(b) Falls die Matrix ...............A positiv definit ist, so gilt λk ( A )



...

λk ( A + .............. A )

f¨ur k = 1, 2, . . . , N.

Aufgabe 12.9 Es besitze eine symmetrische Matrix A ∈ R N×N mit monoton fallend angeordneten Eigenwerten λ1 ≥ λ2 ≥ . . . ≥ λN eine rechte untere Dreiecksform, ⎛

0

⎜ p ⎜ pp ⎜ A = ⎜ ⎜ 0 ⎝ aN 1

ppp

0

pp

p

pp

pp

p

aN 2

a1N p

ppp pp p

p p p aN N

⎞ ⎟ ⎟ ⎟ ⎟, ⎟ ⎠

mit ajk = akj

f¨ur alle j, k.

Man zeige: es gilt λk ≥ 0 f¨ur alle Indizes k ≤ (N/2), und außerdem gilt λk ≤ 0 f¨ur alle Indizes k ≥ N/2 + 1. Hierbei bezeichnet (x) die gr¨oßte ganze Zahl ≤ x, und x ist die kleinste ganze Zahl ≥ x.

4

siehe Theorem 12.14

326

13 Numerische Verfahren fur ¨ Eigenwertprobleme 13.1 Einfuhrende ¨ Bemerkungen Im Folgenden werden verschiedene numerische Verfahren zur approximativen Bestimmung von Eigenwerten quadratischer Matrizen vorgestellt. Dabei basiert eine Klasse von Algorithmen auf ¨ der Anwendung von Ahnlichkeitstransformationen, eine zweite auf Vektoriterationen.

¨ 13.1.1 Ahnlichkeitstransformationen In dem vorliegenden Abschnitt werden Verfahren vorgestellt, von denen jedes auf der Hinterein¨ anderausf¨uhrung von Ahnlichkeitstransformationen beruht, A A(m+1)

= A(1)



−1 (m) = Sm A Sm ,

A(2)



A(3)



m = 1, 2, . . . ,

...

 mit Sm ∈ R N×N regul¨ar

(13.1)

mit der Zielsetzung, f¨ur hinreichend große Werte von m auf effiziente Weise gute Approximationen f¨ur die Eigenwerte von A(m) zu gewinnen.1 Im weiteren Verlauf werden die folgenden speziellen Verfahren von der Form (13.1) behandelt. •

¨ (siehe Abschnitt 13.2) l¨asst sich Mittels N − 2 Householder Ahnlichkeitstransformationen (N −1) eine obere Hessenbergmatrix A erzeugen, wobei obere beziehungsweise untere Hessenbergmatrizen allgemein folgende Gestalt besitzen, ⎛ ⎞ ⎞ ⎛ × × × ppp ppp ppp × 0 ppp 0 ⎜ ⎟ ⎟ ⎜ ⎜ ⎟ ⎜ p pp ⎟ p p p p p p p ⎜× × ⎟ ⎜ × p p p p ⎟ ⎜ ⎟ ⎟ ⎜ p ⎜ ⎟ ⎟ ⎜ pp ⎟ pp N ×N pp pp ⎜ 0 × ppp ⎜ . bzw. p ⎟ p p 0⎟ ⎜ ⎜ p ⎟ ∈ R ⎜ ⎜ ⎟ ⎟ pp ⎟ ⎜ pp ⎜ pp ⎟ pp pp pp pp p p p p ⎟ p ×⎟ ⎜ p ⎜ p ⎝ ⎝ ⎠ ⎠ × 0 ppp 0 × × ppp ppp ppp × Eine Matrix B = ( bjk ) ist demnach genau dann eine obere Hessenbergmatrix, falls bjk = 0 gilt f¨ur j ≥ k + 2. Entsprechend ist B = ( bjk ) genau dann eine untere Hessenbergmatrix, falls bjk = 0 f¨ur j ≤ k − 2 gilt. Die Hessenbergstruktur ist insofern von Vorteil, als sich hier mit dem Newton Verfahren beziehungsweise auch mit dem QR Verfahren effizient die Nullstellen des zugeh¨origen cha-

1

¨ Diese Eigenwerte stimmen aufgrund der durchgef¨uhrten Ahnlichkeitstransformationen mit denen der Matrix A = A(1) u¨ berein.

Abschnitt 13.1

327

Einf¨uhrende Bemerkungen

rakteristischen Polynoms bestimmen lassen (siehe Abschnitt 13.3 beziehungsweise Abschnitt 13.5). •

Mit Givensrotationen (siehe Abschnitt 13.4 f¨ur Einzelheiten) lassen sich Matrizen A(m) erzeugen, deren Nichtdiagonaleintr¨age f¨ur wachsendes m in einem zu spezifizierenden Sinn betragsm¨aßig immer kleiner werden, so dass dann die Diagonaleintr¨age von A(m) gute Approximationen an die Eigenwerte von A darstellen.



QR Verfahren (siehe Abschnitt 13.5) liefern Matrizen A(m) , deren Eintr¨age im unteren Dreieck f¨ur hinreichend große Werte von m betragsm¨aßig klein ausfallen, und dann approximieren die Diagonaleintr¨age von A(m) die Eigenwerte der Matrix A, wie sich herausstellen wird.

Mit der folgenden Bemerkung wird deutlich, warum man aus Stabilit¨atsgr¨unden in (13.1) sinnvollerweise orthogonale Matrizen Sm w¨ahlt. Bemerkung 13.1 Im Folgenden sei die Matrix A ∈ R N×N als diagonalisierbar angenommen, T −1 AT = D mit der regul¨aren Matrix T ∈ R N×N und der Diagonalmatrix D ∈ R N×N . Bekanntermaßen2 bildet dann bez¨uglich einer gegebenen Vektornorm || · ||p die Zahl condp ( T ) eine Fehlerkonstante f¨ur den Fehler in den Eigenwerten von A gegen¨uber kleinen St¨orungen in der Matrix A, max.....

min |µ − λ|

µ∈σ( A+.......... A ) λ∈σ( A )



..

condp ( T )||.............. A||p .

Dementsprechend bildet also nach dem ( m − 1 ) ten Schritt des Verfahrens (13.1) aufgrund von Tm−1 A(m) Tm = D

−1 mit Tm := S1...m T,

S1...m := Sm · · · S1 ,

die Konditionszahl condp ( Tm ) eine Fehlerkonstante f¨ur den Fehler der Eigenwerte λ ∈ σ(A(m) ) = σ ( A ) gegen¨uber kleinen St¨orungen in der Matrix A(m) . Wegen der Ungleichung condp ( Tm ) ≤ condp ( S1...m ) condp ( T ) ist demnach bez¨uglich der Norm || · || = || · ||2 die Verwendung orthogonaler Transformationen empfehlenswert: Sk−1 = Sk

∀k

=⇒

cond2 ( Tm )

=

cond2 ( T ).



F¨ur die einzelnen Verfahren gibt es noch weitere Gr¨unde, die Transformationsmatrizen Sm orthogonal zu w¨ahlen. Details hierzu werden sp¨ater vorgestellt.

13.1.2 Vektoriteration Bei der zweiten Klasse numerischer Verfahren zur Bestimmung der Eigenwerte von Matrizen handelt es sich um Vektoriterationen, die allgemein von der folgenden Form sind, z (m+1) = Cz (m) ,

m = 1, 2, . . .

(z (0) ∈ R N ,

C ∈ R N×N geeignet),

mit der Zielsetzung, aus den Vektoren z (m) ∈ R N Informationen u¨ ber einzelne Eigenwerte oder auch nur den Spektralradius rσ ( A ) einer gegebenen Matrix A ∈ R N×N zu gewinnen. Details hierzu werden in Abschnitt 13.7 vorgestellt. 2

siehe Theorem 12.1

328

Kapitel 13

Numerische Verfahren f¨ur Eigenwertprobleme

13.2 Transformation auf Hessenbergform −1 (m) Es sollen zun¨achst Transformationen der Form A(m+1) = Sm A Sm , m = 1, 2, . . . , N − 2, vorgestellt werden, mit denen sukzessive Matrizen von der Form



A(m) =

⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

×

ppp

ppp

ppp ppp

ppp

×

pp

p

0

pp

p

pp

pp p pp p pp p

pp

p

×

×

×

ppp

×

0

×

×

ppp

×

pp p

pp p

pp p

0

ppp

0

×

×



  N −m

p pp p pp

p

 m

×

pp p ppp

×

⎞ ⎫ ⎪ ⎪ ⎪ ⎟ ⎪ ⎪ ⎟ ⎪ ⎟ ⎬ ⎟ ⎟ ⎪m ⎟ ⎪ ⎪ ⎟ ⎪ ⎪ ⎟ ⎪ = ⎟ ⎭ ⎟ ⎫ ⎟ ⎟ ⎪ ⎟ ⎪ ⎬ ⎟ N −m ⎟ ⎠ ⎪ ⎪ ⎭

⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

⎞ (m) A1

0

(m) A2

a(m)

(m)

A3

⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟(13.2) ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠

(m)

erzeugt werden mit der Hessenbergmatrix A1 ∈ R m×m und den im Allgemeinen vollbesetzten (m) (m) Matrizen A2 ∈ R m×(N −m) und A3 ∈ R ( N −m)×(N −m) , sowie mit einem gewissen Vektor a(m) ∈ R N −m . Die Matrix A(N −1) schließlich besitzt Hessenberggestalt. −1 (m) Das Vorgehen ist hier, in dem Schritt A(m) → A(m+1) = Sm A Sm mit einer Householder(m) transformation (Abschnitt 13.2.1) den Vektor a aus (13.2) in ein Vielfaches des Einheitsvektors ( 1, 0, . . . , 0 ) ∈ R N −m zu transformieren und dabei das aus Nulleintr¨agen bestehende Trapez in der Matrix A(m) zu erhalten.

Die Transformationsmatrizen S1 , . . . , SN −1 sind hier orthogonal, was aus Stabilit¨atsgr¨unden von Vorteil ist3. Ein weiterer Vorteil besteht darin, dass f¨ur symmetrische Matrizen A ∈ R N×N die Matrix A(N −1) ∈ R N×N ebenfalls symmetrisch und somit notwendigerweise (als Hessenbergmatrix) tridiagonal ist, das heißt, A(N −1) ist d¨unn besetzt, was beispielsweise f¨ur die Anwendung des Newton Verfahrens zur Bestimmung der Nullstellen des charakteristischen Polynoms der Matrix A(N −1) von praktischem Vorteil ist.

¨ 13.2.1 Householder– Ahnlichkeitstransformationen zur Gewinnung von Hessenbergmatrizen Eine M¨oglichkeit zur Transformation auf Hessenbergform u¨ ber ein Schema der Form A(m+1) = −1 (m) Sm A Sm , m = 1, 2, . . . , N − 2, besteht in der Anwendung von Householder Transforma3

siehe hierzu Bemerkung 13.1

Abschnitt 13.2

329

Transformation auf Hessenbergform

tionen, ⎛ Sm

⎜ ⎜ ⎜ = ⎜ ⎜ ⎝

⎞ Im

0

0 Hm

⎟ ⎟ ⎟ ⎟, ⎟ ⎠

Hm

=

IN −m − 2wm w m

wm ∈ R N −m ,

⎫ ⎪ ⎪ ⎪ ⎪ ( N −m )×( N −m ) ⎪ ∈ R , ⎬ ⎪ ⎪ ⎪ ⎪ ⎪ ⎭

w m wm = 1,

(13.3)

wobei Is ∈ R s×s mit s ≥ 1 die Einheitsmatrix bezeichnet und der Vektor wm ∈ R N −m so gew¨ahlt wird, dass4 Hm a = σm em

(13.4)

gilt mit einem Koeffizienten σm ∈ R. Nach Lemma 4.60 auf Seite 86 ist die Matrix Sm orthogonal und symmetrisch, und mit (13.2) (13.4) erh¨alt man hier Matrizen A(m) der Gestalt (13.2) beziehungsweise ⎞



A(m+1)

=

Sm A(m) Sm

=

⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

(m) A1

0

(m) A2 Hm

σm em

(m)

Hm A3 Hm

⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟. ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠

(13.5)

Von Interesse ist der bei dieser Vorgehensweise anfallende Gesamtaufwand zur Berechnung der Matrix A(N −1) : ¨ Theorem 13.2 Die Transformation auf obere Hessenberggestalt mittels Householder Ahnlichkeitstransformationen von der Form (13.5) l¨asst sich mit  1  10N 3  1 + O N 3 arithmetischen Operationen realisieren. B EWEIS . Zu einem gegebenen Vektor wm ∈ R N −m l¨asst sich jede Matrix Vektor Multiplika N −m tion von der Form Hm x = (I − 2wm w in 2( N − m ) m )x = x − 2( wm x )wm mit x ∈ R Additionen und ebenso vielen Multiplikationen realisieren, insgesamt also in 4( N − m ) arithmetischen Operationen. Der gleiche Aufwand ist f¨ur jede Multiplikation xHm = ( Hm x ) erforderlich. Dem Schema (13.5) entnimmt man, dass bei dem Schritt A(m) → A(m+1) insgesamt 2( N − m ) + m = N − m + N solcher Matrix Vektor Multiplikationen erforderlich sind und 4

Die genaue Form des Vektors wm ∈ R N −m ist in Lemma 4.62 auf Seite 87 angegeben.

330

Kapitel 13

Numerische Verfahren f¨ur Eigenwertprobleme

daf¨ur demnach 4( N −m )2 +4( N −m )N arithmetische Operationen anfallen. Bei Durchf¨uhrung des gesamten Schemas von A = A(1) bis hin zur Berechnung von A(N −1) summiert sich dies zu 4

N −2  

( N − m )2 + N(N − m)



= 4

m=1

N −1 

m2 +

N −1 

4N

m=2

m=2

 

  ( N −1 )N ( 2N −1 ) 6

 1  10N 3  1 + O 3 N

m =

−1

( N −1 )N 2

−1

arithmetischen Operationen. Die Berechnung der Vektoren w1 , . . . , wN −2 erfordert nochmals die dagegen nicht weiter ins Gewicht fallenden O( N 2 ) Additionen und ebenso viele Multiplikationen sowie O( N ) Divisionen und genauso viele Quadratwurzeln.

13.2.2 Der symmetrische Fall Falls die Matrix A ∈ R N×N symmetrisch ist, so erh¨alt Transformationsmatrizen f¨ur A(m) die Form ⎡ ⎤ ⎫ ⎪ × × 0 ppp ppp ppp 0 ⎪ ⎢ ⎥ ⎪ ⎪ ⎪ ⎢ ⎥ p ⎪ p p p p p p p ⎢ × p p p p ⎥ ⎬ ⎢ ⎥ m ⎢ ⎥ ⎢ 0 ppp ppp × 0 p p p 0 ⎥ ⎪ ⎪ ⎪ ⎢ ⎥ ⎪ ⎢ p ⎥ ⎪ ⎪ pp ⎥ ⎭ p = A(m) = ⎢ × × × × p p p p p ⎢ ⎥ ⎢ ⎥ ⎫ ⎢ pp ⎥ 0 × × ppp × ⎥ ⎪ ⎢ p ⎪ ⎢ ⎥ ⎪ ⎬ ⎢ pp pp pp ⎥ pp pp N −m ⎢ p p p ⎥ p p ⎣ ⎦ ⎪ ⎪ ⎪ ⎭ 0 ppp 0 × × ppp ×

 m



man aufgrund der Orthogonalit¨at der ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

⎞ (m)

A1

a(m)

a(m)

0

⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠

0

  N −m



(m)

A3

(13.6)

(m)

(m)

mit der Tridiagonalmatrix A1 ∈ R m×m und der im Allgemeinen vollbesetzten Matrix A3 ∈ R (N −m)×(N −m) , sowie mit einem gewissen Vektor a(m) ∈ R N −m . Die Matrix A(N −1) schließlich ¨ liefert besitzt Tridiagonalgestalt. Die entsprechende Householder Ahnlichkeitstransformation (m+1) eine Matrix A mit der folgenden Struktur, ⎛ ⎞

A(m+1)

=

Sm A(m) Sm

=

⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

(m) A1

0

σm e m

0

σm em

(m)

Hm A3 Hm

⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ . (13.7) ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠

Abschnitt 13.3

331

Newton– Verfahren zur Berechnung von Eigenwerten

F¨ur zugrunde liegende symmetrische Matrizen A ist der bei dieser Vorgehensweise anfallende Gesamtaufwand zur Berechnung von A(N −1) etwas geringer als f¨ur nichtsymmetrische Matrizen aus R N×N : ¨ Theorem 13.3 Bei symmetrischen Matrizen A ∈ R N×N l¨asst sich durch Householder Ahnlichkeitstransformationen eine Tridiagonalmatrix gewinnen mit einem Aufwand von  1  8N 3  1 + O 3 N arithmetischen Operationen. ¨ B EWEIS . Es sind die gleichen Uberlegungen wie beim Beweis von Theorem 13.2 anzustellen, so dass hier nur die wenigen Modifikationen herausgestellt werden. So entnimmt man dem Schema (13.7), dass bei dem Schritt A(m) → A(m+1) insgesamt 2( N − m ) Matrix-VektorMultiplikationen mit Householdermatrizen ∈ R (N −m)×(N −m) erforderlich sind und daf¨ur demnach 8( N − m )2 arithmetische Operationen anfallen. Bei Durchf¨uhrung des gesamten Schemas von A = A(1) bis hin zur Berechnung von A(N −1) summiert sich dies zu 8

N −2  m=1

( N − m )2 = 8

N −1  m=2

m2 = 8

(

N − 1 )N ( 2N − 1 ) −1 6



=

 1  8N 3  1 + O N 3

arithmetischen Operationen. Die Berechnung der Vektoren w1 , . . . , wN −2 erfordert nochmals die vergleichsweise nicht weiter ins Gewicht fallenden O( N 2 ) arithmetischen Operationen.

13.3 Newton–Verfahren zur Berechnung der Eigenwerte von Hessenbergmatrizen Im vorangegangenen Abschnitt 13.2 sind Methoden vorgestellt worden, mit denen man zu einer gegebenen Matrix A ∈ R N×N eine obere Hessenbergmatrix B ∈ R N×N gewinnt, deren Eigenwerte mit denen von A u¨ bereinstimmen, σ ( B ) = σ ( A ). In dem vorliegenden Abschnitt wird geschildert, wie sich die Eigenwerte von Hessenbergmatrizen effizient n¨aherungsweise bestimmen lassen. Hierzu bedient man sich des Newton Verfahrens µm+1 = µm − p( µm )/p  ( µm ), m = 0, 1, . . ., zur iterativen Bestimmung der Nullstellen des zugeh¨origen charakteristischen Polynoms5 p( µ ) = det ( B − µI ), dessen Nullstellen mit den Eigenwerten der Matrix B ∈ R N×N u¨ bereinstimmen. Bei vollbesetzten Matrizen ist diese Vorgehensweise mit cN 3 + O( N 2 ) arithmetischen Operationen pro Iterationsschritt (mit einer gewissen Konstanten c > 0) recht aufw¨andig. Bei Hessenbergmatrizen B jedoch l¨asst sich f¨ur jedes µ der Aufwand zur Berechnung der Werte p( µ ) und p  ( µ ) auf jeweils O( N 2 ) arithmetische Operationen reduzieren, wie sich im Folgenden herausstellen wird. 5

Entsprechende Konvergenzresultate finden Sie in Abschnitt 5.4.3.

332

Kapitel 13

Numerische Verfahren f¨ur Eigenwertprobleme

13.3.1 Der nichtsymmetrische Fall. Die Methode von Hyman Das charakteristische Polynom p( µ ) einer Hessenbergmatrix und die zugeh¨orige Ableitung p  ( µ ) lassen sich jeweils u¨ ber die Aufl¨osung spezieller gestaffelter linearer Gleichungssysteme berechnen, wie sich im Folgenden herausstellen wird. Theorem 13.4 Sei B = ( bjk ) ∈ R N×N eine obere Hessenbergmatrix mit bj,j+1 = 0 f¨ur j = 1, 2, . . . , N − 1 und charakteristischem Polynom p( µ ) = det ( B − µI ), µ ∈ R. Im Folgenden sei µ ∈ R fest gew¨ahlt und kein Eigenwert von B, und es bezeichne x = x( µ ) = (xk ( µ ) ) ∈ R N den eindeutig bestimmten Vektor mit ( B − µI )x = e1 ,

(13.8)

mit e1 = ( 1, 0, . . . , 0 ) ∈ R N . Dann gelten die folgenden Darstellungen, p( µ )

=

( –1 )N −1 b21 b32 · · · bN,N −1

xN ( µ )

,

p( µ ) p ( µ )

=

d  1  . xN ( µ ) dµ xN ( µ )

1

(13.9)

B EWEIS . Anwendung der Cramerschen Regel auf die Gleichung (13.8) liefert die erste Aussage in (13.9), ⎛

xN

b12 ··· b1,N −1 ⎜ b11 − µ ⎜ ⎜ ppp b22 − µ ⎜ b21 ⎜ ⎜ pp pp = det ⎜ b32 p p ⎜ ⎜ ⎜ pp ⎜ bN −1,N −1 − µ p ⎜ ⎝ bN,N −1



⎛ ⎜ b21 ⎜ ⎜ ⎜ ⎜ ⎜ (∗) = ( –1 )N −1 det ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

⎞ 1⎟ ⎟ ⎟ 0⎟ ⎟? ⎟ pp ⎟ p ⎟ p( µ ) ⎟ pp ⎟ p ⎟ ⎟ ⎠ 0

b22 − µ

ppp

⎟ ⎟ ⎟ ⎟ pp pp ⎟? b32 p p ⎟ ⎟ p( µ ), ⎟ ⎟ pp p bN −1,N −1 − µ ⎟ ⎟ ⎟ ⎠ bN,N −1

  = b21 b32 · · · bN,N −1 b2,N −1

wobei man die Identit¨at (∗) durch Entwicklung der auftretenden Determinante nach der letzten Spalte erh¨alt. Dies ergibt die erste Identit¨at in (13.9), und eine anschließende Differenziation liefert die zweite Aussage in (13.9).

Abschnitt 13.3

333

Newton– Verfahren zur Berechnung von Eigenwerten

Bemerkung 13.5 In Theorem 13.4 stellt die Bedingung an das Nichtverschwinden der unteren Nebendiagonaleintr¨age keine ernsthafte Restriktion dar: im Fall bj,j+1 = 0 f¨ur ein j ∈ {1, 2, . . . , N − 1} l¨asst sich das Problem auf die Bestimmung der Eigenwerte zweier Teilmatrizen von oberer Hessenbergstruktur reduzieren.  Die f¨ur (13.9) erforderliche N te Komponente der L¨osung des Gleichungssystems (13.8) und deren Ableitung erh¨alt man jeweils u¨ ber die L¨osung gestaffelter linearer Gleichungssysteme: Theorem 13.6 Mit den Bezeichnungen aus Theorem 13.4 erh¨alt man die Werte 1/xN ( µ ) und d ( 1 ) aus den folgenden (durch Umformung und Differenziation von (13.8) entstandenen) dµ xN ( µ) gestaffelten linearen Gleichungssystemen ⎫

+

···

+

b1,N −1 vN −1

+

b1N

⎪ 1 ⎪ ⎪ ⎪ = ⎪ xN ( µ )⎪ ⎪

b21 v1 +(b22 − µ)v2 +

···

+

b2,N −1 vN −1

+

b2N

=

( b11 − µ )v1 +

b12 v2

pp

pp

p

pp p

p

pp p

bN −1,N −2 vN −2 −(bN −1,N −1 − µ)vN −1 + bN −1,N = bN,N −1 vN −1

+bN N − µ=

⎪ ⎪ ⎪ ⎪ ⎪ 0 ⎪ ⎪ ⎪ ⎪ ⎪ ⎬ (13.10) ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ 0 ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎭ 0 ⎪

beziehungsweise ⎫

( b11 − µ )z1 +

⎪ d  1 ⎪ ⎪ ⎪ = dµ xN ( µ ) ⎪ ⎪ ⎪

+

···

+

b1,N −1 zN −1

− v1

b21 z1 +(b22 − µ)z2 +

···

+

b2,N −1 zN −1

− v2 =

pp p

pp p

b12 z2

pp

p

0

⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎬

  bN −1,N −2 zN −2 − bN −1,N −1 − µ zN −1 −vN −1 =

0

− 1 =

0

⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎭

pp

p

bN,N −1 zN −1

(13.11)

die man rekursiv nach den Unbekannten vN −1 , vN −2 , . . . , v1 , 1/xN ( µ ) beziehungsweise zN −1 , d ( xN1(µ) ) aufl¨ost. zN −2 , . . . , z1 , dµ B EWEIS . Die Aussage (13.10) erh¨alt man (f¨ur vk = xk ( µ )/xN ( µ ) ), indem die einzelnen Zeilen des Gleichungssystems (13.8) durch xN ( µ ) dividiert werden. Differenziation der Gleichungen k ( ) in (13.10) nach µ liefert f¨ur zk = ( dv ) µ unmittelbar (13.11). dµ

334

Kapitel 13

Numerische Verfahren f¨ur Eigenwertprobleme

13.3.2 Das Newton– Verfahren zur Berechnung der Eigenwerte tridiagonaler Matrizen Ist die in Abschnitt 13.3.1 behandelte Matrix B ∈ R N×N symmetrisch, so ist sie notwendigerweise tridiagonal. In diesem Fall lassen sich die Werte p( µ ) = det ( B − µI ) und p  ( µ ) auf einfache Weise rekursiv berechnen:

Lemma 13.7 Zu gegebenen Zahlen a1 , . . . , aN ∈ R und b2 , . . . , bN ∈ R gelten f¨ur die charakteristischen Polynome ⎛

pn ( µ )

=

det ( Jn − µI ),

a1

⎜ ⎜ ⎜ b2 Jn = ⎜ ⎜ ⎜ ⎝



b2 pp

p

pp

p

pp

p

pp

p

bn

⎟ ⎟ ⎟ ⎟, ⎟ bn ⎟ ⎠ an

n = 1, 2, . . . , N,

die folgenden Rekursionsformeln

p1 ( µ )

= a1 − µ,

pn ( µ )

= ( an − µ )pn−1 ( µ ) − b2n pn−2 ( µ ),

 n = 2, 3, . . . , N,

(13.12)

mit der Notation p0 ( µ ) := 1. F¨ur die Ableitungen gelten die Rekursionsformeln p1 ( µ ) = −1,   ( µ ) − b2n pn−2 ( µ ), pn ( µ ) = −pn−1 ( µ ) + ( an − µ )pn−1

n = 2, 3, . . . , N.

B EWEIS . Die angegebene Darstellung f¨ur p1 ergibt sich unmittelbar, und weiter gilt ⎞ ⎛ a1 − µ b2 ⎠ = ( a1 − µ ) ( a2 − µ ) − b22 , p2 ( µ ) = det ⎝   b2 a2 − µ = p1 ( µ )

Abschnitt 13.4

335

Das Jacobi– Verfahren f¨ur symmetrische Matrizen

was die angegebene Darstellung f¨ur p2 ist. F¨ur n ≥ 3 erh¨alt man ⎛



⎜ a1 − µ b2 ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ p p ⎜ b2 ⎟ pp pp ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎟ pp pn ( µ ) = det ⎜ bn−1 p an−2 − µ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎟ ⎜ ⎟ ⎜ b a − µ b n−1 n−1 n ⎟ ⎜ ⎟ ⎜ ⎠ ⎝ bn an − µ ⎛



⎜ a1 − µ b2 ⎜ ⎜ ⎜ pp ⎜ b2 p ⎜ ⎜ ⎜ pp ( an − µ )pn−1 ( µ ) − bn det ⎜ p ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟, ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠

(∗)

=



pp

p

an−3 − µ bn−2

bn−2 an−2 − µ bn−1 0



bn



(∗∗)

= bn pn−2 ( µ )

wobei sich die Identit¨aten (∗) beziehungsweise (∗∗) durch Determinantenentwicklung nach der letzten Spalte beziehungsweise der letzten Zeile ergeben. Dies komplettiert den Beweis der Identit¨at (13.12). Die angegebenen Rekursionsformeln f¨ur die Ableitungen der Polynome pn erh¨alt man unmittelbar durch Differenziation der Terme in (13.12).

13.4 Jacobi–Verfahren zur Nichtdiagonaleintr¨age–Reduktion bei symmetrischen Matrizen In dem folgenden Abschnitt 13.4.1 wird spezifiziert, inwieweit bei quadratischen Matrizen B die Diagonaleintr¨age Approximationen an die Eigenwerte von B darstellen (f¨ur den Fall, dass die Nichtdiagonaleintr¨age von B betragsm¨aßig klein ausfallen). Anschließend werden in Abschnitt 13.4.2 zu einer gegebenen symmetrischen Matrix A ∈ R N×N spezielle Verfahren von der −1 (m) A Sm , m = 1, 2, . . . behandelt, mit denen man sukzessive solche zu A Form A(m+1) = Sm a¨ hnlichen Matrizen B mit betragsm¨aßig kleinen Nichtdiagonaleintr¨agen erzeugt.

336

Kapitel 13

Numerische Verfahren f¨ur Eigenwertprobleme

13.4.1 Approximation der Eigenwerte durch Diagonaleintr¨age Vor der Einf¨uhrung des Jacobi Verfahrens und den zugeh¨origen Konvergenzbetrachtungen sind ein paar Erg¨anzungen zu den in Kapitel 12 vorgestellten allgemeinen St¨orungsresultaten f¨ur Eigenwerte erforderlich. Definition 13.8 F¨ur eine symmetrische Matrix B = ( bjk ) ∈ R N×N ist die Zahl S ( B ) ∈ R + folgendermaßen erkl¨art, S ( B ) :=

N 

b2jk .

(13.13)

j,k=1 j=k

Offensichtlich gilt N 

S ( B ) = ||B ||2F −

b2kk = ||B − D ||2F ,

mit D := diag ( b11 , . . . , bN N ),

(13.14)

k=1

wobei || · ||F die Frobeniusnorm bezeichnet. Der Wert S ( B ) wird im Folgenden als Maß daf¨ur verwendet, wie weit die Matrix B von einer Diagonalgestalt entfernt ist. Bei Matrizen mit (gegen¨uber der Diagonalen) betragsm¨aßig kleinen Nichtdiagonaleintr¨agen stellen die Diagonaleintr¨age Approximationen f¨ur die Eigenwerte dar. Genauer gilt Folgendes: Theorem 13.9 Seien λ1 ≥ λ2 ≥ . . . ≥ λN die Eigenwerte der symmetrischen Matrix B = ( bjk ) ∈ R N×N , und seien bj1 j1 ≥ bj2 j2 ≥ . . . ≥ bjN jN die der Gr¨oße nach angeordneten Diago-

naleintr¨age von B. Dann gilt |bjr jr − λr |



/

S ( B ),

r = 1, 2, . . . , N.

B EWEIS . Mit der Notation D := diag ( b11 , . . . , bN N ) erh¨alt man max |bjr jr − λr |

r=1,...,N

(∗)



||B − D ||2

(∗∗)



||B − D ||F

/ S ( B ),

= ...

wobei die Ungleichung (∗) aus Theorem 12.14 angewandt mit A = B, .............. A = D − B folgt. Die Absch¨atzung (∗∗) resultiert aus der allgemeinen Ungleichung || · ||2 ≤ || · ||F (siehe Theorem 4.45), und die letzte Identit¨at ist eine unmittelbare Konsequenz aus den Definitionen f¨ur || · ||F und S ( · ), vergleiche die Darstellung (13.14).

13.4.2 Givensrotationen zur Reduktion der Nichtdiagonaleintr¨age Im Folgenden wird das Verfahren von Jacobi zur approximativen Bestimmung der Eigenwerte symmetrischer Matrizen A ∈ R N×N u¨ ber die Reduktion der Nichtdiagonaleintr¨age vorgestellt,

Abschnitt 13.4

337

Das Jacobi– Verfahren f¨ur symmetrische Matrizen

−1 (m) S ( A ) > S ( A(2) ) > . . . . Dieses Verfahren ist von der Form A(m+1) = Sm A Sm , m = 1, 2, . . . (1) ¨ mit A = A, wobei die einzelnen Ahnlichkeitstransformationen von der allgemeinen Form ⎛ ⎞ 1 ⎜ ppp ⎟ ⎜ ⎟ 1 ⎜ ⎟ ⎜ ⎟← p c −s ⎜ ⎟ ⎜ ⎟ 1 p ⎜ ⎟ −1 pp  := Ω B Ωpq , ∈ R N×N (13.15) B Ωpq = ⎜ ⎟ pq ⎜ ⎟ 1 ⎜ ⎟ s c ⎜ ⎟← q ⎜ ⎟ 1 ⎜ ⎟ p pp ⎠ ⎝ 1 ↑ ↑ p q sind mit einer symmetrischen Matrix B ∈ R N×N und mit speziell zu w¨ahlenden Indizes p = q und reellen Zahlen

c, s ∈ R,

c2 + s2 = 1.

(13.16)

 ) und Im Folgenden soll zun¨achst ein allgemeiner Zusammenhang zwischen den Zahlen S ( B ( ) S B hergestellt werden. Hierzu beobachtet man, dass wegen der besonderen Struktur der Matrix Ωpq Folgendes gilt, ⎛ ⎞ 0 0 0 ⎟ ⎜ ⎟ ⎜ ⎟←p ⎜ ⎟ ⎜ ⎟ ⎜ 0 0 ⎟  = B + ⎜ 0 ∈ R N×N , B ⎟ ⎜ ⎟ ⎜ ⎟←q ⎜ ⎟ ⎜ ⎝ 0 0 0 ⎠ ↑ ↑ p q  = (bjk ) die Eintr¨age mit den Indizes ( p, p ), ( q, q ) und ( p, q ) von besonwobei in der Matrix B derer Bedeutung sind:

bpq

=

bpp = c2 bpp + 2csbpq + s2 bqq ,

(13.17)

bqq = s2 bpp − 2csbpq + c2 bqq ,

(13.18)

bqp = cs(bqq − bpp ) + ( c − s )bpq ,

(13.19)

bjk = bjk ,

(13.20)

2

2

j, k ∈ {p, q },

wobei B = ( bjk ). Weiter gilt noch bjp = bpj = cbjp + sbjq ,

bjq = bqj = −sbjp + cbjq

f¨ur j ∈ {p, q }.

 ) und S ( B ) Im folgenden Theorem 13.11 wird ein Zusammenhang zwischen den Zahlen S ( B hergestellt, f¨ur dessen Beweis das folgende Resultat u¨ ber die Invarianz der Frobeniusnorm gegen¨uber orthogonalen Transformationen ben¨otigt wird.

338

Kapitel 13

Numerische Verfahren f¨ur Eigenwertprobleme

Lemma 13.10 F¨ur jede Matrix B ∈ R N×N und jede orthogonale Matrix Q ∈ R N×N gilt die Identit¨at ||Q−1 BQ||F = ||B ||F . B EWEIS . Zun¨achst sei an die aus der linearen Algebra bekannte Spur einer Matrix A = (ajk ) ∈  R N×N erinnert, spur ( A ) = N k=1 akk . Die Aussage folgt nun unmittelbar aus den beiden folgenden Identit¨aten, ||A||2F = spur ( AA ),

spur ( S T ) = spur ( T S )

f¨ur alle A, S, T ∈ R N×N ,

deren elementaren Nachweise hier nicht geliefert werden.  ) und S ( B ) her. Das folgende Theorem stellt einen Zusammenhang zwischen den Zahlen S ( B Theorem 13.11 F¨ur eine symmetrische Matrix B = ( bjk ) ∈ R N×N gilt mit den Bezeichnungen aus (13.15) Folgendes, ) S(B

=

S ( B ) − 2(b2pq − b2pq ).

B EWEIS . Eine Anwendung von Lemma 13.10 und den Identit¨aten (13.14) und (13.20) liefert  ) = || B  ||2 − S(B F

N 

b2 kk

k=1

=



||B ||2F −

N 

b2kk

k=1

 S(B )



+ b2pp + b2qq − b2pp − b2qq .

(13.21)



Zur Verarbeitung der letzten vier Summanden in (13.21) verwendet man die Identit¨aten (13.17) (13.19) in der folgenden Matrixschreibweise, ⎛ ⎞ ⎞⎛ ⎛ ⎞⎛ ⎞ bpp bpq c s bpp bpq c −s ⎠ = ⎝ ⎠⎝ ⎝ ⎠⎝ ⎠. bpq bqq bpq bqq −s c s c

 

  =: b =: b Die entstehenden Matrizen b und b ∈ R 2×2 sind also orthogonal a¨ hnlich zueinander, und daher erh¨alt man unter Anwendung von Lemma 13.10 b2 + b2 + 2b2 pp qq pq

  = || b||2F

=

b2pp + b2qq + 2b2pq ,

  = ||b||2F

(13.22)

und die Identit¨aten (13.21) (13.22) ergeben dann die Aussage des Theorems. Mit Lemma 13.11 wird offensichtlich, dass (bei festem Index ( p, q ) ) im Fall bpq = 0 die Zahl  ) die gr¨oßtm¨ogliche Verringerung gegen¨uber S ( B ) zu verzeichnen hat. S(B

Abschnitt 13.4

339

Das Jacobi– Verfahren f¨ur symmetrische Matrizen

Korollar 13.12 W¨ahlt man in (13.15) die Zahlen c und s so, dass bpq = 0 erf¨ullt ist, dann gilt ) S(B

=

S ( B ) − 2b2pq .

Das folgende Theorem stellt eine Wahl der Zahlen c und s vor, mit der man bpq = 0 erh¨alt. Theorem 13.13 In (13.15) erh¨alt man den Eintrag bpq = 0 durch folgende Wahl der Zahlen c und s (o.B.d.A. sei bpq = 0) 6 6 bpp − bqq 1+C 1−C ( bpq ) c = , s = sgn mit C =  1/2 . (13.23) 2 2 (bpp − bqq )2 + 4b2pq B EWEIS . Mit (13.19) folgt 6 2 bpq = sgn(bpq ) 1 − C (bqq − bpp ) + Cbpq 4 (∗)

=

sgn(bpq )|bpq |(bqq − bpp ) bpp − bqq  1/2 +  1/2 bpq 2 2 (bpp − bqq ) + 4bpq (bpp − bqq )2 + 4b2pq

wobei (∗) aus 6 1 − C2 4

=

1 2

 ( bpp − bqq )2 + 4b2 − ( bpp − bqq )2 1/2 pq ( bpp − bqq )2 + 4b2pq

=

=

0,

|bpq | ( ( bpp − bqq )2 + 4b2pq )1/2

resultiert. Bemerkung 13.14 1. Offensichtlich gilt in (13.23) |C | < 1, so dass dort die Zahl s wohldefiniert ist. Ebenso offensichtlich gilt dann c2 + s2 = 1, womit die Matrix Ωpq in (13.15) orthogonal ist. 2. Bei einer Wahl von c und s entsprechend (13.23) tritt u¨ blicherweise f¨ur gewisse Indizes ( j, k ) ∈ { ( p, q ), ( q, p ) } u ¨ blicherweise auch der Fall ein, dass bjk = 0 gilt, obwohl eventuell  bjk = 0 erf¨ullt ist. Im Folgenden soll noch die spezielle Wahl des Indexes ( p, q ) diskutiert werden. Korollar 13.12 legt nahe, ( p, q ) so zu w¨ahlen, dass |bpq | maximal wird. In diesem Fall erh¨alt man die folgende Absch¨atzung: Theorem 13.15 F¨ur Indizes ( p, q ) mit p = q sei |bpq |



|bjk |

f¨ur j, k = 1, 2, . . . , N,

j = k,

(13.24)

erf¨ullt. Mit den Bezeichnungen aus (13.15) und Eintr¨agen c und s entsprechend Theorem 13.13 gilt dann die Absch¨atzung ) S(B



( 1 − εN )S ( B ),

2

mit εN := N ( N − 1 ) .

340

Kapitel 13

Numerische Verfahren f¨ur Eigenwertprobleme

B EWEIS . Wegen (13.24) gilt die Absch¨atzung S(B )

=

N 

b2jk



N ( N − 1 )b2pq ,

j,k=1 j=k

da die Anzahl der Nichtdiagonaleintr¨age N ( N − 1 ) betr¨agt. Die Aussage folgt nun mit Korollar 13.12.

13.4.3 Zwei spezielle Jacobi– Verfahren Im Folgenden werden f¨ur das zu Beginn von Abschnitt 13.4 bereits vorgestellte Jacobi Verfahren zwei unterschiedliche M¨oglichkeiten der Wahl der Indizes ( p1 , q1 ), ( p2 , q2 ), . . . behandelt. Das klassische Jacobi– Verfahren Algorithmus 13.16 (Klassisches Jacobi Verfahren) F¨ur eine gegebene symmetrische Matrix A ∈ R N×N setze man A(1) := A. for m = 1, 2, . . .: ur j, k = 1, . . . , N, j = k; bestimme Indizes p, q mit |a(pqm) | ≥ |a(jkm) | f¨ (m) A(m+1) := Ω−1 Ωpq ; pq A

ur Ωpq aus (13.15) mit c und s wie in (13.23) * ) (* f¨

end  Bemerkung 13.17 1. Nach Theorem 13.15 konvergiert f¨ur die Matrizen A(m) des klassischen Jacobi-Verfahrens die Messgr¨oße S ( A(m) ) → 0 linear. Genauer gilt   2 f¨ur m = 1, 2, . . . εN = ( , A = A(1) . S ( A(m) ) ≤ ( 1 − εN )m S ( A ) ) N N −1

Ist eine absolute Genauigkeit η > 0 vorgegeben, mit der die Eigenwerte der vorgegebenen Matrix A bestimmt werden sollen, so ist gem¨aß Theorem 13.9 nach m



2

√ log( S ( A )/η ) −log ( 1 − εN )



N 2 log

/

S ( A ) /η



Schritten die gew¨unschte Genauigkeit erreicht, S ( A(m) ) ≤ η. F¨ur das Erreichen einer vorgegebenen Genauigkeit sind somit cN 2 Iterationsschritte durchzuf¨uhren. 2. In jedem Schritt des klassischen Jacobi Verfahrens fallen etwa 4N Multiplikationen und 2N Additionen sowie O( 1 ) Divisionen und Quadratwurzelberechnungen an, insgesamt also 6N(1 + O( 1/N ) ) arithmetische Operationen. Hinzu kommt in jedem Schritt der weitaus h¨oher ins Gewicht fallende Aufwand zur Bestimmung des betragsm¨aßig gr¨oßten Elements, wof¨ur N ( N − 1 )/2 Vergleichsoperationen erforderlich sind. 

Abschnitt 13.4

341

Das Jacobi– Verfahren f¨ur symmetrische Matrizen

Das zyklische Jacobi– Verfahren Mit Bemerkung 13.17 wird klar, dass beim klassischen Jacobi Verfahren cN 4 + O( N 3 ) Operationen f¨ur das Erreichen einer vorgegebenen Genauigkeit durchzuf¨uhren sind (mit einer Konstanten c > 0), was die Anwendung dieses Verfahrens nur f¨ur kleine Matrizen zul¨asst. Daher ist die folgende Variante des Jacobi Verfahrens in Betracht zu ziehen, die auf die Bestimmung des jeweils betragsm¨aßig gr¨oßten Eintrags verzichtet: Algorithmus 13.18 (Zyklisches Jacobi Verfahren) F¨ur eine gegebene symmetrische Matrix A ∈ R N×N setze man A(1) := A. for m = 0, 1, . . .:

B := A(m) ;

for p = 1 : N − 1 for q = p + 1 : N

B := Ω−1 pq BΩpq ; end

(* f¨ ur Ωpq aus (13.15) mit c und s wie in (13.23) *) end A(m+1) := B; end Bemerkung 13.19 1. Das zyklische Jacobi Verfahren ist von der allgemeinen Form A(m+1) = −1 (m) A Sm , m = 1, 2, . . . mit Sm      Sm = Ω12 Ω13 · · · Ω1N Ω23 Ω24 · · · Ω2N · · · ΩN −2,N −1 ΩN −2,N ΩN −1,N  N −1   N  = Ωpq , p=1

q=p+1

wobei die Eintr¨age c = c( p, q, j ) und s = s( p, q, j ) von Ωpq entsprechend Theorem 13.13 gew¨ahlt sind. 2. In einem Schritt A(m) → A(m+1) des zyklischen Jacobi Verfahrens werden N ( N − 1 )/2 Jacobi Transformationen (13.15) mit insgesamt 3N 3 (1+O( 1/N ) ) arithmetischen Operationen durchgef¨uhrt. Typischerweise ist nach m = O( 1 ) Schritten die Zahl S ( A(m) ) hinreichend klein (man beachte hierzu das nachfolgende Theorem 13.20), so dass man mit einem Gesamtaufwand von O( N 3 ) arithmetischen Operationen auskommt.  Das zyklische Jacobi Verfahren konvergiert im Falle einfacher Eigenwerte quadratisch im Sinne des folgenden Theorems. Eine Beweisidee dazu und Hinweise auf die entsprechende Originalliteratur findet man in Parlett [78]. Theorem 13.20 Falls alle Eigenwerte der symmetrischen Matrix A ∈ R N×N einfach auftreten, so gilt f¨ur die Matrizen A(m) des zyklischen Jacobi Verfahrens S ( A(m+1) )



S ( A(m) )2 δ

f¨ur m = 1, 2, . . .,

mit δ :=

min

λ, µ ∈ σ( A ), λ=µ

|λ − µ|.

342

Kapitel 13

Numerische Verfahren f¨ur Eigenwertprobleme

13.5 Das QR–Verfahren 13.5.1 Eindeutigkeit und Stetigkeit der QR– Faktorisierung einer Matrix F¨ur das in den folgenden Abschnitten 13.5.2–13.5.3 behandelte QR Verfahren zur approximativen Bestimmung der Eigenwerte einer Matrix werden die folgenden Aussagen u¨ ber Eindeutigkeit und Stetigkeit der QR Faktorisierung einer Matrix ben¨otigt. Lemma 13.21 (Eindeutigkeit der QR Faktorisierung) F¨ur Orthogonalmatrizen Q1 , Q2 ∈ R N×N und regul¨are obere Dreiecksmatrizen R1 , R2 ∈ R N×N sei Q1 R1 = Q2 R2 erf¨ullt. Dann existiert eine Vorzeichenmatrix S = diag ( σ1 , . . . , σN ) ∈ R N×N mit σk ∈ {−1, 1}, so dass Folgendes gilt, Q2 = Q1 S,

R2 = SR1 .

B EWEIS . Nach Voraussetzung gilt Q−1 1 Q2

=

R1 R2−1

=:

S.

Es sind Produkte und Inverse von orthogonalen Matrizen wieder orthogonal, und entsprechendes gilt f¨ur obere Dreiecksmatrizen. Folglich ist S sowohl obere Dreiecksmatrix als auch orthogonal, ⎛ . . . . . . . . .. . . . . . . . ⎞ S

−1



= S ,

S

=

⎜ ⎝

............................................... ........................................... ...................................... .................................. ............................. ......................... .................... ................ ........... ....... ..

⎟ N ×N . ⎠ ∈ R

(13.25)

Damit kann S nur eine Diagonalmatrix sein, S = diag (σ1 , . . . , σN ) ∈ R N×N , und wieder wegen S −1 = S  erh¨alt man σk = 1/σk f¨ur k = 1, 2, . . . , N, woraus die Aussage des Lemmas folgt. Definition 13.22 F¨ur Matrizen Am = (a(jkm) ) und A = ( ajk ) ∈ R N×N schreibt man Am → A

f¨ur m → ∞

:⇐⇒

a(jkm) → ajk

f¨ur m → ∞

(j, k = 1, 2, . . . , N ).

Bekanntermaßen gilt Am → A f¨ur m → ∞ genau dann, wenn ||Am − A|| → 0 f¨ur m → ∞ f¨ur irgendeine Matrixnorm || · || : R N×N → R erf¨ullt ist. F¨ur die Konvergenzbetrachtungen des noch vorzustellenden QR Verfahrens wird das folgende Resultat u¨ ber die lokale Lipschitzstetigkeit der QR Faktorisierung ben¨otigt. Im Folgenden ist O( ∆m ) eine Kurzschreibweise f¨ur O(||∆m ||2 ).

Abschnitt 13.5

343

Das QR – Verfahren

Lemma 13.23 (Stetigkeit der QR Faktorisierung) F¨ur Orthogonalmatrizen Qm , Q ∈ R N×N und obere Dreiecksmatrizen Rm , R ∈ R N×N sei =: ∆m  

Qm Rm − QR → 0

f¨ur m → ∞

(13.26)

erf¨ullt, und die Matrix QR ∈ R N×N sei regul¨ar. Dann existieren Vorzeichenmatrizen Sm

=

( m) diag (σ1( m) , . . . , σN ) ∈ R N×N

mit σk( m) ∈ {−1, 1},

(13.27)

mit Qm Sm = Q + O( ∆m ),

Sm Rm = R + O( ∆m )

f¨ur m → ∞. (13.28)

B EWEIS . Es ist die Matrix R regul¨ar, da Q und QR regul¨are Matrizen sind, und somit k¨onnen wir m := Rm R−1 R betrachten. Als Erstes beobachtet man  R  R m m

=

I + O( ∆m )

f¨ur m → ∞,

(13.29)

was sich wie folgt ergibt,  R  R m m

=

−1 (R−1 )R m Rm R

(∗)

   (R)−1 (QR) + O( ∆m ) QR + O( ∆m ) R−1

= =

=

(R )−1 (Qm Rm )(Qm Rm )R−1

(R)−1 RRR−1 + O( ∆m )

  = I

f¨ur m → ∞,

wobei in (∗) noch zu beachten ist, dass ||B ||2 = ||B||2 gilt f¨ur beliebige Matrizen B ∈ R N×N . Im Folgenden wird mithilfe von (13.29) nachgewiesen, dass f¨ur gewisse Vorzeichenmatrizen Sm ∈ R N×N von der Form (13.27) Folgendes gilt, m Sm R

=

I + O( ∆m )

f¨ur m → ∞.

(13.30)

Aus (13.30) folgert man dann n¨amlich die Darstellung (13.28), Sm Rm Qm Sm

=

m R Sm R

(•)

=

( Qm Rm )( Sm Rm )−1

=

Q + O( ∆m )

=

R + O( ∆m ), (••)

=

(QR + O( ∆m ) )(R−1 + O( ∆m ) )

f¨ur m → ∞.

2 Hierbei ist in ( • ) zu beachten, dass nach Voraussetzung Sm = I gilt, und f¨ur hinreichend große m ist die Matrix Rm regul¨ar, was sich beispielsweise aus (13.26), der Regularit¨at von QR und der Eigenschaft ||Q−1 at ( •• ) ist eine Folgerung aus Korollar 4.50. m ||2 = 1 ergibt. Die Identit¨

344

Kapitel 13

Numerische Verfahren f¨ur Eigenwertprobleme

Im Folgenden wird nun die Konvergenzaussage (13.30) nachgewiesen. Inverse und Produkte m von oberen Dreiecksmatrizen bilden wieder obere Dreiecksmatrizen, somit ist insbesondere R eine obere Dreiecksmatrix. Man erh¨alt dann folgende Zerlegung, ⎞ ⎞ ⎛ ⎛ ( m) × ppp × r11 0 × ppp × ⎟ ⎟ ⎜ ⎜ ⎜ ⎜ pp p p p p pp ⎟ pp ⎟ ( m) pp ⎜ ⎜ p p p ⎟ r22 p p p ⎟ ( ) ( ) m m ⎟ . (13.31) m = ⎜ ⎟ =: diag ( r , . . . , r ) + ⎜ R 11 NN ⎟ ⎟ ⎜ ⎜ pp pp pp

  × ⎟ ⎜ ⎜ p p p × ⎟ ⎠ ⎝ ⎝ ⎠ =: Dm ( m) rN 0 p p p p p p 0 N

  =: Um Mit den Bezeichnungen aus (13.31) wird nun 2 = I + O( ∆m ), Dm

Um = O( ∆m )

f¨ur m → ∞

(13.32)

( m) ( m) ), . . . , sgn( r ) N nachgewiesen, woraus dann mit den Vorzeichenmatrizen Sm = diag (sgn( r11 N ) unmittelbar (13.30) folgt. Zum Nachweis von (13.32) beobachtet man als Erstes

m R

=

 )−1 + Bm (R m

 )−1 ( R  R  mit Bm := ( R m m m − I ).

Mit (13.29) folgt Bm = O( ∆m ), −1 , . . . nach −1 , R wobei noch zu beachten ist, dass (13.29) die Beschr¨anktheit der Matrixfolge R 0 1  −1 ||1/2 → 1 f¨ur m → ∞.  R −1 ||2 = ||( R sich zieht, || R m m m) 2  eine untere Dreiecksmatrix, und Inverse von unteren DreiZum Zweiten ist offensichtlich R m  )−1 eine untere Dreiecksmatrix ecksmatrizen sind wieder untere Dreiecksmatrizen, so dass ( R m ist. Daher stimmt notwendigerweise das strikte obere Dreieck von Bm mit dem strikten oberen Dreieck von Um u¨ berein. Insgesamt erh¨alt man damit folgende Darstellung, ⎞

⎛ Bm

=

⎜ ⎜ ⎝

......... ................ ........................ ................................ ........................................ . .. . . . . . . . . ................................................................ ............................................................ .................................................................... .....................................

⎟ ⎟ + Um ⎠

=

O( ∆m ).

Es ist nun klar, dass sich daraus die zweite Identit¨at in (13.32) ergibt, und abschließend wird die erste Identit¨at in (13.32) nachgewiesen, 2 Dm = D m Dm

=

  R R m m  

=I+O ( ∆m )

=

 − U  )( R m − Um ) (R m m

   Um − U  R − R m m m + Um Um = I + O ( ∆m )       =O ( ∆m )

=O ( ∆m )

f¨ur m → ∞.

O ( ∆m )

Damit ist (13.32) und somit auch (13.30) nachgewiesen, und man erh¨alt die Stetigkeitsaussage (13.28).

Abschnitt 13.5

345

Das QR – Verfahren

13.5.2 Definition des QR– Verfahrens Der folgende Algorithmus beschreibt in Form eines Pseudocodes das QR Verfahren zur approximativen Bestimmung der Eigenwerte einer Matrix A. Algorithmus 13.24 (QR Verfahren) Sei A ∈ R N×N eine beliebige regul¨are Matrix. A(1) := A; for m = 1, 2, . . .: bestimme Faktorisierung A(m) = Qm Rm mit Qm ∈ R N×N orthogonal und Rm ∈ R N×N von oberer Dreiecksgestalt; A(m+1) := Rm Qm ∈ R N×N ; end  Wie sich gleich herausstellen wird, approximieren die Diagonaleintr¨age von A(m) unter geeigneten Bedingungen f¨ur m → ∞ die Eigenwerte der Matrix A. Hierbei werden die folgenden Darstellungen f¨ur die Iterationsmatrizen A(m) und die Potenzen Am ben¨otigt. Lemma 13.25 Mit den Bezeichnungen aus Algorithmus 13.24 sowie der Notation Q1...m := Q1 Q2 · · · Qm ,

Rm...1 := Rm Rm−1 · · · R1 ,

(13.33)

gilt A(m+1) ......

Am

(m) = Q−1 Qm , m A

m = 1, 2, . . .,

= Q−1 1...m AQ1...m ,

......

,

= Q1...m Rm...1 ,

........

.

B EWEIS . Die erste Identit¨at ist unmittelbar einsichtig, und daraus resultiert dann die zweite Identit¨at, A(m+1)

=

(m) −1 (m−1) Q−1 Qm = Q−1 Qm−1 Qm m A m Qm−1 A

= ...

=

−1 Q−1 m · · · Q1 AQ1 · · · Qm .

Die dritte Identit¨at erh¨alt man mittels vollst¨andiger Induktion unter Verwendung des folgenden Arguments, Q1...m Rm...1 = Q1...m−1 Qm Rm Rm−1...1 (∗)

= AQ1...m−1 Rm−1...1

=

Q1...m−1 A(m) Rm−1...1

f¨ur m ≥ 1,

346

Kapitel 13

Numerische Verfahren f¨ur Eigenwertprobleme

wobei in (∗) die gerade bewiesene zweite Identit¨at eingeht. Damit ist Lemma 13.25 vollst¨andig bewiesen. Wie sich im Verlauf des Beweises f¨ur den folgenden zentralen Konvergenzsatz herausstellen wird, hat die QR Faktorisierung Am = Q1...m Rm...1 f¨ur die m-te Potenz der Matrix A insofern eine besondere Bedeutung, als dass sich die Matrix Rm...1 bis auf die Vorzeichenwahl als ein Prom dukt von drei Matrizen darstellen l¨asst, bei der die Diagonalmatrix diag (λm 1 , . . . , λN ) den domi−1 −1 nanten Faktor darstellt. Weiter zeigt sich schließlich, dass die Matrix A(m) = Q1...m−1 Am Rm−1...1 dann eine Normierung von Am darstellt, bei der sich auf der Diagonalen die Werte λ1 , . . . , λN herauskristallisieren.

13.5.3 Konvergenz des QR– Verfahrens fur ¨ betragsm¨aßig einfache Eigenwerte Unter gewissen Bedingungen konvergieren f¨ur m → ∞ die Diagonaleintr¨age von A(m) gegen die betragsm¨aßig fallend sortierten Eigenwerte von A, wobei die Konvergenzgeschwindigkeit von der betragsm¨aßig betrachteten Trennung der Eigenwerte abh¨angt: Theorem 13.26 Die Matrix A ∈ R N×N sei regul¨ar und diagonalisierbar mit betragsm¨aßig einfachen Eigenwerten λ1 , . . . , λN ∈ R, die o.B.d.A. betragsm¨aßig fallend angeordnet seien, |λ1 | > |λ2 | > . . . > |λN | > 0,

(13.34)

  und die Inverse der Matrix T = v1 |. . .| vN ∈ R N×N mit Eigenvektoren vk ∈ R N zu λk besitze ohne Zeilenvertauschung eine LR Faktorisierung.6 Dann gilt f¨ur das in Algorithmus 13.24 beschriebene QR Verfahren λ   k+1  A(m) = Sm USm + O( q m ) f¨ur m → ∞, mit q := max  , k=1..N −1 λk mit geeigneten Matrizen von der Form ⎛ ⎜ ⎜ ⎜ U = ⎜ ⎜  ⎜ ∈ {−1, 1} , ⎝

( m) Sm = diag (σ1( m) , . . . , σN ) ∈ R N×N ,



σk( m)

λ1

×

ppp

×

pp

pp

p

p pp

pp

p

×

p

⎞ ⎟ ⎟ ⎟ ⎟ ∈ R N×N . (13.35) ⎟ ⎟ ⎠

λN Insbesondere approximieren also die Diagonaleintr¨age von A(m) = (a(jkm) ) die betragsm¨aßig fallend sortierten Eigenwerte von A, max |a(kkm) − λk |

k=1..N

6

=

O( q m )

f¨ur m → ∞.

Eine detaillierte Formulierung finden Sie in (13.38) im Beweis. Eine Erl¨auterung dazu liefert die anschließende Bemerkung 13.27.

Abschnitt 13.5

347

Das QR – Verfahren

B EWEIS . F¨ur die Eigenvektormatrix T ∈ R N×N aus der Voraussetzung des Theorems betrachte man eine QR Faktorisierung, ⎛ . . . . . . . . . .. . . . . . . ⎞  T = QR,

Q ∈ RN

×

N

orthogonal,

 = ⎜ R ⎝

............................................... ........................................... ...................................... .................................. ............................. ......................... .................... ................ ........... ....... ..

⎟ N ×N . ⎠ ∈ R

(13.36)

Es wird nun Folgendes nachgewiesen, A(m)

 R −1 )Sm + O( q m ) Sm ( RD

=

f¨ur m → ∞

(13.37–a)

mit Matrizen Sm ∈ R N×N von der Form (13.27) und der Diagonalmatrix D := diag ( λ1 , . . . , λN ) ∈ R N×N .

(13.37–b)

 R −1 . F¨ur den Nachweis Die Aussage des Theorems erh¨alt man danach mit der Matrix U := RD von (13.37) ben¨otigt man die vorausgesetzte Faktorisierung der Form ⎞

⎛ 1

T

−1

= LR,

⎜ ⎜ × ⎜ L = ⎜ p ⎜ pp ⎝ ×

pp pp

⎟ ⎟ ⎟ × ⎟ ∈ RN N , ⎟ ⎠

p p

pp

ppp

×

p

⎛ . .. . . . . . . . . .. . . . . ⎞ ⎜ R = ⎝

............................................... ........................................... ...................................... .................................. ............................. ......................... .................... ................ ........... ....... ..

⎟ N ×N , ⎠ ∈ R

1

(13.38)

und beobachtet als Erstes, dass Lm := D m LD −m = I + O( q m )

f¨ur m → ∞

(13.39)

gilt, denn mit der Notation L = ( Ljk ) gilt Lm = ( ( λj /λk )m Ljk ), und dann folgt (13.39) aus der Ungleichung |λj /λk | ≤ q f¨ur j ≥ k + 1. Im Weiteren wird eine QR Faktorisierung von  m ∈ R N×N ben¨otigt, RL ⎛ . . . . .. . . . . . . . . .. . ⎞  m =: Q m , m R RL

m ∈ R Q

N ×N

orthogonal,

m R

=

⎜ ⎝

............................................... ........................................... ...................................... .................................. ............................. ......................... .................... ................ ........... ....... ..

⎟ N ×N . ⎠ ∈ R

m R m = R  + O(q m ) = I R  + O(q m ) f¨ur m → ∞, Man erh¨alt aus (13.39) die Konvergenz Q und Lemma 13.23 u¨ ber die Stetigkeit der QR Faktorisierung liefert dann mit einer entsprechenm m beziehungsweise den Zeilen der Matrix R den Vorzeichenwahl in den Spalten der Matrix Q Folgendes, m = I + O( q m ), Q

m = R  + O( q m ) R

f¨ur m → ∞.

Diese Konvergenzaussage ist der erste Schritt beim Nachweis von (13.37).

(13.40)

348

Kapitel 13

Numerische Verfahren f¨ur Eigenwertprobleme

Im zweiten Schritt ergeben sich f¨ur die Potenzen Am , m ≥ 1, die beiden folgenden QR Faktorisierungen, (∗)

Am = T Dm T −1

=

 m LR QRD

m D m R , (13.41)  m D m R = QQ m R Q RL      

(13.39)

=

bm R bm Q

Am = Q1...m Rm...1 ,

orthog.

Dreieck

(13.42)

wobei in der ersten Identit¨at von (13.41) die Faktorisierung A = T DT −1 eingeht, und die Identit¨at (∗) resultiert aus (13.36) und (13.38). Die Identit¨at (13.42) erh¨alt man aus Lemma 13.25. Die Eindeutigkeit der QR Faktorisierung (vergleiche Lemma 13.21) liefert dann m Sm+1 , Q1...m = QQ m D m R, Rm...1 = Sm+1 R

mit

Sm+1

=

( m+1 ) diag (σ1(m+1) , . . . , σN ) ∈ R N×N ,  ( m+1)  σk ∈ {−1, 1} geeignet .

Daraus erh¨alt man = I

Qm =

Q−1 1...m−1 Q1...m

=

Rm =

−1 Rm...1 Rm−1...1

=

  −1 Q−1 Q Q m Sm+1 , Sm Q m−1 m D m RR−1 (D −1 )m−1 R −1 Sm , Sm+1 R m−1

  = D

und daraus wiederum A(m)

=

Qm Rm

=

2 −1 −1 Q m Sm+1 m+1 D R m R Sm Q Sm , m−1         →I

→I

=I

b →R

b−1 →R

wobei die angegebenen Konvergenzeigenschaften mit der Rate O( q m ) gelten, wie man der Darstellung (13.40) entnimmt. Daraus erh¨alt man schließlich die Identit¨at (13.37), Sm A(m) Sm =  R −1 + O( q m ) f¨ur m → ∞. Dies komplettiert den Beweis des Theorems. RD Bemerkung 13.27 (a) Die Bedingung der Existenz einer LR Faktorisierung f¨ur die Inverse der in Theorem 13.26 beschriebenen Eigenvektormatrix T ist a¨ quivalent zu der Eigenschaft span {e1 , . . . , en } ∩ span {vn+1 , . . . , vN } = {0}

f¨ur n = 1, 2, . . . , N − 1,

siehe Aufgabe 13.2. Hier bezeichnet ek ∈ R N den k ten Einheitsvektor. Wegen der fehlenden Kenntnis der Eigenvektoren v1 , . . . , vN ist diese Bedingung praktisch nicht nachpr¨ufbar. (b) Im Falle komplexer Eigenwerte, σ ( A ) ⊂ R, ist die Bedingung (13.34) des Satzes nicht erf¨ullt und auch die Aussage des zugeh¨origen Theorems verliert ihre G¨ultigkeit. Einzelheiten u¨ ber die erforderlichen Modifikationen finden Sie beispielsweise in Oevel [75] und in Stoer/ Bulirsch [96]. (c) Bei vollbesetzten Matrizen erfordert jeder Schritt des QR Verfahrens wegen der notwendigen Berechnung einer QR Faktorisierung cN 3 + O( N 2 ) arithmetische Operationen. Daher ist ¨ es zweckm¨aßiger, zun¨achst eine Ahnlichkeitstransformation auf Hessenberggestalt gem¨aß Abschnitt 13.2 durchzuf¨uhren und die entstehende Matrix mit dem QR Verfahren zu bearbeiten. Weitere Einzelheiten hierzu werden im folgenden Abschnitt 13.5.4 vorgestellt.

349

Das QR – Verfahren

Abschnitt 13.5

(d) Eine alternative Pr¨asentation des QR Verfahrens findet man in Kress [60] (siehe auch Watkins [105]). 

13.5.4 Praktische Durchfuhrung ¨ des QR– Verfahrens fur ¨ Hessenbergmatrizen Ausgehend von dem letzten Aspekt der Bemerkung 13.27 wird im Folgenden f¨ur den Spezialfall einer Hessenbergmatrix A ∈ R N×N eine effiziente Vorgehensweise zur Berechnung der Iterierten7 A(2) , A(3) , . . . des QR Verfahrens beschrieben. Prinzipielles Vorgehen bei der Durchfuhrung ¨ des Schritts A(m) → A(m+1) Zur Durchf¨uhrung des Schritts A(m) → A(m+1) hat man nach Definition zun¨achst eine QR Faktorisierung A(m) = Qm Rm f¨ur die Hessenbergmatrix A(m) = (a(jkm) ) zu bestimmen, was sukzessive in der folgenden Form geschieht, A(m)

= A(m,1)



A(m,k+1)

 = Smk A(m,k) ,

A(m,2)





...

A(m,N ) =: Rm ,

k = 1, 2, . . . , N − 1,

 (13.43)

mit dem Ziel der schrittweisen Elimination der unteren Nebendiagonaleintr¨age, ⎛

(m,k)

A

=

( m,k ) ⎜ a11 ⎜ ⎜ ⎜ 0 ⎜ ⎜ p ⎜ pp ⎜ ⎜ ⎜ p ⎜ pp ⎜ ⎜ ⎜ ⎜ pp ⎜ p ⎜ ⎜ p ⎜ pp ⎜ ⎜ ⎜ p ⎜ pp ⎜ ⎝ 0

ppp pp pp

ppp

ppp

ppp

ppp

ppp

ppp

ppp

ppp

ppp

ppp

ppp

ppp

ppp

ppp

p ( m,k )

p ak−1,k−1

(

)

0

akkm,k

0

m) m) a(k+1,k a(k+1,k+1

0

m) m) a(k+2,k+1 a(k+2,k+2

pp ppp

ppp

ppp

p

pp

ppp

0

p

pp

p

m) a(N,N −1

⎞ m,k ) a(1N ⎟ ⎟ pp ⎟ ⎟ p ⎟ ⎟ ( m,k ) ⎟ ak−1,N ⎟ ⎟ ⎟ ( m,k ) ⎟ akN ⎟←− Zeile k ⎟ (13.44) ⎟ ⎟ ( m) ak+1,N ⎟←− Zeile k + 1 ⎟ ⎟ ( m) ak+2,N ⎟ ⎟ ⎟ ⎟ pp ⎟ p ⎟ ⎠ ( m) aN N

↑ Spalte k wobei die verwendete Notation f¨ur die Eintr¨age der Matrix A(m,k) dadurch gerechtfertigt ist, dass die Matrizen A(m,k) und A(m) in den Zeilen k + 1, k + 2, . . . , N u¨ bereinstimmen. Das 7

¨ die allesamt von Hessenbergform sind, siehe Ubungsaufgabe 13.3

350

Kapitel 13

Numerische Verfahren f¨ur Eigenwertprobleme

angesprochene Ziel wird erreicht, wenn man im Zuge der Transformation (13.43) spezielle Givensrotationen Smk ∈ R N×N von der Form ⎛

Smk

⎜ ⎜ ⎜ ⎜ ⎜ ⎜ = ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

1

⎞ pp

⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ←− Zeile k ⎟ ⎟ ←− Zeile k + 1 ⎟ ⎟ ⎟ ⎟ ⎠

p

1 c −s s c 1

pp

p

1 ↑ Spalte k verwendet mit den folgenden Setzungen f¨ur die Zahlen c, s ∈ R, ca + sb −sa + cb

=

1 √ a2 + b 2

a a2 + b 2 b s = √ 2 2 a +b

c = √ bzw.

= 0

(

mit

)

a := akkm,k , m) , b := a(k+1,k

wobei noch b = 0 angenommen wird. Gilt andernfalls b = 0, so ist keine Transformation erforderlich und man kann c = 1, s = 0 setzen. In jedem Fall gilt c2 + s2 = 1 und Smk ist somit eine Orthogonalmatrix.  A(m,k) Bei diesen Notationen a¨ ndert sich bei einer Transformation von der Form A(m,k) → Smk p p p p p p × ( ) 2 N −k+1 lediglich die in (13.44) gekennzeichnete Teilmatrix ∗∗ p p p p p p ∗∗ ∈ R zu

(

c s −s c

) ∗ ∗

ppp ppp ppp ppp

∗ ∗

=



0

ppp ppp ∗ ppp

∗ ∗

∈ R 2×(N −k+1) .

Nach der Gewinnung einer QR Faktorisierung A(m) = Qm Rm f¨ur die Hessenbergmatrix A(m) besteht der zweite Teil bei der Durchf¨uhrung des Schritts A(m) → A(m+1) des QR Verfahrens in der Berechnung des Matrixprodukts A(m+1) = Rm Qm mit Qm := Sm1 Sm2 · · · Sm,N −1 . Die Durchfuhrung ¨ des Schritts A(m) → A(m+1) in der Praxis Zur Speicherplatzersparnis f¨uhrt man in der Praxis die beiden genannten Teile des Schritts A(m) → A(m+1) simultan in der folgenden Form durch, A(m) = B (m,1)



B (m,2)

 B (m,k) Smk , B (m,k+1) = Smk

wobei im Detail so vorgegangen wird:



...



B (m,N ) =: A(m+1) ,

k = 1, 2, . . . , N − 1,

 (13.45)

Abschnitt 13.5

351

Das QR – Verfahren

Algorithmus 13.28 (QR Verfahren f¨ur Hessenbergmatrizen) Man berechnet

B (m,k)

(k,1)



 Smk B (m,k)

(k,2)



 Smk B (m,k) Smk =: B (m,k+1) , k = 1, . . . , N − 1, (13.46)

 B (m,k) die Eintr¨age mit den Indizes k + 1, k + 1 wobei nach dem Schritt ( k, 1 ) in der Matrix Smk ( m,k+1 ) m) u¨ bereinstimmen beziehungsweise k +2, k +1 mit den Werten ak+1,k+1 beziehungsweise a(k+2,k+1  und diese f¨ur die Berechnung der Givensrotation Sm,k+1 zwischenzuspeichern sind.

Die in dem Algorithmus 13.28 gew¨ahlte Reihenfolge bei der Durchf¨uhrung der Matrizenmultiplikationen f¨uhrt aufgrund der Assoziativit¨at des Matrixprodukts dennoch tats¨achlich auf die Matrix    (m) B (m,N ) = Sm,N Sm1 Sm2 · · · Sm,N −1 −1 Sm,N −2 · · · Sm1 A

=

A(m+1) .

m,k+1) m) beziehungsweise a(k+2,k+1 Mit dem folgenden Lemma wird klar, dass sich die Werte a(k+1,k+1 nach dem Schritt ( k, 1 ) tats¨achlich an den genannten Positionen stehen. (Bei dem darauf folgenden Schritt ( k, 2 ) aus (13.46) werden diese u¨ berschrieben.)

 B (m,k) ist von Lemma 13.29 Die in (13.46) nach dem Schritt ( k, 1 ) entstehende Matrix Smk Hessenbergform. Deren Eintr¨age stimmen in den Spalten k + 1, k + 2, . . . , N mit denen der Matrix A(m,k+1) aus (13.43) u¨ berein,

⎛ ∗

 Smk B (m,k)

=

⎜ ⎜∗ ⎜ ⎜ ⎜0 ⎜ ⎜ pp ⎜p ⎜ ⎜p ⎜ pp ⎜ ⎜p ⎜ pp ⎝ 0

ppp



pp

p

ppp

pp

p



ppp pp p

pp

p



m,k+1 ak+1,k+1

pp

m,k+1) a(1,k+1

(

ppp

)

( m)

ppp

m,k+1) a(1N

ppp pp p

(

m,k+1 ak+1,N ( m)

p ak+2,k+1 ak+2,k+2 pp pp p p

ppp ppp

ppp

0

pp

m) a(k+2,N

p

m) a(N,N −1

pp p

)

⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟. ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠

a(NmN)

    Sm,k−1 · · · Sm1 A(m) = A(m,k+1) und somit auch Smk B (m,k) = B EWEIS . Es gilt offensichtlich Smk (m,k+1) A Sm,1 · · · Sm,k−1 . Im Folgenden wird mittels vollst¨andiger Induktion u¨ ber = 1, 2, . . . ,

352

Kapitel 13

Numerische Verfahren f¨ur Eigenwertprobleme

k die Darstellung

A(m,k+1) Sm1 · · · Sm,−1 ⎛ ∗

=

⎜ ⎜∗ ⎜ ⎜ ⎜0 ⎜ ⎜ pp ⎜p ⎜p ⎜ pp ⎜ ⎜ pp ⎜p ⎜p ⎜ pp ⎜ ⎜ pp ⎜p ⎜p ⎜ pp ⎜ ⎜p ⎜ pp ⎜ ⎜ ⎜ pp ⎜p ⎝ 0

ppp pp pp pp





pp p pp p

p p pp p p



pp p pp p pp p pp p



p

pp p pp p pp p

ppp

ppp

m,k+1) a(1,k+1



ppp

pp pp p p pp pp p p pp pp ∗ p p pp pp p 0 ∗ p p p pp p p p 0 ∗ p p pp p p p p p p pp p p p p p pp pp pp p p p ∗ ( m,k+1 ) pp p 0 ak+1,k+1



pp



pp

( m)

pp ppp ppp ppp ppp ppp ppp ppp

↑ Spalte

( m)

p ak+2,k+1 ak+2,k+2 p

pp

ppp

0

pp

p

p

m) a(N,N −1

⎞ m,k+1) a(1,N ⎟ pp ⎟ p ⎟ ⎟ pp ⎟ p ⎟ pp ⎟ p ⎟←− Zeile ⎟ pp ⎟←− Zeile + 1 p ⎟ ⎟ ppp ⎟ ⎟ pp (13.47) ⎟ p ⎟ ⎟ pp ⎟ p ⎟ ( m,k+1 ) ⎟ ak+1,N ⎟←− Zeile k + 1 ⎟ m) ⎟ a(k+2,N ⎟ ⎟ ⎟ ppp ⎟ ⎠ a(NmN)

↑ Spalte k + 1

nachgewiesen, so dass die Eintr¨age in den Spalten k + 1, k + 2, . . . , N mit denen der Matrix A(m,k+1) u¨ bereinstimmen. Die Aussage des Lemmas folgt dann aus (13.47) mit = k. Die Identit¨at (13.47) ist offensichtlich richtig f¨ur = 1. Ausgehend von der Darstellung (13.47) mit einem ≤ k − 1 bedeutet die Multiplikation (A(m,k+1) Sm,1 · · · Sm,−1 )Sm, eine Transformation der in (13.47) gekennzeichneten Teilmatrix, ∗ ∗

pp pp p p p ∗ pp

0



∗ ∗



pp pp p p p ∗ pp

0

(

c −s

∗ ∗

)

s c



=

pp p ppp

pp p ppp

∈ R (+1)×2 ,

∗ ∗

so dass auch der Induktionsschritt abgeschlossen ist.

Bemerkung 13.30 Mit dem Beweis wird auch deutlich, dass f¨ur k = 1, 2, . . . , N − 1 nach dem  ersten Teilschritt ( k, 1 ) aus (13.46) die entstehende Matrix Smk B (m,k) von Hessenberggestalt ist.

Abschnitt 13.5

353

Das QR – Verfahren

F¨ur die Matrizen B (m,2) , . . . , B (m,N −1) gelten die folgenden Darstellungen, ⎛ ⎞ ∗

B

(m,k)

=

⎜ ⎜∗ ⎜ ⎜ ⎜0 ⎜p ⎜ pp ⎜ ⎜ pp ⎜p ⎜ ⎜ pp ⎜p ⎜p ⎜ pp ⎜ ⎜ pp ⎝p

ppp ppp ppp ppp ppp ppp ppp pp

p

pp pp p p pp pp p p

0

pp pp ∗

p p

pp

p

pp pp p p 0 ppp pp p



pp p pp p pp p pp p pp p p pp p pp p p p p pp p p p

0 ppp ppp ppp ppp ppp 0



⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ←− Zeile k ⎟ ⎟ ←− Zeile k + 1 ⎟ ⎟ ⎟ ⎟ ⎟ ⎠

(k = 2, 3, . . . , N − 1),



↑ ↑ Spalte k Spalte k + 1 so dass die Matrizen B (m,2) , . . . , B (m,N −1) jeweils an der Position ( k+1, k−1 ) von einer Hessenpp pp pp ¨ berggestalt abweichen. Beim Ubergang B (m,k) → B (m,k+1) wird zun¨achst der durch ∗∗ p p p p p p ∗∗ ∈ R 2×(N −k+2) gekennzeichnete Block durch die Transformation  c s  ∗ p p pp p p∗ 2×( N −k+2) ∗ p p pp p p∗ → ∗ p p pp p p∗ −s c ∗ p p p p p p ∗ ∈ R

(13.48)

 u¨ berschrieben, und in der daraus entstehenden Matrix Smk B (m,k) wird anschließend mit der ( k+2 )×2 gekennzeichneten Teilmatrix ∈ R die Transformation ∗p ∗p

ppp pp

ppp pp



∗ ∗

∗p ∗p

ppp pp

  ppp c −s pp s c

(13.49)

∗ ∗



durchgef¨uhrt.

Mit der vorangegangenen Bemerkung l¨asst sich leicht der bei der Durchf¨uhrung des Schritts A(m) → A(m+1) anfallende Gesamtaufwand ermitteln. Theorem 13.31 F¨ur Hessenbergmatrizen A l¨asst sich das Schema (13.45) zur Durchf¨uhrung des Schritts A(m) → A(m+1) des QR Verfahrens mit   1  6N 2 1 + O N

arithmetischen Operationen realisieren. B EWEIS . Eine Transformation der Form (13.48) erfordert ( N − k + 2 ) × 2 × 2 = 4( N − k + 2 ) Multiplikationen und 2( N − k + 2 ) Additionen, insgesamt fallen dabei also 6( N − k + 2 ) arithmetische Operationen an. Entsprechend erfordert eine Transformation der Form (13.49) 6( k + 2 ) arithmetische Operationen, und der Schritt k aus (13.46) – bestehend aus den beiden Transformationen (13.48)–(13.49) – ben¨otigt also 6( N + 2 ) arithmetische Operationen. F¨ur die N − 1 Schritte aus (13.46) sind demnach 6N 2 (1 + O( 1/N ) ) arithmetische Operationen durchzuf¨uhren. Die Berechnung der Givensrotationen erfordert nochmals die dagegen nicht weiter ins Gewicht fallende Berechnung von N Quadratwurzeln und 2N Quotienten.

354

Kapitel 13

Numerische Verfahren f¨ur Eigenwertprobleme

13.6 Das LR–Verfahren Alternativ zum QR Verfahren kann man auch folgendermaßen vorgehen: Algorithmus 13.32 (LR Verfahren) Sei A ∈ R N×N eine regul¨are Matrix. A(1) := A; for m = 1, 2, . . .: bestimme Faktorisierung A(m) = Lm Rm mit Lm bzw. Rm ∈ R N×N von unterer bzw. oberer Dreiecksgestalt; A(m+1) := Rm Lm ∈ R N×N ; end  F¨ur das LR Verfahren lassen sich dem QR Verfahren vergleichbare Resultate erzielen. Einzelheiten finden Sie beispielsweise in Stoer/Bulirsch [96].

13.7 Die Vektoriteration 13.7.1 Definition und Eigenschaften der Vektoriteration Definition 13.33 F¨ur eine gegebene Matrix B ∈ R N×N lautet die Vektoriteration folgendermaßen: z (m+1) = Bz (m) ,

m = 0, 1, . . .

(z (0) ∈ R N ).

(13.50)

Die Vektoriteration erm¨oglicht unter g¨unstigen Umst¨anden die Bestimmung des betragsm¨aßig gr¨oßten Eigenwerts der Matrix B. Das nachfolgende Theorem liefert hierzu ein Konvergenzresultat f¨ur diagonalisierbare Matrizen B ∈ R N×N mit Eigenwerten λ1 , λ2 , . . . , λN ∈ C. Hierzu sei noch folgende Sprechweise eingef¨uhrt: f¨ur einen Index 1 ≤ k∗ ≤ N besitzt ein gegebener N Vektor x ∈ CN einen Anteil in N ( B −λk∗ I ), falls in der eindeutigen Zerlegung8 x = k=1 xk ( ) mit xk ∈ N B − λk I der Vektor xk∗ nicht verschwindet, xk∗ = 0. Theorem 13.34 F¨ur die diagonalisierbare Matrix B ∈ R N×N mit Eigenwerten λ1 , . . . , λN ∈ C gelte λ1 = λ2 = . . . = λr , |λr | > |λr+1 | ≥ . . . ≥ |λN | mit r ≤ N − 1.9 Falls der Startvektor z (0) ∈ R N einen Anteil in N ( B − λ1 I ) besitzt, gilt f¨ur die Vektoriteration (13.50) λ  ||z (m+1) ||  r+1  m = |λ | + O(q ) f¨ u r m → ∞, mit q :=  < 1,  1 ||z (m) || λ1 8 9

( ) bekanntlich gilt in der vorliegenden Situation R N = ⊕N k=1 N B − λk I Im Fall r = N liegt die triviale Situation B = λ1 I vor.

Abschnitt 13.7

355

Die Vektoriteration

mit einer beliebigen Vektornorm || · || : CN → R. B EWEIS . Es gibt eine Darstellung der Form z (0) = x1 + und dann gilt allgemein z (m) = λm 1 x1 +

N 

N

k=r+1 xk

  N   λk m m x1 + λm xk , k xk = λ1

k=r+1

k=r+1

mit xk ∈ N ( B − λk I ),

m = 0, 1, . . . . (13.51)

λ1

Daraus erh¨alt man nacheinander (m) λ−m = x1 + 1 z

N   λk m k=r+1

λ1

xk

|λ1 |−m ||z (m) || = ||x1 || + O(q m ) |λ1 |−1

(m+1)

|| z || || z (m) ||

=

O( q m+1 )

|| x1 || + || x1 || + O( q m )

=

x1 + O( q m )

f¨ur m → ∞,

f¨ur m → ∞, (∗)

=

1 + O( q m )

f¨ur m → ∞,

(13.52)

wobei die Identit¨at (∗) wegen x1 = 0 gilt. Die Identit¨at (13.52) liefert dann unmittelbar die Aussage des Theorems. Bemerkung 13.35 In Theorem 13.34 stellt die Bedingung “z (0) ∈ R N besitzt einen Anteil in N ( B − λ1 I )“ keine wesentliche Einschr¨ankung dar. Selbst falls z (0) doch keinen Anteil in N ( B − λ1 I ) besitzt, so wird sich im Verlauf der Iteration aufgrund von Rundungsfehlern die in dem Beweis von Theorem 13.34 ben¨otigte Eigenschaft einstellen, dass die Vektoren z (m) Anteile in N ( B − λ1 I ) besitzen.  Das folgende Theorem liefert eine Folge reeller Zahlen, die im Falle symmetrischer Matrizen gegen den betragsm¨aßig gr¨oßten Eigenwert konvergiert (und nicht gegen den Betrag davon). Theorem 13.36 Die Matrix B ∈ R N×N sei symmetrisch, und f¨ur ihre Eigenwerte λ1 , . . . , λN ∈ R sei λ1 = λ2 = . . . = λr , |λr | > |λr+1 | ≥ . . . ≥ |λN | mit r ≤ N − 1 erf¨ullt10 . Falls der Startvektor z (0) ∈ R N einen Anteil in N ( B − λ1 I ) besitzt, so konvergiert die zur Vektoriteration geh¨orende Folge der Rayleigh-Quotienten rm

=

(z ( m) )z ( m+1) , ||z ( m) ||22

m = 1, 2, . . .

gegen den Eigenwert λ1 , rm

=

λ1 + O(q 2m )

f¨ur m → ∞,

λ   r+1  mit q :=   < 1. λ1

B EWEIS . Wie im Beweis von Theorem 13.34 erh¨alt man (vergleiche (13.51)) z (m)

=

N    λk m  x λm + xk , 1 1 k=r+1

10

der Fall r = N ist trivial, B = λ1 I

λ1

m = 0, 1, . . .,

356

Kapitel 13

Numerische Verfahren f¨ur Eigenwertprobleme

wobei hier o.B.d.A. angenommen werden darf, dass die Eigenvektoren x1 , xr+1 , xr+2 , . . . , xN ∈ R N paarweise orthogonal sind. Daraus erh¨alt man  (z (m) )z (m+1) = λ2m+1 ||x1 ||22 + 1

N   λk 2m+1 k=r+1

 ||x1 ||22 + ||z (m) ||22 = λ2m 1

λ1

N   λk 2m k=r+1

λ1

 ||xk ||22 ,

 ||xk ||22 ,

und Quotientenbildung ergibt

rm = λ 1

||x1 ||22 +



N

||x1 ||22 +

k=r+1

N

k=r+1

= λ1 + O(q 2m )

λk λ1

2m+1

( λλ ) k 1

2m

||xk ||22,

||xk ||22

=

λ1

||x1 ||22 + O(q 2m+1 ) ||x1 ||22 + O(q 2m )

f¨ur m → ∞,

was die Aussage des Theorems liefert.

13.7.2 Spezielle Vektoriterationen Im Folgenden werden zwei spezielle Vektoriterationen vorgestellt. Definition 13.37 F¨ur eine gegebene Matrix A ∈ R N×N ist die von Mises Iteration folgendermaßen definiert, z (m+1) = Az (m) ,

m = 0, 1, . . .

(z (0) ∈ R N ).

Die von Mises Iteration erh¨alt man mit der speziellen Wahl B = A aus der Vektoriteration (13.50), und die Eigenschaften der von Mises-Iteration entnimmt man daher unmittelbar Abschnitt 13.7.1. Definition 13.38 F¨ur eine gegebene Matrix A ∈ R N×N und eine Zahl µ ∈ R\σ ( A ) ist die inverse Iteration von Wielandt folgendermaßen erkl¨art, ( A − µI )z (m+1)

= z (m) ,

m = 0, 1, . . .

(z (0) ∈ R N ).

Bemerkung 13.39 Die inverse Iteration von Wielandt erh¨alt man mit der speziellen Wahl B =

( A − µI )−1 aus der Vektoriteration (13.50). Abschnitt 13.7.1 liefert daher f¨ur eine symmetrische

Matrix A ∈ R N×N mit Eigenwerten λ1 , . . . , λN ∈ R unmittelbar das Folgende: Ist k∗ ein Index, f¨ur den f¨ur k = 1, 2, . . . , N entweder

λk = λ k ∗

oder |λk∗ − µ| < |λk − µ|

357

Weitere Themen und Literaturhinweise

erf¨ullt ist, so gilt f¨ur die dazugeh¨orende Folge der Rayleigh-Quotienten rm → ( λk∗ − µ )−1 beziehungsweise −1 rm + µ



λk ∗

f¨ur m → ∞. 

Weitere Themen und Literaturhinweise Die in diesem Kapitel vorgestellten und andere Algorithmen zur numerischen Bestimmung der Eigenwerte von Matrizen finden Sie beispielsweise in den in Kapitel 12 genannten Lehrb¨uchern und in Bunse/Bunse-Gerstner [10] und Trefethen/Bau [100]. Verfahren zur numerischen Berechnung der Singul¨arwertzerlegung einer Matrix werden in [10], Deuflhard/Hohmann [21], Golub/Van Loan [32], Stoer/Bulirsch [96] und in Werner [107] vorgestellt.

¨ Ubungsaufgaben ¨ Aufgabe 13.1 Man weise nach, dass eine obere Hessenbergmatrix durch eine Ahnlichkeitstransformation mit einer Diagonalmatrix so umgeformt werden kann, dass die unteren Nebendiagonaleintr¨age nur die Werte 0 oder 1 annehmen. Aufgabe 13.2 Man zeige unter Verwendung von Aufgabe 4.8 auf Seite 93 Folgendes: f¨ur eine gegebene regul¨are Matrix T = (v1 | . . . |vN ) ∈ R N×N besitzt die Inverse T −1 genau dann eine LR Faktorisierung, wenn Folgendes gilt, span {e1 , . . . , en } ∩ span {vn+1 , . . . , vN } = {0}

f¨ur n = 1, 2, . . . , N − 1,

wobei ek ∈ R N den k ten Einheitsvektor bezeichnet. Aufgabe 13.3 Das QR Verfahren erh¨alt eine Hessenberg oder Tridiagonalform: ist die regul¨are Matrix A von Hessenberg beziehungsweise Tridiagonalform, so besitzen auch die zu dem QR Verfahren geh¨orenden Matrizen A(2) , A(3) , . . . eine Hessenberg beziehungsweise Tridiagonalform. Aufgabe 13.4 Es sei A ∈ R N×N eine symmetrische Matrix mit Eigenwerten λ1 = λ2 = . . . = λr , |λr | > |λr+1 | ≥ . . . ≥ |λN |. Mit der Vektorfolge z (m+1) = Az ( m) , m = 0, 1, . . ., werde die Folge der Rayleigh-Quotienten rm =

(z ( m) )z (m+1) , ||z ( m) ||22

m = 0, 1, . . .,

gebildet mit einem Startvektor z ( 0) , der einen Anteil im Eigenraum der Matrix A zum Eigenwert λ1 besitze. Man weise Folgendes nach: f¨ur einen Eigenvektor x zum Eigenwert λ1 gilt    z ( m)  λ m sgn( rm )m ( m) = x + O  r+1  f¨ur m → ∞. λ 1 ||z ||2

358

Kapitel 13

Numerische Verfahren f¨ur Eigenwertprobleme

Aufgabe 13.5 Es sei A ∈ R N×N eine diagonalisierbare Matrix mit Eigenwerten λ1 , λ2 , . . . , λN , f¨ur die λ2 = −λ1 < 0 und |λ2 | > |λ3 | ≥ . . . ≥ |λN | gelte. F¨ur die Vektoriteration z (m+1) = Az (m) , m = 0, 1, . . . weise man Folgendes nach (|| · || bezeichne irgendeine Vektornorm ): (a) Falls z (0) einen Anteil im Eigenraum der Matrix A zum Eigenwert λ1 besitzt, so gilt f¨ur einen Eigenvektor x1 zum Eigenwert λ1 Folgendes:  2m  λ1 z (2m) + z ( 2m+1)  λ3  = x f¨ur m → ∞. + O λ  1 1 ||λ1 z (2m) + z ( 2m+1) || (b) Falls z (0) einen Anteil im Eigenraum der Matrix A zum Eigenwert λ2 besitzt, so gilt f¨ur einen Eigenvektor x2 zum Eigenwert λ2 Folgendes:  2m  λ1 z ( 2m) − z ( 2m+1)  λ3  = x f¨ur m → ∞. + O λ  2 1 ||λ1 z ( 2m) − z ( 2m+1) || Aufgabe 13.6 Es sei λ1 eine einfache dominante Nullstelle des Polynoms p( x ) =

n 

mit an = 1.

ak xk

k=0

Zu vorgegebenen hinreichend allgemeinen Startwerten x1−n , x2−n , . . . , x0 ∈ R\{0} betrachte man die Folge xm+n = −

n−1 

ak xm+k ,

m = 1, 2, . . . .

k=0

Durch Anwendung der Vektoriteration auf die Transponierte der Frobeniusschen Begleitmatrix zu p( x ) weise man Folgendes nach,  m  xm+1  λ2  f¨ur m → ∞, = λ + O λ  1 x m

1

wobei λ2 ∈ C eine nach λ1 betragsm¨aßig gr¨oßte Nullstelle des Polynoms p sei. Aufgabe 13.7 (Numerische Aufgabe) F¨ur die Matrix A = ( ajk ) ∈ R N×N mit  N − j + 1, falls k ≤ j, ajk = N − k + 1, sonst, bestimme man f¨ur N = 50 und N = 100 mit dem LR-Algorithmus numerisch jeweils sowohl den betragsm¨aßig kleinsten als auch den betragsm¨aßig gr¨oßten Eigenwert. Sei Am = (a(jkm) ), m = 0, 1, . . ., die hierbei erzeugte Matrixfolge. Man breche das Verfahren ab, falls m = 100 oder εm :=

max

k=1,...,N

m−1 ) m) |a(kk − a(kk | m−1 ) |a(kk |



0.05

erf¨ullt ist. Man gebe außer den gewonnenen Approximationen f¨ur die gesuchten Eigenwerte auch die Werte ε1 , ε2 , . . . an.

359

14 Restglieddarstellung nach Peano 14.1 Einfuhrende ¨ Bemerkungen F¨ur ganz unterschiedliche Verfahren (zur L¨osung auch ganz unterschiedlicher Problemstellungen wie etwa Interpolation sowie numerische Integration und Differenziation) existiert ein eleganter und einheitlicher Zugang zur Herleitung von Fehlerdarstellungen. Dieser Zugang, der zudem Verallgemeinerungen schon bekannter Fehlerdarstellungen f¨ur Funktionen f mit geringeren Differenzierbarkeitseigenschaften erm¨oglicht, soll in dem vorliegenden Kapitel 14 in Grundz¨ugen vorgestellt werden. Im Folgenden wird das lineare Funktional R : C −1 [ a, b ] → R definiert durch Rf

n 

=

αk f ( xk ) + β

k=0

Z b a

f ∈ C −1 [ a, b ],

f ( x ) dx,

(14.1)

betrachtet. Dabei sind x0 , x1 , . . . , xn ∈ [ a, b ] paarweise verschiedene St¨utzstellen, und αk und β ∈ R sind gegebene Koeffizienten. Weiter bezeichnet C −1 [ a, b ] den Raum der st¨uckweise stetigen Funktionen auf [ a, b ]. Es sei angenommen, dass das Funktional R f¨ur ein r ≥ 0 auf dem Raum der Polynome vom H¨ochstgrad r verschwindet, Rp = 0

∀ p ∈ Πr .

Beispiel 14.1 Zu gegebenen St¨utzstellen x0 , x1 , . . . , xn ∈ [ a, b ] hat das Restglied bei der Polynominterpolation f¨ur einen ausgew¨ahlten Punkt x ∈ [ a, b ] die folgende Gestalt, Rf

=

n 

f ∈ C −1 [ a, b ],

f ( xk ) Lk ( x ) − f ( x ),

(14.2)

k=0

mit den Lagrangeschen Basispolynomen Lk ( x ) =

n

j=0 j=k

x − xj . Bekanntermaßen gilt hier xk − xj

R |Πn = 0, und f¨ur hinreichend glatte Funktionen f gilt die folgende Fehlerdarstellung1: Rf

ω ( x ) f (n+1) ( ξ ) , ( n + 1 )!

=

f ∈ C n+1 [ a, b ],

mit ω ( x ) := ( x − x0 ) · · · ( x − xn ).



Beispiel 14.2 F¨ur eine gegebene interpolatorische Quadraturformel und f¨ur hinreichend glatte Funktionen f hat das Restglied die folgende Gestalt, Rf

=

(b − a)

n  k=0

1

siehe (1.14)

σk f ( xk ) −

Z b a

f ( x ) dx,

f ∈ C −1 [ a, b ].

360

Kapitel 14

Restglieddarstellung nach Peano

Per Definition ist f¨ur Quadraturformeln ein Genauigkeitsgrad von mindestens r gleichbedeutend mit der Eigenschaft R |Πr = 0, und f¨ur Funktionen f ∈ C m+1 [ a, b ] mit n ≤ m ≤ r sind bereits Fehlerabsch¨atzungen bekannt2. Auch hier stellt sich die Frage nach Fehlerdarstellungen f¨ur weniger glatte Funktionen f . 

14.2 Peano–Kerne Im weiteren Verlauf werden die folgenden Notationen verwendet: (a)  ( x − t )m + :=

( x − t )m ,

x ≥ t, x < t,

0,

 f¨ur m ≥ 1,

( x − t )0+ :=

x ≥ t, x < t;

1, 0,

(b) f¨ur eine Funktion ψ : [ a, b ] × [ c, d ] → R mit der Eigenschaft ψ ( ·, t ) ∈ C −1 [ a, b ] f¨ur jedes t ∈ [ c, d ] bezeichnet R x (ψ ( x, t ) )

=

R(ψ ( ·, t ) ),

t ∈ [ c, d ].

Das Argument von R x ist also jeweils als Funktion von x aufzufassen. Definition 14.3 Gegeben sei ein Funktional R : C −1 [ a, b ] → R der Gestalt (14.1), welches auf dem Raum Πr verschwindet. Dann bezeichnet man die Funktionen 1

Km ( t ) := m! R x ( ( x − t )m + ),

t ∈ [ a, b ]

(m = 0, 1, . . . , r )

als Peano Kerne. Das folgende Theorem liefert die zentrale Aussage des vorliegenden Abschnitts. Der zugeh¨orige Beweis beruht auf einer Approximation der Funktion f durch Polynome vom Grad ≤ r, die mittels Taylorentwicklungen gewonnen werden. Theorem 14.4 Gegeben sei ein Funktional R : C −1 [ a, b ] → R der Gestalt (14.1), welches auf dem Raum Πr verschwindet. F¨ur jedes 0 ≤ m ≤ r gilt Rf =

Z b a

f (m+1) ( t )Km ( t ) dt,

f ∈ C m+1 [ a, b ].

Falls weiterhin R(xr+1 ) = 0 erf¨ullt ist und der Peano Kern Kr sein Vorzeichen nicht wechselt, so gilt die Darstellung Rf = κf (r+1) ( ξ ),

f ∈ C r+1 [ a, b ],

mit einer geeigneten Zwischenstelle ξ = ξ ( f ) ∈ [ a, b ] und der Konstanten κ = 2

siehe Theorem 6.13

(14.3) R( xr+1 ) . ( r + 1 )!

Abschnitt 14.2

361

Peano– Kerne

B EWEIS . Eine Taylorentwicklung der Funktion f in dem linken Randpunkt a mit Integraldarstellung des Restglieds liefert =: pm ( x ) ∈ Πm 



f (m) ( a ) ( x − a )m + rm ( x ), f ( x ) = f ( a ) + f ( a )( x − a ) + . . . + m! 

1

mit rm ( x ) := m!

Z x

1

f (m+1) ( t )( x − t )m dt = m!

a

Z b a

x ∈ [ a, b ],

f (m+1) ( t )( x − t )m + dt,

x ∈ [ a, b ].

Somit erschließt man =0

Rf

= R ( pm + rm ) (∗)

=

1 m!

Z b a

=

  Rpm + Rrm

=

f (m+1) ( t )R x ( ( x − t )m + ) dt =

Z b a

1 R m! x

Z

b

a

f (m+1) ( t )( x − t )m + dt



f ∈ C m+1 [ a, b ],

f (m+1) ( t )Km ( t ) dt,

wobei sich die Identit¨at (∗) wie folgt berechnet, @ b  Rx f (m+1) ( t )( x − t )m + dt a

=

n  k=0

=

Z b a

αk

Z b a

Z bZ b

f (m+1) ( t )( xk − t )m + dt + β

f (m+1) ( t )

 n

αk ( xk − t )m + + β

k=0

a Z b a

a

(x

f (m+1) ( t )( x − t )m + dt dx

 − t )m dx dt. +

 R x (( x − t )m +)



Damit ist der erste Teil der Aussage des Theorems bewiesen. Wechselt nun der Peano Kern Kr sein Vorzeichen nicht, so liefert eine Anwendung des Mittelwertsatzes der Integralrechnung Z b  Rf = Kr ( t ) dt f (r+1) ( ξ ), f ∈ C r+1 [ a, b ], (14.4) a

  =: κ mit einer geeigneten Zwischenstelle ξ = ξ ( f ) ∈ [ a, b ]. Eine Anwendung der Identit¨at (14.4) auf das Monom xr+1 liefert schließlich die behauptete Darstellung f¨ur die Konstante κ, R ( xr+1 )

=

κ ( r + 1 )!,

womit auch die Darstellung (14.3) bewiesen ist. Bemerkung 14.5 Auch f¨ur allgemeine Fehlerfunktionale der Form Rf =

n0  k=0

α0k f ( x0k ) +

n1  k=0

α1k f  ( x1k ) + . . . +

ns  k=0

αsk f (s) ( xsk ) + β

Z b a

f ( x ) dx

(14.5)

f¨ur f ∈ C m+1 [ a, b ] gelten f¨ur m = s, s + 1, . . . , r die Darstellungen aus Theorem 14.4 mit dem Peano Kern aus Definition 14.3 (noch allgemeiner d¨urften auch Terme mit gewichteten Integralen von Ableitungen der Funktion f auftreten). Man hat sich nur zu u¨ berlegen, dass die Identit¨at (∗) im Beweis von Theorem 14.4 auch in dieser allgemeinen Situation ihre G¨ultigkeit beh¨alt. 

362

Kapitel 14

Restglieddarstellung nach Peano

14.3 Anwendungen 14.3.1 Interpolation Theorem 14.6 Zu gegebenen St¨utzstellen x0 , x1 , . . . , xn ∈ [ a, b ] besitzt bei der Polynominterpolation das Restglied f¨ur eine ausgew¨ahlte Stelle x ∈ [ a, b ] die folgende Darstellung3 Rf

n Z x k 1  Lk ( x ) x f (m+1) ( t )( xk − t )m dt, m!

=

f ∈ C m+1 [ a, b ]

( 0 ≤ m ≤ n ),

k=0

n  x − xj

mit den Lagrangeschen Basispolynomen Lk ( x ) =

j=0 j=k

xk − xj

.

B EWEIS . Nach Definition gilt f¨ur den Peano Kern Km die folgende Darstellung, n

1  m ( xk − t )m Km ( t ) = + Lk ( x ) − ( x − t )+ , m!

und daher

k=0

 n  Z x 1  k Lk ( x ) a f (m+1) ( t )( xk − t )m dt − m! k=0

Rf =

1 m!

=

Z x a

f (m+1) ( t )

  n

n  1 

a

f (m+1) ( t )(x − t) dt

= 0 



Lk ( x )( xk − t )m − (x − t)m dt

k=0

+ m!

Z x

Lk ( x )

Z x k

k=0

x

 f (m+1) ( t )( xk − t )m dt ,

was in der behaupteten Darstellung resultiert.

14.3.2 Numerische Integration Beispiel 14.7 (Numerische Integration, Simpson Regel) Das Restglied der Simpson Regel zur numerischen Integration auf dem Intervall [ –1, 1 ] hat die folgende Gestalt, Rf

=

1 ( f –1 ) 3

+

4 ( ) f 0 3

+

1 ( ) f 1 3



Z 1 −1

f ∈ C −1 [ –1, 1 ],

f ( x ) dx,

und bekanntermaßen4 ist r = 3 der Genauigkeitsgrad der Simpson Regel. Daher gilt f¨ur t ≥ 0 (und m = 3) K3 ( t ) = =

3 4

1 R x( ( x 6



− t )3+ )

1 1 4 1 ( –1 − t )3+ + ( 0 − t )3+ + ( 1 − t )3+ − 6 3 3 3



=

1 1 4 1 ·0 − · 0 + ( 1 − t )3 − 6 3 3 3

=

1 1 1 ( 1 − t )3 − ( 1 − t )4 6 3 4



vergleiche (14.2) siehe Theorem 6.16



=

Z 1 t

Z 1 −1

( x − t )3 dx

( x − t )3+ dx





1 ( 1 − t )3 ( 1 + 3t ) ≥ 0 72

f¨ur t ∈ [ 0, 1 ].

363

Weitere Themen und Literaturhinweise

Weiter gilt nach Aufgabe 14.2 die folgende Identit¨at, K3 ( –t ) = K3 ( t ),

t ∈ [ 0, 1 ],

so dass der Peano Kern K3 auf dem Intervall [ –1, 1 ] von einem Vorzeichen ist, K3 ( t ) ≥ 0 f¨ur t ∈ [ –1, 1 ]. Also ist (14.3) anwendbar, und wegen R( x4 ) 4!

=

1 1 4 1 + ·0 + − 24 3 3 3

Z 1 −1

x4 dx



=

1 90

erh¨alt man so die schon bekannte Fehlerdarstellung 1 4 1 f ( –1 ) + f ( 0 ) + f ( 1 ) − 3 3 3

Z 1 −1

f ( t ) dt

f¨ur f ∈ C 4 [ –1, 1 ],

1 (4) f (ξ ) 90

=

ξ = ξ ( f ) ∈ [ –1, 1 ].



Weitere Themen und Literaturhinweise Weitergehende Betrachtungen zur Peanoschen Restglieddarstellung werden beispielsweise in H¨ammerlin/Hoffmann [45] und in Schaback/Wendland [88] angestellt.

¨ Ubungsaufgaben Aufgabe 14.1 Man zeige, dass f¨ur allgemeine Fehlerfunktionale der Form (14.5) die Darstellung aus Theorem 14.4 mit dem Peano Kern aus Definition 14.3 f¨ur Werte m = s, s + 1, . . . , r ihre G¨ultigkeit beh¨alt. Aufgabe 14.2 Gegeben sei ein Funktional R : C −1 [ a, b ] → R der Gestalt (14.1), welches auf dem Raum Πr verschwindet, und m sei eine ungerade Zahl mit 1 ≤ m ≤ r. Man zeige: falls Rf = R f mit

f¨ur f ∈ C m+1 [ a, b ] a+b  a+b  f + x := f −x , 2

2

x ∈





b−a b−a , 2 2

erf¨ullt ist, so ist der Peano Kern Km symmetrisch bez¨uglich des Intervallmittelpunkts, das heißt, Km

a+b 2

+ x



=

Km

a+b 2

 −x ,

x ∈



0,

b−a . 2

'1 Aufgabe 14.3 Im Folgenden betrachte man die Quadraturformel Qf := −1 P ( x ) dx zur n¨aherungs'1 weisen Berechnung des Integrals –1 f ( x ) dx, wobei f¨ur f ∈ C 1 [ –1, 1 ] das Polynom P ∈ Π5 die L¨osung der folgenden Hermiteschen Interpolationsaufgabe bezeichnet, P ( xj ) = f ( xj ), mit x0 = −1, x1 = 0 und x2 = 1.

P  ( xj ) = f  ( xj )

f¨ur j = 0, 1, 2,

364

Kapitel 14

Restglieddarstellung nach Peano

(a) Man zeige Qf =

7 1  16 7 1 f ( –1 ) + f ( –1 ) + f (0) + f ( 1 ) − f  ( 1 ). 15 15 15 15 15

(b) Zeige: die Quadraturformel Q besitzt den Genauigkeitsgrad 5. (c) Man berechne f¨ur n = 5 den Peano Kern K5 zu der Quadraturformel Q und zeige, dass dieser sein Vorzeichen nicht wechselt. (d) Man bestimme unter Verwendung von (c) eine Fehlerdarstellung f¨ur die betrachtete Quadraturformel.

365

15 Approximationstheorie 15.1 Einfuhrende ¨ Bemerkungen Eine wichtige Fragestellung der numerischen Mathematik ist es, bez¨uglich einer festgelegten Norm f¨ur eine gegebene Funktion eine Bestapproximation aus einer Menge von Funktionen zu bestimmen sowie den auftretenden Fehler abzusch¨atzen. Vergleichbare Fragestellungen treten auch f¨ur Vektoren anstelle von Funktionen auf. Beispiel 15.1 Die Frage der optimalen Wahl der St¨utzstellen bei der Polynominterpolation f¨uhrt auf das Minimaxproblem1 max | ( x − x0 ) . . . ( x − xn ) | → min

f¨ur x0 , x1 , . . . , xn ∈ [ a, b ].

x∈[ a, b ]

(15.1)

Die Gesamtheit aller Funktionen von der Form ( x − x0 ) . . . ( x − xn ) stimmt u¨ berein mit dem Raum der Polynome vom Grad n + 1 mit f¨uhrendem Koeffizienten eins, so dass das Minimierungsproblem (15.1) a¨ quivalent zu dem folgenden Approximationsproblem ist: ||xn+1 − p||∞

=

max |xn+1 − p( x ) |

x ∈ [ a, b ]



min

f¨ur p ∈ Πn .



Beispiel 15.2 Lineare Ausgleichsprobleme besitzen die Form2 ||Ax − b||2 → min

f¨ur x ∈ R N ,

mit gegebener Matrix A ∈ R M×N und gegebenem Vektor b ∈ R M . Diese k¨onnen ebenfalls als Approximationsprobleme aufgefasst werden, bei dem aus der Menge { Ax : x ∈ R N } eine Bestapproximation an den Vektor b (und anschließend ein Urbild unter A) zu bestimmen ist.  In dem vorliegenden Abschnitt wird in Grundz¨ugen eine allgemeine Theorie u¨ ber Bestapproximationen – im Folgenden kurz als Proxima bezeichnet – vorgestellt. Definition 15.3 F¨ur eine Teilmenge ∅ = M ⊂ V eines normierten Raums (V, || · ||) und ein gegebenes Element v ∈ V heißt u∗ ein M Proximum an v, falls u∗ ∈ M,

||u∗ − v ||

=

inf ||u − v || .

  =: Ev ( M )

u∈M



Die Zahl Ev ( M ) bezeichnet man als Minimalabstand des Elements v von der Teilmenge M. 1 2

Dieses Problem ist erstmalig in Abschnitt 1.6 behandelt worden unter gleichzeitiger Angabe einer L¨osung. siehe hierzu Abschnitt 4.8.5 f¨ur eine erstmalige Behandlung, wo zugleich L¨osungsvorschl¨age zu finden sind

366

Kapitel 15

Approximationstheorie

Bemerkung 15.4 (a) Nat¨urliche Fragestellungen in diesem Zusammenhang sind Existenz und Eindeutigkeit eines Proximums u∗ sowie die Angabe von Verfahren zur Bestimmung von u∗ und eventuell noch die Herleitung von Absch¨atzungen f¨ur den Minimalabstand. (b) Das in Definition 15.3 beschriebene Problem ist ein Optimierungsproblem von der Form f ( u ) → min

f¨ur u ∈ M ⊂ V,

(15.2)

mit dem speziellen Zielfunktional f ( u ) = ||u − v ||. Allgemeine Probleme von der Form (15.2) sind Gegenstand der nichtlinearen Optimierung, die ein weites Feld darstellt und hier nicht weiter verfolgt wird. Literaturhinweise zu diesem Thema finden Sie auf Seite 383. 

15.2 Existenz eines Proximums In dem vorliegenden Abschnitt soll – im Anschluss an die Vorstellung zweier Beispiele – in einem allgemeinen Kontext die Frage der Existenz eines Proximums behandelt werden. Beispiel 15.5 Man betrachte die folgende spezielle Situation:

1

×v

.................. .. ........... . . ........... ... .. ........ . . . ............. ... . . ...... .... . ..... . . . . . . ...... .... .... . . . . . . . .... .... .... . . . . . . ...... ... .... . . ..... . .. .... . . . . . . . ........ ... . . . . . . ..... .... . .... . .. .. . . . . . . .... . . .. ... . . . . . ..... . . ... ... . . . . .... ..... . . . ... . .. .... . . . . . . . . ..... .. . . . . . . . . . .. .. ... . . . . . . . . .... .... . . . . . . . .... ... . . . . . . . . ... . ... .... . . . . . . . ..... ..... . . . . . . .... ...... .. ........ . . . ............ .......... . . ........... ......................

× u∗

0 −1

−1

0

V = R2, ||v || = ||v ||2 = (v12 + v22 )1/2 , M = {x ∈ R 2 : ||x||2 ≤ 1}.

1

√ √ F¨ur den Vektor v = ( 2, 1 ) ist u∗ = (2/ 5, 1/ 5 ) ein M Proximum (das hier zudem eindeutig bestimmt ist) an den Vektor v.  Beispiel 15.6 Man betrachte nun die folgende Situation: V = C [ 0, 1 ],

||v || = ||v ||∞ =

max |v ( t ) |,

t ∈ [ 0, 1 ]

M = {eβt : β > 0}, und sei v ≡ 12 . Es ist ||eβt − v ||∞ = eβ − M Proximum an v existiert.

1 2

>

1 2

f¨ur β > 0, so dass Ev ( M ) =

1 2

gilt und kein 

Die folgende Definition und das nachfolgende Lemma dienen der Herleitung einer ersten Existenzaussage f¨ur Proxima.

Abschnitt 15.3

367

Eindeutigkeit eines Proximums

Definition 15.7 F¨ur eine Teilmenge ∅ = M ⊂ V eines normierten Raums (V, || · ||) und ein gegebenes Element v ∈ V heißt (uk )k∈N eine M Minimalfolge an v, wenn ( uk )k∈N ⊂ M,

||uk − v || → Ev ( M )

f¨ur k → ∞.

(15.3)

Lemma 15.8 F¨ur eine Teilmenge ∅ = M ⊂ V eines normierten Raums (V, || · ||) und ein gegebenes Element v ∈ V sei (uk )k∈N eine M Minimalfolge an v, die in M einen H¨aufungspunkt u∗ besitze, u∗ ∈ M,

||uk − u∗ || → 0

f¨ur N1  k → ∞

(N1 ⊂ N geeignet). (15.4)

Dann ist u∗ ein M Proximum an v. B EWEIS . Es gilt

→0 f¨ur N1 k→∞

||u∗ − v ||



  ||u∗ − uk || +

→Ev ( M ) f¨ur k→∞

  ||uk − v ||

und infolgedessen notwendigerweise ||u∗ − v || ≤ Ev ( M ). Als unmittelbare Konsequenz aus dem vorangegangenen Lemma erh¨alt man das folgende Resultat. Theorem 15.9 Ist ∅ = M ⊂ V eine kompakte Teilmenge des normierten Raums (V, || · ||), so existiert zu jedem Vektor v ∈ V ein M Proximum an v. Korollar 15.10 Ist U ⊂ V ein endlich dimensionaler linearer Unterraum des normierten Raums (V, || · ||), so existiert zu jedem Vektor v ∈ V ein U Proximum an v. B EWEIS . Die Menge M := {u ∈ U : ||u − v || ≤ Ev ( U ) + 1} ⊂ U ist offensichtlich nichtleer und kompakt, nach Theorem 15.9 existiert also ein M Proximum u∗ an v. Wegen ||u∗ − v || =

inf ||u − v ||

u∈M



sup ||u − v ||



u∈M

Ev ( U ) + 1



inf

u∈ U \M

||u − v ||

gilt dann notwendigerweise ||u∗ − v || = infu∈ U ||u − v || = Ev ( U ). Zusammenfassend kann man festhalten, dass sowohl in kompakten Teilmengen von normierten R¨aumen als auch in endlich dimensionalen linearen Unterr¨aumen von normierten R¨aumen die Existenz eines Proximums gew¨ahrleistet ist.

15.3 Eindeutigkeit eines Proximums In den beiden folgenden Unterabschnitten 15.3.1 und 15.3.2 werden in einem allgemeinen Rahmen jeweils ein hinreichendes Kriterium f¨ur die Eindeutigkeit eines Proximums hergeleitet.

368

Kapitel 15

Approximationstheorie

15.3.1 Einige Notationen; streng konvexe Mengen Definition 15.11 Sei (V, || · ||) ein normierter Raum. (a) F¨ur x ∈ V und r > 0 ist die abgeschlossene Kugel um x mit Radius r gegeben durch B( x; r )

=

{y ∈ V : ||y − x|| ≤ r }.

(b) F¨ur eine Teilmenge M ⊂ V bezeichnet M◦

=

{x ∈ M : es existiert ein ε > 0 mit B( x; ε ) ⊂ M}

den offenen Kern von M. Es heißt M offen, falls M◦ = M gilt. Schließlich heißt M abgeschlossen, falls V\M eine in V offene Menge ist. Beispiel 15.12 In einem normierten Raum (V, || · ||) ist B( x; r ) eine abgeschlossene Teilmenge und es gilt B( x; r )◦ = {y ∈ V : ||y − x|| < r }.  Definition 15.13 Eine Teilmenge M ⊂ V des normierten Raums (V, || · ||) heißt konvex, falls f¨ur je zwei Elemente x, y ∈ M auch die Verbindungsstrecke von x nach y zu M geh¨ort, das heißt, {x + λ( y − x ) :

0 ≤ λ ≤ 1}



M,

x, y ∈ M.

Es heißt M streng konvex, falls zu je zwei verschiedenen Punkten deren Verbindungsstrecke ohne die Endpunkte selbst zum offenen Kern von M geh¨ort, das heißt, {x + λ( y − x ) : 0 < λ < 1} ⊂ M◦ , x, y ∈ M, x = y. Offensichtlich ist eine streng konvexe Menge auch konvex. Lemma 15.14 Ist ∅ = M ⊂ V eine konvexe Teilmenge des normierten Raums (V, || · ||), so ist f¨ur jedes v ∈ V die Menge der M–Proxima an v konvex. B EWEIS . F¨ur zwei M–Proxima u1 und u2 an v sowie jede Zahl λ ∈ [ 0, 1 ] gilt || ( 1 − λ )u1 + λu2 − v || ≤ ( 1 − λ )||u1 − v || + λ||u2 − v || ≤ ( 1 − λ )Ev ( M ) + λEv ( M ) = Ev ( M ).

Die streng konvexen Mengen liefern die erste Klasse von Mengen, in denen Proxima eindeutig sind: Proposition 15.15 Ist ∅ = M ⊂ V eine streng konvexe Teilmenge des normierten Raums (V, || · ||), so existiert zu jedem Element v ∈ V h¨ochstens ein M Proximum an v.

Abschnitt 15.3

369

Eindeutigkeit eines Proximums

B EWEIS . Seien u∗1 und u∗2 M Proxima an v ∈ V\M (im Fall v ∈ M ist die Situation klar), und nach Lemma 15.14 ist dann auch 12 ( u∗1 + u∗2 ) ein M Proximum. Wenn nun u∗1 = u∗2 gilt, so ist 12 ( u∗1 + u∗2 ) ∈ M◦ , und dann liegt f¨ur eine hinreichend klein gew¨ahlte Zahl 0 < λ < 1 die folgende Situation vor, u∗2

uλ := ( 1 − λ )

u∗1

+ 2

u∗2

×

×

+ λv



u +u × 2

M,

×

  u∗ + u∗ ||uλ − v || = ( 1 − λ ) 1 2 2 − v  = ( 1 − λ )Ev ( M )

v

.................................... ......... . . ....... . ...... .. . ............. . . ..... .. .. .... ... ... . .. .∗ . ∗ . . ... . .. .... ... . . ... ............ . . ... . . . . 1 . 2. ... ..... . . . .... ... .. .. . . . .. ... . . ........ . . . . . ... . .... . . . ..... . . ... . ... . . . . . . . ... .. . . . ... . ... .... . ..... . . . . . ... . .. . . . ... ... .... . . ..... . . . . .... . . ........ . . ..... ...... . . ............. ........ . ...............................


0 f¨ur jeden Vektor 0 = x ∈ V



f¨ur beliebige Vektoren x, y ∈ V gilt  x, y  =  y , x

(Bilinea-

(Definitheit); (Symmetrie).

Ein Skalarprodukt bezeichnet man auch als inneres Produkt. Theorem 15.21 Ein Skalarprodukt auf einem reellem Vektorraum V induziert eine Norm mittels ||x|| =  x, x1/2 f¨ur x ∈ V. B EWEIS . Positive Definitheit und Homogenit¨at der Norm sind jeweils unmittelbare Folgerungen aus der Definitheit und der Bilinearit¨at des Skalarprodukts. Die Dreiecksungleichung f¨ur die Norm resultiert aus der Cauchy Schwarzschen Ungleichung | x, y  |



||x||||y ||,

x, y ∈ V,

(15.8)

372

Kapitel 15

Approximationstheorie

wobei in (15.8) Gleichheit genau dann vorliegt, wenn x und y linear abh¨angig sind. Einen Beweis f¨ur (15.8) finden Sie etwa in Fischer [26]. Beispiel 15.22 (a) Das klassische euklidische Skalarprodukt auf R N ist gegeben durch  x, y  2 = xy f¨ur x, y ∈ R N . (b) F¨ur eine symmetrische, positiv definite Matrix A ∈ R N×N ist durch  x , y  A = xAy f¨ur x, y ∈ R N ein Skalarprodukt auf R N definiert, welches im Zusammenhang mit dem Verfahren der konjugierten Gradienten3 von Bedeutung ist. (c) Zu gegebener Gewichtsfunktion  : [ a, b ] → ( 0, ∞ ] stellt  p, q  :=

Z b a

p( x ) q ( x ) ( x ) dx,

p, q ∈ Π, 

ein Skalarprodukt auf dem Raum aller reellen Polynome Π dar.4 Wichtige und elementare Identit¨aten in diesem Zusammenhang sind ||x + y ||2 = ||x||2 + 2 x, y  + ||y ||2, ||x + y ||

2

+ ||x − y ||

2

= 2(||x|| + ||y || ), 2

2

x, y ∈ V, ......

(15.9)

, (15.10)

wobei (15.10) als Parallelogrammgleichung bezeichnet wird. Als eine Folgerung aus dieser Identit¨at erh¨alt man die – f¨ur die Eindeutigkeit des Proximums in linearen Unterr¨aumen relevante – strikte Normiertheit: Theorem 15.23 Ein Vektorraum mit einer durch ein Skalarprodukt induzierten Norm ist strikt normiert. B EWEIS . Die Aussage folgt unmittelbar aus der Parallelogrammgleichung (15.10) sowie aus der Eigenschaft (15.5) und Bemerkung 15.17.

15.4.2 Proxima in linearen Unterr¨aumen Im Folgenden spielen orthogonale Komplemente von Mengen M ⊂ V eine Rolle, M⊥ :=

-

y ∈ V :  x, y  = 0

. f¨ur jedes x ∈ M .

Mit dem folgenden Theorem wird eine Charakterisierung f¨ur Proxima aus linearen Unterr¨aumen vorgestellt. Theorem 15.24 Sei U ⊂ V ein linearer Unterraum U ⊂ V eines Vektorraums V mit innerem Produkt  ·, ·. Es ist ein Element u∗ ∈ U genau dann ein U Proximum an einen gegebenes v ∈ V, wenn u∗ − v ∈ U ⊥ gilt. 3 4

siehe Abschnitt 11 Solche Skalarprodukte treten im Abschnitt 6.8 u¨ ber die Gaußquadratur auf.

Abschnitt 15.4

373

Approximationstheorie in R¨aumen mit Skalarprodukt

B EWEIS . “⇐=“ Im Fall u∗ − v ∈ U ⊥ berechnet man f¨ur ein beliebiges Element u ∈ U mithilfe der Identit¨at (15.9) Folgendes, ||u − v ||2 = ||u∗ − v + u − u∗ ||2 ∈ U⊥

= ||u∗ − v ||2

∈ U

    + 2  u∗ − v , u − u∗  + ||u − u∗ ||2  

  = 0 ≥ 0



||u∗ − v ||2 ,

so dass u∗ ein U Proximum an den Vektor v darstellt. “=⇒“ Im Fall u∗ − v ∈ U ⊥ existiert nach Definition ein Element ψ ∈ U mit  u∗ − v , ψ  = 0, o.B.d.A. sei  u∗ − v , ψ  < 0 erf¨ullt5 . In dieser Situation erh¨alt man f¨ur hinreichend kleine Zahlen 0 < t  1 Folgendes, ||u∗ + tψ − v ||2 = ||u∗ − v ||2 + 2t u∗ − v , ψ  + t2 ||ψ ||2 < ||u∗ − v ||2 ,

  < 0 f¨ur 0 < t  1 so dass u∗ kein U Proximum an den Vektor v darstellt. Dies komplettiert den Beweis des Theorems. F¨ur die Situation V = R 3 ist die Aussage von Theorem 15.24 in Bild 15.5 veranschaulicht. v

... .......... . .... ...................................................................................................................................................................................... ... ............. . . . . . . . . . . . . . . . . . . . ............ .... ............. . . . . . . . . . . . . . . . . . ........................ .. ............. ............ . . . . . . . . . . . . . . . . . . . ............. ... ............. . . . . . . . . . . . . . . . . . . . ............. .... ............. . . . . . . . . . . . . . . . . . . ......................... . . . . . . . . . . . . . .... .............. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ........................... . . . . . . . . . . . .......................... . . . . . . . . . . . . . . . . . ...................... ................ . . . . . . . . . . . . . . . . . . .............. ............. ....... . . . . . . . . . . . . . . . . ........................ . ............ ............. . . . ..... .. . . . . . . . . . . . . . . . .............. ............... . . . . . . . . .... ........ . . . . . . . . . . . . . . . . . . . . . . . . ........................... . . . . . . . . . . . ..... ........... ............ ............. . . . . . . . . . . . . . . . . . . . .............. ............... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .......................... . . . . . . . . . . . .... .... .....................................................................................................................................................................................................

U

r

u∗

Bild 15.5 Darstellung der Aussage von Theorem 15.24 f¨ur V = R 3 und einen Unterraum U mit dim U = 2 Mit dem folgenden Theorem wird f¨ur endlich dimensionale lineare Unterr¨aume mit gegebener Basis eine Methode zur Bestimmung des Proximums geliefert. Theorem 15.25 In einem Vektorraum V mit innerem Produkt  ·, · sei U ⊂ V ein endlich dimensionaler linearer Unterraum mit gegebener Basis u1 , . . . , um, und es sei u∗ ∈ U. Mit dem  ∗ Ansatz u∗ = m k=1 αk uk ist u genau dann ein U Proximum an ein gegebenes Element v ∈ V, wenn die Koeffizienten α1 , . . . , αm dem folgenden linearen Gleichungssystem gen¨ugen, m 

 uk , uj  αk

k=1

5

andernfalls geht man von ψ zu −ψ u¨ ber

=

 v , uj  2 ,

j = 1, 2, . . . , m.

(15.11)

374

Kapitel 15

Approximationstheorie

B EWEIS . Man hat nur zu ber¨ucksichtigen, dass f¨ur einen beliebigen Vektor w ∈ V die folgende ¨ Aquivalenz richtig ist6: w ∈ U⊥

⇐⇒

 w , uj  = 0

f¨ur j = 1, 2, . . . , m.

Bemerkung 15.26 (a) Die im Zusammenhang mit Theorem 15.25 auftretende Matrix ⎛ ⎞ ⎜  u1 , u1  ⎜ ⎜ pp ⎜ p ⎜ ⎜ ⎝  u1 , um 

 um , u1  ⎟ ⎟ ⎟ pp ⎟ ∈ R m×m pp p p ⎟ ⎟ ⎠ p p p  um , um 

  =: G wird als Gramsche Matrix bezeichnet. Sie ist offensichtlich symmetrisch und wegen der Eindeutigkeit des Proximums auch regul¨ar; schließlich liegt aufgrund der leicht nachzuweisenden Identit¨at αGα = ||

m 

ppp

αk uk ||2 f¨ur α = ( α1 , . . . , αm ) ∈ R m auch positive Definitheit vor. Das

k=1

zugeh¨orige Gleichungssystem (15.11) nennt man Normalgleichungen (f¨ur Proxima). (b) Wenn mit den Bezeichnungen aus Theorem 15.25 die Vektoren u1 , . . . , um eine orthonormale Basis des Unterraums U bilden, so vereinfacht sich die Berechnung des Proximums zu u∗ =

m 

 v , uk  uk .

k=1

Diese Eigenschaft macht man sich beispielsweise beim Verfahren der konjugierten Gradienten zu Nutze. 

Abschließend wird als weitere Anwendung von Theorem 15.24 eine Charakterisierung f¨ur L¨osungen linearer Ausgleichsprobleme geliefert:

Korollar 15.27 Zu gegebener Matrix A ∈ R M×N sowie gegebenem Vektor b ∈ R M ist der Vektor x∗ ∈ R N genau dann eine L¨osung des linearen Ausgleichsproblems ||Ax − b||2 → min f¨ur x ∈ R N , wenn x∗ zugleich eine L¨osung der Normalgleichungen AAx = Ab darstellt. B EWEIS . Die Aussage folgt unmittelbar aus Theorem 15.24 unter Beachtung der Identit¨at R( A )⊥ = N ( A), wobei R( A ) den Bildraum der Matrix A und N ( A) den Nullraum der transponierten Matrix A bezeichnet. 6

¨ siehe Ubungsaufgabe 15.2

Abschnitt 15.5

Πn−1 – Proxima bzgl. Maximumnormen

375

15.5 Gleichm¨aßige Approximation stetiger Funktionen durch Polynome vom H¨ochstgrad n − 1 Eine wichtige Rolle auf dem Raum R N sowie auf Funktionenr¨aumen kommt der gleichm¨aßigen Approximation zu, die mathematisch mittels Maximumnormen beschrieben wird. Solche Normen sind jedoch nicht durch Skalarprodukte induziert und somit die Resultate aus Abschnitt 15.4 nicht anwendbar. Auch strikte Normiertheit liegt in Vektorr¨aumen mit Maximumnormen nicht vor, so dass Theorem 15.19 u¨ ber die Eindeutigkeit von Proxima in linearen Unterr¨aumen ebenfalls nicht anwendbar ist. Dennoch sind in solchen R¨aumen f¨ur spezielle lineare Unterr¨aume Eindeutigkeitsaussagen m¨oglich beziehungsweise existieren L¨osungsverfahren. Im Folgenden sollen speziell die Unterr¨aume Πn−1 des Raums C [ a, b ] betrachtet werden, wobei dieser mit einer gewichteten Maximumnorm von der Gestalt ||ψ ||∞,w := sup |ψ ( t ) |w ( t ),

ψ ∈ C [ a, b ],

(15.12)

t∈[ a, b ]

versehen ist mit einer Gewichtsfunktion w : [ a, b ] → R stetig,

w( t ) > 0

f¨ur t ∈ [ a, b ].

(15.13)

Das folgende Theorem liefert in der vorliegenden Situation eine Charakterisierung f¨ur Πn−1 Proxima an stetige Funktionen. Theorem 15.28 (Alternantensatz) Mit den Bezeichnungen (15.12) und (15.13) seien eine Funktion f ∈ C [ a, b ] sowie ein Polynom p∗ ∈ Πn−1 mit p∗ = f gegeben. Dann sind die folgenden Aussagen (a) und (b) a¨ quivalent: (a) p∗ ist ein Πn−1 Proximum an f , es gilt also ||f − p∗ ||∞,w

=

min ||f − p||∞,w .

p∈Πn−1

(b) Es existiert eine Alternante s0 , s1 , . . . , sn ∈ [ a, b ] f¨ur f und p∗ , das heißt, s0 < s1 < . . . < sn , (f ( sk ) − p∗ ( sk ) )w ( sk ) = −(f ( sk−1 ) − p∗ ( sk−1 ) )w ( sk−1 )

f¨ur k = 1, 2, . . . , n,

und diese Alternante besitzt die Eigenschaft |f ( sk ) − p∗ ( sk ) |w ( sk )

=

||f − p∗ ||∞,w

f¨ur k = 0, 1, . . . , n.

B EWEIS . “(b) =⇒ (a)“: Angenommen, es gibt ein Polynom p ∈ Πn−1 mit der Eigenschaft sup |f ( t ) − p( t ) |w ( t )

t ∈ [ a, b ]



 = ||f − p||∞,w



sup |f ( t ) − p∗ ( t ) |w ( t ) .


0 impliziert ψ ( sk ) > 0, und entsprechend impliziert f ( sk ) − p∗ ( sk ) < 0 die Ungleichung ψ ( sk ) < 0. Daher wechselt die Funktion ψ mindestens n mal ihr Vorzeichen auf dem Intervall [ a, b ], und damit hat p − p∗ mindestens n paarweise verschiedene Nullstellen, woraus p = p∗ folgt, was einen Widerspruch zur Ungleichung (15.14) darstellt. “(a) =⇒ (b)“: Angenommen, es existiert keine Alternante f¨ur f und p∗ . In diesem Fall kann das Intervall [ a, b ] in 1 ≤ n∗ ≤ n abgeschlossene Teilintervalle Ik = [ tk−1 , tk ],



1 ≤ k ≤ n∗

mit a = t0 < t1 < . . . < tn∗ = b



zerlegt werden, so dass Folgendes gilt: •

(f ( tk ) − p∗ ( tk ) )w ( tk ) = 0



f¨ur jeden Index k ∈ {1, 2, . . . , n∗ } existiert ein sk ∈ Ik mit

f¨ur k = 1, 2, . . . , n∗ − 1;

|f ( sk ) − p∗ ( sk ) |w ( sk ) = ||f − p∗ ||∞,w = 0, ∀ x ∈ Ik : •

−(f ( x ) − p∗ ( x ) )w ( x ) = (f ( sk ) − p∗ ( sk ) )w ( sk ) f¨ur k = 1, 2, . . . , n∗ ;

f¨ur jeden Index k ∈ {1, 2, . . . , n∗ − 1} gilt (f ( sk ) − p∗ ( sk ) )w ( sk )

=

−(f ( sk+1 ) − p∗ ( sk+1 ) )w ( sk+1 ).

O.B.d.A. darf noch angenommen werden, dass f ( sk ) − p ∗ ( sk )

> 0

f¨ur k ungerade,

......

< 0

f¨ur k gerade.

Πn−1 – Proxima bzgl. Maximumnormen

Abschnitt 15.5

377

........................ ............................................ .... ....... ...... .... ... ... ... ...... ..... ... .. ... ... ..... ..... ... ... .. .... .... ..... ... ... .. ... .... .... . ... . . . . . . ... ... .. ... ... .... . . . . . . . .. ... .. ... .... ... . .. . . . . . . . ... . ... ... .. ... ... . . . . ... . . . . . . ... ... .. ... ... ..... . . . . . . . . . . ... ... ... . .. .... . . ... ... ... . . ............ ..... . .. ... ... ... ...... ... ... .. . . . . ... ... . ... ... ... . ... ... ..... .... . . . ... ... .. ... ... ... ... . . . . . ... ... ... ... ... ... ... ... . ... ... . . ... .. ... ... ... .... ... ..... ... ... . . .......... ... ........ ... ... ... . . . . ... ... .. ... . ... ... ... . ... .. ... ... . . .. ... ... .. . ... . . . . .. ... ... ... ... ... ... ... ... .... .. .. ... .... ... ... ... .... .... ... ..... . . . ... . . ... .. .......................

a

s1

t1

s2

t2

s3

||f − p∗ ||∞,w ||f − p∗ ||∞,w − ε

b

(f ( x ) − p∗ ( x ) )w ( x ) −||f − p∗ ||∞,w + ε −||f − p∗ ||∞,w

Bild 15.7 (a) =⇒ (b): Beweisveranschaulichung f¨ur den Spezialfall n∗ = 3 Dann existiert notwendigerweise eine Zahl ε > 0 mit inf (f ( t ) − p∗ ( t ) )w ( t )

≥ −||f − p∗ ||∞,w + ε

sup



t∈Ik

.......

||f − p∗ ||∞,w − ε

f¨ur k ungerade, f¨ur k gerade,

t∈Ik

und dann gibt es ein Polynom ∆p ∈ Πn∗ −1 mit den folgenden Eigenschaften: ∆p < 0 auf Ik , falls k ungerade,

∆p > 0 auf Ik , falls k gerade,

||∆p||∞,w ≤ ε/2,

wobei die letztgenannte Eigenschaft durch Multiplikation mit einer kleinen positiven Konstanten folgt. Eine Veranschaulichung der vorliegenden Situation findet sich in Bild 15.7. F¨ur das Polynom p := p∗ − ∆p ∈ Πn−1 gilt dann f − p = f − p∗ + ∆p und daher ( f − p )( t )

inf ( f ( t ) − p( t ))w ( t )

t∈Ik

( f − p )( t )

sup (f ( t ) − p( t ) )w ( t )




( f − p∗ )( t ),

t ∈ ( tk−1 , tk )

......

f¨ur k gerade,

≤ ||f − p∗ ||∞,w − ε/2

......

t∈Ik

und infolgedessen ergibt sich der Widerspruch ||f − p||∞,w < ||f − p∗ ||∞,w . Dies komplettiert den Beweis. Bemerkung 15.29 Die Voraussetzungen des Alternantensatzes lassen sich abschw¨achen. So gen¨ugt es, von der Funktion w anstelle Positivit¨at lediglich Nichtnegativit¨at zu fordern, das heißt, w ( t ) ≥ 0 f¨ur t ∈ [ a, b ] 7 , und außerdem kann die Bedingung “p∗ = f “ zu “||f − p∗ ||∞,w > 0“ abgeschw¨acht werden. Weiter k¨onnen – anstelle stetiger f – solche Funktionen f : [ a, b ] → R = R ∪ {−∞, ∞} zugelassen werden, f¨ur die das Produkt f w eine auf dem Intervall [ a, b ] stetige Funktion ergibt. Der Beweis l¨asst sich ohne weiteres auf diese allgemeinere Situation 7

Dann stellt || · ||∞,w im Allgemeinen keine Norm mehr dar, was aber hier keine Rolle spielt.

378

Kapitel 15

Approximationstheorie

u¨ bertragen, f¨ur die ebenfalls Anwendungen existieren (siehe Nemirovski˘ı /Polyak [73]). Beispiele hierzu werden in den Aufgaben 15.3 und 15.4 vorgestellt. 

15.6 Anwendungen des Alternantensatzes 15.6.1 Ein Beispiel Beispiel 15.30 Zu einer gegebenen konvexen Funktion f ∈ C 2 [ a, b ] ist das Π1 Proximum gesucht. Aus dem Mittelwertsatz der Differenzialrechnung erh¨alt man eine Zwischenstelle ξ ∈ ( a, b ) mit der Eigenschaft f ( ξ )

f (b) − f (a) , b−a

=

und das Π1 Proximum p∗ ist dann gegeben durch   1 f (b) − f (a) f (b) − f (a) (t − ξ ) + f (ξ ) + (t − a) + f (a) p∗ ( t ) := b−a

2

=

b−a

f (b) − f (a)  a+ξ f (a) + f (ξ ) , t − + b−a 2 2

t ∈ R,

denn die Punkte s0 = a, s1 = ξ und s2 = b bilden eine Alternante, −( p∗ − f )( a )

=

( p∗ − f )( ξ )

=

−( p∗ − f )( b )

=

||p∗ − f ||∞ .

Die vorliegende Situation ist in Bild 15.8 dargestellt.

.. .... .... .. .. .... .... .... .... .. .. .... ................ .... .... .. ... .. .... .. .... .... . . . . . . . . . . . .. . .. .... .... .. .. .. .... .... ... .... .... .. .. .. .... .... .. .... .... .. ... ........ ......... .. ................ .. .... .... . . . . . . . . . . . ................................ . .. .. .... . ... ................... .... .... .. .................. .. .... .... . . . . . . . . . . . . . . . . . . . . . . . . . .. .... . ............... ...... .... .... .................... ................ ... ... ..... ................ .. .... .... .... .. ................ .... .... .. ..... ... ................ ..... .... ................ ........... ..... ... ................ . . . . . . . . .. .... ...... . . . . . . . . . . . . . .... .... .. ...... . ............ ... .. .... .... ...... ............................... .. ..... .... .... .. . .. ...... ......... .. .... .... ...... ............................. .... .... .. .................................... ....... ........ . . . . . . . . . . . . . . . . . ......... . ..... .... ... ...... .......... ................ ......... ......... . .... .... ............. ................ .... ...................... ... ..................... ................ ..................................................... .. .... .... .... .. . . . . . . . . . ... .. .... .... .... .... .. .. .... .... .... .... .. .. .... .... .... .... .. . . . . . . . . .... ....

f





p∗





 = ||p∗ − f ||∞ = Ef ( Π1 )

a

ξ

b

Bild 15.8 Veranschaulichung der in Beispiel 15.30 vorliegenden Situation

15.6.2 Eine erste Anwendung des Alternantensatzes Theorem 15.31 F¨ur n ≥ 1 ist das Polynom p∗ ( t )

=

tn −

1 T ( t ), 2n−1 n

t ∈ R,

bez¨uglich der Maximumnorm ein Πn−1 Proximum an die Funktion f ( t ) = tn , t ∈ [ –1, 1 ], mit ||p∗ − tn ||∞

=

min ||p − tn ||∞

p ∈ Πn−1

=

1 . 2n−1

Hierbei bezeichnet Tn ∈ Πn das n te Tschebyscheff Polynom der ersten Art, es gilt also Tn ( t ) = cos ( n arccos t ), t ∈ [ –1, 1 ].

Abschnitt 15.6

379

Anwendungen des Alternantensatzes

B EWEIS . Der f¨uhrende Koeffizient von Tn ist 2n−1 (siehe Theorem 1.23 auf Seite 13), und 1 somit gilt p∗ ∈ Πn−1 . Weiter gilt offensichtlich ||p∗ − tn ||∞ = n−1 , und das System sk = 2   cos (n−k)π , k = 0, 1, . . . , n, bildet aufgrund von n snk − p∗ ( sk )

=

1 2

n−1

Tn ( sk )

=

(−1)n−k 2n−1

f¨ur k = 0, 1, . . . , n,

eine Alternante, so dass aus Theorem 15.28 die Aussage des Theorems folgt. Als unmittelbare Konsequenz ergibt sich das folgende Resultat (vergleiche Theorem 1.24): Korollar 15.32 F¨ur die Zahlen t(kn) = cos folgende Optimalit¨atseigenschaft:

 (2k−1)π  2n

  max  ( t − y1 ) . . . ( t − yn ) 

min

, k = 1, 2, . . . , n (mit n ∈ N) gilt die

(∗)

=

y1 ,... ,yn ∈ [ −1, 1 ] t∈[ −1, 1 ]

(∗∗)

=

  max  ( t − t(1n) ) . . . ( t − t(nn) ) 

t ∈ [ −1, 1 ]

1 . 2n−1

B EWEIS . Bei den Werten t(1n) , . . . , t(nn) handelt es sich um die Nullstellen des Tschebyscheff Polynoms Tn , und der f¨uhrende Koeffizient von Tn lautet 2n−1 ; daraus resultiert die Identit¨at (∗∗). Die Ungleichung “≤“ in (∗) ist offensichtlich richtig, und “≥“ schließlich erh¨ alt man wie folgt:   1 (•) = min || p − tn ||∞ ≤ min max  ( t − y1 ) . . . ( t − yn ) , p∈Πn−1   y1 ,...,yn ∈ [ −1, 1 ] t ∈ [ −1, 1 ] 2n−1

  ∈ Πn ∈ Πn wobei die Identit¨at (•) eine Konsequenz aus Theorem 15.31 ist.

15.6.3 Eine zweite Anwendung des Alternantensatzes Als eine weitere Anwendung des Alternantensatzes erh¨alt man das folgende Resultat. Es liefert nachtr¨aglich die Optimalit¨at der im Beweis von Theorem 11.19 u¨ ber die Konvergenzraten beim Verfahren der konjugierten Gradienten verwendeten Polynome (bezogen auf das Intervall [ m, M ] ). Theorem 15.33 Ausgehend von Zahlen 0 < m ≤ M gilt f¨ur das Polynom p∗ ( λ ) := cTn





  M + m −1 c := Tn M − m

M + m − 2λ , M −m

(λ ∈ R ),

Folgendes: p∗ ∈ Πn ,

p∗ ( 0 ) = 1,

max |p∗ ( λ ) |

m≤λ≤M

=

min

max

p∈Πn m≤λ≤M p( 0)=1

|p( λ ) |

=

 Tn

M +m M −m

−1

(15.15) .

(15.16)

380

Kapitel 15

Approximationstheorie

B EWEIS . Die Eigenschaft (15.15) ist offensichtlich richtig, und f¨ur den Nachweis von (15.16) betrachtet man die folgenden Darstellungen, 1  1 − p∗ ( λ ) mit q ∗ ( λ ) := max λ λ − q ∗ ( λ )  = c ∈ Πn−1 , λ  1 |p( λ ) | = min max λ λ − q ( λ ) ,

max |p∗ ( λ ) | =

m≤λ≤M

min

max

p∈Πn m≤λ≤M p(0)=1

m≤λ≤M

q∈Πn−1 m≤λ≤M

und erh¨alt die Aussage des Theorems mittels Theorem 15.28 angewandt mit q ∗ anstelle p∗ sowie [ a, b ] = [ m, M ],

w ( λ ) = λ,

f (λ) =

1 , λ

unter Ber¨ucksichtigung der Tatsache, dass λk := −

M −m M +m sk + 2 2

eine Alternante darstellt,  1  λk λ − q ∗ ( λ k ) = k

 kπ  mit sk := cos n ,

p∗ ( λk ) = Tn ( sk ) = c( –1 )k

k = 0, 1, . . . , n,

f¨ur k = 0, 1, . . . , n.

Bemerkung 15.34 Zur Bestimmung eines solchen Πn−1 Proximums l¨asst sich – auf der Grundlage des Alternantensatzes – ein Algorithmus angeben, das Austauschverfahren von Remez. Einzelheiten hierzu finden Sie beispielsweise in H¨ammerlin/Hoffmann [45] und in Schaback/ Wendland [88]. 

15.7 Haarsche R¨aume, Tschebyscheff–Systeme Die Aussage des Alternantensatzes beh¨alt ihre G¨ultigkeit, wenn man anstelle des Raums Πn−1 der Polynome vom Grad ≤ n − 1 Haarsche R¨aume mit der Dimension n betrachtet. Die entsprechende Theorie wird im Folgenden vorgestellt. Von grundlegender Bedeutung sind dabei die folgenden Begriffe. Definition 15.35 (a) Ein endlich dimensionaler linearer Raum U ⊂ C [ a, b ] heißt Haarscher Raum, falls jede Funktion 0 ≡ u ∈ U h¨ochstens n − 1 paarweise verschiedene Nullstellen besitzt, wobei n := dim U . (b) Ein linear unabh¨angiges Funktionensystem u1 , . . . , un ∈ C [ a, b ] heißt Tschebyscheff System, falls U = span {u1 , . . . , un } ⊂ C [ a, b ] einen Haarschen Raum bildet. Beispiel 15.36 (a) Die Monome 1, x, x2 , . . . , xn−1 ∈ C [ a, b ] bilden offensichtlich ein Tschebyscheff System. (b) Die Exponentialmonome 1, ex , e2x , . . . , e( n−1)x ∈ C [ a, b ] bilden ein Tschebyscheff System.

Abschnitt 15.7

381

Haarsche R¨aume, Tschebyscheff– Systeme

B EWEIS . Hier betrachtet man . U := span 1, ex , e2x , . . . , e( n−1)x

=

-

p ◦ ex : p ∈ Πn−1

.

⊂ C [ a, b ].

Falls dann u = p ◦ ex ∈ U mindestens n paarweise verschiedene Nullstellen a ≤ x1 < . . . < xn ≤ b hat, so besitzt das Polynom p ∈ Πn−1 die n paarweise verschiedenen Nullstellen ex1 < . . . < exn , und somit gilt notwendigerweise p ≡ 0 beziehungsweise u ≡ 0. (c) F¨ur 0 ≤ a < b < 2π bilden die trigonometrischen Monome 1, sin x, cos x, . . . , sin mx, cos mx ∈ C [ a, b ] ein Tschebyscheff System. B EWEIS . Hierzu betrachtet man U

:= span {1, sin x, cos x, . . . , sin mx, cos mx}  m   αk sin kx + βk cos kx : αk , βk ∈ R = k=0

=

  m

γk eikx : γk ∈ C,

Re γk = Re γ−k ,

Im γk = −Im γ−k



k=−m

⊂ {e−imx q ◦ eix : q ∈ Π2m }



C [ a, b ].

Falls dann u = e−imx ( q ◦ eix ) ∈ U mindestens ( 2m + 1 ) paarweise verschiedene Nullstellen 0 ≤ x0 < . . . < x2m < 2π besitzt, so hat (aufgrund der Injektivit¨at der Funktion eix auf dem Intervall [ 0, 2π ) ) das Polynom q ∈ Π2m mindestens ( 2m + 1 ) paarweise verschiedene Nullstellen und somit gilt notwendigerweise q ≡ 0 beziehungsweise u ≡ 0. 

15.7.1 Alternantensatz fur ¨ Haarsche R¨aume Der Alternantensatz l¨asst sich auf Haarsche R¨aume u¨ bertragen: Theorem 15.37 F¨ur einen Haarschen Raum U ⊂ C [ a, b ] der Dimension dim U = n beh¨alt der Alternantensatz seine G¨ultigkeit, wenn dort “Πn−1 “ durch “ U “ ersetzt wird.8 B EWEIS . Der Beweis verl¨auft a¨ hnlich dem des Alternantensatzes f¨ur Polynome, unter Verwendung des nachfolgenden Resultats u¨ ber die eindeutige L¨osbarkeit des Interpolationsproblems in Haarschen R¨aumen. Theorem 15.38 Zu einem Haarschen Raum U ⊂ C [ a, b ] der Dimension dim U = n und n St¨utzpunkten ( x1 , f1 ), . . . , ( xn , fn ), mit paarweise verschiedenen St¨utzstellen x1 , x2 , . . . , xn ∈ [ a, b ] gibt es genau ein Element u ∈ U mit der Interpolationseigenschaft u( xj ) = fj

f¨ur j = 1, 2, . . . , n.

B EWEIS . Wird hier nicht gef¨uhrt (Aufgabe 15.6). 8

Etwas genauer ist dort noch das Wort “Polynom“ zu streichen, und sinnvollerweise wird man die Notation “p∗ “ durch “u∗ “ ersetzen.

382

Kapitel 15

Approximationstheorie

15.7.2 Eindeutigkeit des Proximums F¨ur Haarsche R¨aume U ⊂ C [ a, b ] ist die Existenz von U Proxima an Funktionen f ∈ C [ a, b ] aufgrund von Korollar 15.10 gew¨ahrleistet. Im Folgenden werden nun Eindeutigkeitsbetrachtungen gef¨uhrt, der Einfachheit halber nur f¨ur die spezielle Gewichtsfunktion w ≡ 1. Theorem 15.39 Bez¨uglich der Maximumnorm || · ||∞ auf dem Intervall [ a, b ] ist in einem Haarschen Raum U ⊂ C [ a, b ] zu jedem f ∈ C [ a, b ] das U Proximum an die Funktion f eindeutig bestimmt. B EWEIS . F¨ur zwei U Proxima u1 , u2 ∈ U an die Funktion f ist auch9 die Funktion 12 ( u1 + u2 ) ein U Proximum an f , f¨ur die dann eine Alternante a ≤ s0 < s1 < . . . < sn ≤ b, n := dim U , existiert, das heißt, 1  1 1 ( u − f )( sk ) + ( u2 − f )( sk ) = ( u1 + u2 ) − f ( sk ) = τ ( –1 )k Ef ( U ), 2 1  2 2 

  | | ≤ Ef ( U ) | | ≤ Ef ( U ) k = 0, 1, . . . , n, τ ∈ {−1, 1}, und daher ( u1 − f )( sk )

=

( u2 − f )( sk )

bzw. (u1 − u2 )( sk ) = 0   ∈ U

f¨ur k = 0, 1, . . . , n,

so dass notwendigerweise u1 ≡ u2 gilt. Bemerkung 15.40 Man beachte, dass der Vektorraum C [ a, b ] zusammen mit der Maximumnorm || · ||∞ nicht strikt normiert ist, so dass Theorem 15.39 nicht unmittelbar aus Theorem 15.19 resultiert. 

15.7.3 Untere Schranken fur ¨ den Minimalabstand Ist f¨ur eine Approximation u ∈ U an eine Funktion f eine Alternante gegeben, an dessen Punkten jedoch der Abstand von u zur Funktion f nicht maximal und der Alternantensatz daher nicht anwendbar ist, so gewinnt man doch zumindest eine untere Schranke f¨ur den Minimalabstand Ef ( U ): Theorem 15.41 (de la Valle´e Poussin) Seien U ⊂ C [ a, b ] ein Haarscher Raum sowie f ∈ C [ a, b ] und u ∈ U . Wenn a ≤ s0 < s1 < . . . < sn ≤ b mit n := dim U eine Alternante bez¨uglich der Funktionen f und u darstellt, das heißt, ( u − f )( sk ) = τ δ ( –1 )k

f¨ur k = 0, 1, . . . , n,

erf¨ullt ist mit geeigneten Zahlen τ ∈ {−1, 1} und 0 < δ ≤ ||u − f ||∞ , so gilt die folgende Absch¨atzung, δ ≤ Ef ( U ). 9

siehe Lemma 15.14

383

Weitere Themen und Literaturhinweise

B EWEIS . Im Fall Ef ( U ) < δ w¨urde man f¨ur das U Proximum u∗ an f die Identit¨at u − u∗

u − f − (u∗ − f )  

=

|| ||∞ = Ef ( U )

erhalten, mit der Konsequenz

sgn( u − u∗ )( sk ) = sgn( u − f )( sk ) = τ ( –1 )k f¨ur k = 0, 1, . . . , n,   ∈ U so dass die Funktion u − u∗ dann n Nullstellen besitzen w¨urde und infolgedessen sich der Widerspruch u ≡ u∗ erg¨abe. Bemerkung 15.42 In Erg¨anzung zu Theorem 15.41 kann man f¨ur den Minimalabstand noch  die triviale obere Schranke Ef ( U ) ≤ ||u − f ||∞ angeben.

Weitere Themen und Literaturhinweise Ausf¨uhrliche Behandlungen des Themas Approximationstheorie finden Sie beispielsweise in H¨ammerlin/Hofmann [45], Opfer [76] und in Schaback/Wendland [88]. Die in Abschnitt 15.3.2 vorgestellte Theorie der strikt normierten R¨aume l¨asst sich erweitern um die Theorie der gleichm¨aßig konvexen, vollst¨andig normierten R¨aume V, in denen f¨ur konvexe abgeschlossene Teilmengen ∅ = M ⊂ V die Existenz von M Proxima gew¨ahrleistet ist. Einzelheiten hierzu werden beispielsweise in Hirzebruch/Scharlau [53] vorgestellt. Dort werden auch (f¨ur mit einem Skalarprodukt versehene R¨aume) Orthonormalsysteme behandelt, die zur Bestimmung von Proxima in Unterr¨aumen verwendet werden. Einf¨uhrungen zu dem in Bemerkung 15.4 angesprochenen Thema “nichtlineare Optimierung“ finden Sie beispielsweise in Dennis/Schnabel [16], Grossmann/Terno [41], Geiger/Kanzow [29], Nash/Sofer [72], Schaback/Wendland [88], Schwarz/Kl¨ockner [90], Schwetlick [91], Troeltzsch [101] oder Werner [107].

¨ Ubungsaufgaben Aufgabe 15.1 Man weise nach, dass der Vektorraum C [ a, b ] zusammen mit der Maximumnorm || · ||∞ nicht strikt normiert ist. ¨ Aufgabe 15.2 Man weise die Aquivalenz (15.11) nach. Aufgabe 15.3 Man weise f¨ur die Folge von Funktionen √ (−1)n T2n+1 ( t) ( ) √ = , t>0 pn t 2n + 1 t Folgendes nach: (∗)

pn ∈ Πn , √ max |pn ( t ) | t

=

√ max |pn ( t ) | t

=

0≤t≤1 0≤t≤1

(n = 0, 1, . . . )

pn ( 0 ) = 1, 1 2n + 1

min

f¨ur n = 0, 1, . . ., √ max |p( t ) | t,

p∈Πn 0≤t≤1 p( 0)=1

384

Kapitel 15

Approximationstheorie

wobei (∗) so zu verstehen ist, dass zu der Funktion pn eine Fortsetzung nach 0 und dar¨uber hinaus auf die negative Halbachse existiert, welche ein Polynom von H¨ochstgrad n darstellt. Aufgabe 15.4 Man u¨ berlege sich, dass f¨ur die Folge von Funktionen pn ( t )

=

1 − Tn+1 ( 1 − 2t ) 2( n + 1 )2 t

0 = t ∈ R

,

(n = 0, 1, . . . )

Folgendes gilt: pn ∈ Πn ,

pn ( 0 ) = 1,

max |pn ( t ) |t

=

max |pn ( t ) |t

=

0≤t≤1 0≤t≤1

1 ( n + 1 )2

min

f¨ur n = 0, 1, . . .,

max |p( t ) |t.

p∈Πn 0≤t≤1 p(0)=1

Aufgabe 15.5 Es ist p ≡ 0 bez¨uglich der Maximumnorm ein Πn−1 Proximum an die Funktion f ( t ) = sin 3t, t ∈ [ 0, 2π ] genau dann, wenn n − 1 ≤ 2 gilt. Aufgabe 15.6 Man beweise Theorem 15.38.

385

16 Rechnerarithmetik In dem vorliegenden Kapitel werden zun¨achst einige Grundlagen u¨ ber die in Hard- und Software verwendeten reellen Zahlensysteme vorgestellt. Anschließend wird die Approximation reeller Zahlen durch Elemente solcher Zahlensysteme behandelt. Ein weiteres Thema bilden die arithmetischen Grundoperationen in diesen Zahlensystemen. Bemerkung 16.1 Solche Umwandlungs- und Arithmetikfehler verursachen bei jedem numerischen Verfahren Fehler sowohl in den Eingangsdaten als auch bei der Durchf¨uhrung des jeweiligen Verfahrens. F¨ur verschiedene Situationen sind die Auswirkungen solcher Fehler in einem allgemeinen Kontext bereits diskutiert worden: •

der Einfluss fehlerbehafteter Matrizen und rechter Seiten auf die L¨osung eines zugrunde liegenden linearen Gleichungssystems (Abschnitt 4.7.5),



und bei Einschrittverfahren zur L¨osung von Anfangswertproblemen f¨ur gew¨ohnliche Differenzialgleichungen die Auswirkungen der in jedem Integrationsschritt auftretenden eventuellen Fehler auf die G¨ute der Approximation an die L¨osung der Differenzialgleichung (Abschnitt 7.4),



und der Einfluss fehlerbehafteter Matrizen auf die L¨osung von Eigenwertproblemen (Abschnitt 12.2). 

16.1 Zahlendarstellungen Von grundlegender Bedeutung f¨ur die Realisierung von Zahlendarstellungen auf Rechnern ist die folgende aus der Analysis bekannte Darstellung. Theorem 16.2 Zu gegebener Basis b ≥ 2 l¨asst sich jede Zahl 0 = x ∈ R in der Form x = σ

∞ 

ak+e b−k = σ

 ∞

k=−e+1

k=1

 ak b−k be ,

a1 , a2 , . . . ∈ {0, 1, . . . , b − 1}, (16.1) e ∈ Z,

σ ∈ {+, −}

darstellen mit einer nichtverschwindenden f¨uhrenden Ziffer, a1 = 0. Zwecks Eindeutigkeit der Ziffern sei angenommen, dass es eine unendliche Teilmenge N1 ⊂ N gibt mit ak = b − 1 f¨ur k ∈ N1 . B EWEIS . Siehe etwa Forster [27]. Bemerkung 16.3 (a) Die zweite Darstellung f¨ur x in (16.1) bezeichnet man als Gleitpunktdarstellung.

386

Kapitel 16

Rechnerarithmetik

(b) Durch die abschließende Bedingung in Theorem 16.2 ist die Eindeutigkeit der Ziffern in den Darstellungen (16.1) gew¨ahrleistet. So wird zum Beispiel f¨ur die Zahl 0.9999 . . . = 1.0 die letztere Darstellung gew¨ahlt. (c) Praxisrelevante Zahlensysteme und ihre Ziffern sind in Tabelle 16.1 dargestellt.

Zahlensystem

Basis b

Dezimalsystem

10

0, 1, 2, 3, 4, 5, 6, 7, 8, 9

Bin¨arsystem

2

0, 1

Oktalsystem

8

0, 1, 2, 3, 4, 5, 6, 7

Hexadezimalsystem

16

0, 1, 2, 3, 4, 5, 6, 7, 8, 9, A, B, C, D, E, F



m¨ogliche Ziffern

Tabelle 16.1 Praxisrelevante Zahlensysteme und ihre Ziffern

16.2 Allgemeine Gleitpunkt–Zahlensysteme 16.2.1 Grundlegende Begriffe In jedem Prozessor beziehungsweise bei jeder Programmiersprache werden jeweils nur einige Systeme reeller Zahlen verarbeitet. Solche Systeme werden im Folgenden vorgestellt. Definition 16.4 Zu gegebener Basis b ≥ 2 und Mantissenl¨ange t ∈ N sowie f¨ur Exponentenschranken emin < 0 < emax ist die Menge F = F(b, t, emin , emax ) ⊂ R wie folgt erkl¨art, ⎫ ⎧ ⎪ ⎪ ⎪ ⎪ ⎬ ⎨   t −k e ∪ {0}. (16.2) b : a1 , . . . , at ∈ {0, 1, . . . , b − 1}, a1 = 0 F := σ ak b ⎪ ⎪ ⎪ ⎪ ⎩ k=1 ⎭ ≤ e ≤ e , σ ∈ {+, −} e ∈ Z, e min

max

 ist definiert als diejenige Obermenge von F, bei der in der Liste von Parametern Die Menge F in (16.2) zus¨atzlich noch die Kombination “e = emin , a1 = 0“ zugelassen ist.  (und damit insbesondere auch die Elemente von F ⊂ F  ) werden im FolDie Elemente von F genden kurz als Gleitpunktzahlen bezeichnet. Zu jeder solchen Gleitpunktzahl x = σ abe ∈ F

mit a =

t 

ak b−k

(16.3)

k=1

bezeichnet σ das Vorzeichen, es ist a die Mantisse mit den Ziffern a1 , . . . , at , und e ist der Exponent. Gleitpunktzahlen mit der Darstellung (16.3) bezeichnet man im Fall a1 ≥ 1 als normalisiert, andernfalls als denormalisiert. Bemerkung 16.5 Die Menge F ⊂ R stellt folglich ein System normalisierter Gleitpunktzahlen dar. Diese Normalisierung garantiert die Eindeutigkeit in der Darstellung (16.3). Im Spezialfall

Abschnitt 16.2

387

Allgemeine Gleitpunkt– Zahlensysteme

des kleinsten zugelassenen Exponenten e = emin bleibt diese Eindeutigkeit (mit Ausnahme der Zahl 0) jedoch erhalten, wenn auf die Normalisierung verzichtet wird, so dass bis auf die Zahl  eindeutig in der Form (16.3) darstellbar sind. 0 auch alle Gleitpunktzahlen aus F   festIm weiteren Verlauf werden zun¨achst grundlegende Eigenschaften der Mengen F und F gehalten (Abschnitte 16.2.2 und 16.2.3) und anschließend einige spezielle Systeme von Gleitpunktzahlen vorgestellt (Abschnitt 16.3).

16.2.2 Struktur des normalisierten Gleitpunkt– Zahlensystems F Im Folgenden werden f¨ur die Gleitpunktzahlen aus dem System F ⊂ R zun¨achst Schranken angegeben und anschließend deren Verteilung auf der reellen Achse beschrieben. Wegen der Symmetrie von F um den Nullpunkt gen¨ugt es dabei, deren positive Elemente zu betrachten. Theorem 16.6 In dem System F = F(b, t, emin , emax ) normalisierter Gleitpunktzahlen stellen xmin := bemin −1 ,

xmax := bemax ( 1 − b−t ),

das kleinste positive beziehungsweise das gr¨oßte Element dar, es gilt also xmin , xmax ∈ F und xmin = min{x ∈ F : x > 0},

xmax = max{x ∈ F }.

B EWEIS . F¨ur die Mantisse a einer beliebigen Gleitpunktzahl aus F gilt notwendigerweise b−1



a



t 

(∗)

b−k ( b − 1 ) = 1 − b−t ,

k=1

wobei die erste Ungleichung aus der Normalisierungseigenschaft a1 ≥ 1 und die zweite Ungleichung aus der Eigenschaft ak ≤ b − 1 resultiert. Die Summe schließlich stellt eine Teleskopsumme dar, woraus die Identit¨at (∗) folgt und der Beweis komplettiert ist. Bemerkung 16.7 Der durch das normalisierte Gleitpunkt Zahlensystem F u¨ berdeckte Bereich sieht demnach wie folgt aus, F ⊂ [ –xmax , −xmin ] ∪ {0} ∪ [ xmin , xmax ], was in Bild 16.1 veranschaulicht ist. [ −xmax

] [ −xmin0 xmin

] xmax

Bild 16.1 Darstellung des durch das normalisierte Gleitpunkt– Zahlensystem F u¨ berdeckten Bereiches 

Detaillierte Aussagen u¨ ber die Verteilung der Gleitpunktzahlen aus den System F liefern das folgende Theorem und die anschließende Bemerkung.

388

Kapitel 16

Rechnerarithmetik

Theorem 16.8 In jedem der Intervalle [ be−1 , be ], emin ≤ e ≤ emax , befinden sich gleich viele Gleitpunktzahlen aus dem System F, bei einer jeweils a¨ quidistanten Verteilung mit den konstanten Abst¨anden be−t :  (b−1 + jb−t )be : j = 0, 1, . . . , M  , M  := bt − bt−1 . F ∩ [ be−1 , be ] =

  be−1 + jbe−t B EWEIS . Im Folgenden werden die im Beweis von Theorem 16.6 zum Thema Mantissen ange¨ stellten Uberlegungen fortgef¨uhrt. Die Mantissengesamtzahl betr¨agt bt−1 ( b − 1 ) = bt − bt−1 , und diese sind a¨ quidistant u¨ ber das gesamte abgeschlossene Intervall [ b−1 , 1 − b−t ] verteilt mit jeweiligem Abstand b−t , eine aufsteigende Anordnung der Mantissen sieht also wie folgt aus: a = b−1 + jb−t ,

j = 0, 1, . . . , M  − 1.

Hieraus resultiert die Aussage des Theorems. Bemerkung 16.9 Durch Theorem 16.8 wird die ungleichm¨aßige Verteilung der Gleitpunktzahlen auf der Zahlengeraden verdeutlicht. So tritt in dem System der normalisierten Gleitpunktzahlen F zwischen der gr¨oßten negativen Zahl −xmin und der kleinsten positiven Zahl xmin eine (relativ betrachtet) große L¨ucke auf, und ferner werden die Abst¨ande zwischen den Gleitpunktzahlen mit wachsender absoluter Gr¨oße zunehmend gr¨oßer. Die beschriebene Situation f¨ur F ist in Bild 16.2 veranschaulicht. −xmin

... .. .

... .. .

.. . . . . . . . .. . . . . . . . .. ... .. .. .. .. .. .. .. ... .. .. .. .. .. .. .. ... .. ... ... ... ... ... ... ... .. ... ... ... ... ... ... ... .. .. .. ..

−bemin +1

xmin

.. . . . . . . .. . . . . . . . .. ... .. .. ... .. .. .. .. ... .. .. .. .. .. .. .. ... .. .... .... .. .. ... .. .. .. .. .... ... ... ... ... ... ... .. ....

.. ... .. ..

−bemin −bemin −1 0

bemin −1 bemin

bemin +1

... .. .

... .. .

... .. .

. .... .

... .. .

... .. .

... .. .

.. ... .. ..

... .. .

... .. .

bemin +2

Bild 16.2 Verteilung der betragsm¨aßig kleinen normalisierten Gleitpunktzahlen des Systems F 

Eine wichtige Kenngr¨oße des Gleitpunkt Zahlensystems F ist der maximale relative Abstand der Zahlen aus dem Bereich {x ∈ R : xmin ≤ |x| ≤ xmax } zum jeweils n¨achstgelegenen Element aus F. Hier gilt Folgendes: Theorem 16.10 min z∈F

|z − x| |x|



1 −t+1 b 2   =: eps

f¨ur x ∈ R

mit xmin ≤ |x| ≤ xmax .

(16.4)

B EWEIS . Aus Symmetriegr¨unden gen¨ugt es, die Betrachtungen auf positive Zahlen x zu beschr¨anken, und im Folgenden werden die Betrachtungen auf eines der infrage kommenden Intervalle [ be−1 , be ] konzentriert. Nach Theorem 16.8 sind die Gleitpunktzahlen aus dem System F u¨ ber das gesamte Intervall [ be−1 , be ] a¨ quidistant verteilt mit den konstanten Abst¨anden be−t , und

Abschnitt 16.2

Allgemeine Gleitpunkt– Zahlensysteme

389

somit betr¨agt f¨ur eine beliebige reelle Zahl x aus diesem Intervall der Abstand zum n¨achstgelegenen Element aus F h¨ochstens 12 be−t . Die Eigenschaft be−1 ≤ x liefert schließlich die Aussage des Theorems. Bemerkung 16.11 Aus der Absch¨atzung (16.4) wird unmittelbar einsichtig, dass bei festgelegter Basis b die Genauigkeit des Gleitpunkt Zahlensystems F ausschließlich von der Anzahl der Ziffern der Mantisse abh¨angt, w¨ahrend die Wahl der Exponentenschranken emin und emax die Gr¨oße des von dem Gleitpunkt Zahlensystem F u¨ berdeckten Bereichs beeinflussen.  F¨ur die eindeutig bestimmte Zahl n ∈ N mit 0.5 × 10−n ≤ eps < 5 × 10−n spricht man im Zusammenhang mit dem System F von einer n stelligen Dezimalstellenarithmetik.

 16.2.3 Struktur des denormalisierten Gleitpunkt– Zahlensystems F  ⊃ F die gegen¨uber dem System der normalisierten Im Folgenden werden f¨ur das Obersystem F Gleitpunkt Zahlensystems F zus¨atzlichen Eigenschaften beschrieben. Theorem 16.12 Auf dem Bereich ( −∞, −xmin ] ∪ [ xmin , ∞ ) stimmen die Gleitpunkt Zahlen u¨ berein, und auf dem Intervall [ –bemin , bemin ] = [ –bxmin , bxmin ] sind die Gleitsysteme F und F  a¨ quidistant verteilt mit konstanten Abst¨anden bemin −t : punktzahlen aus dem System F  ∩ [ − bemin , bemin ] F

=

{j bemin −t : j = −bt , . . . , bt }.

(16.5)

Insbesondere stellt x min := bemin −t  dar. das kleinste positive Element in F  gilt a1 = 0, B EWEIS . F¨ur die Mantisse a einer beliebigen denormalisierten Gleitpunktzahl aus F und die Eigenschaft ak ≤ b − 1 liefert a



t 

b−k ( b − 1 ) = b−1 − b−t ,

k=2

 beziehungsweise F\F ⊂ {x ∈ R : 0 < |x| < xmin }, was identisch mit der ersten Aussage des Theorems ist. Im denormalisierten Fall sind die Mantissen u¨ ber das gesamte abgeschlossene Intervall [ 0, 1 −b−t ] a¨ quidistant verteilt mit Mantissenabstand b−t , eine aufsteigende Anordnung sieht hier wie folgt aus: a = jb−t ,

j = 0, 1, . . . , bt − 1.

Daraus erh¨alt man die Aussage (16.5).  ist in Bild 16.3 veranschaulicht. Die beschriebene Situation f¨ur F Bemerkung 16.13 Die in dem System der normalisierten Gleitpunktzahlen F (relativ gesehen) auftretenden großen L¨ucken zwischen der gr¨oßten negativen Zahl −xmin und der Zahl 0 so wie zwischen 0 und der kleinsten positiven Zahl xmin sind in dem Gleitpunkt Zahlensystem F

390

Kapitel 16

... ...

... ...

−bemin −t be

−t

min .... .. ... . . . . . . . ... . . . . . . . ... . . . . ............. ... ......... . . . . . ... . . . . . . . ... . . . . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. .. .. .. .. .. .. ... .. .. .. .. .. .. .. ... .. .. .. .. .. .. .. ... .. .. .. .. .. .. .. ... .. .. .. .. .. .. .. ... .. .. .. .. .. .. .. .. .

−bemin +1

−bemin −bemin −1 0

Rechnerarithmetik

bemin −1 bemin

... ...

... ...

... ...

... ...

. .... .

... ...

bemin +1

... ...

... ... ...

... ...

... ...

bemin +2

 Bild 16.3 Verteilung der betragsm¨aßig kleinen Gleitpunktzahlen aus dem System F aufgef¨ullt worden mit a¨ quidistant verteilten denormalisierten Gleitpunktzahlen. Man beachte je zur Zahl 0 doch, dass auf der anderen Seite die relativen Abst¨ande der Gleitpunktzahlen aus F hin anwachsen bis hin zu |z − x min | = 1. min b z = x x min z∈F, bmin 

16.3 Gleitpunkt–Zahlensysteme in der Praxis 16.3.1

Die Gleitpunktzahlen des Standards IEEE 754

Zwei weitverbreitete Gleitpunkt Zahlensysteme sind •

 24, −125, 128) F(2,

(einfaches Grundformat),



 53, −1021, 1024) F(2,

(doppeltes Grundformat),

die beide Bestandteil des IEEE1 Standards 754 aus dem Jahr 1985 sind, in dem zugleich die Art der Repr¨asentation festgelegt ist. Einzelheiten hierzu werden im Folgenden erl¨autert, wobei mit dem g¨angigeren doppelten Grundformat begonnen wird. Neben den genannten Grundformaten existieren noch erweiterte Gleitpunkt Zahlensysteme – im Folgenden kurz als Weitformate bezeichnet – die ebenfalls in einer einfachen und einer doppelten Version existieren und im Anschluss an die einfachen und doppelten Grundformate vorgestellt werden.  Beispiel 16.14 (IEEE, doppeltes Grundformat) Die Gleitpunktzahlen aus dem System F(2, 53, −1021, 1024) lassen sich in 64 Bit Worten realisieren, wobei jeweils ein Bit zur Darstellung des Vorzeichens σ verwendet wird und 52 Bits die Mantisse sowie 11 Bits den Exponenten ausmachen, 64 Bit-Wort  

σ



a2

a3

... ...



52 Bits f¨ur Mantisse a

a53



e1

e2

...



e11



11 Bits f¨ur Exponenten e

Man beachte, dass bei normalisierten Gleitpunktzahlen f¨ur die f¨uhrende Ziffer der Mantisse notwendigerweise a1 = 1 gilt, so dass hier auf eine explizite Darstellung verzichtet werden kann. Mit den 11 Exponentenbits lassen sich wegen 211 = 2048 die 2046 Exponenten von emin = −1021 bis emax = 1024 kodieren. Dies geschieht in Bias Notation (verschobene 1

IEEE ist eine Abk¨urzung f¨ur “Institute of Electrical and Electronics Engineers“.

Abschnitt 16.3

391

Gleitpunkt– Zahlensysteme in der Praxis

Notation), bei der der Exponent e durch die Dualzahldarstellung der Zahl e − emin + 1 ∈ {1, . . . , emax −emin + 1} = {1, . . . , 2046} repr¨asentiert wird. Von den beiden verbleibenden Bitkombinationen aus dem Exponentenbereich wird die Nullbitfolge 00 · · · 0 zur Umschaltung der Mantisse auf denormalisierte Gleitpunktzahlen (e = emin , a1 = 0) verwendet. Das verbleibende freie Bitmuster 11 · · · 1 verwendet man zur Umschaltung der Mantissenbits f¨ur die Darstellung symbolischer Ausdr¨ucke wie +∞, −∞ oder NaN Ausdrucken, ¨ wobei NaN eine Abk¨urzung f¨ur “Not a Number“ ist und bestimmte arithmetische Gleitpunktoperationen wie “0/0“, “0 × ∞“ oder “∞ − ∞“ symbolisiert. (Nat¨urlich bleiben bei der Umschaltung zur Darstellung solcher symbolischen Ausdr¨ucke die meisten Bitmuster der Mantisse unbelegt.) Die kleinste positive normalisierte sowie die gr¨oßte Gleitpunktzahl sind hier xmin = 2−1022 ≈ 2.23 × 10−308 ,

xmax ≈ 21024 ≈ 1.80 × 10308 ,

w¨ahrend x min = 2−1074 ≈ 4.94 × 10−324 die kleinste positive denormalisierte Gleitpunktzahl ist. Der relative Abstand einer beliebigen Zahl aus dem Bereich {x ∈ R : xmin ≤ |x| ≤ xmax } zum  53, −1021, 1024) betr¨agt h¨ochstens n¨achstgelegenen Element aus F(2, eps = 2−53 ≈ 1.11 × 10−16 .



 Beispiel 16.15 (IEEE, einfaches Grundformat) Die Gleitpunktzahlen aus dem System F(2, 24, −125, 128) werden in 32 Bit Worten kodiert, wovon jeweils 23 Bits f¨ur die Mantisse und 8 Bits f¨ur den Exponenten sowie ein Vorzeichenbit vergeben werden. 32 Bit-Wort 

 σ



a2

a3

...



a24

23 Bits f¨ur Mantisse a



e1

...



e8



8 Bits f¨ur Exponent e

Aufgrund der Identit¨at 28 = 256 lassen sich mit den 8 Exponentenbits die 254 Exponenten von emin = −125 bis emax = 128 in Bias Notation kodieren, und die beiden verbleibenden Bitkombinationen aus dem Exponentenbereich werden wie bei dem doppelten Grundformat verwendet. Die kleinste positive normalisierte sowie die gr¨oßte Gleitpunktzahl sehen hier wie folgt aus, xmin = 2−126 ≈ 1.10 × 10−38 ,

xmax ≈ 2128 ≈ 3.40 × 1038 ,

und x min = 2−149 ≈ 1.40 × 10−45 ist die kleinste positive denormalisierte Gleitpunktzahl. Der relative Abstand einer beliebigen Zahl aus dem Bereich {x ∈ R : xmin ≤ |x| ≤ xmax } zum n¨achst 24, −125, 128) betr¨agt h¨ochstens eps = 2−24 ≈ 0.60 × 10−7 .  gelegenen Element aus F(2, Beispiel 16.16 (IEEE, einfaches und doppeltes Weitformat) Neben dem genannten einfachen und doppelten Grundformat legt der IEEE Standard 754 Gleitpunkt Zahlensysteme im Weitformat fest – wiederum in einer einfachen und einer doppelten Fassung. Hierbei sind im Unterschied zu den Grundformaten lediglich Unterschranken f¨ur die verwendete Bitanzahl und die Mantissenl¨ange sowie Ober und Unterschranken f¨ur den Exponenten vorgeschrieben. Ein

392

Kapitel 16

Rechnerarithmetik

typisches erweitertes Gleitpunkt Zahlensystem aus der Klasse der doppelten Formate ist  64, −16381, 16384), F(2, deren Elemente u¨ ber 80 Bit Worte dargestellt werden mit einem Vorzeichenbit, 64 Bits f¨ur die Mantisse sowie 15 Bits f¨ur den Exponenten. Die kleinste positive normalisierte sowie die gr¨oßte Gleitpunktzahl lauten hier xmin = 2−16382 ≈ 10−4932 ,

xmax ≈ 216384 ≈ 104932 ,

und der maximale relative Abstand einer beliebigen reellen Zahl aus dem Bereich {x ∈ R :  64, −16381, 16384) liegt bei xmin ≤ |x| ≤ xmax } zum n¨achstgelegenen Element aus F(2, −64 −20 eps = 2 ≈ 5.42 × 10 .  Die einfachen und doppelten Grundformate des IEEE-Standards 754 waren beziehungsweise sind in vielen g¨angigen Hardware- und Softwareprodukten implementiert, so zum Beispiel in den Prozessoren von Intel (486DX, Pentium), DEC (Alpha), IBM (RS/6000), Motorola (680x0) und Sun (SPARCstation) oder den Programmiersprachen C++ und Java und den Programmpaketen MATLAB und Scilab.

16.3.2 Weitere Gleitpunkt– Zahlensysteme in der Praxis Im Folgenden werden weitere in der Praxis verwendete Gleitpunkt Zahlensysteme vorgestellt. Beispiel 16.17 (Taschenrechner) Bei wissenschaftlichen Taschenrechnern werden zumeist dezimale Gleitpunkt Zahlensysteme verwendet. Weitverbreitet ist das System F(10, 10, −98, 100), wobei intern mit einer l¨angeren Mantisse (in einigen F¨allen mit 12 Ziffern) gearbeitet wird.  Beispiel 16.18 (Cray) Zwei g¨angige Gleitpunkt Zahlensysteme auf Cray-Rechnern sind die Systeme F(2, 48, −16384, 8191) und F(2, 96, −16384, 8191).  Beispiel 16.19 (IBM System/390) Auf Großrechnern von IBM existieren drei hexadezimale Gleitpunkt Zahlensysteme: F(16, 6, −64, 63) (einfaches Format) sowie F(16, 14, −64, 63) (doppeltes Format) und F(16, 28, −64, 63) (erweitertes Format). Man beachte, dass bei allen drei Systemen lediglich die Mantissenl¨ange und somit die Genauigkeit variiert, der u¨ berdeckte Zahlenbereich hingegen bleibt unver¨andert.  Die charakteristischen Gr¨oßen der vorgestellten sowie einiger anderer praxisrelevanter Systeme von Gleitpunktzahlen sind in Tabelle 16.2 zusammengestellt.

16.4 Runden, Abschneiden Ein erster Schritt bei der Durchf¨uhrung von Algorithmen besteht in der Approximation reeller Zahlen durch Elemente aus dem Gleitpunkt Zahlensystem F. In den folgenden Abschnitten 16.4.1 und 16.4.2 werden hierzu zwei M¨oglichkeiten vorgestellt.

Abschnitt 16.4

Rechner

393

Runden, Abschneiden

Format

Basis  Ziffern Exponentgrenzen denormal

o. Norm

b

t

emin

emax

-125

xmax

xmin

x min

eps

IEEE

einfach

2 24

128

ja

3 × 1038 1 × 10−38 1 × 10−45

.......

doppelt

2 53 -1021 1024

ja

2 × 10308 2 × 10−308 5 × 10−324 1 × 10−16

........

erweit. doppelt

2 64 -16381 16384

ja

1 × 104932 1 × 10−4932 4 × 10−4951 5 × 10−20

IBM 390 .......

6

-64

63

nein 7 × 1075 5 × 10−79

doppelt 16 14

-64

63

nein

10 10

-98

100

einfach 16

Taschenrechner (Bsp.)

......

.......

nein 1 × 1099 1 × 10−99

6 × 10−8



5 × 10−7



1 × 10−16



1 × 10−10

¨ Tabelle 16.2 Ubersicht praxisrelevanter Gleitpunkt– Zahlensysteme

16.4.1 Runden ¨ Die erste Variante zur Approximation reeller Zahlen aus dem Uberdeckungsbereich eines gegebenen Gleitpunkt Zahlensystems F liefert die folgende Definition: Definition 16.20 Zu einem gegebenen Gleitpunkt Zahlensystem F = F(b, t, emin , emax ) mit b gerade ist die Funktion rd : {x ∈ R : xmin ≤ |x| ≤ xmax } → R folgendermaßen erkl¨art, ⎫ ⎧ t   e ⎪ ⎪ ⎪ −k ⎪ ⎪ ak b falls at+1 ≤ b2 − 1 ⎪ b, ⎨σ ⎬ ∞   k=1 rd( x ) = f¨ur x = σ ak b−k be ⎪ ⎪   ⎪ ⎪ k=1 ⎪ ⎪ ⎩σ ⎭ ....... + b−t be , falls at+1 ≥ b2 (16.6) mit einer normalisierten Darstellung f¨ur x entsprechend Theorem 16.2. Man bezeichnet rd( x ) als den auf t Stellen gerundeten Wert von x. Beispiel 16.21 Bez¨uglich der Basis b = 10 und der Mantissenl¨ange t = 3 gilt rd( 0.9996 ) = 1.0 = 0.1 × 101 . Dies verdeutlicht noch, dass sich beim Runden alle Ziffern a¨ ndern k¨onnen.  Der Rundungsprozess liefert das n¨achstliegende Element aus dem System F: Theorem 16.22 Zu einem gegebenen Gleitpunkt Zahlensystem F = F(b, t, emin , emax ) gilt f¨ur jede Zahl x ∈ R mit xmin ≤ |x| ≤ xmax die Eigenschaft rd( x ) ∈ F, mit der Minimaleigenschaft |rd( x ) − x| = minz∈F |z − x|.  −k B EWEIS . Ausgehend von der Notation x = σ( ∞ )be erh¨alt man durch elementare k=1 ak b  −k Absch¨atzungen die folgenden unteren und oberen Schranken f¨ur ∞ k=1 ak b : t  k=1

ak b

−k



∞  k=1

ak b

−k



t  k=1

 ak b

−k

+

∞ 

k=t+1

= b−t  ( b − 1 )b

−k

  b−k+1 − b−k

394

Kapitel 16

Rechnerarithmetik

und daraus folgt  ak b−k be

  t



|x|

  t



k=1



 ak b−k + b−t be .

k=1

  ≤ b−1



 ≤ 1



Daher liegen die Schranken in dem Intervall [ be−1 , be ], so dass die beiden f¨ur rd( x ) infrat t     ge kommenden Werte σ ak b−k be und σ ak b−k + b−t be nach Theorem 16.8 die k=1

k=1

Nachbarn von x aus dem Gleitpunkt Zahlensystem F darstellen. Daraus resultiert insbesondere rd( x ) ∈ F, und im Folgenden wird die Ungleichung |rd( x ) − x| ≤ b−t+e /2

(16.7)

nachgewiesen, wobei die obere Schranke in der Absch¨atzung (16.7) die H¨alfte des Abstands der beiden Nachbarn zueinander darstellt, so dass (16.7) die behauptete Optimalit¨at nach sich zieht. Zum Beweis von (16.7) unterscheidet man zwei Situationen. Im Fall “at+1 ≤ b/2 − 1“ berechnet man |rd( x ) − x|

=

  ∞

 ak b−k be



=

at+1 b−(t+1) +

k=t+1



2

 ak b−k be

k=t+2 −k+1

 b

∞ 



−(t+1)

−1 b

+

∞ 

−k

b −b  

( b − 1 )b−k be

k=t+2

=



+

........

b−(t+1) be

und in der Situation “at+1 ≥ b/2“ erh¨alt man |rd( x ) − x| =



b−t

 ∞  − ak b−k be

=



b−t

=

1 −t+e b , 2

≥ 0 ≥ b−t /2      ∞  − at+1 b−(t+1) − ak b−k be

k=t+1



k=t+2

1 −t+e b . 2

Aus diesen Absch¨atzungen schließlich erh¨alt man die Ungleichung (16.7). Die Situation beim Runden ist in Bild 16.4 veranschaulicht. Als leichte Folgerung aus Theorem 16.22 erh¨alt man das folgende Resultat. Korollar 16.23 In einem gegebenen Gleitpunkt Zahlensystem F = F(b, t, emin , emax ) gilt f¨ur jede Zahl x ∈ R mit xmin ≤ |x| ≤ xmax die folgende Absch¨atzung f¨ur den relativen Rundungsfehler, |rd( x ) − x| |x|



= b−t+1 /2  eps

f¨ur x ∈ R

mit xmin ≤ |x| ≤ xmax .

(16.8)

Abschnitt 16.4

395

Runden, Abschneiden ... .................................................................................................. .................................................................................................. .. .. ... ............................................................................................ .............................................................................................. ... ... .... .. .. .. ... . . .. .. ... ... ..





x0

x1

x2

Bild 16.4 Es stellen x0 , x1 und x2 benachbarte Zahlen aus dem System F dar. Die Pfeile kennzeichnen jeweils Bereiche, aus denen nach x0 , x1 beziehungsweise nach x2 gerundet wird. Eine alternative Fehlerdarstellung ist rd( x ) = x + ................ x

f¨ur ein ................ x ∈ R

.

mit

|...............x| ≤ eps. |x|

(16.9)

B EWEIS . Die Absch¨atzung (16.8) folgt aus dem Beweis von Theorem 16.22 oder direkt aus Theorem 16.10. Die Darstellung (16.9) ergibt sich mit der Setzung ............... x := rd( x ) − x unmittelbar aus der Absch¨atzung (16.8). Bemerkung 16.24 Auch auf dem Intervall ( –xmin , xmin ) stellt (16.6) eine sinnvolle (und dem IEEE-Standard 754 entsprechende) Definition f¨ur die Funktion rd dar, wenn man in (16.6) die  −k )bemin mit a1 = 0. Tats¨achlich normalisierte Darstellung f¨ur x ersetzt durch x = σ( ∞ k=1 ak b  gilt rd( x ) ∈ F und |rd( x ) − x| = minz∈Fb |z − x| f¨ur x ∈ ( –xmin , xmin ), jedoch verliert die Aussage von Korollar 16.23 u¨ ber den relativen Rundungsfehler f¨ur solche Werte von x ihre G¨ultigkeit, was unmittelbar aus Bemerkung 16.13 folgt. Der Fall |x| > xmax f¨uhrt im IEEEStandard 754 zu einem Overflow, genauer zu rd( x ) = ∞ beziehungsweise rd( x ) = −∞. 

16.4.2 Abschneiden Ein einfache Alternative zum Runden stellt das Abschneiden (english: truncate) dar: Definition 16.25 Zu einem gegebenen Gleitpunkt Zahlensystem F = F(b, t, emin , emax ) ist die Funktion tc : {x ∈ R : xmin ≤ |x| ≤ xmax } → R folgendermaßen erkl¨art, tc( x )

=

σ

 t

 ak b−k be

f¨ur x = σ

k=1

 ∞

 ak b−k be .

k=1

Es wird tc( x ) als die auf t Stellen abgeschnittene Zahl x bezeichnet. Die Situation beim Abschneiden ist in Bild 16.5 veranschaulicht. .................................................................................................................................................................................. .................................................................................................................................................................................. ... ... ... .. .. .. ... .. ..



x0

x1



x2

Bild 16.5 Es stellen x0 , x1 und x2 benachbarte Zahlen aus dem System F dar. Die Pfeile kennzeichnen jeweils Bereiche, aus denen nach x0 beziehungsweise nach x1 abgeschnitten wird.

396

Kapitel 16

Rechnerarithmetik

Beispiel 16.26 F¨ur die Basis b = 10 und die Mantissenl¨ange t = 3 gilt die Identit¨at tc( 0.9996 ) = 0.999 × 100 .  Theorem 16.27 Zu einem gegebenen Gleitpunkt Zahlensystem F = F(b, t, emin , emax ) gelten f¨ur jede Zahl x ∈ R mit xmin ≤ |x| ≤ xmax die Eigenschaft tc( x ) ∈ F und die folgende Fehlerabsch¨atzung, |tc( x ) − x| |x|



f¨ur x ∈ R

2eps   b−t+1

mit xmin ≤ |x| ≤ xmax .

(16.10)

Eine alternative Fehlerdarstellung ist tc( x ) = x + ............... x

f¨ur ein ............... x ∈ R

.

mit

|.............. x| ≤ 2eps. |x|

(16.11)

B EWEIS . F¨ur eine beliebige Zahl x ∈ R mit xmin ≤ |x| ≤ xmax weist man die Eigenschaft tc( x ) ∈ F entsprechend der Vorgehensweise im Beweis von Theorem 16.22 nach, und mit der  −k Darstellung x = σ( ∞ )be erh¨alt man die Absch¨atzung (16.10) leicht durch k=1 ak b

|tc( x ) − x| =

  ∞



ak b−k be



k=t+1

b−k+1 − b−k      ∞ ( b − 1 )b−k be = b−t+e k=t+1

sowie der Eigenschaft |x| ≥ bb−1 . Die Darstellung (16.11) resultiert mit der Setzung .............. x := tc( x ) − x unmittelbar aus der Absch¨atzung (16.10). Bemerkung 16.28 Die Aussagen aus Bemerkung 16.24 lassen sich f¨ur die Abschneidefunktion tc u¨ bertragen. 

16.5 Arithmetik in Gleitpunkt–Zahlensystemen In den folgenden Abschnitten werden arithmetische Grundoperationen in Gleitpunkt Zahlensystemen vorgestellt und Absch¨atzungen f¨ur den bei der Hintereinanderausf¨uhrung solcher Operationen entstehenden Gesamtfehler hergeleitet.

16.5.1 Arithmetische Grundoperationen in Gleitpunkt– Zahlensystemen In einem gegebenen Gleitpunkt Zahlensystem F = F(b, t, emin , emax ) sehen naheliegende Realisierungen von Grundoperationen ◦ ∈ {+, −, ×, /} zum Beispiel so aus, x ◦∗ y = rd( x ◦ y )

f¨ur x, y ∈ F

oder x ◦∗ y = tc( x ◦ y ) wobei im Fall der Division y = 0 angenommen ist.

mit xmin ≤ |x ◦∗ y | ≤ xmax , (16.12) ......

(16.13)

Abschnitt 16.5

397

Arithmetik in Gleitpunkt– Zahlensystemen

Bemerkung 16.29 (a) Man beachte, dass f¨ur Operationen von der Gestalt (16.12) oder (16.13) sowohl Assoziativ als auch Distributivgesetze keine G¨ultigkeit besitzen. (b) Praktisch lassen sich (16.12) beziehungsweise (16.13) so realisieren, dass man zu gegebenen Zahlen x, y ∈ F anstelle des exakten Wertes x ◦ y eine Approximation z ≈ x ◦ y ∈ R mit rd( z ) = rd( x ◦ y ) beziehungsweise tc( z ) = tc( x ◦ y ) bestimmt.  F¨ur die folgenden Betrachtungen wird lediglich die Annahme getroffen, dass der bei arithmetischen Grundoperationen in Gleitpunkt Zahlensystemen auftretende relative Fehler dieselbe Gr¨oßenordnung wie der relative Rundungsfehler besitzt, eine weitere Spezifikation ist nicht erforderlich. Definition 16.30 Zu einem gegebenen Gleitpunkt Zahlensystem F = F(b, t, emin , emax ) bezeichnen im Folgenden +∗ , −∗ , ×∗ , /∗ Operationen mit den Eigenschaften x ◦∗ y ∈ F,



x ◦∗ y

=

x, y ∈ F

x ◦ y + η

f¨ur ein η ∈ R,

mit xmin ≤ |x ◦ y | ≤ xmax ,

|η | ≤ K eps |x ◦ y |

(16.14)  ◦ ∈ {+, −, ×, /} ,

wobei im Fall der Division y = 0 angenommen ist, und K ≥ 0 ist eine Konstante. In den F¨allen (16.12) beziehungsweise (16.13) gilt (16.14) mit K = 1 beziehungsweise K = 2. In den beiden n¨achsten Abschnitten werden Absch¨atzungen f¨ur den akkumulierten Fehler bei der Hintereinanderausf¨uhrung von Grundoperationen in Gleitpunkt Zahlensystemen hergeleitet.

16.5.2 Fehlerakkumulation bei der Hintereinanderausfuhrung ¨ von Multiplikationen und Divisionen in Gleitpunkt– Zahlensystemen Das folgende Lemma wird ben¨otigt beim Beweis des darauf folgenden Theorems u¨ ber die Fehlerausbreitung bei der Hintereinanderausf¨uhrung von Multiplikationen und Divisionen in Gleitpunkt Zahlensystemen. Lemma 16.31 F¨ur Zahlen τ1 , . . . , τn ∈ R mit |τk | ≤ ε f¨ur k = 1, 2, . . . , n, und f¨ur Exponenten σ1 , σ2 , . . . , σn ∈ {−1, 1} gilt in der Situation nε < 1 Folgendes, n 

( 1 + τk )σk

=

1 + βn

mit |βn | ≤

k=1

nε . 1 − nε

(16.15)

B EWEIS . Es wird ein Induktionsbeweis u¨ ber n gef¨uhrt, und hierzu seien vorbereitend die folgenden elementaren Absch¨atzungen angegeben, | ( 1 + τk )σk |



1 + ε , 1−ε

|(1 + τk )σk − 1|



ε 1−ε

f¨ur k = 1, 2, . . . , n. (16.16)

398

Kapitel 16

Rechnerarithmetik

Die zweite Absch¨atzung in (16.16) liefert den Induktionsanfang n = 1 f¨ur (16.15), und im Folgenden wird der Induktionsschritt “n → n + 1“ gef¨uhrt. Hierzu schreibt man n+1 

( 1 + τk )σk − 1 = ( 1 + τn+1 )σn+1

k=1

 n

( 1 + τk )σk − 1



+ ( 1 + τn+1 )σn+1 − 1

k=1

und sch¨atzt dann mit (16.15) und der Induktionsannahme folgendermaßen ab,  n+1  (  1 + τk )σk − 1  



k=1

= =

1 + ε nε ε + 1 − ε 1 − nε 1−ε

1 ( n + 1 )ε 1 nε + nε2 + ε − nε2 = 1− 1 − nε 1 −  1 − nε ( n + 1 )ε ( n + 1 )ε , ≤ 1 − ( n + 1 )ε + nε2 1 − ( n + 1 )ε

so dass die Darstellung f¨ur den Fall n + 1 bewiesen und der Induktionsschritt damit abgeschlossen ist. Theorem 16.32 Zu einem gegebenen Gleitpunkt Zahlensystem F = F(b, t, emin , emax ) seien Zahlen x1 , x2 , . . . , xn ∈ R und ............... x1 , ............... x2 , . . . , ............... xn ∈ R gegeben mit .

|............... xk | |xk |

xk + ............ xk ∈ F,



f¨ur k = 1, 2, . . . , n,

K eps

(16.17)

mit ( n − 1 )K eps < 1/4. Weiter sei f¨ur Grundoperationen ◦1 , . . . , ◦n−1 ∈ {×, /} die Eigenschaft (16.14) sowie xmin ≤ |x1 ◦1 . . . ◦j xj | ≤ xmax f¨ur j = 2, . . . , n − 1 erf¨ullt, wobei jeweils noch ein gewisser Abstand zu den Intervallr¨andern xmin und xmax gegeben sei2 . Dann gilt die Fehlerdarstellung (x1 + ............... x1 ) ◦∗1 (x2 + .............. x2 ) ◦∗2 . . . ◦∗n−1 (xn + .............. xn ) =

x1 ◦1 x2 ◦2 . . . ◦n−1 xn + η, mit

|η | |x1 ◦1 . . . ◦n−1 xn |



( 2n − 1 )K eps . 1 − ( 2n − 1 )K eps

B EWEIS . Ausgehend von der Fehlerdarstellung xk + ............... xk = xk ( 1 + τk )

mit |τk | ≤ K eps,

f¨ur k = 1, 2, . . . , n,

berechnet man unter Anwendung von (16.14) (x1 + ............ x1 ) ◦∗1 (x2 + ............. x2 ) = (x1 ( 1 + τ1 ) ) ◦∗1 (x2 ( 1 + τ2 ) )   = (x1 ◦1 x2 ) ( 1 + τ1 ) ◦1 ( 1 + τ2 ) ( 1 + α1 ) mit |α1 | ≤ K eps, 2

Diese Bedingung wird in (16.19) im Beweis pr¨azisiert.

Abschnitt 16.5

399

Arithmetik in Gleitpunkt– Zahlensystemen

und mit einer entsprechenden Vorgehensweise erh¨alt man sukzessive die Darstellungen ⎫ ⎪ ⎪ ⎪ ⎪ ⎬

(x1 + .............. x1 ) ◦∗1 (x2 + .............. x2 ) ◦∗2 · · · ◦∗j−1 (xj + ............... xj ) =

(x1 ◦1 x2 ◦2 . . . ◦j−1 xj )( 1 + β2j−1 )

mit 1 + β2j−1 = ( 1 + τ1 ) ◦1 ( 1 + τ2 ) ◦2 · · · ◦j−1 ( 1 + τj )

j−1 

⎪ ⎪ ⎪ ( 1 + αk ),⎪ ⎭

(16.18)

k=1

f¨ur j = 2, 3, . . . , n, mit |αk | ≤ K eps f¨ur alle k. Die Anwendbarkeit der Eigenschaft (16.14) wird zum Beispiel durch die Bedingung 1 − ( 2n − 2 )K eps x 1 − ( 4n − 4 )K eps min



|x1 ◦1 . . . ◦j−1 xj |





 1 − ( 2n − 2 )K eps xmax , (16.19)

gew¨ahrleistet, denn sie zusammen mit Lemma 16.31 impliziert, dass die Resultate der Multiplikationen und Divisionen in dem Gleitpunkt Zahlensystem allesamt in dem relevanten Bereich {x ∈ R : xmin ≤ |x| ≤ xmax } enthalten sind. Aus der Darstellung (16.18) folgt unter nochmaliger Anwendung von Lemma 16.31 die Aussage des Theorems. Bemerkung 16.33 (a) Theorem 16.32 impliziert die Gutartigkeit von Multiplikationen und Divisionen in Gleitpunkt Zahlensystemen, relative Eingangsfehler werden nicht u¨ berm¨aßig verst¨arkt. (b) Falls in der Situation von Theorem 16.32 etwa die Ungleichung ( 2n − 1 )K eps < 0.1 ≤ 1 erf¨ullt ist, so gilt |η |    x1 ◦1 . . . ◦n−1 xn 



( 2n − 1 )K eps

0.9



(1.12K eps)( 2n − 1 ).

Mit jeder zus¨atzlichen maschinenarithmetischen Multiplikation oder Division kann sich also eine 12–prozentige Fehlerverst¨arkung einstellen. 

16.5.3 Fehlerverst¨arkung bei der Hintereinanderausfuhrung ¨ von Additionen in einem gegebenen Gleitpunkt– Zahlensystem F Das folgende Theorem befasst sich mit der m¨oglichen Fehlerverst¨arkung bei der Hintereinanderausf¨uhrung von Additionen und Subtraktionen in einem gegebenen Gleitpunkt Zahlensystem F = F(b, t, emin , emax ). Dabei werden beliebige Vorzeichen zugelassen, so dass man sich auf die Betrachtung von Additionen beschr¨anken kann. Erl¨auterungen zur Absch¨atzung (16.20) finden Sie in der darauf folgenden Bemerkung 16.35. Theorem 16.34 Zu einem gegebenen Gleitpunkt Zahlensystem F = F(b, t, emin , emax ) seien x1 , x2 , . . . , xn ∈ R und .............. x1 , ............... x2 , . . . , ............... xn ∈ R Zahlen mit der Eigenschaft (16.17), und es bezeichne Sk∗ :=

k  ∗ j=1

(xj + .............. xj ),

Sk :=

k  j=1

xj

f¨ur k = 1, 2, . . . , n,

400 wobei

Kapitel 16 ∗

Rechnerarithmetik

f¨ur eine Hintereinanderausf¨uhrung von Additionen in F von links nach rechts steht.

Dann gilt die folgende Fehlerabsch¨atzung, | Sk∗ − Sk | ≤

  k



( 1 + eps )k−j 2|xj | + |Sj |

j=1



 =: Mk



f¨ur k = 1, 2, . . . , n, (16.20)

eps



falls noch (mit der Notation M0 = 0) die Partialsummen innerhalb gewisser Schranken liegen: xmin + (Mk−1 + |xk |)eps ≤ |Sk | ≤ xmax − (Mk−1 + |xk |)eps, k = 1, 2, . . . , n. (16.21)

B EWEIS . Es wird die Absch¨atzung (16.20) per Induktion u¨ ber k bewiesen. Die Aussage in (16.20) ist sicher richtig f¨ur k = 1, und im Folgenden sei angenommen, dass sie f¨ur ein k ≥ 1 richtig ist. Mit der Notation Sj := Sj∗ − Sj

. ..... ..........

f¨ur j ≥ 1,

. ..... ..........

S0 = 0,

berechnet man mit einer gewissen Zahl τk ∈ R, |τk | ≤ eps, Folgendes, . ...... ..........

Sk =

Sk∗ − Sk

=

∗ Sk−1 +∗ ( xk + ................ xk ) − Sk

= (Sk−1 + .............. Sk−1 ) +∗ ( xk + .............. xk ) − Sk ...

(∗)

.

= (Sk + ...............Sk−1 + ............... xk )( 1 + τk ) − Sk .

.. = ( 1 + τk ).............. Sk−1 + τk Sk + ( 1 + τk )................ xk

und daher ...

|.............. Sk |



...

( 1 + eps )|.............. Sk−1 | + eps(|Sk | + 2|xk |).

(16.22)

Die Identit¨at (∗) folgt hierbei aus der Eigenschaft (16.14), wobei die Resultate der Additionen in dem Gleitpunkt Zahlensystem aufgrund der Annahme (16.21) allesamt in dem relevanten Bereich {x ∈ R : xmin ≤ |x| ≤ xmax } enthalten sind. Die Aussage dieses Theorems ist nun eine unmittelbare Konsequenz aus der Absch¨atzung (16.22) und der Induktionsannahme. Bemerkung 16.35 (a) Der Faktor ( 1 + eps )k−j in der Absch¨atzung (16.20) ist umso gr¨oßer, je kleiner k ist. Daher wird man vern¨unftigerweise beim Aufsummieren mit den betragsm¨aßig kleinen Zahlen beginnen. Dies gew¨ahrleistet zudem, dass die Partialsummen Sk betragsm¨aßig nicht unn¨otig anwachsen. (b) Theorem 16.34 liefert lediglich eine Absch¨atzung f¨ur den absoluten Fehler. Der relative  Fehler | Sn∗ − Sn |/|Sn | jedoch kann groß ausfallen, falls |Sn | klein gegen¨uber n−1 j=1 (|xj | +  |Sj |) + |xn | ist.

Weitere Themen und Literaturhinweise

401

Weitere Themen und Literaturhinweise Eine ausf¨uhrliche Behandlung von Gleitpunkt Zahlensystemen und der Grundarithmetiken fin¨ den Sie etwa in Uberhuber [102] (Band 1), Goldberg [31] oder in Higham [52]. Insbesondere in [102] werden viele weitere interessante Themen wie beispielsweise spezielle Summationsalgorithmen f¨ur Gleitpunktzahlen, numerische Softwarepakete, die Anzahl der ben¨otigten Taktzyklen zur Durchf¨uhrung der vier Grundoperationen +, −, ×, /, die asymptotische Komplexit¨at von Algorithmen und die konkrete Implementierung von arithmetischen Operationen behandelt. Dass letztere nicht immer einwandfrei verl¨auft, zeigt sich am Beispiel der fehlerhaften PentiumChips im Jahr 1994 (Moler [69]).

402

Literaturverzeichnis [1] A SHBY, S. F., T. A. M ANTEUFFEL und P. S AYLOR: A taxomony for conjugate gradient methods. SIAM J. Numer. Anal., 27(6):1542–1568, 1990. [2] BAUMEISTER , J.: Stable Solution of Inverse Problems. Vieweg, Braunschweig/Wiesbaden, 1987. [3] B ERMAN , A. und R. P LEMMONS: Nonnegative Matrices in the Mathematical Sciences. SIAM, Philadelphia, 1. Auflage, Reprint, 1994. [4] B OOR , C. DE: A Practical Guide to Splines. Springer, Heidelberg, Berlin, 1978. ¨ [5] B OLLH OFER , M. und V. M EHRMANN: Numerische Mathematik. Eine projektorientierte Einf¨uhrung f¨ur Ingenieure, Mathematiker und Naturwissenschaftler. Vieweg, Wiesbaden, 2004. [6] B RAESS , D.: Finite Elemente. Springer, Berlin, Heidelberg, New York, 3. Auflage, 2003. [7] B RENAN , K. E., S. L. C AMBELL und L. R. P ETZOLD: Numerical Solution of Initial-Value Problems in Differential-Algebraic Equations. SIAM, Philadelphia, 1. Auflage, Reprint, 1996. [8] B ULIRSCH , R.: Bemerkungen zur Romberg-Iteration. Numer. Math., 6:6–16, 1964. [9] B ULIRSCH , R. und J. S TOER: Numerical treatment of ordinary differential equations by extrapolation methods. Numer. Math., 8:1–13, 1966. [10] B UNSE , W. und A. B UNSE -G ERSTNER: Numerische Mathematik. Teubner, Stuttgart, 1985. [11] C OOLEY, J. W. und J. W. T UKEY: An algorithm for the machine calculation of complex Fourier series. Math. of Computations, 19:297–301, 1965. ¨ ¨ , M. P OHST, K. ROEGNER, M. S CH ORNIG und [12] DABERKOW, M., C. F IEKER, J. K L UNERS K. W ILDANGER: KANT V4. J. Symbolic Computation, 24:267–283, 1997. [13] DAHLQUIST, G.: Stability and error bounds in the numerical integration of ordinary differential equations. Transactions of the Royal Institute of Technology, Stockholm, 130, 1959. [14] DALLMANN , H. und K.-H. E LSTER: Einf¨uhrung in die h¨ohere Mathematik III. Gustav Fischer Verlag, Jena, 2. Auflage, 1992. [15] D EKKER , K. und J. G. V ERWER: Stability of Runge-Kutta methods for stiff nonlinear differential equations. North-Holland, Amsterdam, 1984. [16] D ENNIS , J. E. und R. B. S CHNABEL: Numerical Methods for Unconstrained Optimization and Nonlinear Equations. SIAM, Philadelphia, 1. Auflage, Reprint, 1996. [17] D EUFLHARD , P.: Order and step-size control in extrapolation methods. Numer. Math., 41:399– 422, 1983. [18] D EUFLHARD , P.: Recent progess in extrapolation methods for ordinary differential equations. SIAM Review, 27:505–535, 1985. [19] D EUFLHARD , P.: Newton Methods for Nonlinear Problems. Springer, Heidelberg, Berlin, 2004. [20] D EUFLHARD , P. und F. B ORNEMANN: Numerische Mathematik 2. de Gruyter, Berlin, 2. Auflage, 2002.

Literaturverze