Numerische Mathematik kompakt [2 ed.] 3834802778, 9783834802774

744 50 5MB

German Pages 433 Year 2996

Report DMCA / Copyright

DOWNLOAD FILE

Polecaj historie

Numerische Mathematik kompakt [5 ed.] 9783662641095, 9783662641101

Dieses Lehrbuch behandelt in kompakter und übersichtlicher Form die grundlegenden Themen der numerischen Mathematik. Es

649 132 5MB Read more

Numerische Mathematik kompakt: Grundlagenwissen für Studium und Praxis [4 ed.] 3834810185, 9783834810182

Dieses Lehrbuch behandelt in kompakter und ?bersichtlicher Form die grundlegenden Themen der Numerischen Mathematik. Es

221 31 3MB Read more

Numerische Mathematik [überarbeitete und erweiterte Auflage] 9783486719703

Dieses Buch richtet sich an Mathematik- und Informatikstudenten im Haupt- und Nebenfach. Die Darstellungen sind dem übli

327 90 12MB Read more

Numerische Mathematik I [version 19 Feb 2008 (?) ed.]

653 100 2MB Read more

Numerische Mathematik: [Band] 3 Adaptive Lösung partieller Differentialgleichungen 9783110218039

Thistextbook expands the standard work on numerical mathematics to include the numerics of partial differential equation

176 122 18MB Read more

Vorlesungen über numerische Mathematik, II [Reprint 2021 ed.] 9783112471449, 9783112471432

185 26 89MB Read more

Numerische Mathematik: Band 1 Algebraische Probleme [4., überarbeitete und erweiterte Auflage] 9783110656688, 9783110656657

This two-volume textbook provides an introduction to the theory and practice of modern numerical methods. The most impor

108 24 4MB Read more

Numerische Mathematik: [Band] 2 Gewöhnliche Differentialgleichungen [3rd rev. ed.] 9783110203578, 9783110203561

This textbook deals with the numerical solution of initial and boundary value problems for ordinary differential equatio

193 56 3MB Read more

Numerische Mathematik: Band 1 Algebraische Probleme [4., überarbeitete und erweiterte Auflage] 9783110656688, 9783110656657

This two-volume textbook provides an introduction to the theory and practice of modern numerical methods. The most impor

216 59 16MB Read more

Numerische Mathematik: Band 2 Analytische Probleme [4., überarbeitete und erweiterte Auflage] 9783110690378, 9783110657654

This two-volume textbook provides an introduction to the theory and practice of modern numerical methods. The most impor

210 117 17MB Read more

Numerische Mathematik kompakt [2 ed.]
3834802778, 9783834802774

Author / Uploaded
Robert Plato

Categories
Mathematics

Citation preview

Zur ersten Auflage: „The author has had the courage to add to the many introductions to numerical mathematics that are on the market another one, and he and the publishing house are to be congratulated to the appealing result of his endeavours. The treatise, based on courses the author has taught, addresses students and practitioners of mathematics and other disciplines applying mathematical methods (e. g. computer science, economics, natural and engineering sciences), and requires for its study and use basic knowledge of mathematical analysis and linear algebra. The presentation is concise (this is the meaning of the word compact in the title), avoiding unnecessary redundancies, but nevertheless is self-contained.“ Zentralblatt der Mathematik Prof. Dr. Rudolf Gorenflo, FU Berlin

„(...) kompakte, schnörkellose Darstellung, die schnell auf Wesentliches kommt (...)“ Prof. Dr. Ansgar Jüngel, Uni Mainz

Aus dem Programm Numerische Mathematik

Numerische Mathematik kompakt von R. Plato Übungsbuch zur Numerischen Mathematik von R. Plato Numerische Mathematik für Anfänger von G. Opfer Elementare Numerische Mathematik von B. Schuppar Numerische Mathematik von M. Bollhöfer und V. Mehrmann Numerik linearer Gleichungssysteme von A. Meister Nichtlineare Optimierung von W. Alt Keine Probleme mit Inversen Problemen von A. Rieder Finanzderivate mit MATLAB® von M. Günther und A. Jüngel

vieweg

Robert Plato

Numerische Mathematik kompakt Grundlagenwissen für Studium und Praxis 3., aktualisierte und verbesserte Auflage

Bibliografische Information Der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über abrufbar.

Priv.-Doz. Dr. Robert Plato E-Mail: [email protected] Online-Service: www.math.tu-berlin.de/numerik/plato/viewegbuch

1. Auflage Juni 2000 2., überarbeitete Auflage September 2004 3., aktualisierte und verbesserte Auflage November 2006 Alle Rechte vorbehalten © Friedr. Vieweg & Sohn Verlag | GWV Fachverlage GmbH, Wiesbaden 2006 Lektorat: Ulrike Schmickler-Hirzebruch | Petra Rußkamp Der Vieweg Verlag ist ein Unternehmen von Springer Science+Business Media. www.vieweg.de

Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlags unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen.

Umschlaggestaltung: Ulrike Weigel, www.CorporateDesignGroup.de Druck und buchbinderische Verarbeitung: MercedesDruck, Berlin Gedruckt auf säurefreiem und chlorfrei gebleichtem Papier. Printed in Germany ISBN-10 3-8348-0277-8 ISBN-13 978-3-8348-0277-4

v

Vorwort zur dritten Auflage Für diese Neuauflage habe ich Aktualisierungen vorgenommen, ein paar stilistische und inhalt¨ ¨ liche Dinge verändert sowie einige elementare Ubungsaufgaben hinzugefügt. Die Anderungen gehen zum größten Teil auf Hinweise von Dozenten zurück, die der Verlag Vieweg freundlicherweise an mich weitergeleitet hat und für die ich mich bedanken möchte. Der auf Seite vii näher beschriebene Onlinesupport mit den Lösungshinweisen bleibt auch für diese Neuauflage bestehen.

Berlin, im Oktober 2006

Robert Plato

Vorwort zur zweiten Auflage Für die zweite Auflage ist das Layout etwas verändert worden, und zur Vereinheitlichung der Notation sind einige Umbenennungen erfolgt. Die Literaturhinweise wurden aktualisiert, der Index erweitert und Fehler beseitigt. Die Abschnitte u¨ ber positiv definite Matrizen und das GMRES Verfahren wurden etwas modifiziert, wobei dies auf Anregungen von Prof. Dr. Rembert Reemtsen (TU Cottbus) beziehungsweise G. Fuß (TU Berlin) zurückgeht. Außerdem sind in einigen Kapiteln die einführenden Bemerkungen erweitert worden.

Unter der im Vorwort zur ersten Auflage genannten Adresse wird weiterhin ein Online Service ¨ angeboten. Mittlerweile ist ein Ubungsbuch ([79]) entstanden, das vollständige Lösungswege ¨ zu den meisten der in diesem Buch vorgestellten Ubungsaufgaben sowie zu weiteren Aufgaben enthält. Außerdem werden dort noch ein paar spezielle Anwendungen wie etwa die digitale Audio und Bildkompression etwas eingehender behandelt.

Danken möchte ich der Christian-Albrechts-Universität zu Kiel, wo ich die Möglichkeit hatte, die erste Auflage des vorliegenden Buches vier Semester lang in Vorlesungen einzusetzen. Außerdem möchte ich dem DFG Forschungszentrum “Mathematik für Schlüsseltechnologien“ (FZT 86) in Berlin für Unterstützung und dem Vieweg Verlag für die erneut angenehme Zusammenarbeit danken.

Berlin, im Juni 2004

Robert Plato

vi

Vorwort

Vorwort zur ersten Auflage Das vorliegende Lehrbuch ist hervorgegangen aus zwei jeweils vierstündigen Vorlesungen u¨ ber Numerische Mathematik, die ich seit 1997 wiederholt an der Technischen Universität Berlin gehalten habe. Diese Vorlesungen sind in erster Linie von Studierenden der Wirtschafts und Technomathematik und zu einem kleineren Teil von Studierenden des Diplomstudiengangs Mathematik sowie der Physik und Informatik besucht worden. In seiner jetzigen Form richtet sich das Lehrbuch an Studierende und Absolventen der Mathematik sowie benachbarter Fächer wie Informatik, Natur und Ingenieurwissenschaften an Universitäten und Fachhochschulen. In kompakter Form werden zahlreiche grundlegende und für die Anwendungen wichtige Themenkomplexe aus der Numerischen Mathematik behandelt: •

Interpolation, schnelle Fouriertransformation und Integration,

•

direkte und iterative Lösung linearer Gleichungssysteme,

•

iterative Verfahren für nichtlineare Gleichungssysteme,

•

numerische Lösung von Anfangs und Randwertproblemen bei gewöhnlichen Differentialgleichungen,

•

Eigenwertaufgaben bei Matrizen,

•

Approximationstheorie und Rechnerarithmetik.

Auf die Behandlung der Numerik partieller Differentialgleichungen sowie der nichtlinearen Optimierung wird aufgrund des angestrebten u¨ berschaubaren Umfangs verzichtet. Das Bestreben dieses Lehrbuchs ist es, die vorliegenden Themen auf möglichst elementare und u¨ bersichtliche Weise zu behandeln. Dies gilt auch für die Herleitung der Approximationseigenschaften der vorgestellten numerischen Methoden, bei der jeweils lediglich Grundkenntnisse der Analysis und der linearen Algebra vorausgesetzt werden. Außerdem sind für viele der diskutierten Verfahren die jeweiligen Vorgehensweisen durch Bilder und Schemata veranschaulicht, was das Erlernen der auftretenden Zusammenhänge erleichtern sollte. Für zahlreiche der behandelten Verfahren werden die praktisch bedeutungsvollen Aufwandsbetrachtungen angestellt und Pseudocodes angegeben, die sich unmittelbar in Computerprogramme umsetzen lassen. Die et¨ wa 120 vorgestellten Ubungsaufgaben unterschiedlichen Schwierigkeitsgrads sind fast alle im ¨ Ubungsbetrieb verwendet worden und daher praxiserprobt. Ich selbst habe die Vorläufer dieses Lehrbuchs ohne weitere Themenauswahl als Vorlage für Vorlesungen u¨ ber Numerische Mathematik 1 und 2 verwendet. Dabei wurden die ersten sechs Kapitel in Teil 1 und die Kapitel 7 bis einschließlich 13 in Teil 2 der Vorlesung behandelt. Möglich wäre es aber auch, im ersten Teil die Behandlung des sechsten Kapitels u¨ ber numerische Integration deutlich abzukürzen. Stattdessen könnten dann im ersten Teil beispielsweise noch die Grundlagen u¨ ber Einschrittverfahren zur numerischen Lösung von Anfangswertproblemen bei gewöhnlichen Differentialgleichungen (Kapitel 7) oder Relaxationsverfahren zur iterativen Lösung linearer Gleichungssysteme (Kapitel 10) vorgestellt werden.

vii

Vorwort

Zu diesem Buch wird ein Online Service angeboten, der unter http://www.math.tu-berlin.de/numerik/plato/viewegbuch ¨ abrufbar ist. Er umfasst Lösungshinweise zu den vorgestellten Ubungsaufgaben und MATLAB Programme zu einigen der in diesem Buch präsentierten Pseudocodes. Außerdem werden u¨ ber diesen Online Service im Laufe der Zeit Abschnitte u¨ ber weitere in diesem Buch nicht behandelte Themen beziehungsweise eine Liste der eventuell anfallenden Korrekturen angeboten. Anregungen, nützliche Hinweise und Verbesserungsvorschläge zu diesem Lehrbuch sind jederzeit willkommen und erreichen mich unter meiner Email Adresse [email protected]. Mein Dank gilt meinen Kollegen Prof. Dr. R. D. Grigorieff und Dipl. Math. Etienne Emmrich für viele nützliche Anregungen, die in der vorliegenden Fassung weitestgehend berücksichtigt sind. Den Vorlesungsteilnehmern Dipl. Inf. Till Tantau und cand. math. Olivier Pfeiffer sowie einigen weiteren Studierenden sind zahlreiche kleine aber wichtige Verbesserungen zu verdanken. Außerdem danke ich Prof. Dr. Chuck Groetsch, Prof. Dr. Martin Hanke Bourgeois und Prof. Dr. Hans Jürgen Reinhardt für die Unterstützung bei der Durchführung dieses Buchprojekts und Frau Ulrike Schmickler Hirzebruch vom Verlag Vieweg für die stets angenehme Zusammenarbeit. Berlin, im Mai 2000

Robert Plato

viii

Inhaltsverzeichnis Vorwort

v

Inhaltsverzeichnis

viii

1 Polynominterpolation 1.1 Allgemeine Vorbetrachtungen und Landausche Symbole . . . . . . . . . . . 1.1.1 Landausche Symbole . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Existenz und Eindeutigkeit bei der Polynominterpolation . . . . . . . . . . . 1.2.1 Die Lagrangesche Interpolationsformel . . . . . . . . . . . . . . . . . 1.2.2 Erste Vorgehensweise zur Berechnung des interpolierenden Polynoms 1.3 Neville– Schema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4 Die Newtonsche Interpolationsformel, dividierte Differenzen . . . . . . . . . 1.5 Der bei der Polynominterpolation auftretende Fehler . . . . . . . . . . . . . 1.6 Tschebyscheff– Polynome . . . . . . . . . . . . . . . . . . . . . . . . . . . – Weitere Bemerkungen und Literaturhinweise . . . . . . . . . . . . . . . . . ¨ – Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . .

1 1 2 3 3 4 5 7 10 12 16 17

2 Splinefunktionen 2.1 Einführende Bemerkungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Interpolierende lineare Splinefunktionen . . . . . . . . . . . . . . . . . . . . . 2.2.1 Die Berechnung interpolierender linearer Splinefunktionen . . . . . . . 2.3 Minimaleigenschaften kubischer Splinefunktionen . . . . . . . . . . . . . . . 2.4 Die Berechnung interpolierender kubischer Splinefunktionen . . . . . . . . . . 2.4.1 Vorüberlegungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.2 Natürliche Randbedingungen . . . . . . . . . . . . . . . . . . . . . . . 2.4.3 Vollständige Randbedingungen . . . . . . . . . . . . . . . . . . . . . . 2.4.4 Periodische Randbedingungen . . . . . . . . . . . . . . . . . . . . . . 2.4.5 Existenz und Eindeutigkeit der betrachteten interpolierenden kubischen Splines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Fehlerabschätzungen für interpolierende kubische Splines . . . . . . . . . . . – Weitere Bemerkungen und Literaturhinweise . . . . . . . . . . . . . . . . . . ¨ – Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

20 20 21 21 22 24 24 26 26 27

3 Diskrete Fouriertransformation und Anwendungen 3.1 Diskrete Fouriertransformation . . . . . . . . . . . 3.2 Anwendungen der diskreten Fouriertransformation 3.2.1 Fourierreihen . . . . . . . . . . . . . . . . 3.2.2 Trigonometrische Interpolation, Teil 1 . . .

36 36 37 37 39

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

27 29 33 34

ix

Inhaltsverzeichnis

3.3

– –

3.2.3 Trigonometrische Interpolation, Teil 2 . . . . . . . . . . Schnelle Fourier-Transformation (FFT) . . . . . . . . . . . . . 3.3.1 Einführende Bemerkungen . . . . . . . . . . . . . . . . 3.3.2 Der grundlegende Zusammenhang . . . . . . . . . . . . 3.3.3 Bit– Umkehr . . . . . . . . . . . . . . . . . . . . . . . . 3.3.4 Der FFT– Algorithmus in der Situation N = 2q . . . . . 3.3.5 Aufwandsbetrachtungen für den FFT– Algorithmus . . . 3.3.6 Pseudocode für den FFT– Algorithmus in der Situation N Weitere Bemerkungen und Literaturhinweise . . . . . . . . . . ¨ Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . = 2q . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

4 Lösung linearer Gleichungssysteme 4.1 Gestaffelte lineare Gleichungssysteme . . . . . . . . . . . . . . . . . . . . . . 4.1.1 Obere gestaffelte Gleichungssysteme . . . . . . . . . . . . . . . . . . . 4.1.2 Untere gestaffelte Gleichungssysteme . . . . . . . . . . . . . . . . . . 4.2 Der Gauß– Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Einführende Bemerkungen . . . . . . . . . . . . . . . . . . . . . . . . 4.2.2 Gauß– Algorithmus mit Pivotsuche . . . . . . . . . . . . . . . . . . . . 4.3 Die Faktorisierung P A = LR . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1 Permutationsmatrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.2 Eliminationsmatrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.3 Die Faktorisierung P A = LR . . . . . . . . . . . . . . . . . . . . . . . 4.4 LR– Faktorisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5 Cholesky– Faktorisierung positiv definiter Matrizen . . . . . . . . . . . . . . . 4.5.1 Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.2 Die Berechnung einer Faktorisierung A = LL für positiv definite Matrizen A ∈ R N×N . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.3 Eine Klasse positiv definiter Matrizen . . . . . . . . . . . . . . . . . . 4.6 Bandmatrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.7 Normen und Fehlerabschätzungen . . . . . . . . . . . . . . . . . . . . . . . . 4.7.1 Normen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.7.2 Spezielle Matrixnormen . . . . . . . . . . . . . . . . . . . . . . . . . . 4.7.3 Die Konditionszahl einer Matrix . . . . . . . . . . . . . . . . . . . . . 4.7.4 Störungsresultate für Matrizen . . . . . . . . . . . . . . . . . . . . . . 4.7.5 Fehlerabschätzungen für fehlerbehaftete Gleichungssysteme . . . . . . 4.8 Orthogonalisierungsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 4.8.1 Elementare Eigenschaften orthogonaler Matrizen . . . . . . . . . . . . 4.8.2 Die Faktorisierung A = QR mittels Gram– Schmidt– Orthogonalisierung 4.8.3 Die Faktorisierung A = QS mittels Householder– Transformationen . . 4.8.4 Anwendung 1: Stabile Lösung schlecht konditionierter Gleichungssysteme Ax = b . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.8.5 Anwendung 2: Lineare Ausgleichsrechnung . . . . . . . . . . . . . . .

40 43 43 43 45 46 49 49 50 50 53 53 53 54 55 55 58 58 59 61 63 66 68 68 71 71 72 73 74 77 80 81 82 83 84 85 86 89 89

x

Inhaltsverzeichnis

– –

Weitere Bemerkungen und Literaturhinweise . . . . . . . . . . . . . . . . . . ¨ Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5 Nichtlineare Gleichungssysteme 5.1 Vorbemerkungen . . . . . . . . . . . . . . . . . . . . . 5.2 Der eindimensionale Fall . . . . . . . . . . . . . . . . . 5.2.1 Ein allgemeines Resultat . . . . . . . . . . . . . 5.2.2 Das Newton– Verfahren im eindimensionalen Fall 5.3 Der Banachsche Fixpunktsatz . . . . . . . . . . . . . . 5.4 Das Newton– Verfahren im mehrdimensionalen Fall . . 5.4.1 Einige Begriffe aus der Analysis . . . . . . . . . 5.4.2 Das Newton– Verfahren und seine Konvergenz . . 5.4.3 Nullstellenbestimmung bei Polynomen . . . . . . – Weitere Bemerkungen und Literaturhinweise . . . . . . ¨ – Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

6 Numerische Integration von Funktionen 6.1 Interpolatorische Quadraturformeln . . . . . . . . . . . . . . . 6.2 Spezielle interpolatorische Quadraturformeln . . . . . . . . . . 6.2.1 Abgeschlossene Newton– Cotes– Formeln . . . . . . . . 6.2.2 Andere interpolatorische Quadraturformeln . . . . . . . 6.3 Der Fehler bei der interpolatorischen Quadratur . . . . . . . . . 6.4 Genauigkeit abgeschlossener Newton– Cotes– Formeln . . . . . 6.4.1 Der Beweis von Lemma 6.15 . . . . . . . . . . . . . . . 6.5 Summierte Quadraturformeln . . . . . . . . . . . . . . . . . . 6.5.1 Summierte Rechteckregeln . . . . . . . . . . . . . . . . 6.5.2 Summierte Trapezregel . . . . . . . . . . . . . . . . . . 6.5.3 Summierte Simpson– Regel . . . . . . . . . . . . . . . . 6.6 Asymptotik der summierten Trapezregel . . . . . . . . . . . . . 6.6.1 Die Asymptotik . . . . . . . . . . . . . . . . . . . . . . 6.7 Extrapolationsverfahren . . . . . . . . . . . . . . . . . . . . . 6.7.1 Grundidee . . . . . . . . . . . . . . . . . . . . . . . . . 6.7.2 Neville– Schema . . . . . . . . . . . . . . . . . . . . . 6.7.3 Verfahrensfehler bei der Extrapolation . . . . . . . . . . 6.8 Gaußsche Quadraturformeln . . . . . . . . . . . . . . . . . . . 6.8.1 Einleitende Bemerkungen . . . . . . . . . . . . . . . . . 6.8.2 Orthogonale Polynome . . . . . . . . . . . . . . . . . . 6.8.3 Optimale Wahl der Stützstellen und Gewichte . . . . . . 6.8.4 Nullstellen von orthogonalen Polynomen als Eigenwerte 6.9 Beweis der Asymptotik für die summierte Trapezregel . . . . . 6.9.1 Bernoulli–Polynome . . . . . . . . . . . . . . . . . . . 6.9.2 Der Beweis von Theorem 6.22 . . . . . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

91 92

. . . . . . . . . . .

97 97 98 98 99 100 103 103 105 107 111 111

. . . . . . . . . . . . . . . . . . . . . . . . .

114 115 116 116 118 118 122 124 126 126 127 128 129 129 130 130 131 132 134 134 135 138 140 142 142 143

xi

Inhaltsverzeichnis

– –

Weitere Bemerkungen und Literaturhinweise . . . . . . . . . . . . . . . . . . 145 ¨ Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145

7 Einschrittverfahren fur ¨ Anfangswertprobleme 7.1 Ein Existenz- und Eindeutigkeitssatz . . . . . . . . . . . . . . . . . . . . . . . 7.2 Theorie der Einschrittverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.1 Ein elementares Resultat zur Fehlerakkumulation . . . . . . . . . . . . 7.3 Spezielle Einschrittverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.1 Einschrittverfahren der Konsistenzordnung p = 1 . . . . . . . . . . . . 7.3.2 Einschrittverfahren der Konsistenzordnung p = 2 . . . . . . . . . . . . 7.3.3 Einschrittverfahren der Konsistenzordnung p = 4 . . . . . . . . . . . . 7.4 Rundungsfehleranalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.5 Asymptotische Entwicklung der Approximationen . . . . . . . . . . . . . . . 7.5.1 Einführende Bemerkungen . . . . . . . . . . . . . . . . . . . . . . . . 7.5.2 Herleitung der asymptotischen Entwicklung des globalen Verfahrensfehlers, 1. Teil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.5.3 Herleitung der asymptotischen Entwicklung des globalen Verfahrensfehlers, 2. Teil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.5.4 Asymptotische Entwicklungen des lokalen Verfahrensfehlers . . . . . . 7.6 Extrapolationsmethoden für Einschrittverfahren . . . . . . . . . . . . . . . . . 7.7 Schrittweitensteuerung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.7.1 Verfahrensvorschrift . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.7.2 Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.7.3 Vorgehensweise bei gegebener Testschrittweite h(k) . . . . . . . . . . . 7.7.4 Bestimmung einer neuen Testschrittweite h(k+1) im Fall δ (k) > ε . . . . 7.7.5 Pseudocode zur Schrittweitensteuerung . . . . . . . . . . . . . . . . . . – Weitere Bemerkungen und Literaturhinweise . . . . . . . . . . . . . . . . . . ¨ – Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

147 147 149 151 152 152 153 155 155 157 157

8 Mehrschrittverfahren fur ¨ Anfangswertprobleme 8.1 Grundlegende Begriffe . . . . . . . . . . . . . . . . . . . . 8.1.1 Mehrschrittverfahren . . . . . . . . . . . . . . . . . 8.1.2 Konvergenz– und Konsistenzordnung . . . . . . . . 8.1.3 Nullstabilität, Lipschitzbedingung . . . . . . . . . . ¨ 8.1.4 Ubersicht . . . . . . . . . . . . . . . . . . . . . . . 8.2 Der globale Verfahrensfehler bei Mehrschrittverfahren . . . 8.2.1 Das Konvergenztheorem . . . . . . . . . . . . . . . 8.2.2 Hilfsresultat 1: Das Lemma von Gronwall . . . . . . 8.2.3 Beschränktheit der Matrixfolge A, A2 , A3 , . . . . . . . 8.2.4 Die Konsistenzordnung linearer Mehrschrittverfahren 8.3 Spezielle lineare Mehrschrittverfahren – Vorbereitungen . . 8.4 Adams– Verfahren . . . . . . . . . . . . . . . . . . . . . .

173 173 173 174 175 176 176 176 179 180 182 183 186

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

. . . . . . . . . . . .

158 160 162 163 166 166 166 167 168 169 170 170

xii

Inhaltsverzeichnis

8.5

8.6

8.7 8.8

8.9

– –

8.4.1 Der Ansatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.4.2 Adams– Bashfort– Verfahren . . . . . . . . . . . . . . . . . . . . . . . 8.4.3 Adams– Moulton– Verfahren . . . . . . . . . . . . . . . . . . . . . . . Nyström– und Milne– Simpson– Verfahren . . . . . . . . . . . . . . . . . . . 8.5.1 Der Ansatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.5.2 Nyström– Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.5.3 Milne– Simpson– Verfahren . . . . . . . . . . . . . . . . . . . . . . . . BDF– Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.6.1 Der Ansatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ¨ 8.6.2 Tabellarische Ubersicht u¨ ber spezielle Mehrschrittverfahren . . . . . . . Prädiktor– Korrektor– Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . 8.7.1 Linearer Prädiktor/Linearer Korrektor . . . . . . . . . . . . . . . . . . Lineare homogene Differenzengleichungen . . . . . . . . . . . . . . . . . . . 8.8.1 Die Testgleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.8.2 Existenz und Eindeutigkeit bei linearen homogenen Differenzengleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.8.3 Die komplexwertige allgemeine Lösung der homogenen Differenzengleichung Lu = 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.8.4 Die reellwertige allgemeine Lösung der homogenen Differenzengleichung Lu = 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.8.5 Eine spezielle Differenzengleichung . . . . . . . . . . . . . . . . . . . Steife Differenzialgleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . 8.9.1 Einführende Bemerkungen . . . . . . . . . . . . . . . . . . . . . . . . 8.9.2 Existenz und Eindeutigkeit der Lösung bei Anfangswertproblemen für Differenzialgleichungen mit oberer Lipschitzeigenschaft . . . . . . . . 8.9.3 Das implizite Euler– Verfahren für steife Differenzialgleichungen . . . . 8.9.4 Steife Differenzialgleichungen in den Anwendungen . . . . . . . . . . Weitere Bemerkungen und Literaturhinweise . . . . . . . . . . . . . . . . . . ¨ Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

9 Randwertprobleme 9.1 Problemstellung, Existenz, Eindeutigkeit . . . . . . . . . . . . . . . 9.1.1 Problemstellung . . . . . . . . . . . . . . . . . . . . . . . . . 9.1.2 Existenz und Eindeutigkeit der Lösung . . . . . . . . . . . . . 9.2 Differenzenverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2.1 Numerische Differenziation . . . . . . . . . . . . . . . . . . . 9.2.2 Der Ansatz für Differenzenverfahren . . . . . . . . . . . . . . 9.2.3 Das Konvergenzresultat für Differenzenverfahren . . . . . . . 9.2.4 Vorbereitungen für den Beweis von Teil (a) des Theorems 9.10 9.2.5 Nachweis der Aussage in Teil (a) von Theorem 9.10 . . . . . . 9.3 Galerkin– Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 9.3.1 Einführende Bemerkungen . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

. . . . . . . . . . .

186 186 190 191 191 192 193 195 195 197 197 201 202 202 203 204 208 209 212 212 214 217 219 220 221 226 226 226 227 228 228 230 231 233 237 237 238

Inhaltsverzeichnis

9.4

– –

9.3.2 Eigenschaften des Differenzialoperators Lu = −u + ru . . . . . . . 9.3.3 Galerkin– Verfahren– ein allgemeiner Ansatz . . . . . . . . . . . . . . 9.3.4 Systemmatrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.3.5 Finite– Elemente– Methode . . . . . . . . . . . . . . . . . . . . . . . . 9.3.6 Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.3.7 Das Energiefunktional . . . . . . . . . . . . . . . . . . . . . . . . . . . Einfachschießverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.4.1 Numerische Realisierung des Einfachschießverfahrens mit dem NewtonVerfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.4.2 Numerische Realisierung des Einfachschießverfahrens mit einer Fixpunktiteration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Weitere Bemerkungen und Literaturhinweise . . . . . . . . . . . . . . . . . . ¨ Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10 Gesamtschritt-, Einzelschritt- und Relaxationsverfahren 10.1 Iterationsverfahren zur Lösung linearer Gleichungssysteme . . . . . . . . . . . 10.1.1 Hintergrund zum Einsatz iterativer Verfahren bei linearen Gleichungssystemen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.2 Lineare Fixpunktiteration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.2.1 Ein Modellbeispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.3 Einige spezielle Klassen von Matrizen . . . . . . . . . . . . . . . . . . . . . . 10.3.1 Irreduzible Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.4 Das Gesamtschrittverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.5 Das Einzelschrittverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.5.1 Der Betrag einer Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . 10.5.2 Konvergenzergebnisse für das Einzelschrittverfahren . . . . . . . . . . 10.6 Das Relaxationsverfahren und erste Konvergenzresultate . . . . . . . . . . . . 10.6.1 M– Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.7 Relaxationsverfahren für konsistent geordnete Matrizen . . . . . . . . . . . . . – Weitere Bemerkungen und Literaturhinweise . . . . . . . . . . . . . . . . . . ¨ – Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 CG– und GMRES– Verfahren 11.1 Vorbetrachtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1.1 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Der Ansatz des orthogonalen Residuums . . . . . . . . . . . . . . . . . . . . . 11.2.1 Existenz, Eindeutigkeit und Minimaleigenschaft . . . . . . . . . . . . . 11.2.2 Der Ansatz des orthogonalen Residuums (11.2) für gegebene A– konjugierte Basen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.3 Das CG– Verfahren für positiv definite Matrizen . . . . . . . . . . . . . . . . . 11.3.1 Einleitende Bemerkungen . . . . . . . . . . . . . . . . . . . . . . . . . 11.3.2 Die Berechnung A– konjugierter Suchrichtungen in Kn ( A, b ) . . . . . .

xiii 238 241 244 245 247 249 250 251 252 252 253 257 257 257 258 260 262 262 265 267 267 268 270 272 274 279 280 285 285 286 286 287 288 290 290 290

xiv

Inhaltsverzeichnis

11.3.3 Der Algorithmus zum CG– Verfahren . . . . . . . . . . . . . . . . . . 11.4 Die Konvergenzgeschwindigkeit des CG– Verfahrens . . . . . . . . . . . . . . 11.5 Das CG– Verfahren für die Normalgleichungen . . . . . . . . . . . . . . . . . 11.6 Arnoldi– Prozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.6.1 Vorbetrachtungen zum GMRES– Verfahren . . . . . . . . . . . . . . . 11.6.2 Arnoldi– Prozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.7 GMRES auf der Basis des Arnoldi– Prozesses . . . . . . . . . . . . . . . . . . 11.7.1 Einführende Bemerkungen . . . . . . . . . . . . . . . . . . . . . . . . 11.7.2 Allgemeine Vorgehensweise zur Lösung des betrachteten Minimierungsproblems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.7.3 Detaillierte Beschreibung der Vorgehensweise zur Lösung des betrachteten Minimierungsproblems . . . . . . . . . . . . . . . . . . . . . . . . 11.7.4 MATLAB– Programm für GMRES . . . . . . . . . . . . . . . . . . . . 11.8 Konvergenzgeschwindigkeit des GMRES– Verfahrens . . . . . . . . . . . . . 11.9 Nachtrag 1: Krylovräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.10 Nachtrag 2: Programmsysteme mit Multifunktionalität . . . . . . . . . . . . . – Weitere Bemerkungen und Literaturhinweise . . . . . . . . . . . . . . . . . . ¨ – Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Eigenwertprobleme 12.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . 12.2 Störungstheorie für Eigenwertprobleme . . . . . . . . . . 12.2.1 Diagonalisierbare Matrizen . . . . . . . . . . . . . 12.2.2 Der allgemeine Fall . . . . . . . . . . . . . . . . . 12.3 Lokalisierung von Eigenwerten . . . . . . . . . . . . . . . 12.4 Variationssätze für symmetrische Eigenwertprobleme . . . 12.5 Störungsresultate für Eigenwerte symmetrischer Matrizen 12.6 Nachtrag: Faktorisierungen von Matrizen . . . . . . . . . 12.6.1 Symmetrische Matrizen . . . . . . . . . . . . . . . 12.6.2 Diagonalisierbare Matrizen . . . . . . . . . . . . . 12.6.3 Schur– Faktorisierung . . . . . . . . . . . . . . . . – Weitere Bemerkungen und Literaturhinweise . . . . . . . ¨ – Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

. . . . . . . . . . . . .

13 Numerische Verfahren fur ¨ Eigenwertprobleme 13.1 Einführende Bemerkungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . ¨ 13.1.1 Ahnlichkeitstransformationen . . . . . . . . . . . . . . . . . . . . . . . 13.1.2 Vektoriteration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.2 Transformation auf Hessenbergform . . . . . . . . . . . . . . . . . . . . . . . ¨ 13.2.1 Householder– Ahnlichkeitstransformationen zur Gewinnung von Hessen-

292 293 296 297 297 297 301 301 302 303 305 307 307 308 309 310 312 312 312 312 314 316 319 321 321 322 322 322 323 323 326 326 326 327 328

bergmatrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328 13.2.2 Der symmetrische Fall . . . . . . . . . . . . . . . . . . . . . . . . . . 330

xv

Inhaltsverzeichnis

13.3 Newton– Verfahren zur Berechnung von Eigenwerten . . . . . . . . . . . . . . 13.3.1 Der nichtsymmetrische Fall. Die Methode von Hyman . . . . . . . . . . 13.3.2 Das Newton– Verfahren zur Berechnung der Eigenwerte tridiagonaler Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.4 Das Jacobi– Verfahren für symmetrische Matrizen . . . . . . . . . . . . . . . 13.4.1 Approximation der Eigenwerte durch Diagonaleinträge . . . . . . . . . 13.4.2 Givensrotationen zur Reduktion der Nichtdiagonaleinträge . . . . . . . 13.4.3 Zwei spezielle Jacobi– Verfahren . . . . . . . . . . . . . . . . . . . . . 13.5 Das QR– Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.5.1 Eindeutigkeit und Stetigkeit der QR– Faktorisierung einer Matrix . . . . 13.5.2 Definition des QR– Verfahrens . . . . . . . . . . . . . . . . . . . . . . 13.5.3 Konvergenz des QR– Verfahrens für betragsmäßig einfache Eigenwerte 13.5.4 Praktische Durchführung des QR– Verfahrens für Hessenbergmatrizen . 13.6 Das LR– Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.7 Die Vektoriteration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.7.1 Definition und Eigenschaften der Vektoriteration . . . . . . . . . . . . . 13.7.2 Spezielle Vektoriterationen . . . . . . . . . . . . . . . . . . . . . . . . – Weitere Bemerkungen und Literaturhinweise . . . . . . . . . . . . . . . . . . ¨ – Ubungsaufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 Restglieddarstellung nach Peano 14.1 Einführende Bemerkungen . . . . . . . . . . 14.2 Peano– Kerne . . . . . . . . . . . . . . . . . 14.3 Anwendungen . . . . . . . . . . . . . . . . . 14.3.1 Interpolation . . . . . . . . . . . . . . 14.3.2 Numerische Integration . . . . . . . . – Weitere Bemerkungen und Literaturhinweise ¨ – Ubungsaufgaben . . . . . . . . . . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

15 Approximationstheorie 15.1 Einführende Bemerkungen . . . . . . . . . . . . . . 15.2 Existenz eines Proximums . . . . . . . . . . . . . . 15.3 Eindeutigkeit eines Proximums . . . . . . . . . . . . 15.3.1 Einige Notationen; streng konvexe Mengen . 15.3.2 Strikt normierte Räume . . . . . . . . . . . . 15.4 Approximationstheorie in Räumen mit Skalarprodukt 15.4.1 Einige Grundlagen . . . . . . . . . . . . . . 15.4.2 Proxima in linearen Unterräumen . . . . . . . 15.5 Πn−1 – Proxima bzgl. Maximumnormen . . . . . . . 15.6 Anwendungen des Alternantensatzes . . . . . . . . . 15.6.1 Ein Beispiel . . . . . . . . . . . . . . . . . . 15.6.2 Eine erste Anwendung des Alternantensatzes

. . . . . . .

. . . . . . . . . . . .

. . . . . . .

. . . . . . . . . . . .

. . . . . . .

. . . . . . . . . . . .

. . . . . . .

. . . . . . . . . . . .

. . . . . . .

. . . . . . . . . . . .

. . . . . . .

. . . . . . . . . . . .

. . . . . . .

. . . . . . . . . . . .

. . . . . . .

. . . . . . . . . . . .

. . . . . . .

. . . . . . . . . . . .

. . . . . . .

. . . . . . . . . . . .

. . . . . . .

. . . . . . . . . . . .

. . . . . . .

. . . . . . . . . . . .

. . . . . . .

. . . . . . . . . . . .

331 332 334 335 336 336 340 342 342 345 346 349 354 354 354 356 357 357

. . . . . . .

359 359 360 362 362 362 363 363

. . . . . . . . . . . .

365 365 366 367 368 369 371 371 372 375 378 378 378

xvi

Inhaltsverzeichnis

15.6.3 Eine zweite Anwendung des Alternantensatzes . 15.7 Haarsche Räume, Tschebyscheff– Systeme . . . . . . 15.7.1 Alternantensatz für Haarsche Räume . . . . . . 15.7.2 Eindeutigkeit des Proximums . . . . . . . . . . 15.7.3 Untere Schranken für den Minimalabstand . . . – Weitere Bemerkungen und Literaturhinweise . . . . . ¨ – Ubungsaufgaben . . . . . . . . . . . . . . . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

. . . . . . .

379 380 381 382 382 383 383

16 Rechnerarithmetik 16.1 Zahlendarstellungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16.2 Allgemeine Gleitpunkt– Zahlensysteme . . . . . . . . . . . . . . . . . . . . . 16.2.1 Grundlegende Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . 16.2.2 Struktur des normalisierten Gleitpunkt– Zahlensystems F . . . . . . . . . . . . . . . 16.2.3 Struktur des denormalisierten Gleitpunkt– Zahlensystems F 16.3 Gleitpunkt– Zahlensysteme in der Praxis . . . . . . . . . . . . . . . . . . . . . 16.3.1 Die Gleitpunktzahlen des Standards IEEE 754 . . . . . . . . . . . . . . 16.3.2 Weitere Gleitpunkt– Zahlensysteme in der Praxis . . . . . . . . . . . . 16.4 Runden, Abschneiden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16.4.1 Runden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16.4.2 Abschneiden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16.5 Arithmetik in Gleitpunkt– Zahlensystemen . . . . . . . . . . . . . . . . . . . 16.5.1 Arithmetische Grundoperationen in Gleitpunkt– Zahlensystemen . . . . 16.5.2 Fehlerakkumulation bei der Hintereinanderausführung von Multiplikationen und Divisionen in Gleitpunkt– Zahlensystemen . . . . . . . . . . 16.5.3 Fehlerverstärkung bei der Hintereinanderausführung von Additionen in einem gegebenen Gleitpunkt– Zahlensystem F . . . . . . . . . . . . . . – Weitere Bemerkungen und Literaturhinweise . . . . . . . . . . . . . . . . . .

385 385 386 386 387 389 390 390 392 392 393 395 396 396

Literaturverzeichnis

402

Index

407

397 399 401

1

1

Polynominterpolation

1.1 Allgemeine Vorbetrachtungen und Landausche Symbole Gegenstand dieses und der beiden nachfolgenden Kapitel sind Problemstellungen der folgenden Art: Aus einer vorab festgelegten Menge von Funktionen Mn bestimme man eine Funktion, die durch gegebene Punkte ( x0 , f0 ), ( x1 , f1 ), . . . , ( xn , fn ) ∈ R 2 verläuft. Hierbei ist Mn ⊂ {ψ : I → R } eine problembezogen ausgewählte Menge von Funktionen, wobei I ⊂ R ein endliches oder unendliches Intervall mit paarweise verschiedenen Stutzstellen ¨ x0 , x1 , . . . , xn ∈ I ist. Solche Problemstellungen werden im Folgenden kurz als (eindimensionale) Interpolationsprobleme bezeichnet. Bemerkung 1.1 Interpolationsprobleme treten in unterschiedlichen Anwendungsbereichen auf. Einige davon werden – ohne weitere Spezifikation der Menge Mn – im Folgenden vorgestellt: •

Durch die Interpolation von zeit oder ortsabhängigen Messwerten wird die näherungsweise Ermittlung auch von Daten für solche Zeiten oder Orte ermöglicht, für die keine Messungen vorliegen.

•

Die Interpolation lässt sich ebenfalls sinnvoll einsetzen bei der effizienten näherungsweisen Bestimmung des Verlaufs solcher Funktionen f : I → R, die nur aufwändig auszuwerten sind. Hier wird die genannte Funktion f vorab lediglich an den vorgegebenen Stützstellen ausgewertet. Zur näherungsweisen Bestimmung der Funktionswerte von f an weiteren Stellen werden dann ersatzweise die entsprechenden Werte der interpolierenden Funktion aus Mn herangezogen, wobei hier fj = f ( xj ) für j = 0, 1, . . . , n angenommen wird.

•

Eine weitere wichtige Anwendung stellt das rechnergestützte Konstruieren (Computer-Aided Design, kurz CAD) dar, das beispielsweise zur Konstruktion von Schiffsrümpfen oder zur Festlegung von Schienenwegen verwendet wird. Mathematisch betrachtet geht es hierbei darum, interpolierende Funktionen mit hinreichend guten Glattheitseigenschaften zu verwenden.

•

Es existieren weitere Anwendungen, deren Modellierung auf andere mathematische Problemstellungen führen wie etwa die numerische Integration oder die numerische Lösung von Anfangswertproblemen für gewöhnliche Differenzialgleichungen. Wie sich herausstellen wird, lassen sich hierfür unter Zuhilfenahme der Interpolation numerische Verfahren entwickeln.

Für jedes der vorzustellenden Interpolationsprobleme sind im Prinzip die folgenden Themenkomplexe von Interesse:

2

Kapitel 1 Polynominterpolation

✘

Existenz und Eindeutigkeit der interpolierenden Funktion aus der vorgegebenen Klasse von Funktionen Mn . Dabei ist es aufgrund der vorliegenden ( n + 1 ) Interpolationsbedingungen naheliegend, für Mn lineare Funktionenräume der Dimension ( n + 1 ) heranzuziehen.

✘

Stabile Berechnung der Werte der interpolierenden Funktion an einer oder mehrerer Stellen.

✘

Aufwandsbetrachtungen für jedes der betrachteten Verfahren.

✘

Herleitung von Abschätzungen für den bezüglich einer gegebenen hinreichend glatten Funktion f : [ a, b ] → R und der interpolierenden Funktion auf dem Intervall [ a, b ] auftretenden größtmöglichen Fehler, wobei hier fj = f ( xj ) für j = 0, 1, . . . , n angenommen wird.

1.1.1 Landausche Symbole Im Folgenden werden zunächst die Landauschen Symbole O und O vorgestellt, mit denen sich bei Fehlerabschätzungen und Effizienzbetrachtungen die wichtigen Aussagen herausstellen lassen. Definition 1.2 Gegeben seien zwei Funktionen f, g : R N ⊃ D → R, und x∗ ∈ R N sei ein Häufungspunkt der Menge D, es existiere also eine Folge x( 0) , x( 1) , . . . ⊂ D mit maxj=1,...,N |x(jn) − x∗j | → 0 für n → ∞. (a) Die Notation f ( x ) = O(g ( x ) )

für D x → x∗

ist gleichbedeutend mit der Existenz einer Konstanten K ≥ 0 sowie einer Umgebung U = {x ∈ R N : maxj=1,...,N |xj − x∗j | ≤ δ } von x∗ (mit einer Zahl δ > 0), so dass die folgende Abschätzung gilt, |f ( x ) | ≤ K|g ( x ) |

für x ∈ U ∩ D.

(b) Die Notation f (x) =

O(g ( x ) )

für D x → x∗

wird verwendet, wenn für jede Zahl ε > 0 eine Umgebung U ε = {x ∈ R N : maxj=1,...,N |xj − x∗j | ≤ δε } (mit einer von ε abhängenden Zahl δ = δε > 0) von x∗ existiert, so dass folgendes gilt, |f ( x ) | ≤ ε|g ( x ) |

für x ∈ U ε ∩ D.

Im eindimensionalen Fall N = 1 lassen sich diese Notationen auf die Situation x∗ = ∞ u¨ bertragen, wobei nur die angegebenen Umgebungen durch Mengen der Form U = {x ∈ R : x ≥ M } mit Zahlen M ∈ R zu ersetzen sind. Beispiel 1.3 ( 1 ) Wenn die Funktion g in einer Umgebung von x∗ keine Nullstelle besitzt, ist f ( x ) = O(g ( x ) ) für D x → x∗ gleichbedeutend mit f ( x )/g ( x ) → 0 für D x → x∗ . Gilt zusätzlich noch g ( x∗ ) = 0 und ist g an der Stelle x∗ stetig, so impliziert (jeweils für D x →

Abschnitt 1.2

3

Existenz und Eindeutigkeit bei der Polynominterpolation

x∗ ) die Aussage f ( x ) = O(g ( x ) ) sinngemäß, dass f ( x ) schneller gegen 0 konvergiert als g ( x ) es tut. ( 2 ) Es gilt f ( x ) = O ( 1 ) für x → x∗ genau dann, wenn f ( x ) in einer Umgebung von x∗

beschränkt ist. Weiter gilt f ( x ) = O( 1 ) für x → x∗ genau dann, wenn f ( x ) → 0 für D x → x∗ (Aufgabe 1.1).

1.2 Existenz und Eindeutigkeit bei der Polynominterpolation Im weiteren Verlauf dieses Kapitels werden zur Interpolation von ( n+1 ) beliebigen Stutzpunk¨ ten ( x0 , f0 ), ( x1 , f1 ), . . . , ( xn , fn ) ∈ R 2 mit paarweise verschiedenen Stützstellen x0 , . . . , xn speziell Funktionen aus der Menge Πn := {P : P ist Polynom vom Grad ≤ n} herangezogen; es wird also ein Polynom P mit den folgenden Eigenschaften gesucht,

P ∈ Πn , P ( xj ) = fj

für j = 0, 1, . . . , n.

(1.1)

1.2.1 Die Lagrangesche Interpolationsformel Für den Nachweis der Existenz einer Lösung des Interpolationsproblems (1.1) lassen sich die folgenden Polynome verwenden. Definition 1.4 Zu gegebenen ( n + 1 ) paarweise verschiedenen Stützstellen x0 , x1 , . . . , xn ∈ R sind die ( n + 1 ) Lagrangeschen Basispolynome L0 , L1 , . . . , Ln ∈ Πn folgendermaßen definiert, Lk ( x ) =

n x − xs xk − xs

für k = 0, 1, . . . , n.

s=0 s=k

Bemerkung 1.5 Das Lagrangesche Basispolynom Lk genügt offensichtlich den ( n + 1 ) Interpolationsbedingungen 1 für j = k, Lk ( xj ) = δkj := 0 für j = k. Daraus resultiert auch unmittelbar die lineare Unabhängigkeit der Lagrangeschen Basispolynome L0 , L1 , . . . , Ln , so dass diese eine Basis des ( n+1 ) dimensionalen Raums Πn der Polynome vom Grad ≤ n bilden. Das folgende Theorem behandelt die Frage der Existenz und Eindeutigkeit des interpolierenden Polynoms:

4

Kapitel 1 Polynominterpolation

Theorem 1.6 Zu beliebigen ( n + 1 ) Stützpunkten ( x0 , f0 ), ( x1 , f1 ), . . . , ( xn , fn ) ∈ R 2 mit paarweise verschiedenen Stützstellen x0 , x1 , . . . , xn existiert genau ein interpolierendes Polynom P ∈ Πn (siehe Eigenschaft (1.1)). Es besitzt die Darstellung (Lagrangesche Interpolationsformel) P (x) =

n

fk Lk ( x ).

(1.2)

k=0

B EWEIS . (a) Existenz: Für die Funktion P aus (1.2) gilt P ∈ Πn und P ( xj ) = nk=0 fk δjk = fj für j = 0, 1, . . . , n, wie man sofort nachrechnet. (b) Eindeutigkeit: Wenn auch das Polynom Q ∈ Πn den Interpolationsbedingungen genügt, wenn also Q( xj ) = fj für j = 0, 1, . . . , n erfüllt ist, so gilt Q − P ∈ Πn und ( Q − P )( xj ) = 0

für j = 0, 1, . . . , n.

Damit ist Q − P ein Polynom vom Grad ≤ n mit mindestens n + 1 paarweise verschiedenen Nullstellen, so dass (siehe beispielsweise Fischer [26], Abschnitt 1.3) notwendigerweise Q − P ≡ 0 beziehungsweise Q ≡ P gilt.

1.2.2 Eine erste Vorgehensweise zur Berechnung des interpolierenden Polynoms Im Folgenden sollen Algorithmen zur Berechnung der Werte des interpolierenden Polynoms an einer oder mehrerer Stellen angegeben werden, wobei zur jeweiligen Bewertung auch Aufwandsbetrachtungen angestellt werden. Definition 1.7 Jede der Grundoperationen Addition, Subtraktion, Multiplikation und Division sowie die Wurzelfunktion wird im Folgenden als arithmetische Operation bezeichnet. Der jeweils zu betreibende Aufwand eines Verfahrens lässt sich u¨ ber die Anzahl der durchzuführenden arithmetischen Operationen beschreiben. Der Einfachheit halber bleibt im Folgenden unberücksichtigt, dass ein Mikroprozessor zur Ausführung einer Division beziehungsweise zur Berechnung einer Quadratwurzel jeweils etwa vier mal so viel Zeit benötigt wie zur ¨ Durchführung einer Addition, einer Subtraktion oder einer Multiplikation ( Uberhuber [102], Abschnitt 5.5). Wie sich herausstellt, ist die folgende Zielsetzung realistisch: Angestrebtes Ziel ist die Herleitung von Verfahren, für die das zu ( n+ 1 ) Stützpunkten gehörende interpolierende Polynom P ( siehe (1.1) ) nach einer Anlaufrechnung mit O( n2 ) arithmetischen Operationen an jeder Stelle x ∈ R in O( n ) arithmetischen Operationen ausgewertet werden kann. Hierbei sind Ausdrücke der Form “O( nq )“ eine Kurzform für “O( nq ) für n → ∞“.

(1.3)

Abschnitt 1.3

5

Neville– Schema

Eine erste Variante zur Bestimmung eines interpolierenden Polynoms mit dem in (1.3) angestrebten maximalen Aufwand basiert auf der folgenden Darstellung für die Lagrangeschen Basispolynome, Lk ( x ) =

n x − xs xk − xs

s=0 s=k

=

κk q ( x ), x − xk

mit κk =

k = 0, 1, . . . , n, n s=0 s=k

1 , xk − xs

(1.4) q( x ) =

n

( x − xs ).

s=0

Die Zahlen κ0 , κ1 , . . . , κn , die auch als Stutzkoeffizienten ¨ bezeichnet werden, lassen sich mit einem Aufwand von insgesamt O( n2 ) arithmetischen Operationen ermitteln. Sind diese Koeffi n zienten einmal berechnet, so lässt sich für jede Zahl x ∈ R der Wert P ( x ) = q ( x ) k=0 κk fk / ( x − xk ) in O ( n ) arithmetischen Operationen bestimmen, wie man sich leicht u ¨ berlegt. Diese Vorgehensweise zur Berechnung von P ( x ) lässt sich also mit in (1.3) angestrebten maximalen Aufwand realisieren und hat zudem den praxisrelevanten Vorteil, dass die in der Anlaufrechnung berechneten Koeffizienten κ0 , κ1 , . . . , κn nicht von den Stützwerten f0 , f1 , . . . , fn abhängen. Bei einem Wechsel der Stützwerte f0 , f1 , . . . , fn unter gleichzeitiger Beibehaltung der Stützstellen x0 , x1 , . . . , xn ist also eine erneute Anlaufrechnung nicht erforderlich. Bemerkung 1.8 Die Entwicklung des interpolierenden Polynoms P ∈ Πn als Linearkombination der Lagrangeschen Basispolynome in Kombination mit der in diesem Abschnitt 1.2.2 beschriebenen Vorgehensweise zur Auswertung von P ( x ) führt jedoch für nahe bei Stützstellen liegende Zahlen x zu Instabilitäten, was zurückzuführen ist auf auftretende Brüche mit betragsmäßig kleinen Nennern und Zählern. Andererseits führt der Ansatz P ( x ) = nk=0 ak xk als Linearkombination der Monome zusammen mit den Interpolationsbedingungen auf ein lineares Gleichungssystem, dessen Lösung sich als zu aufwändig und zu empfindlich gegenüber Rundungsfehlern erweist. In Abschnitt 1.4 wird eine Darstellung des interpolierenden Polynoms bezüglich einer anderen Basis behandelt, mit der sich das interpolierende Polynom P mit dem in (1.3) angegebenen maximalen Aufwand stabil berechnen lässt.

1.3 Neville–Schema Die Lösung für das Interpolationsproblem (1.1) kann schrittweise aus den interpolierenden Polynomen zu m = 0, 1, . . . Stützpunkten berechnet werden, wie sich im Folgenden herausstellt. Einerseits wird dieses Resultat für den Beweis der wesentlichen Aussage des nachfolgenden Abschnitts benötigt, andererseits erhält man dabei eine allgemein beliebte Vorgehensweise zur Auswertung des interpolierenden Polynoms an einigen wenigen Stellen. Definition 1.9 Seien k, m ∈ N0 . Zu den ( m + 1 ) Stützpunkten ( xk , fk ), ( xk+1 , fk+1 ), . . . , ( xk+m , fk+m ) bezeichne Pk,k+1,...,k+m dasjenige (eindeutig bestimmte) Polynom vom Grad ≤ m

6

Kapitel 1 Polynominterpolation

mit der Eigenschaft Pk,k+1,... ,k+m( xj ) = fj

für j = k, k + 1, . . . , k + m.

(1.5)

Für die vorgestellten Polynome Pk,k+1,...,k+m besteht die folgende Rekursionsbeziehung: Theorem 1.10 Seien ( x0 , f0 ), ( x1 , f1 ), . . . , ( xn , fn ) vorgegebene Stützpunkte. Für die Interpolationspolynome Pk,k+1,... ,k+m (mit k ≥ 0 und m ≥ 0 mit k + m ≤ n) aus (1.5) gilt die Rekursionsformel Pk ( x ) ≡ fk , (1.6) ( x − xk )Pk+1,...,k+m ( x ) − ( x − xk+m )Pk,...,k+m−1 ( x ) Pk,k+1,... ,k+m ( x ) = , m ≥ 1. (1.7) xk+m − xk B EWEIS . Die Identität (1.6) ist wegen Pk ∈ Π0 und Pk ( xk ) = fk offensichtlich richtig. Es bezeichne Q( x ) die rechte Seite von (1.7), und Q = Pk,k+1,...,k+m ist dann nachzuweisen, was im Folgenden geschieht. Es gilt Pk+1,...,k+m ∈ Πm−1 und Pk,...,k+m−1 ∈ Πm−1 und demnach Q ∈ Πm . Weiter gilt Q( xk ) =

0 − ( xk − xk+m )fk xk+m − xk

= fk ,

Q( xk+m ) =

( xk+m − xk )fk+m − 0 xk+m − xk

= fk+m ,

und für j = k + 1, k + 2, . . . , k + m − 1 gilt Q( xj ) =

( xj − xk )fj − ( xj − xk+m )fj xk+m − xk

( −xk + xk+m )fj xk+m − xk

=

= fj .

Aufgrund der Eindeutigkeit des interpolierenden Polynoms (Theorem 1.6) gilt daher notwendigerweise die Identität Q = Pk,k+1,... ,k+m . Die sich für die Werte Pk,k+1,...,k+m ( x ) aus der Rekursionsformel (1.7) ergebenden Abhängigkeiten sind in Schema 1.1 dargestellt, das als Neville Schema bezeichnet wird.

f0 = P0 ( x ) f1 = P1 ( x )

→

P01 ( x )

f2 = P2 ( x ) .. .

→

P12 ( x ) .. .

→ P012 ( x ) .. .. . .

fn−1 = Pn−1 ( x ) → Pn−2,n−1 ( x ) → fn = Pn ( x )

···

· · · P0...n−1 ( x )

···

· · · P1...n ( x ) → P0...n ( x )

→ Pn−1,n ( x ) →

Schema 1.1 Neville–Schema

Abschnitt 1.4

7

Die Newtonsche Interpolationsformel, dividierte Differenzen

Die Einträge in Schema 1.1 lassen sich beispielsweise spaltenweise jeweils von oben nach unten berechnen. Wie bereits erwähnt wird das resultierende Verfahren zur Auswertung des interpolierenden Polynoms P ( x ) = P0...n ( x ) an einzelnen Stellen x verwendet, wobei jeweils 7n2 /2 + O( n ) arithmetische Operationen anfallen, wie man leicht nachzählt. Beispiel 1.11 Man betrachte folgende Stützpunkte, j xj fj

0 1 0 1 1 3

2 3 2

Für x = 2 sind die Werte des Neville Schemas in Schema 1.2 angegeben. f0 = P0 ( 2 ) = 1 f1 = P1 ( 2 ) = 3

P01 ( 2 ) = 5

f2 = P2 ( 2 ) = 2

P12 ( 2 ) = 5/2

P012 ( 2 ) = 10/3

Schema 1.2 Neville–Schema zu Beispiel 1.11 Die Einträge in Schema 1.2 ergeben sich dabei folgendermaßen: P01 ( 2 ) =

( 2 − 0 )P1 ( 2 ) − ( 2 − 1 )P0 ( 2 ) 1−0

=

2·3−1·1 1

P12 ( 2 ) =

( 2 − 1 )P2 ( 2 ) − ( 2 − 3 )P1 ( 2 ) 3−1

=

1 · 2 − (−1) · 3 2

P012 ( 2 ) =

= 5, 5

= 2,

( 2 − 0 )P12 ( 2 ) − ( 2 − 3 )P01 ( 2 ) 2 · 5/2 − (−1) · 5 = 3−0 3

=

10 . 3

1.4 Die Newtonsche Interpolationsformel, dividierte Differenzen In diesem Abschnitt wird eine weitere Darstellung des interpolierenden Polynoms behandelt. Hierfür werden die folgenden Basispolynome benötigt. Definition 1.12 Zu gegebenen paarweise verschiedenen ( n+ 1 ) Stützstellen x0 , x1 , . . . , xn ∈ R sind die speziellen ( n + 1 ) Newtonschen Basispolynome folgendermaßen erklärt: 1,

x − x0 ,

( x − x0 )( x − x1 ), . . . . . . , ( x − x0 )( x − x1 ) . . . ( x − xn−1 ).

Das gesuchte interpolierende Polynom P ∈ Πn mit P ( xj ) = fj für j = 0, 1, . . . , n (vergleiche (1.1)) soll nun als Linearkombination der Newtonschen Basispolynome dargestellt werden,

8

Kapitel 1 Polynominterpolation

also in der Form P ( x ) = a0 + a1 ( x − x0 ) + a2 ( x − x0 )( x − x1 ) + . . .

. . . + an ( x − x0 )( x − x1 ) . . . ( x − xn−1 )

(1.8)

mit noch zu bestimmenden Koeffizienten a0 , a1 , . . . , an . Sind die Koeffizienten a0 , a1 , . . . , an erst einmal bestimmt, so kann für jede Zahl x = ξ das Polynom (1.8) mit dem Horner Schema

P(ξ ) =

. . . an ( ξ − xn−1 ) + an−1 ( ξ − xn−2 ) + . . . + a1 ( ξ − x0 ) + a0

ausgewertet werden, wobei die (insgesamt 3n) arithmetischen Operationen von links nach rechts auszuführen sind. Bemerkung 1.13 Die Koeffizienten a0 , a1 , . . . , an können im Prinzip aus den Gleichungen f0 = P ( x0 ) = a0 , f1 = P ( x1 ) = a0 + a1 ( x1 − x0 ), f2 = P ( x2 ) = a0 + a1 ( x2 − x0 ) + a2 ( x2 − x0 )( x2 − x1 ), .. .. .. . . . gewonnen werden, wobei allerdings n3 /3 + O( n2 ) arithmetische Operationen anfallen, wie man sich leicht u¨ berlegt. Im Folgenden soll eine günstigere Vorgehensweise vorgestellt werden, die eine Berechnung dieser Koeffizienten mit den angestrebten O( n2 ) arithmetischen Operationen ermöglicht. Definition 1.14 Zu gegebenen Stützpunkten ( x0 , f0 ), ( x1 , f1 ), . . . , ( xn , fn ) ∈ R 2 sind die dividierten Differenzen folgendermaßen erklärt: f [ xk ] := fk , k = 0, 1, . . . , n, [ f xk+1 , . . . , xk+m ] − f [ xk , . . . , xk+m−1 ] f [ xk , . . . , xk+m ] := , xk+m − xk für 0 ≤ k, m ≤ n mit k + m ≤ n. Bemerkung 1.15 1. Die dividierte Differenz f [ xk , . . . , xk+m ] hängt neben den Stützstellen xk , xk+1 , . . . , xk+m auch von den Stützwerten fk , fk+1, . . . , fk+m ab. 2. Werden die Stutzwerte ¨ etwa mit gj anstelle fj bezeichnet, so wird für die dividierten Differenzen naheliegenderweise die Bezeichnung g [ xk , . . . , xk+m ] verwendet. 3. Für die Berechnung aller dividierten Differenzen zu den Stützpunkten ( x0 , f0 ), ( x1 , f1 ), . . . , ( xn , fn ) ∈ R 2 sind lediglich 3n( n + 1 )/2 arithmetische Operationen erforderlich. Die Abhängigkeiten zwischen den dividierten Differenzen sind in Schema 1.3 dargestellt.

Abschnitt 1.4

9

Die Newtonsche Interpolationsformel, dividierte Differenzen

f0 = f [ x0 ] f1 = f [ x1 ]

→

f [ x0 , x1 ]

f2 = f [ x2 ] .. .

→

f [ x1 , x2 ] .. .

→ f [ x0 , x1 , x2 ] .. .. . .

fn−1 = f [ xn−1 ] → f [ xn−2 , xn−1 ] → fn = f [ xn ]

···

· · · f [ x0 , . . . , xn−1 ]

→ f [ xn−1 , xn ] →

···

· · · f [ x1 , . . . , xn ] → f [ x0 , . . . , xn ]

Schema 1.3 Abhängigkeiten zwischen den dividierten Differenzen Beispielsweise gilt f [ x0 , x1 ] = f [ x0 , x1 , x2 ] =

f [ x1 ] − f [ x0 ] , x1 − x0

f [ x1 , x2 ] =

f [ x2 ] − f [ x1 ] , x2 − x1

f [ x1 , x2 ] − f [ x0 , x1 ] . x2 − x0

Das nachfolgende Theorem liefert die wesentliche Aussage dieses Abschnitts 1.4. Theorem 1.16 (Newtonsche Interpolationsformel) Für das interpolierende Polynom P ∈ Πn zu gegebenen ( n + 1 ) Stützpunkten ( x0 , f0 ), ( x1 , f1 ), . . . , ( xn , fn ) ∈ R 2 gilt P ( x ) = f [ x0 ] + f [ x0 , x1 ]( x − x0 ) + . . . . . . + f [ x0 , . . . , xn ]( x − x0 )( x − x1 ) · · · ( x − xn−1 ).

(1.9)

B EWEIS . Dieser wird per vollständiger Induktion u¨ ber n geführt. Die Aussage ist sicher richtig für n = 0 und beliebige Stützpunkte ( x0 , f0 ), und es sei nun angenommen, dass sie richtig ist für n ∈ N0 und beliebige Stützpunkte ( x0 , f0 ), ( x1 , f1 ), . . . , ( xn , fn ) ∈ R 2 . Im Folgenden seien ( n + 2 ) Stützpunkte ( x0 , f0 ), ( x1 , f1 ), . . . , ( xn+1 , fn+1 ) ∈ R 2 gegeben, und P ∈ Πn+1 bezeichne das zugehörige interpolierende Polynom. Mit der Notation aus Definition 1.9 gilt dann P − P0,... ,n ∈ Πn+1 , P ( xj ) − P0,...,n ( xj ) = 0

für j = 0, 1, . . . , n,

und damit gilt P ( x ) − P0,...,n ( x ) = a( x − x0 ) · · · ( x − xn ) beziehungsweise P ( x ) = P0,...,n ( x ) + a( x − x0 ) · · · ( x − xn )

(1.10)

10

Kapitel 1 Polynominterpolation

¨ mit einer geeigneten Konstanten a ∈ R ( Ubungsaufgabe; folgt aus der Eindeutigkeit des interpolierenden Polynoms (Theorem 1.6)). Nach Induktionsvoraussetzung gilt

P0,...,n ( x ) = f [ x0 ] + f [ x0 , x1 ]( x − x0 ) + . . . . . . + f [ x0 , . . . , xn ]( x − x0 )( x − x1 ) · · · ( x − xn−1 ),

(1.11)

so dass wegen (1.10), (1.11) noch a = f [ x0 , . . . , xn+1 ]

(1.12)

nachzuweisen ist. Zu diesem Zweck verwendet man entsprechend Theorem 1.10 die Identität P (x) =

( x − x0 )P1,...,n+1 ( x ) − ( x − xn+1 )P0,...,n ( x )

xn+1 − x0

(1.13)

und führt in (1.13) einen Koeffizientenvergleich durch. Wegen der Identität (1.10) ist klar, dass a der führende Koeffizient von P ist, es gilt also P = Q + axn+1 für ein gewisses Polynom Q ∈ Πn . Andererseits ist nach Induktionsvoraussetzung bekannt, dass das Polynom P1,...,n+1 den führenden Koeffizienten f [ x1 , . . . , xn+1 ] sowie P0,...,n den führenden Koeffizienten f [ x0 , . . . , xn ] besitzt; wegen (1.13) besitzt P also tatsächlich den führenden Koeffizienten a =

f [ x1 , . . . , xn+1 ] − f [ x0 , . . . , xn ] xn+1 − x0

def

= f [ x0 , . . . , xn+1 ],

was identisch mit (1.12) ist und den Beweis komplettiert.

1.5 Der bei der Polynominterpolation auftretende Fehler Das folgende Theorem liefert für hinreichend glatte Funktionen eine Darstellung des bei der Polynominterpolation auftretenden Fehlers. Theorem 1.17 Die Funktion f : [ a, b ] → R sei ( n + 1 ) mal differenzierbar und sei P ∈ Πn das Polynom mit P ( xj ) = f ( xj ) für j = 0, 1, . . . , n. Für jedes x ∈ [ a, b ] gilt dann die Fehlerdarstellung f (x) − P (x)

=

ω ( x ) f (n+1) ( ξ ) , ( n + 1 )!

(1.14)

mit einer Zwischenstelle ξ = ξ ( x ) ∈ [ a, b ] und ω ( x ) := ( x − x0 ) · · · ( x − xn ). B EWEIS . Falls x = xj für ein j gilt, so verschwinden beide Seiten der Gleichung (1.14). Sei nun x ∈ {x0 , x1 , . . . , xn } und sei ψ ( x ) := f ( x ) − P ( x ) − K ω ( x ),

Abschnitt 1.5

11

Der bei der Polynominterpolation auftretende Fehler

wobei die Konstante K so gewählt sei, dass ψ( x ) = 0 erfüllt ist. Im Folgenden soll eine spezielle Darstellung für die Konstante K hergeleitet werden. Hierzu beobachtet man, dass die Funktion ψ in dem Intervall [ a, b ] mindestens ( n+2 ) paarweise verschiedene Nullstellen x0 , . . . , xn , x besitzt. Eine wiederholte Anwendung des Theorems von Rolle zeigt: Die Funktion ψ besitzt in dem Intervall [ a, b ] mindestens ( n + 1 ) paarweise verschiedene Nullstellen, die Funktion ψ besitzt in [ a, b ] mindestens noch n paarweise verschiedene Nullstellen, und eine Fortführung dieses Arguments liefert die Existenz einer Nullstelle ξ der Funktion ψ (n+1) in dem Intervall [ a, b ]. Nun gilt aber (∗)

P ( n+1) ≡ 0,

ω (n+1) ≡ ( n + 1 )!,

wobei man die Identität (∗) aufgrund des Umstands erhält, dass ω ∈ Πn+1 den führenden Koeffizienten eins besitzt. Insgesamt erhält man ψ ( n+1) ( ξ ) = f (n+1) ( ξ ) − K ( n + 1 )! = 0 beziehungsweise K = komplettiert.

f

(n+1) (

ξ) , ( n+1 )!

was den Nachweis für die angegebene Fehlerdarstellung (1.14)

Der Fehlerdarstellung (1.14) kann man unmittelbar entnehmen, dass beliebig oft differenzierbare Funktionen f : [ a, b ] → R mit gleichmäßig beschränkten Ableitungen durch interpolierende Polynome gut approximiert werden (siehe das nachfolgende Theorem). Vorbereitend wird für eine Unterteilung ∆ = a = x(0∆) < x(1∆) < . . . < x(n∆( ∆) ) = b des vorgegebenen Intervalls [ a, b ] das nachfolgende Maß für die Feinheit der Unterteilung ∆ eingeführt, ||∆|| :=

∆) max {x(j∆) − x(j−1 }.

1≤j≤n( ∆ )

Man beachte, dass das folgende Theorem auch für Intervallunterteilungen ∆( 0) , ∆(1) , . . . mit der Eigenschaft ||∆(m) || → 0 für m → ∞ gültig ist. Theorem 1.18 Die Funktion f : [ a, b ] → R sei unendlich oft differenzierbar mit maxx ∈ [ a, b ] |f (s) ( x ) | ≤ M für s = 0, 1, . . ., mit einer endlichen Konstanten M. Weiter sei ∆(0) , ∆(1) , . . . eine Folge von Unterteilungen des Intervalls [ a, b ] mit nm := n(∆( m) ) → ∞ für m → ∞. Dann konvergiert die zugehörige Folge der interpolierenden Polynome Pm ∈ Πnm (welche bezüglich der Unterteilung ∆( m ) die zugehörigen Funktionswerte von f interpolieren) gleichmäßig gegen die Funktion f . B EWEIS . Mit der Notation aus Theorem 1.17 gilt maxx ∈ [ a, b ] |ω ( x ) | ≤ ( b − a )nm +1 und somit max |Pm ( x ) − f ( x ) |

x ∈ [ a, b ]

≤

M

( b − a )nm +1 ( nm

+ 1 )!

→ 0

für m → ∞.

12

Kapitel 1 Polynominterpolation

Gleichmäßige Konvergenz der Interpolationspolynome erhält man auch unter geringeren Differenzierbarkeitsannahmen an die Funktion f (siehe Maess [66], Band 2). Im Allgemeinen kann man jedoch nicht erwarten, dass eine fest vorgegebene stetige Funktion auf einem kompakten Intervall umso besser durch ein interpolierendes Polynom approximiert wird, je feiner nur die Unterteilung der Stützstellen gewählt wird. Diese Aussage wird in dem folgenden Theorem 1.19 präzisiert, das hier ohne Beweis angegeben wird und insbesondere für Intervallunterteilungen ∆(0) , ∆(1) , . . . mit ||∆( m) || → 0 für m → ∞ von Bedeutung ist. Theorem 1.19 (Faber) Zu jeder Folge von Unterteilungen ∆(0) , ∆(1) , . . . des Intervalls [ a, b ] gibt es eine stetige Funktion f : [ a, b ] → R, so dass die Folge der Polynome Pm ∈ Πn(∆(m) ) (welche bezüglich der Unterteilung ∆( m) die zugehörigen Funktionswerte von f interpolieren) für m → ∞ nicht gleichmäßig gegen die Funktion f konvergieren. Eine weitere, ohne Differenzierbarkeitsannahmen auskommende Fehlerdarstellung zur Polynominterpolation wird durch dividierte Differenzen ermöglicht: Theorem 1.20 Mit den Notationen von Theorem 1.17 mit einer beliebigen Funktion f : [ a, b ] → R gilt im Fall x ∈ {x0 , . . . , xn } die folgende Darstellung für den Interpolationsfehler, f ( x ) − P ( x ) = f [x0 , . . . , xn , x] ω ( x ). B EWEIS . Mit xn+1 := x gilt aufgrund von Theorem 1.16 die Darstellung P0,...,n+1 ( x )

=

P0,...,n ( x ) + f [x0 , . . . , xn , x] ω ( x ) = P (x)

für x ∈ R,

und mit der Identität f ( x ) = P0,...,n+1( x ) folgt dann die Aussage des Theorems. Als Konsequenz aus den Theoremen 1.17 und 1.20 erhält man den folgenden Mittelwertsatz für höhere Ableitungen: Korollar 1.21 Zu jeder n mal differenzierbaren Funktion f : [ a, b ] → R und paarweise verschiedenen Stützstellen x0 , x1 , . . . , xn ∈ [ a, b ] existiert eine Zwischenstelle ξ = ξ ( x ) ∈ [ a, b ] mit f [ x0 , . . . , xn ] =

f (n) ( ξ ) , n!

wobei die Stützwerte durch fj = f ( xj ) für j = 0, 1, . . . , n festgelegt sind. B EWEIS . Für n = 0 ist die Aussage trivialerweise richtig, und für n ≥ 1 folgt sie unmittelbar aus einem Vergleich der rechten Seiten in den Theoremen 1.17 und 1.20, angewandt mit den Stützstellen x0 , . . . , xn−1 und für x = xn .

1.6 Tschebyscheff–Polynome In diesem Abschnitt wird unter anderem der Frage nachgegangen, für welche Stützstellen x0 , x1 , . . . , xn ∈ [ a, b ] der Ausdruck maxx∈[ a, b ] | ( x − x0 ) . . . ( x − xn ) | am kleinsten wird, es ist also

Abschnitt 1.6

13

Tschebyscheff– Polynome

eine Lösung des Minimax-Problems max | ( x − x0 ) . . . ( x − xn ) | → min

für x0 , x1 , . . . , xn ∈ [ a, b ]

x ∈ [ a, b ]

zu bestimmen. Die Darstellung (1.14) lässt bei einer solchen “optimalen“ Wahl der Stützstellen (falls diese zudem paarweise verschieden sind) einen minimalen Fehler bei der Polynominterpolation erwarten. Die Untersuchungen werden zunächst auf das Intervall [ a, b ] = [ –1, 1 ] beschränkt; auf die allgemeine Situation für [ a, b ] wird am Ende dieses Abschnitts eingegangen. Es stellt sich im Folgenden heraus, dass solche optimalen Stützstellen x0 , x1 , . . . , xn ∈ [ –1, 1 ] durch die Nullstellen des ( n + 1 ) ten Tschebyscheff Polynoms der ersten Art gegeben sind. Definition 1.22 Die Tschebyscheff Polynome der ersten Art sind folgendermaßen erklärt, Tn ( t ) = cos ( n arccos t ),

t ∈ [ –1, 1 ]

( n = 0, 1, . . . ).

(1.15)

Theorem 1.23 Für die Funktionen T0 , T1 , . . . aus (1.15) gelten die folgenden Aussagen: (a) Tn ( cos θ ) = cos nθ

für θ ∈ [ 0, π ]

( n = 0, 1, . . . ).

(b) Für t ∈ [ –1, 1 ] gilt T0 ( t ) = 1, T1 ( t ) = t und Tn+1 ( t ) = 2tTn ( t ) − Tn−1 ( t ),

n = 1, 2, . . . ,

(1.16)

und Fortsetzung des Definitionsbereichs des Tschebyscheff Polynoms Tn auf ganz R mittels dieser Rekursionsformel liefert Tn ∈ Πn .

(1.17)

(c) Der führende Koeffizient von Tn ist für n ≥ 1 gleich 2n−1 . (d)

max |Tn ( t ) | = 1.

t ∈ [ −1, 1 ]

(e) Das Tschebyscheff Polynom Tn besitzt in dem Intervall [ –1, 1 ] insgesamt ( n + 1 ) Extrema: Tn ( s(kn) ) = ( –1 )k

für s(kn) := cos

kπ n

,

k = 0, 1, . . . , n.

(1.18)

(f) Das Tschebyscheff Polynom Tn besitzt n einfache Nullstellen, die allesamt in dem Intervall [ –1, 1 ] liegen: Tn ( t(kn) ) = 0

für t(kn) := cos

( 2k − 1 )π 2n

,

k = 1, 2, . . . , n.

(1.19)

B EWEIS . Die Aussage (a) ist offensichtlich richtig, und die Darstellungen für T0 und T1 in (b) ergeben sich sofort aus Teil (a). Für die Herleitung der Rekursionsformel (1.16) wird das folgende Additionstheorem benötigt, cos x + cos y = 2cos

x+y 2

cos

x−y 2

für x, y ∈ R.

(1.20)

14

Kapitel 1 Polynominterpolation

Für t = cos θ erhält man dann mit (1.20) sowie Teil (a) dieses Theorems die folgenden Identitäten, 2tTn ( t ) − Tn−1 ( t ) = 2cos θ cos [ nθ ] − cos [ ( n − 1 )θ ]

=

cos [( n + 1 )θ ] = Tn+1 ( t ).

Teil (c) folgt unmittelbar aus der Rekursionsformel (b), und schließlich sind (d), (e) und (f) offensichtlich richtig. Das nachfolgende Theorem liefert die wesentliche Aussage dieses Abschnitts 1.6. Theorem 1.24 Für n ∈ N0 und mit der Notation aus (1.19) gilt die folgende Optimalitätseigenschaft: n+1) min max | ( t − y0 ) . . . ( t − yn ) | = max (t − t(1n+1) ) . . . (t − t(n+1 ) (1.21) y0 ,...,yn ∈ [ −1, 1 ] t ∈ [ −1, 1 ]

t ∈ [−1,1]

=

1 . 2n

(1.22)

B EWEIS . Als Erstes beobachtet man, dass mit Tn+1 entsprechend (1.15) die Darstellung 1 n+1) ( t ) = (t − t(1n+1) ) . . . (t − t(n+1 T ) (1.23) 2n n+1 gilt, was sich unmittelbar aus Theorem 1.23, Teil (c) und (f) ergibt. Die Identität (1.22) folgt damit aus maxt∈[ −1, 1 ] |Tn+1 ( t ) | = 1 (Theorem 1.23, Teil (d)). Bei der Identität (1.21) ist die Abschätzung “≤“ offensichtlich, und im Folgenden soll die Abschätzung “≥“ durch eine Widerspruchsannahme nachgewiesen werden. Angenommen, es gibt Zahlen y0 , y1 , . . . , yn ∈ [ − 1, 1 ], so dass 1 > 2n

max |ω ( t ) |,

ω ( t ) := ( t − y0 ) . . . ( t − yn )

t ∈ [ −1, 1 ]

(1.24)

gilt. Dann besitzt das Polynom 1

P := 2n Tn+1 − ω ( n + 1 ) Nullstellen in [ –1, 1 ], denn es liegen ( n + 1 ) Vorzeichenwechsel vor, wie sich bei Betrachtung der ( n + 2 ) aufsteigend angeordneten Extrema1 von Tn+1 zeigt,

1 T 2n n+1 1 T 2n n+1 1 T 2n n+1

(s(0n+1) ) =

1 , 2n

(s(1n+1) ) =

−

(s(2n+1) ) =

1 , 2n

.. . beziehungsweise allgemein 1

diese sind in (1.18) angegeben

1 , 2n

1 2n

ω(s(0n+1) )

−

ω(s(2n+1) )

< 2n .. .

1

1 2n

=⇒ P(s(0n+1) )

> 0,

=⇒ P(s(1n+1) )

< 0,

=⇒ P(s(2n+1) )

> 0,

.. .

.. .

Abschnitt 1.6

15

Tschebyscheff– Polynome n+1) P(s(kn+1) )P(s(k−1 ) < 0

für k = 1, 2, . . . , n + 1.

Nun sind sowohl Tn+1 /2 als auch ω jeweils Polynome vom Grad = n+1 und besitzen beide den führenden Koeffizienten 1, so dass notwendigerweise P ∈ Πn gilt. Jedes Polynom vom Grad n mit n + 1 paarweise verschiedenen Nullstellen muss jedoch identisch verschwinden, daher gilt P ≡ 0 beziehungsweise 1 T ≡ ω, 2n n+1 n

was einen Widerspruch zur Annahme (1.24) darstellt. In Bild 1.1 ist der Verlauf des optimalen Polynoms vom Grad 10 dargestellt, und zum Vergleich ist noch das Polynom ∈ Π10 mit a¨ quidistanten Nullstellen und führendem Koeffizienten 1 abgebildet. Man beachte, dass sich bei dem optimalen Polynom die Abstände der einzelnen Nullstellen zueinander zu den beiden Rändern des Intervalls [ –1, 1 ] hin verringern, was zu der Vermeidung von Oszillationen am Rand führt.

0.00852 0.00682 0.00511 0.00341 0.00170 -0.00000 -0.00170 -0.00341 -0.00511 -0.00682 -0.00852 -1.0

-0.8

-0.6

-0.4

-0.2

0.0

0.2

0.4

0.6

0.8

1.0

(n+1) Bild 1.1 Darstellung von nk=0 (x − xk ) und n+1 ) (letztere gestrichelt) für gleichk=1 (x − tk (n+1) abständige Nullstellen xk beziehungsweise Tschebyscheff– Nullstellen tk ; für n = 10

Der Fall [ a, b ] = [ –1, 1 ] ist damit abgehandelt, und abschließend werden allgemeine Intervalle [ a, b ] ⊂ R betrachtet. Das nachfolgende Theorem2 ist eine leichte Folgerung aus Theorem 1.24

verbunden mit der folgenden affin linearen Transformation, ψ : [ –1, 1 ] → [ a, b ], 2

t →

1 ( ( b − a )t + a + b). 2

das auch noch bei anderen mathematischen Problemen zur Anwendung kommt

(1.25)

16

Kapitel 1 Polynominterpolation

Theorem 1.25 Mit der Funktion ψ aus (1.25) gilt die folgende Optimalitätseigenschaft, max | ( x − x0 ) . . . ( x − xn ) |

min

x0 ,...,xn ∈ [ a, b ] x ∈ [ a, b ]

n+1) )) max (x − ψ ( t(1n+1) ) ) . . . (x − ψ ( t(n+1

=

x ∈ [ a, b ]

( b − a )n+1

=

2 · 4n

(1.26) (1.27)

.

B EWEIS . Die Identität (1.27) ergibt sich folgendermaßen, max (x − ψ ( t(n+1) ) ) . . . (x − ψ ( t( n+1) ) ) 1

x∈[ a, b ]

= = (∗)

=

n+1

n+1) max (ψ ( t ) − ψ(t(1n+1) )) . . . (ψ ( t ) − ψ(t(n+1 ))

t∈[ −1, 1 ]

b − a n+1 2

n+1) max (t − t(1n+1) ) . . . (t − t(n+1 )

t ∈ [ −1, 1 ]

b − a n+1 1 2

2n

( b − a )n+1 , 2 · 4n

=

wobei man die Identität (∗) aus Theorem 1.24 erhält. Die Ungleichung “≤“ in (1.26) ist offensichtlich richtig, und zum Beweis der Ungleichung “≥“ in (1.26) seien nun x0 , x1 , . . . , xn ∈ [ a, b ] beliebig. Dann gibt es eindeutig bestimmte Zahlen y0 , y1 , . . . , yn ∈ [ –1, 1 ] mit ψ ( yj ) = xj für j = 0, 1, . . . , n, und wie im ersten Teil des Beweises erhält man max | ( x − x0 ) . . . ( x − xn ) | = max ψ ( t ) − ψ ( y0 ) . . . ψ ( t ) − ψ ( yn ) x ∈ [ a, b ]

t ∈ [ −1, 1 ]

= (∗)

≥

b − a n+1 2

max | ( t − y0 ) . . . ( t − yn ) |

t ∈ [ −1, 1 ]

( b − a )n+1 , 2 · 4n

wobei sich die Ungleichung (∗) erneut mit Theorem 1.24 ergibt. Abschließend werden in Bild 1.2 anhand einer Beispielfunktion die interpolierenden Polynome für gleichabständige und für “optimal“ gewählte Stützstellen dargestellt.

Weitere Themen und Literaturhinweise Thematisch eng verwandt ist die Hermite Interpolation (Aufgabe 1.3), die beispielsweise in Deuflhard/Hohmann [21], Mennicken/Wagenführer [68], Opfer [76], Schaback/Wendland [88], Schwarz/Klöckner [90], Stoer [95], Weller [106] und in Werner [107] eingehend behandelt wird. Thematisch ebenfalls verwandt ist die rationale Interpolation, die beispielsweise in [68], [90], [95] und in [106] vorgestellt wird. Die Spline Interpolation und die trigonometrische Interpolation sind Gegenstand der beiden folgenden Kapitel, und spezielle Darstellungen für die (vektorwertige) Polynominterpolation bezüglich a¨ qudistanter Stützstellen sind in Abschnitt 8.3 angegeben.

¨ Ubungsaufgaben

17

1.846

1.000

1.636

0.899

1.426

0.799

1.216

0.698

1.006

0.598

0.796

0.497

0.586

0.397

0.376

0.296

0.165

0.196 0.095

-0.045

-0.005

-0.255 -5

-4

-3

-2

-1

0

1

2

3

4

-5

5

-4

-3

-2

-1

0

1

2

3

4

5

Bild 1.2 (Klassisches Beispiel von Runge) Interpolation der Funktion f (x) = 1/(1 + x2 ), x ∈ [−5, 5] (gestrichelt) für a¨ quidistante Stützstellen (links) beziehungsweise solchen Stützstellen, die sich aus linear transformierten Tschebyscheff– Nullstellen (rechts) ergeben; es ist n = 6. Man beachte die unterschiedlichen Skalierungen in den beiden Teilabbildungen links und rechts.

¨ Ubungsaufgaben Aufgabe 1.1 Für drei gegebene Funktionen f, g, h : R N ⊃ D → R und einen Häufungspunkt x∗ ∈ R N von D zeige man Folgendes: (a) f ( x ) =

O (g ( x ) )

für D x → x∗

f ( x ) = O(g( x ) ) für D x → x∗ .

=⇒

(b) f ( x ) = O(g( x ) ), g( x ) = O(h( x ) ) für D x → x∗ =⇒ f ( x ) = O(h( x ) ) für D x → x∗ . (c) f ( x ) =

O (1 1)

für D x → x∗

(d) O(f ( x ) ) O(g( x ) ) = (e) O( O(f ( x ) )) =

O ((f

⇐⇒

f ( x ) → 0 für D x → x∗ .

g )( x ) ) für D x → x∗ .

O (O(f ( x ) ))

=

O (f ( x ) )

für D x → x∗ .

Aufgabe 1.2 Man zeige Folgendes: für gegebene paarweise verschiedene Stützstellen x0 , x1 , . . . , xn ∈ R ist die Abbildung R n+1 → Πn , (f0 , f1 , . . . , fn ) → P (wobei P das jeweilige Interpolationspolynom gemäß (1.1) bezeichnet) linear. Aufgabe 1.3 (Hermite Interpolation) Man zeige: zu paarweise verschiedenen reellen Zahlen x0 , x1 , . . . , xr sowie nichtnegativen ganzen Zahlen m0 , m1 , . . . , mr ∈ N0 mit rj=0 mj = n + 1 und vorgegebenen Zahlen fj(ν ) ∈ R für ν = 0, 1, . . . , mj − 1 und j = 0, 1, . . . , r existiert genau ein Polynom P ∈ Πn mit P ( ν ) ( xj ) = fj(ν )

für

ν = 0, 1, . . . , mj − 1, j = 0, 1, . . . , r.

Aufgabe 1.4 Zu paarweise verschiedenen reellen Zahlen x0 , x1 , . . . , xn weise man für die zugehörigen Lagrangeschen Basispolynome Folgendes nach: (a)

n k=0

Lk ( x ) ≡ 1;

18

Kapitel 1 Polynominterpolation

(b) n

Lk ( 0 ) xsk

⎧ ⎨

=

⎩

k=0

für s = 0, für 1 ≤ s ≤ n, für s = n + 1.

1 0 ( –1 )n x0 x1 · · · xn

Aufgabe 1.5 Zu den drei Stützpunkten ( xj , tan 2 ( xj )) für j = 0, 1, 2 mit den Stützstellen x0 = π/6, x1 = π/4 und x2 = π/3 berechne man unter Verwendung des Schemas von Neville das zugehörige Interpolationspolynom. Aufgabe 1.6 Zu gegebenen paarweise verschiedenen Stützstellen x0 , x1 , . . . , xn ∈ R und Stützwerten f0 , f1 , . . . , fn ∈ R weise man für die zugehörigen dividierten Differenzen Folgendes nach, n

f [ x0 , . . . , xn ] =

fj

j=0

n

( xj − xs ).

s=0 s=j

Aufgabe 1.7 Seien ( x0 , f0 ), ( x1 , f1 ), . . . , ( xn , fn ) ∈ R 2 und ( y0 , g0 ), ( y1 , g1 ), . . . , ( yn , gn ) ∈ R 2 Stützpunkte mit zugehörigen dividierten Differenzen f [ x0 , . . . , xn ] und g[ y0 , . . . , yn ]. Man zeige: Wenn {(xj , fj ), j = 0, 1, . . . , n } = {(yj , gj ), j = 0, 1, . . . , n } erfüllt ist, so gilt f [ x0 , . . . , xn ] = g[ y0 , . . . , yn ]. Aufgabe 1.8 Man bestimme in der Newtonschen Darstellung das Interpolationspolynom zu den folgenden Stützpunkten: j

0

1

2

3

4

xj

-5

-2

-1

0

1

fj

17

8

21

42

35

Im Folgenden bezeichnet C [ a, b ] die Menge der stetigen Funktionen f : [ a, b ] → R, und für r = 1, 2, . . . bezeichnet C r [ a, b ] die Menge der r fach stetig differenzierbaren Funktionen f : [ a, b ] → R. Aufgabe 1.9 Man zeige, dass es zu jeder Funktion f ∈ C [ a, b ] und paarweise verschiedenen Stützstellen x0 , x1 , . . . , xn ∈ [ a, b ] sowie für ε > 0 ein Polynom P gibt mit max |P ( x ) − f ( x ) | ≤ ε,

x ∈ [ a, b ]

P ( xj ) = f ( xj )

für j = 0, 1, . . . , n.

Aufgabe 1.10 Seien ϕ0 , ϕ1 , . . . , ϕn : C [ a, b ] → R lineare Funktionale und V ⊂ C [ a, b ] ein ( n + 1 ) dimensionaler linearer Teilraum. (a) Man zeige, dass die verallgemeinerte Interpolationsaufgabe bestimme v ∈ V

mit ϕj ( v ) = ϕj ( f )

für j = 0, 1, . . . , n

(1.28)

genau dann für jedes f ∈ C [ a, b ] eindeutig lösbar ist, wenn die Funktion f = 0 nur v = 0 als verallgemeinerte Interpolierende besitzt. (b) Sei die verallgemeinerte Interpolationsaufgabe (1.28) für jede Funktion f ∈ C [ a, b ] eindeutig lösbar und Ln : C [ a, b ] → V der zugehörige Interpolationsoperator, das heißt, Ln f = v. Man weise nach, dass

¨ Ubungsaufgaben

19

Ln eine lineare Abbildung ist und für f ∈ C [ a, b ] gilt Ln f = f

⇐⇒

f ∈ V.

Aufgabe 1.11 Für paarweise verschiedene Stützstellen x0 , x1 , . . . , xn ∈ [ a, b ] bezeichne Ln : C [ a, b ] → Πn den “Polynominterpolations Operator“, das heißt, ( Ln f )( xj ) = f ( xj )

für j = 0, 1, . . . , n

Man weise Folgendes nach: sup ||Ln f ||∞ : f ∈ C [ a, b ], ||f ||∞ = 1

(f ∈ C [ a, b ] ).

=

max x∈[ a, b ]

n n x − xs xj − xs

,

j=0 s=0 s=j

wobei ||ψ ||∞ := max{|ψ ( x ) | : x ∈ [ a, b ] } die Maximumnorm bezeichnet. Aufgabe 1.12 Die Tschebyscheff Polynome der zweiten Art Un ∈ Πn sind definiert durch U0 ( x ) := 1,

U1 ( x ) := 2x,

Un+1 := 2xUn ( x ) − Un−1 ( x ),

n = 1, 2, . . . .

sin ( ( n + 1 )ϑ ) für ϑ ∈ ( 0, π ), n = 0, 1, . . . . sin ϑ (b) Für n = 0, 1, . . . berechne man die beiden Werte Un ( 1 ) und Un ( –1 ).

(a) Man zeige Un ( cos ϑ ) =

(c) Man zeige Tn ( x ) = nUn−1 ( x ) für x ∈ [ –1, 1 ], n = 1, 2, . . . . Aufgabe 1.13 (Numerische Aufgabe) Mit einem Polynom vom Grad ≤ n interpoliere man die Funktion f ( x ) := 1/(25x2 + 1), x ∈ [ –1, 1 ], •

in a¨ quidistanten Punkten xj = −1 + 2j/n,

j = 0, 1, . . . , n,

•

in den Nullstellen tj,n+1 , j = 1, 2, . . . , n + 1 des ( n + 1 ) ten Tschebyscheff Polynoms Tn+1 .

Man wähle hierbei n = 10 und erstelle jeweils einen Ausdruck des Funktionsverlaufs.

20

2

Splinefunktionen

2.1 Einfuhrende ¨ Bemerkungen Bei der Polynominterpolation auf a¨ quidistanten Gittern stellt sich mit wachsender Stützstellenzahl typischerweise ein oszillierendes Verhalten ein. Dies wird bei der in dem vorliegenden Abschnitt betrachteten Interpolation mittels Splinefunktionen vermieden. Für deren Einführung sei ∆ = a = x0 < x1 < . . . < xN = b (2.1) eine fest gewählte Zerlegung des Intervalls [ a, b ], wobei man die Stützstellen x0 , x1 , . . . , xN aus historischen Gründen auch als Knoten bezeichnet. Definition 2.1 Eine Splinefunktion der Ordnung ∈ N zur Zerlegung ∆ ist eine Funktion s ∈ C −1 [ a, b ], die auf jedem Intervall [ xj−1 , xj ] mit einem Polynom ten Grades u¨ bereinstimmt. Der Raum dieser Splinefunktionen wird mit S∆, bezeichnet, es gilt also S∆, = s ∈ C −1 [ a, b ] : s|[ xj−1 , xj ] = pj |[ xj−1 , xj ] für ein pj ∈ Π ( j = 1, . . . , N ) . Anstelle Splinefunktion wird oft auch die Bezeichnung Spline verwendet. Bemerkung 2.2 Es ist offensichtlich S∆, mit den u¨ blichen Verknüpfungen ein linearer Raum. Für dessen Dimension gilt dimS∆, = N + , wie durch Abzählen der Freiheitsgrade intuitiv klar wird. In Bild 2.1 und Bild 2.2 sind Beispiele für lineare sowie quadratische Splines angegeben. 6

6 .... ... ... ... ..... ..... ... ... ....... ..................... ... ... . . ........... ...... ... .. ..... ...... .......... ... ....... ............... ... ............ ................ .......

0

a = x0 x1 x2 x3

-

x4 x5 = b

Bild 2.1 Ein linearer Spline auf [a, b]

0

.......................... ....... .. ..... .. ..... ... ..................... ..... . ..... . .... ... . . . .... ... .. .. ..... ... .. ... ... .. ... . . . ... ... ... . . . ... . . . .... ..... . . . . ...... . .....................

a = x0 x1 x2 x3

-

x4 x5 = b

Bild 2.2 Ein quadratischer Spline auf [a, b]

Im Folgenden werden für interpolierende Splinefunktionen der Ordnung = 1 (lineare Splines genannt) und Splinefunktionen der Ordnung = 3 (kubische Splines) Algorithmen zur Berechnung sowie Fehlerabschätzungen hergeleitet. Splines der Ordnung = 2 (quadratische Splines) spielen in der Praxis eine geringere Rolle und werden hier nicht behandelt.

Abschnitt 2.2

21

Interpolierende lineare Splinefunktionen

2.2 Interpolierende lineare Splinefunktionen 2.2.1 Die Berechnung interpolierender linearer Splinefunktionen Thema dieses Abschnitts ist die Berechnung linearer Splinefunktionen s ∈ S∆,1 mit der Interpolationseigenschaft s( xj ) = fj

für j = 0, 1, . . . , N,

(2.2)

wobei die Werte f0 , f1 , . . . , fN ∈ R vorgegeben sind. Für jeden Index j ∈ {0, 1, . . . , N − 1} besitzt eine solche Funktion s auf dem Intervall [ xj , xj+1 ] die lokale Darstellung s( x ) = aj + bj ( x − xj )

für x ∈ [ xj , xj+1 ],

(2.3)

und die Interpolationsbedingungen sj ( xj ) = fj und sj ( xj+1 ) = fj+1 ergeben unmittelbar aj = fj ,

bj =

fj+1 − fj . xj+1 − xj

(2.4)

Die Interpolationsbedingungen legen die Koeffizienten in dem allgemeinen Ansatz (2.3) in eindeutiger Weise fest und liefern den interpolierenden linearen Spline. Als Folgerung erhält man: Theorem 2.3 (Existenz und Eindeutigkeit des interpolierenden linearen Splines) Zu der Zerlegung ∆ = {a = x0 < x1 < . . . < xN = b} und Werten f0 , f1 , . . . , fN ∈ R gibt es genau einen linearen Spline s ∈ S∆,1 mit der Interpolationseigenschaft (2.2). Er besitzt die lokale Darstellung (2.3) (2.4). Mit der Notation ||u||∞ :=

max |u( x ) |,

u ∈ C [ a, b ],

x ∈ [ a, b ]

gilt für den Fehler bei der linearen Spline Interpolation Folgendes: Theorem 2.4 Zu einer Funktion f ∈ C 2 [ a, b ] sei s ∈ S∆,1 der zugehörige interpolierende lineare Spline (siehe (2.2)). Dann gilt ||s − f ||∞

≤

1 ||f ||∞ h2max 8

mit hmax :=

max {xj+1 − xj }.

j=0,...,N −1

B EWEIS . Für jeden Index j ∈ {1, 2, . . . , N } stimmt die Splinefunktion s auf dem Intervall [ xj−1 , xj ] mit demjenigen Polynom P ∈ Π1 u ¨ berein, für das P ( xj−1 ) = f ( xj−1 ) und P ( xj ) = f ( xj ) gilt, und Theorem 1.17 u¨ ber den Fehler bei der Polynominterpolation liefert dann |s( x ) − f ( x ) | ≤ ≤

( x − xj−1 )( xj − x ) 2 h2max ||f ||∞ 8

max

ξ ∈ [ xj−1 , xj ]

|f ( ξ ) |

für x ∈ [ xj−1 , xj ].

Daraus folgt die angegebene Fehlerabschätzung. Bemerkung 2.5 Die wesentliche Aussage in Theorem 2.4 stellt ||s − f ||∞ = O(h2max ) dar.

22

Kapitel 2

Splinefunktionen

2.3 Minimaleigenschaften kubischer Splinefunktionen Im weiteren Verlauf wird die Interpolation mittels kubischer Splinefunktionen behandelt. Vor Behandlung der zugehörigen grundlegenden Themen wie Existenz, Eindeutigkeit, Berechnung und auftretender Fehler wird im vorliegenden Abschnitt zunächst eine für die Anwendungen wichtige Minimaleigenschaft interpolierender kubischer Splines vorgestellt (siehe Korollar 2.8 unten). Hierzu bezeichne im Folgenden Zb 1/2 |u( x ) |2 dx , u ∈ C [ a, b ]. ||u||2 := a

Lemma 2.6 (Holladay) Wenn eine Funktion f ∈ C 2 [ a, b ] und eine kubische Splinefunktion s ∈ S∆,3 in den Knoten u¨ bereinstimmen, s( xj ) = f ( xj ) so gilt ||f − s ||22

für j = 0, 1, . . . , N,

x=b ||f ||22 − ||s ||22 − 2( [ f − s ]s )( x ) x=a .

=

(2.5) (2.6)

B EWEIS . Nach Definition von || · ||2 gilt ||f − s ||22 =

Z b a

|f ( x ) − s ( x ) |2 dx

=

Z b

= ||f ||22 − 2

a

||f ||22 − 2

Z b a

(f s )( x ) dx + ||s ||22

([f − s ]s )( x ) dx − ||s ||22 ,

(2.7)

so dass man sich noch speziell mit dem mittleren Ausdruck in (2.7) zu befassen hat. Für j = 1, 2, . . . , N liefert partielle Integration Z x j xj−1

( [ f − s ]s )( x ) dx

=

x=xj [f − s ]s ( x )

x=xj−1

−

Z x j xj−1

[f − s ]s ( x ) dx

Z x x=xj −0 j [f − s]s ( x ) x=x +0 + x ([f − s]s( 4) )( x ) dx, j−1 j−1

= 0 = 0 wobei der vorletzte Term aufgrund der Identität (2.5) verschwindet, und das letzte Integral ver....... wird als schwindet, da s(4) ≡ 0 auf den Teilintervallen ( xj−1 , xj ) gilt. Das Symbol Unterführungszeichen verwendet, es fungiert also als Platzhalter für den darüber stehenden Ausdruck. Anschließende Summation u¨ ber j = 1, 2, . . . , N liefert aufgrund der Stetigkeit der Funktionen f , s , s auf dem Intervall [ a, b ] die folgende Teleskopsumme und damit die Aussage des Lemmas, N Z b [f − s ]s ( xj ) − [f − s ]s ( xj−1 ) ([f − s ]s )( x ) dx =

=

−

.......

a

j=1

=

[f − s ]s ( b ) − [f − s ]s ( a ).

Unter gewissen zusätzlichen Bedingungen vereinfacht sich die Aussage von Lemma 2.6:

Abschnitt 2.3

Minimaleigenschaften kubischer Splinefunktionen

23

Theorem 2.7 Gegeben seien eine Funktion f ∈ C 2 [ a, b ] und ein kubischer Spline s ∈ S∆,3 , die in den Knoten u¨ bereinstimmen, vergleiche (2.5). Dann gilt die Identität ||f ||22 − ||s ||22

=

||f − s ||22 ,

(2.8)

sofern eine der drei folgenden Bedingungen erfüllt ist: (a)

s ( a ) = s ( b ) = 0;

(b)

s ( a ) = f ( a ),

s ( b ) = f ( b );

(c)

f ( a ) = f ( b ),

s ( a ) = s ( b ),

s ( a ) = s ( b ).

x=b B EWEIS . In jedem der Fälle (a) (c) verschwindet in (2.6) der Ausdruck ([f − s ]s )( x ) x=a , und die Identität (2.6) geht dann u¨ ber in die Identität (2.8).

Korollar 2.8 Zu gegebenen Werten f0 , f1 , . . . , fN ∈ R hat ein interpolierender kubischer Spline s ∈ S∆,3 mit s ( a ) = s ( b ) = 0 unter allen hinreichend glatten interpolierenden Funktionen die geringste Krümmung, es gilt also ||s ||2 ≤ ||f ||2 für jede Funktion f ∈ C 2 [ a, b ] mit f ( xj ) = fj für j = 0, 1, . . . , N. B EWEIS . Die angegebene Abschätzung ergibt sich unmittelbar aus Theorem 2.7 für Splines mit der Eigenschaft (a) dort. Die in Korollar 2.8 angegebene Abschätzung gilt mit den entsprechenden Modifikationen in den zugehörigen Voraussetzungen auch für solche kubischen Splines, die den Bedingungen (b) oder (c) in Theorem 2.7 genügen.

Bemerkung 2.9 ( 1 ) Man weist u¨ ber die Eigenschaft (2.8) leicht nach, dass jede der Bedingungen (a), (b) oder (c) in Theorem 2.7 die Eindeutigkeit des interpolierenden kubischen Splines impliziert (Aufgabe 2.3). ( 2 ) Es stellt ||f ||2 lediglich eine Approximation an die mittlere Krümmung der Funktion f

dar. Genauer ist die Krümmung von f in einem Punkt x gegeben durch f ( x )/(1 + f ( x )2 )3/2 . ( 3 ) Die in Korollar 2.8 vorgestellte Minimaleigenschaft stellt den Grund dafür dar, dass in

der Praxis (beispielsweise bei der Konstruktion von Schiffsrümpfen oder der Festlegung von Schienenwegen) für die Interpolation oftmals kubische Splinefunktionen verwendet werden. In Bild 2.3 ist eine kubische Splinefunktion dargestellt.

24

Kapitel 2

6

0

Splinefunktionen

........... ...... ....... ... .... ... ... ... ... ... ... . . ... ... . . ... ... ... . . . ... ... . ... .. . ... . ... ... . . ... ... . ... . ... .. . . . .... . . ..... . . . . ..... . . . . . .. ....... ........................................................... ......................... ......... .........

a = x0

x1

x3 = b

x2

-

Bild 2.3 Ein kubischer Spline auf [a, b] zu den Knoten a = x0 < x1 < x2 < x3 = b

2.4 Die Berechnung interpolierender kubischer Splinefunktionen 2.4.1 Voruberlegungen ¨ In dem vorliegenden Abschnitt wird die Berechnung interpolierender kubischer Splines behandelt. Ausgehend von dem lokalen Ansatz s( x ) = aj + bj ( x − xj ) + cj ( x − xj )2 + dj ( x − xj )3 für x ∈ [ xj , xj+1 ],

(2.9)

j = 0, 1, . . . , N − 1,

für eine Funktion s : [ a, b ] → R soll in diesem Abschnitt die Frage behandelt werden, wie man die Koeffizienten aj , bj , cj und dj für j = 0, 1, . . . , N − 1 zu wählen hat, damit die Funktion s auf dem Intervall [ a, b ] zweimal stetig differenzierbar ist1 und darüber hinaus in den Knoten vorgegebene Werte f0 , f1 , . . . , fN ∈ R interpoliert, s( xj ) = fj

für j = 0, 1, . . . , N.

(2.10)

Das nachfolgende Lemma reduziert das genannte Problem auf die Lösung eines linearen Gleichungssystems, wobei die folgende Notation verwendet wird, hj := xj+1 − xj

für j = 0, 1, . . . , N − 1.

(2.11)

Lemma 2.10 Falls N + 1 reelle Zahlen s0 , s1 , . . . , sN ∈ R den folgenden N − 1 gekoppelten Gleichungen

hj−1 sj−1

+ 2( hj−1 +

hj )sj

+

hj sj+1

=

fj+1 − fj 6 hj

=: gj

fj − fj−1 − 6 hj−1

für j = 0, 1, . . . , N − 1 1

und somit tatsächlich ein kubischer Spline ist

(2.12)

Abschnitt 2.4

25

Die Berechnung interpolierender kubischer Splinefunktionen

genügen, so liefert der lokale Ansatz (2.9) mit den Setzungen cj :=

sj , 2

bj :=

fj+1 − fj hj

aj := fj ,

sj+1 − sj , 6hj

dj :=

(2.13)

hj (s + 2sj ), 6 j+1

−

(2.14)

für j = 0, 1, . . . , N − 1 eine kubische Splinefunktion s ∈ S∆,3 , die die Interpolationsbedingungen (2.10) erfüllt. B EWEIS . Mit den Notationen pj ( x ) = aj + bj (x − xj ) + cj ( x − xj )2 + dj ( x − xj )3 ∈ Π3 (j = 0, 1, . . . , N − 1) erhält man für j = 0, 1, . . . , N − 1 die folgenden Identitäten, pj ( xj ) = aj = fj , ( xj+1 ) pj+1

= 2cj+1

sj+1

=

=

sj + 6dj hj

=

pj ( xj+1 )

(j ≤ N − 2)

beziehungsweise pj ( xj+1 ) = aj + bj hj + cj h2j + dj h3j = fj

sj+1 − sj 2 sj 2 h + hj 2 j 6

......

(∗)

=

fj+1 ,

wobei die Identität (∗) eine Folgerung aus (2.14) darstellt. Die Stetigkeit der ersten Ableitung s erhält man so, ( xj ) = bj−1 + 2cj−1 hj−1 + 3dj−1 h2j−1 pj−1

(∗∗)

=

bj

=

pj ( xj )

( j = 1, 2, . . . , N − 1 ),

wobei (∗∗) aus den Setzungen (2.13) (2.14) und aus (2.12) resultiert. Bemerkung 2.11 ( 1 ) In der in Lemma 2.10 beschriebenen Situation bezeichnet man die N +1 reellen Zahlen s0 , s1 , . . . , sN ∈ R als Momente. Diese stimmen mit den zweiten Ableitungen der Splinefunktion s in den Knoten xj u¨ berein, sj = s ( xj )

für j = 0, 1, . . . , N.

( 2 ) Mit Lemma 2.10 wird klar, dass sich die Koeffizienten in der Darstellung (2.9) unmittelbar aus den N + 1 Momenten s0 , . . . , sN ergeben. Diese N + 1 Momente genügen den N − 1 Bedingungen dieses Lemmas, womit also zwei Freiheitsgrade vorliegen. Aufgrund der Bedingungen (a) (c) in Theorem 2.7 werden noch drei Möglichkeiten diskutiert, wofür abkürzend

s0 := s ( x0 ),

sN := s ( xN )

gesetzt wird: Naturliche ¨ Randbedingungen :

s0 = sN = 0;

Vollständige Randbedingungen :

s0 = f0 ,

sN = fN

Periodische Randbedingungen :

s0 = sN ,

s0 = sN .

für gegebene f0 , fN ∈ R;

26

Kapitel 2

Splinefunktionen

Die Bezeichnung “natürliche Randbedingung“ ist durch Korollar 2.8 gerechtfertigt. ( 3 ) Division von (2.12) durch 3( hj−1 + hj ) führt auf die a¨ quivalente Gleichung hj−1 hj 2 s + sj + s 3 3( hj−1 + hj ) j−1 3( hj−1 + hj ) j+1

=

2

fj+1 − fj fj − fj−1 − 2 , hj ( hj−1 + hj ) hj−1 ( hj−1 + hj )

(2.15)

bei der die linke Seite eine Approximation an sj und die rechte Seite eine Differenzenapproximation an f ( xj ) darstellt. Mehr hierzu finden Sie im Beweis von Lemma 2.15. In den folgenden Unterabschnitten 2.4.2 2.4.4 sollen die Bedingungen (2.12) für die Momente zusammen mit den unterschiedlichen Randbedingungen in Matrix Vektor Form angegeben werden.

2.4.2 Naturliche ¨ Randbedingungen Die natürlichen Randbedingungen s0 = sN = 0 führen zusammen mit (2.12) auf das folgende Gleichungssystem: ⎛ ⎞ + h ) h 0 . . . 0 2(h 0 1 1 ⎜ ⎟ ⎜ ⎟⎛ ⎛ ⎞ ⎞ ⎜ ⎟ .. .. ⎜ ⎟ . . g h 2(h + h ) h s 1 1 2 2 ⎜ ⎜ 1 ⎟ ⎟⎜ 1 ⎟ ⎜ ⎜ ⎟ ⎟ ⎟⎜ ⎜ ⎜ . ⎟ ⎟⎜ . ⎟ .. .. ⎜ ⎜ ⎟ ⎟ ⎟ ⎜ . . 0 0 h2 ⎜ ⎟ ⎜ .. ⎟ = ⎜ .. ⎟ . ⎜ ⎟ ⎟ ⎜ ⎟⎜ ⎜ ⎟⎝ ⎠ ⎝ ⎠ .. ⎜ ⎟ .. .. .. . . . ⎜ ⎟ sN −1 hN −2 . gN −1 ⎜ ⎟ ⎝ ⎠ 0 ... 0 hN −2 2(hN −2 + hN −1 )

2.4.3 Vollständige Randbedingungen Die vollständigen Randbedingungen !

f0

=

s0

=

b0 ,

fN

= sN

=

bN −1 + 2cN −1 hN −1 + 3dN −1h2N −1

!

führen mit (2.13) (2.14) auf die beiden zusätzlichen Bedingungen 2h0 s0 + h0 s1 = −6f0 + 6 hN −1 sN −1 + 2hN −1 sN = 6fN − 6

f1 − f0 h0

=: g0 ,

fN − fN −1 hN −1

=: gN .

(2.16) (2.17)

Abschnitt 2.4

27

Die Berechnung interpolierender kubischer Splinefunktionen

Diese Bedingungen (2.16) (2.17) führen zusammen mit (2.12) auf das folgende Gleichungssystem: ⎛ ⎞ h0 0 ... ... ⎜ 2h0 ⎜ ⎜ ⎜ .. . ⎜ h0 2(h0 + h1 ) h1 ⎜ ⎜ ⎜ .. .. .. ⎜ 0 . . . h1 ⎜ ⎜ ⎜ . .. .. .. .. ⎜ .. . . . . ⎜ ⎜ ⎜ . .. .. ⎜ .. . 2(hN −2 + hN −1 ) . ⎜ ⎜ ⎝ 0 ... ... 0 hN −1

0 .. . .. . 0 hN −1

⎟ ⎟ ⎟ ⎟⎛ ⎞ ⎛ ⎞ ⎟ ⎟ ⎟ ⎜ s0 ⎟ ⎜ g0 ⎟ ⎟⎜ ⎟ ⎜ ⎟ ⎟⎜ ⎟ ⎜ . ⎟ ⎟ ⎜ .. ⎟ ⎟ ⎟⎜ . ⎟ = ⎜ ⎜ .. ⎟ . ⎟⎜ ⎟ ⎜ ⎟ ⎟⎝ ⎠ ⎝ ⎠ ⎟ ⎟ s gN N ⎟ ⎟ ⎟ ⎟ ⎠

(2.18)

2hN −1

2.4.4 Periodische Randbedingungen Die periodischen Randbedingungen b0

=

s0 = sN !

=

bN −1 + 2cN −1 hN −1 + 3dN −1h2N −1 ,

s0 = sN !

führen mit (2.13) (2.14) auf die zusätzliche Bedingung 2(hN −1 + h0 )s0 + h0 s1 + hN −1 sN −1

=

f − f0

6 1h 0

− 6

fN − fN −1 hN −1

=: g0 . (2.19)

Diese Bedingung (2.19) führt zusammen mit (2.12) auf das folgende Gleichungssystem: ⎛ ⎞ ⎜ 2(hN −1 + h0 ) h0 0 ⎜ ⎜ ⎜ ⎜ h0 2(h0 + h1 ) h1 ⎜ ⎜ ⎜ . ⎜ 0 h1 . . ⎜ ⎜ ⎜ .. .. .. ⎜ . . . ⎜ ⎜ ⎜ .. ⎜ . 0 ⎜ ⎜ ⎝ hN −1 0 ...

...

0

hN −1

..

.

..

.

..

.

.. .

..

.

..

.

0

..

.

..

.

hN −2

0

0 hN −2 2(hN −2 + hN −1 )

⎟ ⎟ ⎟ ⎟⎛ ⎞ ⎞ ⎛ ⎟ ⎟ ⎟ ⎜ s0 ⎟ ⎜ g0 ⎟ ⎟⎜ ⎟ ⎟ ⎜ ⎟⎜ ⎟ ⎜ . ⎟ ⎟ ⎜ .. ⎟ ⎟ ⎜ . = ⎟⎜ . ⎟ ⎜ . ⎟. ⎟⎜ ⎜ ⎟ ⎟ ⎟⎝ ⎝ ⎠ ⎠ ⎟ ⎟ s g N −1 N −1 ⎟ ⎟ ⎟ ⎟ ⎠

2.4.5 Existenz und Eindeutigkeit der betrachteten interpolierenden kubischen Splines Für den Beweis der Existenz und Eindeutigkeitsaussage für interpolierende kubische Splines wird das nachfolgende Lemma benötigt. Es wird hier in der nötigen Allgemeinheit formuliert

28

Kapitel 2

Splinefunktionen

wird, so dass es nochmals im Beweis des wichtigen Lemmas 2.15 angewandt werden kann. Vorbereitend wird die folgende Notation eingeführt, ||z ||∞ :=

max |zj |,

z ∈ RN .

j=1,...,N

Definition 2.12 Eine Matrix A = (ajk ) ∈ R N×N heißt strikt diagonaldominant, falls Folgendes gilt, N

|ajk | < |ajj |

für j = 1, 2, . . . , N.

k=1 k=j

Lemma 2.13 Jede strikt diagonaldominante Matrix A = (ajk ) ∈ R N×N ist regulär und es gilt ||x||∞

≤

max

j=1,...,N

N

|ajj | −

|ajk |

−1

||Ax||∞

für x ∈ R N .

(2.20)

k=1 k=j

B EWEIS . Für den Vektor x ∈ R N sei der Index j ∈ {1, 2, . . . , N } so gewählt, dass |xj | = ||x||∞ gilt. Dann berechnet man ||Ax||∞ ≥ |(Ax)j |

=

N ajk xk

≥

|ajj ||xj | −

k=1

≥ |ajj ||xj | −

N

N

|ajk ||xk |

k=1 k=j

|ajk |||x||∞

=

|ajj | −

k=1 k=j

N

|ajk | ||x||∞

k=1 k=j

beziehungsweise ||x||∞

≤

|ajj | −

N

|ajk |

−1

||Ax||∞ ,

k=1 k=j

was die Ungleichung (2.20) nach sich zieht. Die Regularität der Matrix A folgt umgehend aus dieser Abschätzung (2.20). Offensichtlich ist jede der in den drei Abschnitten 2.4.2 2.4.4 betrachteten Matrizen strikt diagonaldominant. Als unmittelbare Folgerung aus dieser Beobachtung sowie den Lemmata 2.10 und 2.13 erhält man Folgendes: Korollar 2.14 Zur Zerlegung ∆ und den Werten f0 , f1 , . . . , fN ∈ R gibt es jeweils genau einen interpolierenden kubischen Spline mit natürlichen beziehungsweise vollständigen (hier sind zusätzlich Zahlen f0 , fN ∈ R vorgegeben) beziehungsweise periodischen Randbedingungen.

Abschnitt 2.5

29

Fehlerabschätzungen für interpolierende kubische Splines

2.5 Fehlerabschätzungen fur ¨ interpolierende kubische Splines Das folgende Lemma liefert eine Abschätzung für die Differenz der Momente von s und f in den Knoten xj . Dabei werden wegen der einfacheren Vorgehensweise nur kubische Splines mit natürlichen Randbedingungen betrachtet. Vergleichbare Aussagen lassen sich auch für kubische Splines mit vollständigen oder periodischen Randbedingungen nachweisen (siehe beispielsweise Oevel [75], Mennicken/Wagenführer [68] und Stoer [95]). Lemma 2.15 Zu einer gegebenen Funktion f ∈ C 4 [ a, b ] mit f ( a ) = f ( b ) = 0 bezeichne s ∈ S∆,3 den interpolierenden kubischen Spline2 mit natürlichen Randbedingungen. Dann gilt max

j=1,...,N −1

|s ( xj ) − f ( xj ) | ≤

3 (4) ||f ||∞ h2max , 4

mit hmax :=

max {xj+1 − xj }.

j=0,...,N −1

B EWEIS . Die Darstellung (2.15) für die Momente bedeutet in Matrixschreibweise ⎞ ⎛ ⎞ ⎛ s1 g1 ⎟ ⎟ ⎜ ⎜ B ⎝ ... ⎠ = ⎝ ... ⎠ , sN −1

(2.21)

gN −1

wobei gj die rechte Seite von (2.15) bezeichnet, und die Matrix B ∈ R (N −1)×(N −1) besitzt die folgende Form, ⎞ ⎛ 2 h1 ⎟ ⎜ 0 ... ... 0 ⎟ ⎜ 3 3(h0 + h1 ) ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ . . 2 h h 1 2 .. .. ⎟ ⎜ ⎟ ⎜ 3( h1 + h2 ) 3 3( h1 + h2 ) ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ .. .. .. .. .. ⎟ ⎜ . . . . . 0 ⎟ ⎜ ⎟, B := ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ . . . . . .. .. .. .. .. ⎟ ⎜ 0 ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ .. .. hN −3 hN −2 ⎟ ⎜ 2 . . ⎟ ⎜ 3 3( hN −3 + hN −2 ) 3( hN −3 + hN −2 ) ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎠ ⎝ hN −2 2 0 ... ... 0 3( hN −2 + hN −1 )

3

mit der Notation hj = xj+1 − xj . Im Folgenden werden die Abbildungseigenschaften der Matrix B sowie die rechte Seite des Gleichungssystems (2.21) eingehender untersucht. 2

zur Zerlegung ∆ = { a = x0 < . . . < xN = b } und den Stützwerten fj = f ( xj ) für j = 0, 1, . . . , N

30

Kapitel 2

Splinefunktionen

1. Durch Taylorentwicklung der Funktion f um den Punkt xj erhält man die folgenden Darstellungen, f ( xj−1 ) = f ( xj ) − hj−1 f (3) ( xj ) +

h2j−1 (4) f (ξj ), 2

(2.22)

h2j ( 4) f ( ξj ), 2

f ( xj+1 ) = f ( xj ) + hj f (3) ( xj ) +

(2.23)

mit geeigneten Zwischenstellen ξj und ξj . Die Gleichung (2.22) wird dann mit hj−1 /(3(hj−1 + hj )) und die Gleichung (2.23) mit dem Faktor hj /(3(hj−1 + hj )) multipliziert. Die beiden Ergebnisse werden anschließend addiert und resultieren in der folgenden Approximation an die zweite Ableitung f ( xj ), hj−1 hj 2 f ( xj−1 ) + f ( xj ) + f ( xj+1 ) 3 3( hj−1 + hj ) 3( hj−1 + hj )

Rj := δj :=

=

f ( xj ) + Rj + δj ,

1 (h − hj−1 )f (3) ( xj ), 3 j

3 1 h f (4) (ξj ) + h3j f (4) ( ξj ) , 6( hj−1 + hj ) j−1

beziehungsweise in Matrixschreibweise ⎛ ⎞ ⎛ f ( x1 ) f ( x1 ) ⎟ ⎜ ⎜ . .. .. B⎝ ⎠ = ⎝ . (

⎞

⎛

⎟ ⎜ ⎠ + ⎝

(

f xN −1 )

R1 .. .

f xN −1 )

j = 1, 2, . . . , N − 1, ⎞

⎛

δ1 .. .

⎟ ⎜ ⎠ + ⎝

RN −1

⎞ ⎟ ⎠.

(2.24)

δN −1

2. Weiter ergibt eine Taylorentwicklung der Funktion f um den Punkt xj die folgenden Darstellungen: f ( xj+1 ) = f ( xj ) + hj f ( xj ) +

h3j (3) h2j h4j (4) ( xj ) + ( xj ) + f f f (ηj ), 2 6 24

f ( xj−1 ) = f ( xj ) − hj−1 f ( xj ) +

h2j−1 2

f ( xj ) −

h3j−1 6

f (3) ( xj ) +

h4j−1 24

(2.25)

f (4) ( ηj ), (2.26)

mit geeigneten Zwischenstellen ηj , ηj ∈ [ a, b ]. Eine Multiplikation der Gleichung (2.25) mit dem Faktor 2/hj sowie Multiplikation der Gleichung (2.26) mit dem Faktor 2/hj−1 und jeweils anschließende Auflösung nach Termen mit f ( xj−1 ), f ( xj ) und f ( xj+1 ) führt auf die Gleichungen 2

f ( xj+1 ) − f ( xj ) hj

= 2f ( xj ) + hj f ( xj ) +

f ( xj ) − f ( xj−1 ) hj−1

=

−2

h3j (4) h2j (3) f ( xj ) + f ( ηj ), 3 12

− 2f ( xj ) + hj−1 f ( xj ) −

h3j−1 h2j−1 (3) f ( xj ) + 12 f (4) ( ηj ), 3

und eine Addition dieser beiden Gleichungen sowie die anschließende Division durch hj−1 + hj resultiert in der folgenden Differenzenapproximation an die zweite Ableitung f ( xj ),

= gj

fj+1 − fj fj − fj−1 2 − 2 hj (hj−1 + hj ) hj−1 (hj−1 + hj )

= f ( xj ) + Rj + δj ,

δj :=

j = 1, . . . , N − 1,

3 (4) 1 h f ( ηj ) + h3j−1 f (4) ( ηj ) , 12( hj−1 + hj ) j

Abschnitt 2.5

31

Fehlerabschätzungen für interpolierende kubische Splines

beziehungsweise in Vektorschreibweise ⎛ ⎜ ⎝

⎞

f (x1 ) .. .

⎟ ⎠

⎛ =

⎞

g1 .. .

⎜ ⎝

⎛

⎟ ⎜ ⎠ − ⎝

gN −1

f (xN −1 )

R1 .. .

⎞

⎛

⎟ ⎜ ⎠ − ⎝

RN −1

δ1 .. .

δN −1

⎞ ⎟ ⎠.

(2.27)

Verwendung der Identität (2.27) auf der rechten Seite von (2.24) und anschließende Subtraktion des Resultats von der Gleichung (2.21) führt auf eine Fehlerdarstellung der Form ⎛

⎞

f (x1 ) − s (x1 ) .. .

⎜ B⎝

⎞ δ1 − δ1 ⎟ ⎜ .. ⎠. ⎝ . δN −1 − δN −1 ⎛

⎟ ⎠

=

f (xN −1 ) − s (xN −1 )

Die Matrix B ist offensichtlich strikt diagonaldominant und somit aufgrund von Lemma 2.13 regulär, und mehr noch erhält man mit der Identität hj hj+1 2 − − 3 3( hj + hj+1 ) 3( hj + hj+1 )

1 , 3

=

j = 1, 2, . . . , N − 1,

die Abschätzung max |f ( xj ) − s ( xj ) | ≤ 3 max |δ1 | + | δ1 |, . . . , |δN −1 | + | δN −1 |

j=0,...,N

3

≤ 4 h2max ||f (4) ||∞ , wobei in (∗) die Abschätzung |δj | + | δj |

≤

3 3 1 hj−1 + hj ||f (4) ||∞ 4 hj−1 + hj

≤

1 2 h ||f (4) ||∞ , 4 max

j = 1, 2, . . . , N − 1,

eingeht. Dies komplettiert den Beweis des Lemmas. Im folgenden Theorem werden die Approximationseigenschaften interpolierender kubischer Splines vorgestellt. Man beachte, dass die wesentliche Voraussetzung (2.28) für den Fehler der zweiten Ableitungen in den Knoten typischerweise erfüllt ist (siehe Lemma 2.15 und die davor angestellten Bemerkungen). Theorem 2.16 Sei f ∈ C 4 [ a, b ], und sei s ∈ S∆,3 ein interpolierender kubischer Spline3 . Weiter bezeichne hj = xj+1 − xj für j = 0, 1, . . . , N − 1 und hmax =

max

j=0,...,N −1

hj ,

hmin =

min

j=0,...,N −1

hj .

Falls max |s ( xj ) − f ( xj ) |

j=0,...,N

≤

C||f (4) ||∞ h2max

erfüllt ist mit einer Konstanten C > 0, so gelten mit der Zahl c := 3

(2.28)

hmax 1 C + die folgenden hmin 4

zur Zerlegung ∆ = { a = x0 < . . . < xN = b } und den Stützwerten fj = f ( xj ) für j = 0, 1, . . . , N

32

Kapitel 2

Splinefunktionen

Abschätzungen für jedes x ∈ [ a, b ]: |s( x ) − f ( x ) | ≤

c||f (4) ||∞ h4max ,

(2.29)

|s ( x ) − f ( x ) | ≤ 2

.......

h3max ,

(2.30)

|s ( x ) − f ( x ) | ≤ 2

......

h2max ,

(2.31)

......

hmax

|s ( x ) − f (3)

wobei der Ausdruck

.......

(3)

(x) | ≤

2

( x = xj ),

(2.32)

hier jeweils für den Faktor c||f (4) ||∞ steht.

B EWEIS . Man weist zunächst die Fehlerabschätzung (2.32) für die dritten Ableitungen nach. Per Definition ist s auf jedem Intervall [ xj , xj+1 ] affin linear, mithin gilt für j = 0, 1, . . . , N − 1 s( 3 ) ( x ) ≡

s ( xj+1 ) − s ( xj ) hj

für xj < x < xj+1 .

(2.33)

Eine Taylorentwicklung von f um den Punkt x ∈ [ xj , xj+1 ] liefert f ( xj+1 ) = f ( x ) + ( xj+1 − x )f ( 3) ( x ) + f ( xj ) = f ( x ) + ( xj − x )f (3) ( x ) +

( xj+1 − x )2 (4) f ( αj ), 2

( x − xj )2 (4) f ( βj ) 2

mit gewissen Zwischenstellen αj , βj ∈ [ xj , xj+1 ]. Subtraktion der letzten beiden Gleichungen und anschließende Division durch hj liefert f (3) ( x ) =

f ( xj+1 ) − f ( xj ) ( xj+1 − x )2 (4) ( x − xj )2 (4) − f ( αj ) + f ( βj ), hj 2hj 2hj

(2.34)

und die Subtraktion “(2.33) (2.34)“ ergibt s( 3 ) ( x ) − f ( 3 ) ( x ) =

s ( xj+1 ) − f ( xj+1 ) s ( xj ) − f ( xj ) ( xj+1 − x )2 f (4) ( αj ) − ( x − xj )2 f (4) ( βj ) − + hj hj 2hj

und somit |s(3) ( x ) − f (3) ( x ) | ≤ ||f (4) ||∞ ≤

2 h2 1 Chmax + Ch2max + max 2 min{ h0 , . . . , hN −1 }

hmax 1 2C + ||f (4) ||∞ hmax , hmin 2

= 2c

wobei eine Abschätzung der Form ( xj+1 − x )2 + ( x − xj )2

= ( xj+1 − xj )2 − 2( xj+1 − x )( x − xj ) ≤ ( xj+1 − xj )2

≤

h2max

für x ∈ [ xj , xj+1 ] eingeht. Die Fehlerabschätzung (2.32) für die dritten Ableitungen ist damit nachgewiesen.

33

Weitere Themen und Literaturhinweise

Die weiteren Fehlerabschätzungen ergeben sich nun durch Integration. Zur Abschätzung der zweiten Ableitungen (2.31) wählt man zu einer gegebenen Zahl x ∈ [ a, b ] den nächstgelegenen Knoten xj , womit |x−xj | ≤ hmax /2 gilt. Der Hauptsatz der Differenzial- und Integralrechnung liefert s ( x ) − f ( x )

s ( xj ) − f ( xj ) +

=

Z x xj

s(3) ( y ) − f (3) ( y ) dy

und somit |s ( x ) − f ( x ) |

≤

C||f (4) ||∞ h2max + 2c||f (4) ||∞ |x − xj |hmax

≤

2c||f (4) ||∞ h2max ,

wobei noch die Eigenschaft hmax /hmin ≥ 1 beziehungsweise C ≤ c verwendet wurde. Damit ist auch (2.31) für die zweiten Ableitungen nachgewiesen. Zur Abschätzung (2.30) der ersten Ableitungen beachte man, dass die Stützstellen a = x0 < x1 < . . . < xN = b Nullstellen der Funktion s−f sind und somit die Funktion s −f in jedem Teilintervall [ xj−1 , xj ] eine Nullstelle yj besitzt. Wählt man zu einem gegebenen Punkt x ∈ [ a, b ] die nächstgelegene Nullstelle yj , so gilt |x − yj | ≤ hmax , und der Hauptsatz der Differenzial- und Integralrechnung liefert Z x |s ( x ) − f ( x ) | = y s ( y ) − f ( y ) dy ≤ 2c||f (4) ||∞ h2max |x − yj | j

≤ 2c||f (4) ||∞ h3max . Damit ist auch die Fehlerabschätzung (2.30) für die ersten Ableitungen nachgewiesen. Abschließend wird der Fehler s −f betrachtet. Für beliebiges x ∈ [ a, b ] und den nächstgelegenen Knoten xj erhält man Zx |s( x ) − f ( x ) | = s ( y ) − f ( y ) dy ≤ 2c||f (4) ||∞ h3max |x − xj | x j

≤ c||f (4) ||∞ h4max , womit auch die Fehlerabschätzung (2.29) nachgewiesen ist. Bemerkung 2.17 (a) Die wesentliche Aussage in Theorem 2.16 ist ||s − f ||∞ = O(h4max ) für Zerlegungen ∆ mit hmax /hmin ≤ K, wobei K eine von der Zerlegung ∆ unabhängige Konstante bezeichnet. Diese Bedingung an den Quotienten hmax /hmin stellt eine Uniformitätsbedingung an ∆ dar. (b) Konvergenz ||s − f ||∞ → 0 für hmax → 0 mit hmax /hmin ≤ K erhält man auch unter geringeren Differenzierbarkeitseigenschaften. Für gleichmäßig stetige Funktionen f : [ a, b ] → R wird ein entsprechendes Resultat in Mennicken/Wagenführer [68], Band 2 nachgewiesen.

Weitere Themen und Literaturhinweise Von einer gewissen Bedeutung sind in diesem Zusammenhang B Splines der Ordnung ∈ N0 , bei denen es sich um spezielle nichtnegative und mit einem kompakten Träger versehene4 Splinefunktionen der Ordnung aus den Räumen S∆, handelt. Beispielsweise kann man 4

das heißt, diese verschwinden außerhalb eines endlichen Intervalls

34

Kapitel 2

Splinefunktionen

mit ausgewählten B Splines der Ordnung eine Basis für S∆, erzeugen. Auf die Einführung von B Splines wird hier im Sinne der angestrebten u¨ berschaubaren Darstellung verzichtet (ein paar weitere Anmerkungen finden Sie noch in Abschnitt 9.3.5) und stattdessen auf die folgende Auswahl von Lehrbüchern verwiesen: de Boor [4], Deuflhard/Hohmann [21], Kress [60], Oevel [75], Mennicken/Wagenführer [68], Schaback/Wendland [88], Schwarz/Klöckner [90], Stoer [95], Weller [106] und Werner [107]. Weiter ist in diesem Zusammenhang die BézierInterpolation zu nennen, die beispielsweise in [60], [88], [90], [106] und [107] behandelt wird.

¨ Ubungsaufgaben Aufgabe 2.1 Im Folgenden bezeichnet ∆ = {a = x0 < x1 < . . . < xN = b}

(2.35)

wieder eine Zerlegung des Intervalls [ a, b ]. Weiter seien f0 , f1 , . . . , fN ∈ R gegebene Stützwerte, und s 1 [ a, b ] den Raum sei die zugehörige interpolierende lineare Splinefunktion. Im Folgenden bezeichnet C∆ derjenigen stetigen Funktionen f : [ a, b ] → R, die stückweise stetig differenzierbar sind. Man zeige Folgendes: 1 [ a, b ] mit f ( x ) = f f¨ (a) Für jede Funktion f ∈ C∆ j j ur j = 0, 1, . . . , N gilt:

(i) ||f − s ||22 = ||f ||22 − ||s ||22 . (ii) Für eine beliebige (bzgl. ∆ ) lineare Splinefunktion ψ gilt ||f − s ||2 ≤ ||f − ψ ||2 . (b) Die interpolierende lineare Splinefunktion s löst das Variationsproblem ||f ||2 → min

1[ für f ∈ C∆ a, b ]

mit f ( xj ) = fj

für j = 0, 1, . . . , N.

Aufgabe 2.2 Gegeben seien eine Zerlegung (2.35) des Intervalls [ a, b ] und Stützwerte f0 , f1 , . . . , fN ∈ R. (a) Man weise nach, dass es für jede Zahl f0 ∈ R genau einen interpolierenden quadratischen Spline s gibt, der der Zusatzbedingung s ( x0 ) = f0 genügt. Man gebe einen Algorithmus zur Berechnung von s an. (b) Gesucht ist nun der interpolierende quadratische Spline s mit periodischen Randbedingungen s ( x0 ) = s ( xN ). Man treffe Aussagen u¨ ber Existenz und Eindeutigkeit von s. Aufgabe 2.3 Man weise die Aussage im ersten Teil von Bemerkung 2.9 nach. Aufgabe 2.4 Auf dem Intervall [ –1, 1 ] seien die Knoten x0 = −1, x1 = 0 und x2 = 1 gegeben. Welche Eigenschaften eines natürlichen kubischen Splines bezüglich der zugehörigen Zerlegung besitzt die folgende Funktion, und welche besitzt sie nicht? f (x)

=

( x + 1 ) + ( x + 1 )3 4 + ( x − 1 ) + ( x − 1 )3

für −1 ≤ x ≤ 0, für 0 < x ≤ 1.

¨ Ubungsaufgaben

35

Aufgabe 2.5 Gegeben seien die Stützpunkte k

0

1

2

3

4

5

xk

-3

-2

-1

0

1

2

fk

9

4

1

0

1

4

Man stelle das zugehörige lineare Gleichungssystem für die Momente der interpolierenden kubischen Splinefunktion mit natürlichen Randbedingungen auf. Aufgabe 2.6 Gegeben seien eine a¨ quidistante Zerlegung ∆ = {0 = x0 < x1 < . . . < xN = 1} des Intervalls [ 0, 1 ], es gilt also xk = xk−1 + h für k = 1, 2, . . . , N , mit h = 1/N . Man betrachte auf diesem Intervall die Funktion f ( x ) = sin ( 2πx ) und die dazugehörende interpolierende kubische Splinefunktion s ∈ S∆,3 mit natürlichen Randbedingungen. Wie groß muss die Zahl N gewählt werden, damit auf dem gesamten Intervall die Differenz zwischen s und f betragsmäßig kleiner als 10−12 ausfällt? Aufgabe 2.7 Gegeben sei eine zweimal stetig differenzierbare Funktion f : [ a, b ] → R und eine Zerlegung (2.35) des gegebenen Intervalls. Für den zugehörigen interpolierenden linearen Spline s ∈ S∆,1 weise man mit Hilfe der Taylorschen Formel die folgende Fehlerabschätzung nach: |s ( x ) − f ( x ) |

≤

1 ||f ||∞ hmax 2

für

x ∈ [ a, b ],

x ∈ {x0 , x1 , . . . , xN },

wobei hmax := maxj=0,...,N −1 {xj+1 − xj } den maximalen Knotenabstand bezeichnet. Aufgabe 2.8 (Numerische Aufgabe) Zur Interpolation beliebig verteilter Punkte ( x0 , f0 ), ( x1 , f1 ), . . . , ( xn , fn ) ∈ R 2 in der Ebene lassen sich kubische Splinekurven verwenden: Man bestimmt eine interpolierende kubische Splinefunktion s1 zu den Werten ( t0 , x0 ), ( t1 , x1 ), . . . , ( tn , xn ) ∈ R 2 und eine zweite

interpolierende kubische Splinefunktion s2 zu den Werten ( t0 , f0 ), ( t1 , f1 ), . . . , ( tn , fn ) ∈ R 2 . Hierbei wählt man " tj = tj−1 + ( xj − xj−1 )2 + ( fj − fj−1 )2 für j = 1, 2, . . . , N. t0 = 0, Die gewünschte interpolierende kubische Splinekurve ist dann (s1 ( t ), s2 ( t ) ) mit t ∈ [ 0, tN ]. Diesen Ansatz wende man auf die folgenden Punkte an: j

0

1

2

3

4

5

6

7

8

xj

1.5

0.9

0.6

0.35

0.2

0.1

0.5

1.0

1.5

fj

0.75

0.9

1.0

0.8

0.45

0.2

0.1

0.2

0.25

Dabei sollen die interpolierenden kubischen Splinefunktionen s1 und s2 natürliche Randbedingungen erfüllen. Man erstelle einen Ausdruck des sich ergebenden Kurvenverlaufs.

36

3

Diskrete Fouriertransformation und Anwendungen

In diesem Abschnitt wird zunächst die diskrete Fouriertransformation einführend behandelt und anschließend werden einige Anwendungen präsentiert. Schließlich wird ein Verfahren zur “schnellen“ diskreten Fouriertransformation vorgestellt. Zu den vorzustellenden Anwendungen der diskreten Fouriertransformation gehört auch die trigonometrische Interpolation, was den Grund dafür darstellt, dass das vorliegende Thema hier behandelt wird.

3.1 Diskrete Fouriertransformation Definition 3.1 Zu einem gegebenem Datensatz von N komplexen Zahlen f0 , f1 , . . . , fN −1 ∈ C bezeichnet der Datensatz d0 , d1 , . . . , dN −1 komplexer Zahlen definiert durch dk =

N −1 1 fj e−ijk2π/N , N

k = 0, 1, . . . , N − 1

(i =

√

−1)

(3.1)

j=0

die diskrete Fouriertransformierte von f0 , f1 , . . . , fN −1 . Es wird auch die folgende Notation verwendet, F [f0 , . . . , fN −1 ] := [d0 , . . . , dN −1 ].

(3.2)

In Matrix Vektorschreibweise ergibt sich die diskrete Fouriertransformierte durch die Multiplikation ⎛ ⎞ ⎞ ⎛ d0 f0 1 ⎝ pp ⎠ ⎝ ppp ⎠ = , (3.3) V p N dN −1 fN −1 wobei die Matrix V ∈ CN×N konjugiert komplex ist zu der symmetrischen Matrix ⎞ ⎛ ppp 1 1 1 1 ⎟ ⎜ ⎟ ⎜ ⎜1 ω 2 N −1 ⎟ p p p ω ω ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ kj 4 p p p ω 2(N −1) ⎟ ∈ CN×N , ω := ei2π/N . V := (ω )k,j=0..N −1 = ⎜ 1 ω 2 ω ⎟ ⎜ ⎟ ⎜p (3.4) pp pp p pp ⎟ ⎜ pp p p p pp ⎟ ⎜ ⎠ ⎝ 2 1 ω N −1 ω 2(N −1) p p p ω (N −1) Im Folgenden bezeichnet AH ∈ CN×M die zu einer gegebenen Matrix A ∈ CM×N konjugiert komplexe und transponierte Matrix, AH = A . Im Fall v = ( v1 , . . . , vN ) ∈ CN beispielsweise bedeutet dies v H = ( v 1 , . . . , vN ).

Abschnitt 3.2

37

Anwendungen der diskreten Fouriertransformation

Lemma 3.2 Für die Spaltenvektoren der Matrix V in (3.4), v (k ) := (1, ω k , ω 2k , . . . , ω (N −1)k ) ∈ CN ,

gilt

für k = , für k =

,

N 0

(v ( k ) )H v () =

k = 0, 1, . . . , N − 1, k, = 0, 1, . . . , N − 1;

(3.5)

die Spaltenvektoren von V sind also paarweise orthogonal zueinander. B EWEIS . Im Fall k = erhält man wegen |ω | = 1 (v ( k ) )H v (k )

=

N −1

=

ω ks ω ks

s=0

N −1

1

=

N,

s=0

und im Fall k = ergibt sich (v ( k ) )H v () =

N −1

=

ω ksω s

s=0

N −1

ω (−k )s

=

s=0

ω (−k )N − 1 = ω (−k ) − 1

=

ei(−k )2π − 1 ei(−k )2π/N − 1

N −1

(ω (−k ) )s

s=0

=

0,

wobei der Nenner für k, ∈ {0, 1, . . . , N − 1} mit k = nicht verschwindet. Als unmittelbare Folgerung aus Lemma 3.2 erhält man das folgende Korollar. Korollar 3.3 1. (Diskrete Fourierrucktransformation) ¨ Für die Matrix V ∈ CN×N aus (3.4) gilt 1 −1 V = V. N Jeder Datensatz f0 , f1 , . . . , fN −1 komplexer Zahlen lässt sich also aus seiner diskreten Fouriertransformierten F [f0 , . . . , fN −1 ] = [d0 , . . . , dN −1 ] mittels fj =

N −1

dk eijk2π/N ,

j = 0, 1, . . . , N − 1,

(3.6)

k=0

zurückgewinnen. Es wird auch die folgende Notation verwendet, F −1[d0 , . . . , dN −1 ] = [f0 , . . . , fN −1 ]. N −1 −1 1 2 2 2. Mit der Notation aus (3.1) gilt N k=0 |dk | = N j=0 |fj | .

3.2 Anwendungen der diskreten Fouriertransformation 3.2.1 Fourierreihen Jede Riemann integrierbare Funktion f : [ 0, L ] → R mit f ( 0 ) = f ( L ) lässt sich in eine Fourierreihe entwickeln, f (x) =

a0 2

+

∞ k=1

2πx 2πx

+ bk sin k , ak cos k L

L

(3.7)

38

Kapitel 3

Diskrete Fouriertransformation und Anwendungen

mit den reellen Fourierkoeffizienten ak =

2 L

Z L 0

2πy dy, f ( y ) cos k

bk =

L

2 L

Z L 0

2πy dy, f ( y ) sin k L

(3.8)

für k = 0, 1, . . . . Dabei konvergiert die Reihe in (3.7) im quadratischen Mittel. Mit der Eulerschen Formel √ 2πx 2πx e±ik2πx/L = cos k ± isin k , i = −1 (k ∈ Z), L

L

erhält man die komplexe Fourierentwicklung f (x) =

∞

ck eik2πx/L

(3.9)

k=−∞

mit den komplexen Fourierkoeffizienten ck =

1 L

Z L 0

f ( y )e−ik2πy/L dy,

k ∈ Z.

(3.10)

Zwischen den Koeffizienten in (3.8) und (3.10) besteht der folgende Zusammenhang (für k ∈ N0 ): ck =

ak − ibk , 2

ak = ck + c−k ,

c−k =

ak + ibk , 2

bk = i( ck − c−k ).

Im Folgenden wird erläutert, wie man aus den ersten Fourierkoeffizienten einer hinreichend glatten periodischen Funktion – unter Anwendung der diskreten Fourierrücktransformation – an a¨ quidistanten Punkten Näherungen für die Funktionswerte gewinnen kann. Theorem 3.4 Es sei f ∈ C 2 [ 0, L ] und f ( 0 ) = f ( L ), und es bezeichne L j = 0, 1, . . . , N − 1 h = N . xj := jh, Mit den komplexen Fourierkoeffizienten aus (3.10) gilt dann die folgende Fehlerdarstellung: ⎫ ⎪ F −1 [c0 , . . . , cN −1 ] = [f ( x0 ), . . . , f ( xN −1 ) ] + [δ0 , . . . , δN −1 ] ⎬ 1/2 N −1 (3.11) 2 3/2 ⎪ mit |δj | = O(h ).⎭ j=0

Ein einfacher Beweis wird auf Seite 128 aus dem Kapitel 6 u¨ ber numerische Integration vorgestellt. Beispiel 3.5 Die digitale Datenubertragung ¨ liefert ein Beispiel für die praktische Anwendbarkeit der Eigenschaft (3.11). Hier ist es etwas vereinfacht dargestellt so, dass zu einem analogen Signal f die Fourierkoeffizienten ck ermittelt werden, was mithilfe von Filtern (Hochpass-, Tiefpassfilter etc.) geschieht. Die so gewonnenen Fourierkoeffizienten ck werden anschließend an den gewünschten Zielort u¨ bermittelt, an dem aus diesen ck dann wieder das analoge Signal f

Abschnitt 3.2

Anwendungen der diskreten Fouriertransformation

39

zurückgewonnen werden muss. Beziehung (3.11) zeigt, wie Letzteres näherungsweise geschehen kann. In diesem Zusammenhang spielen die Begriffe Glättung und Datenkompression eine Rolle. Zieht man nämlich zur Approximation einer Funktion f Partialsummen der rechten Seite von (3.9) heran, so werden dabei u¨ blicherweise hochfrequente Anteile von f vernachlässigt, was einer Glättung der Funktion f gleichkommt. Dies lässt sich auch als Datenkompression interpretieren, da nur ein Teil der Fourierkoeffizienten bei der approximativen Rekonstruktion von f verwendet wird.

3.2.2 Trigonometrische Interpolation, Teil 1 Zur Interpolation auf einem gegebenen Intervall [ 0, L ] mit L > 0 werden im Folgenden trigonometrische Polynome von der folgenden Form herangezogen, p( x ) =

N −1

dk eik2πx/L ,

x ∈ R.

(3.12)

k=0

Theorem 3.6 Zu a¨ quidistanten Stützstellen xj = jL/N ∈ [ 0, L ] und beliebigen Stützwerten fj ∈ C für j = 0, 1, . . . , N − 1 mit N ∈ N besitzt das trigonometrische Polynom p aus (3.12) die Interpolationseigenschaft p( xj ) = fj ,

j = 0, 1, . . . , N − 1,

(3.13)

genau dann, wenn F [f0 , . . . , fN −1 ] = [d0 , . . . , dN −1 ] erfüllt ist. B EWEIS . Die Interpolationsbedingungen (3.13) ausgeschrieben bedeuten fj =

N −1

dk eijk2π/N ,

j = 0, 1, . . . , N − 1,

k=0

was mit (3.6) u¨ bereinstimmt beziehungsweise F −1 [d0 , . . . , dN −1 ] = [f0 , . . . , fN −1 ] bedeutet. Daraus ergibt sich unmittelbar die Aussage. Das trigonometrische Polynom p aus (3.12) mit der Interpolationseigenschaft (3.13) besitzt allerdings aufgrund eines oszillierenden Verhaltens schlechte Approximationseigenschaften. Dies wird anhand des folgenden Beispiels verdeutlicht. In Abschnitt 3.2.3 wird allgemein beschrieben, warum dieses Verhalten nicht u¨ berraschend ist. Beispiel 3.7 Man betrachte die Funktion f : [ 0, 1 ] → R definiert durch f (x) =

x,

0 ≤ x ≤ 1/2,

1 − x,

1/2 ≤ x ≤ 1.

(3.14)

Für zwei verschiedene Werte von N sind in Bild 3.1 die zugehörigen trigonometrischen Inter polationspolynome dargestellt.

40

Kapitel 3

Diskrete Fouriertransformation und Anwendungen

Bild 3.1 Darstellung der Funktionen f, Re p und Im p; links für N = 4, rechts für N = 16

3.2.3 Trigonometrische Interpolation, Teil 2 Zur Gewinnung interpolierender trigonometrischer Funktionen mit gleichzeitig guten Approximationseigenschaften werden im Folgenden trigonometrische Funktionen von der Form r( x ) =

N/2−1

dk eik2πx/L

(3.15)

k=−N/2

verwendet für gerade Zahlen N ∈ N. Eine Umindizierung führt auf =: p( x ) r( x )

=

N −1

dk−N/2 ei(k−N/2)2πx/L

=

k=0

N −1

dk−N/2 eik2πx/L e−iN πx/L ,

(3.16)

k=0

mit einem trigonometrischen Polynom p von der Form (3.12). Wegen e−iN πxj /L = e−ijπ = ( –1 )j erhält man zusammen mit Theorem 3.6 unmittelbar das folgende Resultat. Theorem 3.8 Zu a¨ quidistanten Stützstellen xj = jL/N ∈ [ 0, L ] und Stützwerten fj ∈ C für j = 0, 1, . . . , N − 1 mit N ∈ N gilt für die Funktion r aus (3.15) die Interpolationseigenschaft r ( xj ) = fj ,

j = 0, 1, . . . , N − 1,

(3.17)

genau dann, wenn F [ ( –1 )0 f0 , ( –1 )1 f1 , . . . , ( –1 )N −1 fN −1 ]

=

[d−N/2 , . . . , dN/2−1 ]

(3.18)

erfüllt ist. Ergeben sich die Stützwerte fj aus den Werten einer hinreichend glatten periodischen Funktion an den Stützstellen xj , so besitzt die trigonometrische Funktion r aus (3.15) mit der Interpolationseigenschaft (3.17) auf dem gesamten Intervall [ 0, L ] gute Approximationseigenschaften, die in Theorem 3.10 unten präzisiert sind. Zunächst werden die Approximationseigenschaften anhand des folgenden Beispiels dargestellt.

Abschnitt 3.2 6

1/2

6

........ ............ ............. ...... ... ...... .......... ..... ... .... .... ... ... .... .... .... .... .... .... ... ....... . .... ... . .... ... ... ...... . . .... .... . .. .... ... ......... . .... ... ....... . ....... . ....... ......... . . ..... ..... .... . . . ....... ...... . . ....... . . ....... ....... . . . . .. ... .... ......... ... ... . . ... .... ... .... . . ... .... . . . ... .... .... ..... . . .... ... ... ..... . .... ..... . . . ..... .... .... ........ . . ...... ... ....... .... ............... . . . ........... ..........

1/2

f (x)

0

1/2

1

r( x )

. ............ ......... ............. .... ...... .... .... ..... .... ..... ...... . . . ..... ..... . . ..... . . . ..... .... . ... . . ..... .... . . .... . ..... ..... . . . ..... .... . ..... . . . . ..... .... . . .... . ..... .... . . . .... .... .... . . . . ..... .... . ..... . . . .. ...... ...... ...... . . .... .... . . . .... .... . ....... . . . .......... ....... . . . . ..... . ...

f (x)

r( x )

0

41

Anwendungen der diskreten Fouriertransformation

-

0

0

1/2

-

1

Bild 3.2 Darstellung der Funktionen f und r; links für N = 4, rechts für N = 16 Beispiel 3.9 Für die Funktion f : [ 0, 1 ] → R aus (3.14) sind in Bild 3.2 für zwei Werte von N jeweils die interpolierenden trigonometrischen Funktionen r aus (3.15), (3.17) dargestellt. Im Folgenden werden die Approximationseigenschaften der interpolierenden trigonometrischen Funktion r beschrieben. Theorem 3.10 Die Funktion f : R → C sei m mal stetig differenzierbar und periodisch der 'L Länge L, und es bezeichne ||g ||2 = ( 0 |g ( x ) |2 dx)1/2 . Dann gilt für die trigonometrische Funktion r aus (3.15) mit der Interpolationseigenschaft (3.17) (mit fj = f ( xj ) ) die Fehlerabschätzung ||r − f ||2

≤

cm (||f ||2 + ||f (m) ||2 )N −m

mit einer gewissen Konstanten cm > 0. B EWEIS . Für einen elementaren Beweis unter expliziter Angabe der Konstanten cm siehe Saranen/Vainikko [87]. Bemerkung 3.11 Es soll hier nochmals das interpolierende trigonometrische Polynom aus Abschnitt 3.2.2 betrachtet werden. Interpoliert ein solches trigonometrisches Polynom p von der Form (3.12) auf dem Intervall [ 0, L ] an den a¨ quidistanten Stützstellen xj = jL/N, j = 0, 1, . . . , N −1, eine gegebene m mal stetig differenzierbare und L periodische Funktion f : R → C, so ist die Funktion r ( x ) := p( x ) e−iN πx/L von der Form (3.15) und interpoliert an den genannten Stützstellen die Funktion f ( x ) e−iN πx/L . Die letztgenannte Funktion oszilliert jedoch typischerweise stark. Genauer gilt m dm m −iN π s (m−s) −iN πx/L −iN πx/L (x) , ) = e f m (f ( x ) e s dx L s=0

wobei auf der rechten Seite dieser Gleichung der Term N m dominiert und Theorem 3.10 hier somit lediglich ||p − f ||2

=

||r − f e−iN πx/L ||2 = O(1 1)

erwarten lässt. Dies wird durch Beispiel 3.7 bestätigt. Mit dem nächsten Beispiel wird der Effekt der Datenglättung demonstriert.

42

Kapitel 3

Diskrete Fouriertransformation und Anwendungen

Beispiel 3.12 Für die Funktion f : [ 0, 1 ] → R aus (3.14) ist in Bild 3.3 der mittels der interpolierenden trigonometrischen Funktion (3.15) (3.17) gewonnene Effekt der Datenglättung1 veranschaulicht. 6

1/2

0

6

f (x)..................................

. .. ...... ....... .... .... ...... ...... . . ...... ..... .... ....... ....... . ....... ....... ...... . ... ..... ........ ... .... ....... ....... ......

0

... . ...... ....... ....... ...... . ... ...... ...... ... .. .... ....... ...... . .. ....... ....... .... .. .. ...... ... ....... ...... ...... . ... ...... .....

1/2

1/2

-

1

0

Re....r..... ( x )

. ... ..... ... ... ... ... .... ... ........ .... . . . . . . . ...... . .... ..... . . ... ... . ... . ... ... . . .... ....... .... . . . . . . ...... ...... ... . . . ... ... ... . . ... ... . ... . ..... ... . . . . ....... ... ...... ....... . . ... ... ... . . ... ... . ... . ... ... . . .... .... ............ ................. ................. ................. ................. ................. ................. ................. ...................... ........... ........... ........... ........... ........... ........... .......... ..........

Im r ( x )

0

1/2

-

1

Bild 3.3 Links die Funktion f aus (3.14) mit kleinen aber hochfrequenten Störungen, und rechts die interpolierende trigonometrische Funktion r für N = 16

Interpolierende reelle trigonometrische Polynome Zur Interpolation der Stützpunkte ( xj , fj ) mit a¨ quidistanten Stützstellen xj = jL/N ∈ [ 0, L ] und reellen Zahlen fj ∈ R für j = 0, 1, . . . , N −1, werden im Folgenden reelle trigonometrische Polynome der Form T ( x ) = A0 + 2

N/2−1

k=1

Ak cos

k2πx L

+ Bk sin

k2πx L

+ AN/2 cos

N πx L

(3.19)

herangezogen mit geraden Zahlen N. Hierzu werden die folgenden Koeffizienten betrachtet: Ak =

N −1 jk2π 1 ∈ R, fj cos N N

Bk =

j=0

N −1 jk2π 1 ∈ R, fj sin N N j=0

(3.20)

k = 0, 1, . . . , N/2.

Offensichtlich ist das trigonometrische Polynom T in (3.19) mit Koeffizienten Ak , Bk wie in (3.20) reellwertig. Das folgende triviale Lemma wird beim Beweis des nachfolgenden Theorems 3.14 benötigt und gibt darüber hinaus an, wie man die Zahlen in (3.20) mithilfe der diskreten Fouriertransformierten aus (3.18) erhält. Lemma 3.13 Zwischen den Zahlen Ak , Bk , k = 0, 1, . . . , N − 1, in (3.20) einerseits und der diskreten Fouriertransformierten aus (3.18) andererseits bestehen die Zusammenhänge d0 = A0 , dk = Ak − iBk ,

1

siehe Beispiel 3.5

d−N/2 = AN/2 , d−k = Ak + iBk ,

k = 1, 2, . . . , N/2 − 1. (3.21)

Abschnitt 3.3

43

Schnelle Fourier-Transformation (FFT )

B EWEIS . Entsprechend (3.18) gilt N −1 1

dk−N/2 = N

( –1 )j fj e−ijk2π/N ,

k = 0, 1, . . . , N − 1,

j=0

beziehungsweise dk

=

N −1 1 ( –1 )j fj e−ijk2π/N e−ijπ N j=0

=

= (−1)j

N −1 jk2πx

jk2πx 1 f − i sin , j cos N N N j=0

k = −N/2, . . . , N/2 − 1,

woraus die angegebenen Identitäten unmittelbar folgen. Das folgende Theorem beschreibt die Interpolationseigenschaften des trigonometrischen Polynoms T aus (3.19) (3.20). Theorem 3.14 Für die trigonometrische Funktion r aus (3.15) (3.17) und das trigonometrische Polynom T aus (3.19) (3.20) gilt Re r ( x ) = T ( x ) sowie T ( xj ) = fj für j = 0, 1, . . . , N − 1. B EWEIS . Mit der trigonometrischen Funktion r aus (3.15) gilt r( x )

=

d0 +

N/2−1

dk eik2πx/L + d−k e−ik2πx/L

+ d−N/2 e−iN πx/L

k=1 (∗)

=

A0 +

N/2−1

(Ak − iBk )eik2πx/L + (Ak + iBk )e−ik2πx/L

+ AN/2 e−iN πx/L

k=1

=

A0 + 2

N/2−1

k=1

Ak cos

k2πx L

+ Bk sin

k2πx

L

+ AN/2 e−iN πx/L ,

wobei in (∗) noch Lemma 3.13 herangezogen wurde. Aus dieser Darstellung für r ergeben sich unmittelbar die beiden Aussagen des Theorems.

3.3 Schnelle Fourier-Transformation (FFT) 3.3.1 Einfuhrende ¨ Bemerkungen In diesem Abschnitt wird ein Verfahren zur “schnellen Fouriertransformation“ (Fast Fourier Transform, kurz FFT) vorgestellt. Dieses Verfahren nutzt die spezielle Form der Transformation (3.1) aus und benötigt dabei lediglich O(N log 2 ( N ) ) komplexe Multiplikationen, wobei log 2 den Logarithmus zur Basis 2 bezeichnet. Man beachte, dass die Berechnung der diskreten Fouriertransformierten (3.1) mittels einer Matrix Vektor Multiplikation entsprechend (3.3) insgesamt N 2 komplexe Multiplikationen erfordert.

3.3.2 Der grundlegende Zusammenhang Von grundlegender Bedeutung für den FFT Algorithmus ist das folgende Resultat.

44

Kapitel 3

Diskrete Fouriertransformation und Anwendungen

Theorem 3.15 Aus den diskreten Fouriertransformierten der beiden (komplexen) Datensätze g0 , g1 , . . . , gM −1 und gM , gM +1, . . . , g2M −1 der Längen M lässt sich die diskrete Fouriertransformierte des Datensatzes g0 , gM , g1, gM +1 , . . . , gM −1 , g2M −1 der Länge 2M folgendermaßen bestimmen: 1 −ikπ/M F F k [g0 , g1 , . . . , gM −1 ] + e k [gM , gM +1 , . . . , g2M −1 ] 2

=

Fk [g0 , gM , g1, gM +1 , p p , gM −1 , g2M −1 ]

für k = 0, 1, . . . , M − 1,

1 Fk [g0 , g1 , . . . , gM −1 ] + e−ikπ/M Fk [gM , gM +1, . . . , g2M −1 ] 2

=

FM +k [g0 , gM , g1 , gM +1 , . . . , gM −1 , g2M −1 ]

für k = 0, 1, . . . , M − 1,

Hierbei bezeichnen Fk beziehungsweise FM +k die k te beziehungsweise ( M + k ) te Komponente von F . B EWEIS . Für k = 0, 1, . . . , M − 1 gilt Fk [g0 , gM , g1, gM +1 , . . . , gM −1, g2M −1 ] M −1 M −1 1 = gj e−i2jk2π/2M + gM +j e−i( 2j+1)k2π/2M 2M

=

1 2M

j=0

M −1

j=0

gj e−ijk2π/M + e−ikπ/M

j=0

M −1

gM +j e−ijk2π/M ,

j=0

Die zweite Gleichung in Theorem 3.15 erhält man völlig analog, wobei noch e−ij (k+M )2π/2M

=

e−ijk2π/2M e−ijπ

=

( –1 )j e−ijk2π/2M

berücksichtigt wird. Für den Fall N = 2q mit N ∈ N kann die in Theorem 3.15 vorgestellte Eigenschaft genutzt werden, um die diskrete Fouriertransformierte eines komplexen Datensatzes f0 , . . . , fN −1 zu bestimmen. Dies soll zunächst anhand des nachfolgenden Beispiels erläutert werden. Beispiel 3.16 In Schema 3.1 ist für den Spezialfall N = 23 dargestellt, wie man für r = 0, 1, 2 ausgehend von der Stufe r mit den diskreten Fouriertransformierten von Datensätzen der Länge 2r zu den diskreten Fouriertransformierten von Datensätzen der Länge 2r+1 in der Stufe r + 1 gelangt. Im Folgenden wird beschrieben, wie man in der Stufe 0 die angegebene Zuordnung f0 , f4 , f2 , f6 , f1 , f5 , f3 , f7 auf die Positionen 0 7 erhält; für jede einzelne Positionsnummer n ∈ {0, 1, . . . , 7} wird die jeweilige Binärdarstellung n = b2 22 + b1 21 + b0 20 ermittelt und in dieser anschließend die Reihenfolge der Binärziffern umgedreht. Die zugehörige Dezimalzahl b0 22 + b1 21 + b2 20 liefert dann den gesuchten Index von f . Dieses Vorgehen der Bit Umkehr ist in Tabelle 3.1 dargestellt. Die Begründung dafür, warum dieses Vorgehen die richtige Zuordnung liefert, wird in Abschnitt 3.3.4 nachgereicht. Für die Berechnung von F [f0 , f1 , . . . , fN −1 ] lässt sich das Ergebnis aus Theorem 3.15 sowohl rekursiv (ohne Bit Umkehr) als auch iterativ umsetzen. Im Folgenden soll der iterative Weg verfolgt werden, bei dem weniger Speicherplatz erforderlich ist. Die allgemeine Vorgehensweise hierzu ist in Definition 3.21 weiter unten beschrieben. Vorbereitend wird die Bit Umkehr eingehender behandelt.

Abschnitt 3.3

Stufe 0

f0

f4

f2

f6

f1

f5

f3

f7

F[f0 ]

F[f4 ]

F[f2 ]

F[f6 ]

F[f1 ]

F[f3 ]

F[f7 ]

Stufe 1

F[f0 , f4 ]

F[f5 ]

F[f2 , f6 ]

Stufe 2

45

Schnelle Fourier-Transformation (FFT )

F[f1 , f5 ]

F[f3 , f7 ]

F[f0 , f2 , f4 , f6 ]

F[f1 , f3 , f5 , f7 ]

F[f0 , f1 , f2 , f3 , f4 , f5 , f6 , f7 ]

Stufe 3

Schema 3.1 Darstellung der schnellen Fouriertransformation im Fall N = 23 Position Dezimal Binär 0 000 1 001 2 010 3 011 4 100 5 101 6 110 7 111

Index von f Binär revers Dezimal 000 0 100 4 010 2 110 6 001 1 101 5 011 3 111 7

Tabelle 3.1 Darstellung der Bit– Umkehr im Fall N = 23 . Die Positionsangaben und Indizes betreffen von links aus gesehen die erste Zeile in Schema 3.1.

3.3.3 Bit– Umkehr Im Folgenden wird die Bit Umkehr in der allgemeinen Situation N = 2q betrachtet. q−1 Definition 3.17 Für q ∈ N0 sei n = ardarstellung einer Zahl =0 b 2 die eindeutige Bin¨ n ∈ Mq = {0, 1, . . . , 2q − 1} mit Binärziffern (Bits) b ∈ { 0, 1}. Die durch σq : Mq → Mq ,

q−1

b 2 →

=0

q−1

bq−1− 2

=0

definierte Abbildung bezeichnet man als Bit Umkehr. Die Situation q = 0 in Definition 3.17 wird dabei lediglich aus technischen Gründen zugelassen und bedeutet M0 = {0} und σ0 ( 0 ) = 0.

46

Kapitel 3

Bemerkung 3.18 Es gilt offensichtlich q−1 σq b 2

Diskrete Fouriertransformation und Anwendungen

q−1

=

=0

b 2q−1− .

=0

Das folgende Theorem liefert eine Vorgehensweise, mit der sich die Bit Umkehr effizient realisieren lässt. Die Werte σq ( 0 ), σq ( 1 ), . . . , σq ( 2q − 1 ) können damit mittels zwei geschachtelter for Schleifen und ohne Durchführung von Multiplikationen berechnet werden. Theorem 3.19 Für die Bit Umkehr σq : Mq → Mq gilt σq ( 2r + n ) = σq ( n ) + 2q−1−r ,

n = 0, 1, . . . , 2r − 1, r = 0, 1, . . . , q − 1.

B EWEIS . Sei r ∈ {0, 1, . . . , q − 1}. Für n ∈ {0, 1, . . . , 2r − 1} existiert eine eindeutige Binärdarstellung von der Form r−1

n = und dann gilt n + 2r =

b 2 ,

=0

r−1

r =0 b 2 + 2 beziehungsweise

σq ( n + 2r )

=

r−1 =0

b 2q−1− + 2q−1−r .

= σq ( n )

Für das Verständnis der Funktionsweise der Bit Umkehr in der allgemeinen Situation N = 2q ist noch das folgende Resultat von Bedeutung. Lemma 3.20 Die Bit Umkehr σq : Mq → Mq ist bijektiv mit σq−1 = σq . Weiter gilt für r = 0, 1, . . .: σr ( n ) = σr+1 ( 2n ), 2 + σr ( n ) = σr+1 ( 2n + 1 ), r

n ∈ Mr , ......

.

B EWEIS . Ist elementar und wird hier nicht geführt (Aufgabe 3.7).

3.3.4 Der FFT– Algorithmus in der Situation N = 2q Ausgehend von beliebigen gegebenen komplexen Zahlen g0 , g1 , . . . , gN −1 ∈ C mit N = 2q

mit q ∈ N

Abschnitt 3.3

47

Schnelle Fourier-Transformation (FFT )

führt der in Theorem 3.15 beschriebene Zusammenhang auf die in dem folgenden Algorithmus 3.21 beschriebenen Vorgehensweise. Wie sich herausstellen wird (siehe Korollar 3.25), stimmt der sich dabei ermittelte Vektor d[q,0] ∈ CN mit der diskreten Fouriertransformierten F [gσq (0) , . . . , gσq (2q −1) ] u¨ berein. Damit wird dann auch unmittelbar klar, wie man die Zahlen g0 , g1 , . . . , gN −1 ∈ C letztlich zu wählen hat, so dass der Vektor d[q,0] ∈ CN tatsächlich mit der zu bestimmenden diskreten Fouriertransformierten F [f0 , . . . , fN −1 ] eines gegebenen Datensatzes von N komplexen Zahlen f0 , . . . , fN −1 u¨ bereinstimmt. Algorithmus 3.21 (FFT) Ausgehend von Zahlen d[0,j] = gj ∈ C, j = 0, . . . , 2q − 1 bestimme man für Stufen r = 1, 2, . . . , q in der r ten Stufe insgesamt 2q−r Vektoren der Länge 2r q−r −1]

d[r,0] , d[r,1] , . . . , d[r,2

r

∈ C2

aus den Datensätzen der jeweils vorhergehenden Stufe r − 1 gemäß der folgenden Vorschrift: 1 [r+1,j] [r,2j] [r,2j+1] dk := 2 dk + θ( r )k dk , 1 [r+1,j] ...... ...... , k = 0, . . . , 2r − 1, − d2r +k := 2

j = 0, . . . , 2q−r−1 − 1, r = 0, . . . , q − 1, r

mit den Zahlen θ( r ) := e−iπ/2 , r = 0, 1, . . . , q − 1.

Bemerkung 3.22 In Schema 3.2 ist die Vorgehensweise beim FFT Algorithmus schematisch dargestellt.

Mit dem nachfolgenden Theorem werden die Einträge der im Zuge des FFT Algorithmus auftretenden Vektoren angegeben. Theorem 3.23 Es gilt d[r,j] = F [gj 2r + σr (0) , gj 2r

+ σr (1) ,

. . . , gj 2r

+ σr (2r −1) ],

j = 0, 1, . . . , 2q−r − 1, (3.22) r = 0, 1, . . . , q.

B EWEIS . Es wird vollständige Induktion u¨ ber r angewandt. Die Aussage (3.22) ist sicher richtig für r = 0, und im Folgenden sei (3.22) richtig für ein 0 ≤ r ≤ q − 1. Dann berechnet man unter Berücksichtigung von 2j 2r = j 2r+1 Folgendes, [r+1,j]

dk

mit

=

1 Fk [g2j 2r 2

=

Fk [gs0 , . . . , gs2r+1−1 ]

, p p , g2j 2r + σr (0)

+ σr (2r −1)

] + θ( r )k Fk [g(2j+1) 2r

, p p , g(2j+1) 2r + σr (2r −1) ] + σr (0)

48

Kapitel 3

g0

g1

g2

g3

... ...

||

||

||

||

[0,0]

[0,1]

[0,2]

[0,3]

Stufe 0 d

d

d

d

||

||

d

d

[0,2q −1]

d

[1,2q−1 −1]

d

d

d

||

d

g2q −1

|| [0,2q −2]

[1,2q−1 −2]

...

[2,0]

[2,2q−2 −1]

...

d

ppp

g2q −2

[0,2q −3]

d

g2q −3

[0,2q −4]

...

[1,1]

d

Stufe 2

g2q −4

[1,0]

Stufe 1

Diskrete Fouriertransformation und Anwendungen

..

pp

.

[q−1,0]

Stufe q − 1

p

d

[q−1,1]

d

d[q,0]

Stufe q

Schema 3.2 Schema zur Vorgehensweise beim FFT– Algorithmus σr+1 (2k)

s2k := j 2 s2k+1 :=

r+1

......

+ σr ( k ) , + 2r + σr ( k ),

k = 0, 1, . . . , 2r − 1,

σr+1 (2k+1) [r+1,j]

unter Berücksichtigung von Lemma 3.20. Die angegebene Darstellung für d2r +k ergibt sich durch die gleiche Rechnung, mit θ( r )k ersetzt durch −θ( r )k . Dies komplettiert den Beweis des Theorems. Bemerkung 3.24 Wenn man für eine fixierte Zahl r alle in (3.22) auftretenden Argumente gj 2r + σr (k ) (für k = 0, . . . , 2r − 1, j = 0, . . . , 2q−r − 1) aufreiht mit j als a¨ ußerem Laufindex, so findet sich an der Position j 2r + k die Zahl gj 2r + σr ( k ) , deren Index man aus j 2r + k ∈ Mq durch Bit Umkehr der ersten (zu den kleinsten Potenzen der Basis 2 gehörenden) r Bits erhält. Für N = 8 ist die Situation in Tabelle 3.2 dargestellt. Unter Beachtung von σq ◦ σq = id erhält man als wesentliche Schlussfolgerung aus Theorem 3.23 das folgende Resultat: Korollar 3.25 Der FFT Algorithmus liefert d[q,0] = F [gσq (0) , . . . , gσq (2q −1) ]. Die Setzung gk = fσq (k ) , k = 0, 1, . . . , 2q − 1, führt somit auf d[q,0] = F [f0 , . . . , f2q −1 ]. Die Bit Umkehr liefert also tatsächlich die anfänglich richtige Zuordnung der Zahlen f0 , f1 , . . . , fN −1 ∈ C auf die Positionen 0 bis N − 1.

Abschnitt 3.3

49

Schnelle Fourier-Transformation (FFT )

Stufe r

Position der Argumente 0

1 pp p

0

g000

1

g000

g001

2

g000

3

g000

g001

2 pp p pp p

3

g010

pp p

4

g011

g010

g011

g010

g001

g011

g100

g010

g110

pp p pp p pp p

g100

5 pp p

g101

g100

g101

g100 g001

6 pp p pp p

g110

7 pp p

g111

g110

g111

g110

g101

g111

g101

g011

g111

Tabelle 3.2 Stufenweise Auflistung der Argumente aus (3.22) gemäß der in Bemerkung 3.24 angegebenen Reihenfolge am Beispiel N = 23 . Die Indizes der Zahlen sind in Binärdarstellung angegeben.

3.3.5 Aufwandsbetrachtungen fur ¨ den FFT– Algorithmus Theorem 3.26 Bei der schnellen Fouriertransformation zur Bestimmung der diskreten Fouriertransformierten eines Datensatzes der Länge N = 2q fallen nicht mehr als N log 2 ( N )/2 + O(N ) komplexe Multiplikationen an. ¨ B EWEIS . Für r ∈ {0, 1, . . . , q − 1} fallen beim Ubergang von der r ten zur ( r + 1 ) ten Stufe des FFT Algorithmus die folgenden komplexen Multiplikationen an: •

•

r −1

ausgehend von θ( r ) erfordert die Berechnung der Zahlen θ( r )2 , θ( r )3 , . . . , θ( r )2 gesamt 2r − 2 (≤ 2r ) komplexe Multiplikationen;

∈ C ins-

r+1

zur Bestimmung des Vektors d[r+1,j] ∈ C2 aus den beiden Vektoren d[r,2j] , d[r,2j+1] ∈ r C2 sind 2r komplexe Multiplikationen erforderlich, und dies jeweils für die Indizes j = 0, . . . , 2q−r−1 − 1. Dies summiert sich zu 2r × 2q−r−1 = 2q−1 komplexen Multiplikationen auf.

¨ Beim Ubergang von der r ten zur ( r + 1 ) ten Stufe des FFT Algorithmus fallen demnach weniger als 2q−1 +2r komplexe Multiplikationen an. Berücksichtigt man noch die zu Beginn des FFT Algorithmus notwendigen q − 2 (≤ q ) komplexen Multiplikationen θ( r ) = θ( r + 1 )2 , r = q − 2, q − 3, . . . , 1, so erhält man abschließend für den gesamten FFT Algorithmus die folgende obere Schranke für die erforderliche Zahl komplexer Multiplikationen: q−1

(2q−1 + 2r ) + q

r=0

≤

q2q−1 + 2q + q

=

N log 2 ( N ) + O(N ). 2

3.3.6 Pseudocode fur ¨ den FFT– Algorithmus in der Situation N = 2q Abschließend wird der FFT Algorithmus in Form eines Pseudocodes angegeben. Algorithmus 3.27 Sei N = 2q .

50

Kapitel 3

f ( k ) = fk , d( k ) = dk ,

Eingabe Ausgabe

for k = 0 : (N − 1)

k = 0, . . . , N − 1

M=

θ=

d( k ) = f (σq ( k ) )/N

end

(** ¨ Ubergang Stufe r → Stufe r + 1 **)

e−iπ/M ;

(** M Datensatzl¨ ange(r) **)

for k = 0 : ( M − 1 ) for j = 0 :

(** reeller oder komplexer Datensatz **) (** diskrete Fouriertransformierte **)

......

for r = 0 : (q − 1) 2r ;

Diskrete Fouriertransformation und Anwendungen

(** k Position in den Datens¨ atzen **)

2q−r−1

−1

(** 2q−r−1 (Anzahl Datens¨ atze)(r + 1) **)

x = θ k d(2jM + M + k ); d(2jM + M + k ) = d(2jM + k ) − x; d(2jM + k )

= d(2jM + k ) + x;

end end end

Weitere Themen und Literaturhinweise Die diskrete Fouriertransformation geht zurück auf Cooley/Tukey [11] und wird beispielsweise in Bollhöfer/Mehrmann [5], Deuflhard/Hohmann [21], Hanke-Bourgeois [49], Oevel [75] und in Schwarz/Klöckner [90] einführend behandelt. In [49], [75] sowie in Plato [79] werden auch die in der Bildverarbeitung bedeutungsvolle zweidimensionale diskrete Fourier- beziehungsweise Cosinustransformation und deren Modifikationen für die Datenkompression beziehungsweise die Digitalisierung beschrieben. Diskrete Fouriertransformationen für die trigonometrische Interpolation auf nichtäquidistanten Gittern werden in Potts / Steidl /Tasche [81] behandelt.

¨ Ubungsaufgaben Aufgabe 3.1 Für gerades N seien ( N + 1 ) Stützstellen x0 < x1 < . . . < xN und Stützwerte f0 , f1 , . . . , fN ∈ C gegeben, mit xN − x0 < 2π. Man zeige Folgendes: (a) Es gibt genau ein trigonometrisches Polynom der Form T (x) =

N/2 A0 + (Ak cos kx + Bk sin kx), 2

(3.23)

k=1

mit komplexen Koeffizienten Ak und Bk , das die Interpolationsbedingungen T ( xj ) = fj für j = 0, 1, . . . , N erfüllt. (b) Sind die Stützwerte f0 , f1 , . . . , fN alle reell, so sind es auch alle Koeffizienten Ak , Bk des zugehörigen interpolierenden trigonometrischen Polynoms der Form (3.23).

¨ Ubungsaufgaben

51

Aufgabe 3.2 Sei N gerade. Man zeige: (a) Für reelle Zahlen x1 , x2 , . . . , xN ist die Funktion N

t( x ) =

x − xs 2

sin

s=1

ein trigonometrisches Polynom von der Form (3.23) mit reellen Koeffizienten Ak , Bk . (b) Man zeige mithilfe von Teil (a) der vorliegenden Aufgabe, dass das interpolierende trigonometrische Polynom zu den Stützstellen in Aufgabe 3.1 und zu den Stützwerten f0 , f1 , . . . , fN identisch ist mit N

T (x) =

k=0

fk t ( x ), tk ( xk ) k

mit

tk ( x ) :=

N s=0 s=k

sin

x − xs . 2

Hinweis zu (a): Für U n := span { 1, sin x, cos x, . . . , sin n x, cos n x } weise man Folgendes nach: •

für beliebige Zahlen b, c ∈ R gilt w( x ) := sin

•

g1 ∈ U m , g2 ∈ U n

=⇒

x−c x−b sin ∈ U 1; 2 2

g1 g2 ∈ U m+n .

Aufgabe 3.3 Es bezeichne nun D2 : CN → CN die folgende lineare Abbildung: D2 c := (−cj−1 + 2cj + cj+1 )j=0,..,N −1,

mit

c = ( c0 , c1 , . . . , cN −1 ), c−1 := cN −1 ,

cN := c0 ,

und außerdem sei M = diag (λ0 , λ1 , . . . , λN −1 ) ∈ CN×N

mit λk := 4sin2 ( kπ/N ) ∈ R für k = 0, 1, . . . , N − 1.

Man zeige Folgendes: D2 = F −1 M F, ( D2 − λI )−1

= F −1 ( M − λI )−1 F

(λ ∈ C,

λ = λk für k = 0, 1, . . . , N − 1).

Hierbei bezeichnet F : CN → CN die diskrete Fouriertransformation. Aufgabe 3.4 (a) Zu einem gegebenen Datensatz f0 , f1 , . . . , fN −1 komplexer Zahlen sei der Datensatz d˜0 , d˜1 , . . . , dÑ −1 komplexer Zahlen definiert durch N −1 γ d˜k = k fj e−i(2j+1)kπ/N

N

für k = 0, 1, . . . , N − 1

(3.24)

j=0

mit gegebenen Koeffizienten γk = 0 für k = 0, 1, . . . , N − 1. Man zeige fj =

N −1 k=0

d˜k i(2j+1)kπ/N e γk

für j = 0, 1, . . . , N − 1.

(b) Zu einem gegebenen Datensatz f0 , f1 , . . . , fn−1 reeller Zahlen mit n ∈ N sei der transformierte Datensatz d0 , d1 , . . . , dn−1 reeller Zahlen definiert durch dk =

n−1 ( 2j + 1 )kπ γk fj cos n 2n j=0

für k = 0, 1, . . . , n − 1

(3.25)

52

Kapitel 3

Diskrete Fouriertransformation und Anwendungen

mit gegebenen Koeffizienten γk = 0 für k = 0, 1, . . . , n − 1. Man zeige: d

fj = γ0 + 2 0

n−1 k=1

( 2j + 1 )kπ dk cos γk 2n

für j = 0, 1, . . . , n − 1.

(3.26)

Hinweis: Man verwende Teil (a) dieser Aufgabe mit den Setzungen N = 2n und fN −1−j = fj für j = 0, 1, . . . , n − 1 beziehungsweise γN −k = γk für k = 1, 2, . . . , n und zeige für diese Situation noch dÑ −k = −d˜k für k = 1, 2, . . . , n. Aufgabe 3.5 Für n ∈ N sei f0 , f1 , . . . , fn−1 ein gegebener Datensatz reeller Zahlen. (a) Man zeige, dass mit den Koeffizienten dk aus (3.25) für das trigonometrische Polynom d

p( θ ) = γ0 + 2 0 Folgendes gilt: p

2j + 1 π = fj 2n

n−1 k=1

dk cos kθ γk

(3.27)

für j = 0, 1, . . . , n − 1.

n) , fj ) für j = 0, 1, . . . , n − 1, (b) Es sei P ∈ Πn−1 das Interpolationspolynom zu den Stützpunkten ( t(j+1 (n) ( ) ( ) wobei tj+1 = cos ( 2j + 1 π / 2n ) die Nullstellen des Tschebyscheff Polynoms Tn der ersten Art vom Grad n bezeichnet. Man zeige, dass mit den Koeffizienten dk aus (3.25) Folgendes gilt:

d

P ( x ) = γ0 + 2 0

n−1 k=1

dk T ( x ). γk k

(3.28)

Aufgabe 3.6 (Numerische Aufgabe) (FFT ) Man berechne entsprechend der Vorgehensweise in Teil (b) der Aufgabe 3.5 das Interpolationspolynom P ∈ Πn−1 zu den beiden Funktionen f ( x ) = x1/3 ,

x ∈ [ 0, 64 ]

bzw.

f ( x ) = log ( x ),

x ∈ ( 0, 1 ]

für die Werte n = für m = 2, 4, . . . , 10 und mit den Stützstellen aus Teil (b) der Aufgabe 3.5, wobei hierfür das Intervall [ –1, 1 ] affin linear auf [ 0, 64 ] beziehungsweise [ 0, 1 ] zu transformieren ist. 2m

Die Koeffizienten d0 , d1 , . . . , dn−1 (mit den Faktoren γk = 2 für k = 0, 1, . . . , n − 1) des Interpolationspolynoms P in der Darstellung (3.28) berechne man mit der schnellen Fouriertransformation. Man berechne außerdem den auftretenden Fehler an (den linear zu transformierenden) Stellen xj = −1+j /10 ( ) für j = 1, 2, . . . , 20. Zur Auswertung von P ( x ) = d0 /2 + n−1 k=1 dk Tk x verwende man die folgende Variante des Horner Schemas: bn := bn+1 := 0, P(x)

=

bk := 2x bk+1 − bk+2 + dk

( b0 − b2 )/2.

Man weise noch die Richtigkeit der Identität (3.29) nach. Aufgabe 3.7 Man beweise Lemma 3.20.

für k = n − 1, n − 2, . . . , 0, (3.29)

53

4

Lösung linearer Gleichungssysteme

In diesem Abschnitt werden Verfahren zur Lösung linearer Gleichungssysteme Ax = b vorgestellt, wobei A = ( ajk ) ∈ R N×N eine gegebene Matrix und b = ( bj ) ∈ R N ein gegebener Vektor ist. Solche Gleichungssysteme treten in zahlreichen Anwendungen auf, wovon eine bereits aus Kapitel 2 u¨ ber Splinefunktionen bekannt ist.

4.1 Gestaffelte lineare Gleichungssysteme Typischerweise u¨ berführt man lineare Gleichungssysteme Ax = b in eine gestaffelte Form, die dann einfach nach den Unbekannten aufzulösen ist. Solche gestaffelten linearen Gleichungssysteme werden zunächst kurz behandelt. Definition 4.1 Matrizen L, R ∈ R N×N der Form ⎞ ⎛ 11 0 ppp 0 ⎟ ⎜ ⎟ ⎜ pp ⎟ ⎜ pp p p ⎟ ⎜ 21 22 ⎟, L = ⎜ ⎟ ⎜ p pp ⎜ pp p 0 ⎟ ⎟ ⎜ ⎠ ⎝ p p p p p p N N N 1

⎛ r11

⎜ ⎜ ⎜ ⎜0 R = ⎜ ⎜ p ⎜ pp ⎜ ⎝ 0

r12

ppp

⎟ ⎟ ⎟ ⎟ ⎟, ⎟ ppp ⎟ ⎟ ⎠ pp p

r22 pp

⎞ r1N

p

pp

ppp

0

p

rN N

heissen untere beziehungsweise obere Dreiecksmatrizen. Es sind die Matrizen L beziehungsweise R regulär genau dann, wenn det ( L ) = beziehungsweise det ( R ) = N j=1 rjj = 0 gilt.

N

j=1 jj

= 0

4.1.1 Obere gestaffelte Gleichungssysteme Für die obere Dreiecksmatrix R = ( rjk ) ∈ R N×N mit rjk = 0 für j > k ist das entsprechende gestaffelte Gleichungssystem Rx = z für einen gegebenen Vektor z ∈ R N von der Form r11 x1 + r12 x2 + · · · + r1N xN

=

z1

r22 x2 + · · · + r2N xN

=

z2

pp p

pp p

pp

p

p pp

rN N xN

= zN

dessen Lösung z ∈ R N für reguläres R zeilenweise von unten nach oben durch jeweiliges Auflösen nach der Unbekannten auf der Diagonalen berechnet werden kann, siehe Schema 4.1.

54

Kapitel 4 Lösung linearer Gleichungssysteme

for j = N : −1 : 1

xj =

N

zj −

rjk xk

rjj ;

end

k=j+1

Schema 4.1 Rekursive Auflösung eines oberen gestaffelten Gleichungssystems Rx = z Theorem 4.2 Für die Auflösung eines oberen gestaffelten Gleichungssystems sind N 2 arithmetische Operationen erforderlich. B EWEIS . In den Stufen j = N, N − 1, . . . , 1 der Schleife aus Schema 4.1 sind zur Berechnung der Unbekannten xj je N −j Multiplikationen und genauso viele Subtraktionen sowie eine Division durchzuführen, insgesamt erhält man die folgende Anzahl von arithmetischen Operationen,

N + 2

N

(N − j )

=

N + 2

j=1

N −1

m

=

N + ( N − 1 )N

=

N 2.

m=1

4.1.2 Untere gestaffelte Gleichungssysteme Für die untere Dreiecksmatrix L = ( jk ) ∈ R N×N mit jk = 0 für j < k ist das entsprechende gestaffelte Gleichungssystem Lx = b mit einem gegebenen Vektor b ∈ R N von der folgenden Form, 11 x1

=

b1

21 x1 + 22 x2

=

b2

pp p

pp p

=

bN

pp p

pp p

pp

p

N 1 x1 + N 2 x2 + · · · + N N xN

Dessen Lösung x ∈ R N kann für eine reguläre Matrix L zeilenweise von oben nach unten durch jeweiliges Auflösen nach der Unbekannten auf der Diagonalen berechnet werden:

for j = 1 : N

xj =

bj −

j−1

jk xk

jj ;

end

k=1

Schema 4.2 Auflösung eines regulären unteren gestaffelten Gleichungssystems Lx = b

Dabei sind genauso viele arithmetische Operationen durchzuführen wie im Fall des oberen gestaffelten Gleichungssystems, nämlich N 2 (vergleiche Theorem 4.2).

Abschnitt 4.2

55

Der Gauß– Algorithmus

4.2 Der Gauß–Algorithmus 4.2.1 Einfuhrende ¨ Bemerkungen Seien wieder A = (ajk ) ∈ R N×N eine gegebene Matrix sowie b = (bj ) ∈ R N ein gegebener Vektor. Im Folgenden wird der Gauß Algorithmus beschrieben, der das Gleichungssystem Ax = b in ein a¨ quivalentes oberes gestaffeltes Gleichungssystem Rx = z u¨ berführen soll, dessen Lösung x ∈ R N dann leicht berechnet werden kann. In der ersten Stufe des Gauß Algorithmus wird das gegebene Gleichungssystem a11 x1 + a12 x2 + · · · + a1N xN

=

b1

a21 x1 + a22 x2 + · · · + a2N xN

=

b2

pp p

pp p

pp p

aN 1 x1 + aN 2 x2 + · · · + aN N xN

pp p

= bN

durch Zeilenoperationen in ein a¨ quivalentes Gleichungssystem der Form a11 x1 + a12 x2 + · · · + a1N xN

=

b1

2) a(222) x2 + · · · + a(2N xN

=

b(22)

pp p

pp p

a(N2)2 x2 + · · · + a(N2)N xN

pp p

=

b(N2)

⎫ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎬ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎭

(4.1)

u¨ berführt. Falls a11 = 0 gilt, so kann dieses erreicht werden mit Zeilenoperationen neue Zeile j := alte Zeile j − j1 · alte Zeile 1,

j = 2, 3, . . . , N,

oder explizit (aj1 − j1 a11 ) x1 + (aj2 − j1a12 ) x2 + · · · + (ajN − j1 a1N ) xN

( 2) ( 2) ! =: a =: a = 0 j2 jN

=

bj − j1b1 =: b(j2)

mit der Setzung j1 :=

aj1 , a11

j = 2, 3, . . . , N.

Nach diesem Eliminierungsschritt verfährt man im nächsten Schritt ganz analog mit dem System der unteren N − 1 Gleichungen in (4.1). Diesen Eliminierungsprozess sukzessive durchgeführt auf die jeweils entstehenden Teilsysteme liefert zu Ax = b a¨ quivalente Gleichungssysteme A( s) x = b( s) , (s)

wobei sich A

∈R

N ×N

(s)

und b

s = 1, 2, . . . , N,

∈ R in der Reihenfolge N

56

Kapitel 4 Lösung linearer Gleichungssysteme

A = A(1)

→ A(2)

→

...

→

A(N ) =: R

b = b( 1)

→

→

...

→

b(N ) =: z

b( 2)

ergeben mit Matrizen und Vektoren von der speziellen Form ⎞ ⎛ ( 1) ( 1) (1) a a · · · · · · · · · a 12 1N ⎟ ⎜ 11 ⎟ ⎜ ⎜ ( 2) 2) ⎟ ⎟ ⎜ a22 · · · · · · · · · a(2N ⎟ ⎜ ⎟ ⎜ pp ⎟ ⎜ pp p p ⎟ ⎜ ⎟ ∈ R N×N , A(s) = ⎜ ⎟ ⎜ (s) ⎟ (s) ⎜ ass · · · asN ⎟ ⎜ ⎟ ⎜ ⎜ pp ⎟ pp ⎜ ⎟ p p ⎜ ⎟ ⎝ ⎠ a(Ns)s · · · a(Ns)N

⎞ (1) b ⎜ 1 ⎟ ⎜ ⎟ ⎜ (2) ⎟ ⎜ b2 ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ pp ⎟ ⎜ p ⎟ N ⎟ = ⎜ ⎜ ⎟ ∈ R . (4.2) ⎜ b( s) ⎟ ⎜ s ⎟ ⎜ ⎟ ⎜ p ⎟ ⎜ pp ⎟ ⎜ ⎟ ⎝ ⎠ b(Ns) ⎛

b(s)

Hierbei wird vorausgesetzt, dass die auftretenden Diagonalelemente allesamt nicht verschwinden, a(sss) = 0 für s = 1, 2, . . . , N, da anderweitig der Gauß Algorithmus abbricht beziehungsweise die Matrix R singulär ist. Algorithmus 4.3 Ein Pseudocode für den Gauß Algorithmus ist in dem folgenden Schema 4.3 angegeben. Dabei werden zur Illustration noch die Indizes (1) , ( 2) , . . . mitgeführt. In jeder Implementierung werden dann entsprechend die Einträge der ursprünglichen Matrix A sowie in dem Vektor b u¨ berschrieben. for s = 1 : N − 1

(**

for j = s + 1 : N js = a(jss) a(sss) ; ( s+1) s+1) aj,s+1 , . . . , a(jN

A(s) → A( s+1) , b( s) → b( s+1)

**)

Zeile j

**)

(**

− js bs ; s) s) s) s) a(j,s+1 , . . . , a(jN − js a(s,s+1 , . . . , a(sN ;

( s+1 )

bj =

= bj

(s)

(s)

end end Schema 4.3 Gauß– Algorithmus

Theorem 4.4 Für den Gauß Algorithmus in Schema 4.3 sind 1 2N 3 1 + O N 3 arithmetische Operationen erforderlich.

(4.3)

Abschnitt 4.2

57

Der Gauß– Algorithmus

B EWEIS . In der s ten Stufe des Gauß Algorithmus sind ( N − s )2 + ( N − s ) Multiplikationen und ebenso viele Additionen durchzuführen und außerdem sind ( N −s ) Divisionen erforderlich, so dass insgesamt 2

N −1 s=1

s2 + 3

N −1

(N

=

s

s=1

− 1 )N ( 2N − 1 ) 3N ( N − 1 ) + 3 2

=

2N 3 1 1 + O 3 N

arithmetische Operationen anfallen. Das folgende Theorem liefert eine Klasse von Matrizen A ∈ R N×N , für die der Gauß Algorithmus durchführbar ist. Theorem 4.5 Ist die Matrix A = (ajk ) ∈ R N×N strikt diagonaldominant, so ist der Gauß Algorithmus zur Lösung von Ax = b durchführbar. B EWEIS . Es wird mit vollständiger Induktion u¨ ber s = 1, 2, . . . , N − 1 nachgewiesen, dass die Matrizen ⎞ ⎛ (s) (s) · · · a a sN ⎟ ⎜ ss ⎟ ⎜ ⎜ pp (s) ( N −s+1 )×( N −s+1 ) pp ⎟ (4.4) B = ⎜ p p ⎟ ∈ R ⎟ ⎜ ⎠ ⎝ a(Ns)s · · · a(Ns)N strikt diagonaldominant sind. Für B ( 1) = A ist dies nach Voraussetzung richtig, und wir nehmen nun an, dass für ein 1 ≤ s ≤ N − 2 die Matrix B ( s) strikt diagonaldominant ist. Dann gilt insbesondere a(sss) = 0, somit ist der Gauß Eliminationsschritt auf B (s) anwendbar und liefert die Matrix B (s+1) = (a(jks+1) )s+1≤j,k≤N ∈ R (N −s)×(N −s) mit

s+1) s+1) , . . . , a(jN a(j,s+1

=

mit den Koeffizienten

s) s) a(j,s+1 , . . . , a(jN

js = a(jss) a(sss) ,

s) s) − js a(s,s+1 , . . . , a(sN ,

j = s + 1, . . . , N,

j = s + 1, s + 2, . . . , N.

Man erhält nun die strikte Diagonaldominanz der Matrix B (s+1) : für j = s + 1, . . . , N ergibt sich N

|a(jks+1) | ≤

k=s+1 k=j

N

|a(jks) | + | js |

k=s+1 k=j

= |ajj | − | js ||asj | was den Beweis komplettiert.

|a(sks) |

k=s+1 k=j

< |a(jjs) | − |a(jss) | + (s)

N

(s)

|a(jss) | |ass | (s)

≤

|a(sss) | − |a(sjs) |

|a(jjs+1) |,

58

Kapitel 4 Lösung linearer Gleichungssysteme

4.2.2 Gauß– Algorithmus mit Pivotsuche Zu Illustrationszwecken betrachten wir für ε ∈ R die reguläre Matrix ( ) ε 1 . Aε = 1 0 Für jeden Vektor b ∈ R 2 ist der Gauß Algorithmus zur Staffelung von A0 x = b nicht durchführbar, und für 0 = ε ≈ 0 erhält man in der ersten Stufe des Gauß Algorithmus zur Staffelung von Aε x = b das Element 21 = 1/ε, was bei der Berechnung der Lösung zugehöriger Gleichungssysteme zu Fehlerverstärkungen führen kann. Zur Vermeidung solcher numerischen Instabilitäten bietet sich die folgende Vorgehensweise an: ¨ Algorithmus 4.6 (Gauß Algorithmus mit Pivotstrategie). Im Folgenden wird der Ubergang (s) ( s+1 ) A →A um eine Pivotstrategie ergänzt. (a) Man bestimme zunächst einen Index p ∈ {s, s + 1, . . . , N } mit (s) aps ≥ a( s) für j = s, s + 1, . . . , N. js Das Element a(pss) wird als Pivotelement bezeichnet. (s) (s) = (b) Transformiere A( s) → A ajk ∈ R N×N sowie b(s) → b( s) = b(js) ∈ R N durch Vertauschung der p ten und der s ten Zeile von A( s) beziehungsweise b(s) :

s) a(pss) , . . . , a(pN

b( s) = b( s) , s p

=

b( s) p

s) a(sss) , . . . , a(sN , =

s) a(sss) , . . . , a(sN

=

s) a(pss) , . . . , a(pN ,

b(ss) ,

die anderen Einträge bleiben unverändert. (s) → A(s+1) , b( s) → b( s+1) geht wie bisher so (c) Der nachfolgende Eliminationsschritt A ( s+1 ) die Form (4.2) erhält. vonstatten, dass die Matrix A Die in Algorithmus 4.6 vorgestellte Pivotsuche wird etwas genauer auch als Spaltenpivotsuche bezeichnet. Es existieren noch andere Privotstrategien (siehe Aufgabe 4.7).

4.3 Die Faktorisierung P A = LR Typischerweise ist für eine gegebene reguläre Matrix A ∈ R N×N das Gleichungssystem Ax = b für unterschiedliche rechte Seiten b zu lösen. Dies kann effizient mit einer Faktorisierung der Form P A = LR geschehen, wobei P ∈ R N×N eine Permutationsmatrix1 sowie L ∈ R N×N eine untere beziehungsweise R ∈ R N×N eine obere Dreiecksmatrix ist: man hat für jede rechte Seite b jeweils nur nacheinander die beiden gestaffelten Gleichungssysteme Lz = P b,

Rx = z,

zu lösen. Eine solche Faktorisierung P A = LR gewinnt man mit dem Gauß Algorithmus mit 1

für deren Einführung siehe den nachfolgenden Abschnitt 4.3.1

Abschnitt 4.3

Die Faktorisierung P A = LR

59

Spaltenpivotsuche; man hat nur die auftretenden Zeilenpermutationen und Zeilenoperationen geeignet zu verwenden. Die genaue Vorgehensweise wird am Ende dieses Abschnitts 4.3 beschrieben.

4.3.1 Permutationsmatrix Es werden nun Permutationsmatrizen betrachtet, mit denen sich Zeilen und Spaltenvertauschungen beschreiben lassen. Definition 4.7 Man bezeichnet P ∈ R N×N als Permutationsmatrix, falls für eine bijektive Abbildung π : {1, . . . , N } → {1, . . . , N } (Permutation genannt) Folgendes gilt, ⎞

⎛

⎟ ⎜ P = ⎝eπ(1) . . . eπ(N ) ⎠ ,

(4.5)

wobei ek ∈ R N den k ten Einheitsvektor bezeichnet, das heißt, der k te Eintrag des Vektors ek ist gleich eins und die anderen Einträge sind gleich null. Beispiel 4.8 Die folgende Matrix stellt eine Permutationsmatrix dar: ⎛ ⎞ 0 1 0 0 ⎜ ⎟ ⎜0 0 1 0⎟ 4×4 ⎟ P = ⎜ ⎜1 0 0 0⎟ ∈ R . ⎝ ⎠ 0 0 0 1 Lemma 4.9 Für eine Permutationsmatrix P ∈ R N×N Darstellung ⎛ e π −1 ( 1) ⎜ ⎜ pp P = ⎜ p ⎝ e π −1 ( N ) B EWEIS . Für k = 1, 2, . . . , N gilt ⎛ e π −1 ( 1) ⎜ ⎜ pp ⎜ p ⎝ eπ−1 ( N )

⎞

⎛

⎟ ⎜ ⎟ ⎟ ek = ⎜ ⎝ ⎠

mit zugehöriger Permutation π gilt die ⎞ ⎟ ⎟ ⎟. ⎠

e π −1 ( 1) ek pp p

⎞ ⎟ ⎟ = eπ(k ) . ⎠

e π −1 ( N ) ek

Bei einer Permutationsmatrix treten also in jeder Zeile beziehungsweise jeder Spalte jeweils genau eine Eins und sonst nur Nullen auf.

60

Kapitel 4 Lösung linearer Gleichungssysteme

Theorem 4.10 Sei P ∈ R N×N eine Permutationsmatrix und π die zugehörige Permutation. Für Vektoren a1 , a2 , . . . , aN ∈ R M mit M ∈ N gilt ⎛ ⎜ ⎜ P⎜ ⎝

a 1 pp p

⎛

⎞

⎜ ⎟ ⎜ ⎟ ⎟ = ⎜ ⎝ ⎠

a N

a π −1 ( 1) pp p

⎞

⎛

⎛

⎟ ⎟ ⎟, ⎠

⎜ ⎜ ⎟ ⎟ ⎜ ⎜ ⎟ ⎟ ⎜a1 . . . aN ⎟ P = ⎜aπ( 1) . . . aπ( N ) ⎟ . ⎝ ⎝ ⎠ ⎠

⎞

⎞

a π −1 ( N ) (4.6)

B EWEIS . Die erste Identität erhält man wie folgt, ⎞ ⎛ a 1 ⎟ ⎜ N N ⎟ ⎜ pp ⎟ = eπ( j ) a = e a P⎜ p j π −1 ( ) ⎟ ⎜ ⎠ ⎝ j=1 =1 a N

⎛ =

und die angegebene Spaltenpermutation folgt so: ⎞ ⎛ ⎟ ⎜ ⎟ ⎜ ⎜a . . . a ⎟ P N⎟ ⎜ 1 ⎠ ⎝

=

N k=1

ak e π −1 ( k )

=

⎜ ⎜ ⎜ ⎜ ⎝

⎞

a π −1 (1)

⎟ ⎟ ⎟, ⎟ ⎠

pp p

a π −1 (N )

⎞

⎛ N

aπ() e

=1

=

⎟ ⎜ ⎟ ⎜ ⎟ ⎜a ⎜ π(1) . . . aπ( N ) ⎟ . ⎠ ⎝

Bemerkung 4.11 Für eine gegebene Matrix A bewirkt also eine Multiplikation mit einer Permutationsmatrix von links eine Permutation der Zeilen von A, und eine Multiplikation mit einer Permutationsmatrix von rechts bewirkt eine Permutation der Spalten von A. In numerischen Implementierungen erfolgt die Abspeicherung einer Permutationsmatrix mit der zugehörigen Permutation π in Form eines Vektors (π −1 ( 1 ), . . . , π −1 ( N ) ) ∈ R N oder (π ( 1 ), . . . , π ( N ) ) ∈ RN . Als unmittelbare Konsequenz aus der zweiten Identität in (4.6) erhält man noch das folgende Resultat. Korollar 4.12 Die Menge der Permutationsmatrizen P ∈ R N×N bildet zusammen mit der Matrizenmultiplikation eine Gruppe: für Permutationen π1 , π2 : {1, . . . , N } → {1, . . . , N } gilt ⎛

⎞⎛

⎞

⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ eπ2 (1) . . . eπ2 (N ) ⎟ ⎜ eπ1 (1) . . . eπ1 (N ) ⎟ ⎝ ⎠⎝ ⎠

⎛ =

⎞

⎟ ⎜ ⎟ ⎜ ⎜ eπ2 ◦π1 (1) . . . eπ2 ◦π1 (N ) ⎟ . ⎝ ⎠

Abschnitt 4.3

Die Faktorisierung P A = LR

61

Eine wichtige Rolle spielen im Folgenden elementare Permutationsmatrizen. Definition 4.13 Eine elementare Permutationsmatrix ist von der Form (4.5) mit einer Elementarpermutation π : {1, . . . , N } → {1, . . . , N }, die zwei Zahlen vertauscht und die restlichen Zahlen unverändert lässt, das heißt, es gibt Zahlen 1 ≤ q, r ≤ N mit π ( q ) = r,

π ( r ) = q,

π( j ) = j

für j ∈ {q, r }.

(4.7)

Bemerkung 4.14 Es sei P ∈ R N×N eine elementare Permutationsmatrix mit zugehöriger Elementarpermutation π von der Form (4.7). Dann gilt ⎛1 ⎜ ⎜ ⎜ ⎜ ⎜ P = ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

pp

⎞ p

⎟ ⎟ ⎟ ← Zeile q ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ← Zeile r ⎟ ⎠

1 0

1 1 p pp

1

1 0 1 p pp

1

und es gilt π −1 = π sowie P −1 = P .

4.3.2 Eliminationsmatrizen Es werden nun Eliminationsmatrizen betrachtet. Es wird sich herausstellen, dass sich mit solchen Matrizen Zeilenoperationen beschreiben lassen. Definition 4.15 Jede Matrix von der Form ⎛ ⎞ 1 ⎜ pp ⎟ ⎜ ⎟ p ⎜ ⎟ ⎜ ⎟ 1 ⎜ ⎟ × ⎜ ⎟ ∈ RN N p p ⎜ ⎟ − p s+1,s ⎜ ⎟ pp ⎜ pp ⎟ p p ⎠ ⎝ − N s 1

(4.8)

mit s ∈ {1, 2, . . . , N − 1} heißt Eliminationsmatrix vom Index s. Bemerkung 4.16 1. Eine Eliminationsmatrix vom Index s unterscheidet sich von der Einheitsmatrix also nur in der s ten Spalte, und dort auch nur unterhalb der Diagonalen. 2. Die prinzipielle Vorgehensweise bei den Zeilenoperationen der s ten Stufe des Gauß Algorithmus wird durch Multiplikation mit einer Eliminationsmatrix vom Index s beschrieben: für

62

Kapitel 4 Lösung linearer Gleichungssysteme

Vektoren ak ∈ R N , k = 1, 2, . . . , N gilt ⎛ ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

1

⎞

pp

⎛ ⎟ p ⎟⎜ ⎟⎜ 1 ⎟⎜ ⎟⎜ pp ⎟⎜ − s+1,s p ⎝ pp pp ⎟ p ⎠ p − N s 1

⎞

a 1

⎟ ⎟ ⎟ ⎟ ⎟ ⎠

pp p

=

a N

⎞

a 1

⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟. ⎟ ⎟ ⎟ ⎟ ⎟ ⎠

pp p

a s a s+1 − s+1,s as

pp p

a N − N s as

3. Bei der Herleitung der Abbildungseigenschaften von Eliminationsmatrizen Fs der Form (4.8) ist die folgende Darstellung hilfreich, Fs = I − fs e s,

mit fs =

0, . . . , 0, s+1,s, . . . , N s

∈ RN ,

(4.9)

wobei I ∈ R N×N die Einheitsmatrix und es ∈ R N den s ten Einheitsvektor bezeichnet. 4. Eine Eliminationsmatrix wird auch als Gauß Transformation oder gelegentlich als Frobeniusmatrix bezeichnet. Die beiden folgenden Lemmata liefern Hilfsmittel für den Beweis von Theorem 4.19 u¨ ber die Faktorisierung P A = LR. Lemma 4.17 Für s = 1, 2, . . . , N − 1 sind Eliminationsmatrizen Fs vom Index s regulär, und mit der Notation (4.8) für Fs gilt ⎛ Fs−1

⎜ ⎜ ⎜ = ⎜ ⎜ ⎜ ⎝ ⎛

F1−1 · · · FN−1−1

1

⎞ pp

p

⎟ ⎟ ⎟ 1 ⎟ pp ⎟ s+1,s p ⎟ pp pp ⎠ p p N s 1

1

⎜ ⎜ 21 1 ⎜ ⎜ p = ⎜ pp 32 1 ⎜ p pp p p ⎜ pp p p ⎝

pp

p

für s = 1, 2, . . . , N − 1,

⎞ ⎟ ⎟ ⎟ ⎟ ⎟. ⎟ ⎟ ⎠

N 1 N 2 p p p N,N −1 1

B EWEIS . Mit der Notation (4.9) für Fs berechnet man (I + fs e s ) (I − fs es ) = Fs

=

I + fs e s − fs es − fs (es fs ) es

= 0∈R

=

I,

Abschnitt 4.3

Die Faktorisierung P A = LR

63

woraus die Regularität von Fs sowie die angegebene Darstellung für die Matrix Fs−1 folgt. Im Folgenden soll nun mit vollständiger Induktion F1−1 · · · Fs−1 = I +

s

fk e k,

s = 1, 2, . . . , N − 1,

(4.10)

k=1

nachgewiesen werden, was im Fall s = N − 1 gerade die letzte Darstellung des Lemmas liefert. Die Darstellung in (4.10) ist sicher richtig für s = 1, und wir nehmen nun an, dass sie richtig ist für ein 1 ≤ s ≤ N − 2. Dann erhält man wie behauptet −1 F1−1 · · · Fs+1 =

I +

s

I + fs+1 e fk e k s+1

k=1

= I +

=0∈R

fs+1 e s+1

+

s

fk e k

s

+

k=1

fk (e k fs+1 ) es+1 .

k=1

Lemma 4.18 Sei Fs eine Eliminationsmatrix vom Index s in der Darstellung (4.9), und sei P eine elementare Permutationsmatrix mit zugehöriger Elementarpermutation π von der Form (4.7) mit Zahlen s + 1 ≤ q, r ≤ N. Dann entsteht P Fs P aus Fs durch Vertauschen der Einträge q und r in der s ten Spalte, das heißt, P Fs P

=

I − ( P fs )e s.

B EWEIS . Die Aussage ergibt sich unmittelbar: P Fs P =

P 2 − ( P fs )( e s P ), = I = e s

wobei sowohl Bemerkung 4.14 als auch die zweite Identität in (4.6) für M = 1 sowie die Tatsache q, r ≥ s + 1 berücksichtigt sind.

4.3.3 Die Faktorisierung P A = LR Vorbereitend wird die bereits vorgestellte Vorgehensweise beim Gauß Algorithmus mit Spaltenpivotstrategie2 als Folge spezieller Matrix Operationen beschrieben: es werden sukzessive Matrizen A( s+1) 2

=

Fs Ps A(s)

für s = 1, 2, . . . , N − 1

siehe hierzu Schema 4.3, Algorithmus 4.6 sowie Bemerkung 4.16

64

Kapitel 4 Lösung linearer Gleichungssysteme

mit ⎞

⎛

Fs

⎜ ⎜ ⎜ ⎜ ⎜ ⎜ = ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

1 pp

p

1 − s+1,s p p p pp p

pp

p

− N s ⎛

Ps

⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ = ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

1

js =

⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟, ⎟ ⎟ ⎟ ⎟ ⎠

p s s =

a(jss) a(pss)s

,

j = s + 1, . . . , N,

a(sss) , a(pss)s

(4.11)

1 ⎞

pp

j = ps ,

p

1 0

1 1

pp

p

1 1

0 1

pp

p

1

⎛ ⎟ ∗ ··· ··· ··· ⎜ ⎟ ⎜ .. ⎟ . ⎜ ⎟ ← Zeile s ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ∗ ··· ⎟ A(s) = ⎜ ⎜ ⎟ ⎜ ⎟ a(sss) ⎜ ⎟ ⎜ ⎟ ← Zeile ps pp ⎜ ⎟ p ⎟ ⎝ ⎠ (s) aN s

⎞ ∗ ⎟ .. ⎟ . ⎟ ⎟ ⎟ ··· ∗ ⎟ ⎟ , (4.12) s) ⎟ ⎟ · · · a(sN ⎟ pp ⎟ p ⎟ ⎠ · · · a(Ns)N ···

berechnet, wobei ps ≥ s die Position derjenigen Zeile aus der Matrix A( s) mit dem Pivotelement bezeichnet. Es kann nun die Faktorisierung P A = LR explizit angegeben werden. Theorem 4.19 Mit den Notationen (4.11) (4.12) gilt für P = PN −1 · · · P1 , R = A(N ) sowie ⎛ ⎞ ⎞ ⎛ ⎛ ⎞ 0 0 1 p p ⎜ pp ⎟ ⎜ pp ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎜ 21 1 ⎟ ⎟ ⎜ 0 ⎟ ⎜ 0 ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎜ pp ⎟ ⎟ ⎟ L = ⎜ p 32 1 ⎟ , mit ⎜ 1 ⎟ := PN −1 . . . Ps+1 ⎜ ⎜ 1 ⎟ , (4.13) ⎜ ⎜ ⎟ ⎟ ⎜ ⎟ p p ⎜ s+1,s ⎟ ⎜ p ⎟ pp pp p p p ⎜ s+1,s ⎟ p ⎝ p ⎝ pp ⎠ ⎠ ⎝ ppp ⎠ p N 1 N 2 p p p N,N −1 1 N s N s die Identität P A = LR. B EWEIS . Für s = 1, 2, . . . gilt: A(2) = F1 P1 A

=

F1 (P1 A),

(3)

= F2 P2 A

=

(4)

= F3 P3 A

=

A

A

(2) (3)

=I

F2 P2 (F1 P2 P2 P1 A) = F2 (P2 F1 P2 )(P2 P1 A) F3 P3 F2 P3 P3 P2 F1 P2 P3 P3 P2 P1 A =I

= F3 (P3 F2 P3 )(P3 P2 F1 P2 P3 )(P3 P2 P1 A),

=I

Abschnitt 4.3

Die Faktorisierung P A = LR

65

und so weiter, was schließlich auf R = A(N ) = FN −1 · · · F1 P A führt mit den Eliminationsmatrizen

⎛

Fs = PN −1 · · · Ps+1 Fs Ps+1 · · · PN −1

(∗)

=

⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

(4.14)

⎞

1 pp

p

⎟ ⎟ ⎟ ⎟ ⎟ 1 ⎟, ⎟ p − s+1,s p p ⎟ ⎟ pp pp ⎟ p p ⎠ − N s 1

s = 1, . . . , N − 1,

wobei in der Identität (∗) noch Lemma 4.18 berücksichtigt ist. Eine Umformung von (4.14) liefert dann die Identität P A = ( F1−1 · · · FN−1−1 )R

(∗∗)

=

LR,

wobei in (∗∗) noch Lemma 4.17 eingeht. Dies komplettiert den Beweis. Bemerkung 4.20 In praktischen Implementierungen werden die frei werdenden Anteile des unteren Dreiecks der Matrix A sukzessive u¨ berschrieben mit den Einträgen der unteren Dreiecksmatrix L, und in dem oberen Dreieck der Matrix A ergeben sich die Einträge der Dreiecksmatrix R. Die Permutationsmatrix P lässt sich einfach in Form eines Buchhaltungsvektors r ∈ R N berechnen: es gilt ⎛

b1

⎞

p P ⎝ pp ⎠ bN

⎛ =

br1

⎞

⎛

⎝ ppp ⎠ brN

r1

⎞

⎛

1

⎞

⎝ ppp ⎠ := P ⎝ ppp ⎠ , rN N

für

was man unmittelbar aus Theorem 4.10 erschließt.

Beispiel 4.21 (Oevel [75]) Die durch Theorem 4.19 vorgegebene Vorgehensweise soll anhand der Matrix ⎛

0

⎜ ⎜ ⎜2 A = ⎜ ⎜ ⎜1 ⎝ 1

0

1

2

2

2

2

2

3

1

⎞

⎟ ⎟ 2⎟ ⎟ ∈ R 4×4 ⎟ 2⎟ ⎠ 6

exemplarisch vorgestellt werden. Nach Anhängen des für die Speicherung der Zeilenpermutationen zuständigen Buchhaltungsvektors geht man so vor (unterhalb der Treppe ergeben sich

66

Kapitel 4 Lösung linearer Gleichungssysteme

sukzessive die Einträge der unteren Dreiecksmatrix L aus (4.13)): ⎛

0

0

⎜ ⎜i ⎜2 2 ⎜ ⎜ ⎜1 2 ⎝ 1 2

⎛

1

1

2 3

2

2

⎜ ⎜ 1/2 Elimination ⎜ ⎜ −→ ⎜ ⎜ 0 ⎝ 1/2

2

2

0

1

1i 1

2

2

2

2 2

0 1

⎛

⎞

⎞

⎞

⎛

2

0

1

2

2

2

3

2

2

⎞

⎛

2

⎜ ⎟ ⎜ ⎜ ⎟ ⎜ ⎜ 3 ⎟ Elimination ⎜ 1/2 ⎜ ⎟ ⎜ −→ ⎜ ⎟ ⎜ ⎜ 1 ⎟ ⎜ 0 ⎝ ⎠ ⎝ 4 1/2

⎟ ⎟ 1 1⎟ ⎟, ⎟ i ⎟ 1 1 ⎠ 1 4

2

⎜ ⎟ ⎜ ⎜ ⎟ ⎜ ⎜ 1 ⎟ Zeilentausch ⎜ 1/2 ⎜ ⎟ ⎜ −→ ⎜ ⎜ ⎟ ⎜ 0 ⎜ 3 ⎟ ⎝ ⎠ ⎝ 1/2 4 ⎛

⎞

2

2

⎜ ⎜ ⎜0 ⎜ ⎜ ⎜1 ⎝ 1

Zeilentausch −→

⎛

⎟ ⎟ 1⎟ ⎟, ⎟ 1⎟ ⎠ 5

1

1

1

⎜ ⎟ ⎜ ⎟ ⎜ 2 ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ 3 ⎟ ⎝ ⎠ 4

⎟ ⎟ 2⎟ ⎟, ⎟ 2⎟ ⎠ 6

2

⎜ ⎜ 0 Elimination ⎜ ⎜ −→ ⎜ ⎜ 1/2 ⎝ 1/2 ⎛

⎛

⎞

2

⎛

⎞

2

1

1

0

1

1

2

2

2

1

1

0

1

1

1

2

⎞

⎟ ⎟ 1⎟ ⎟, ⎟ 1⎟ ⎠ 5

2

⎞

⎜ ⎟ ⎜ ⎟ ⎜ 1 ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ 3 ⎟ ⎝ ⎠ 4

⎟ ⎟ 1⎟ ⎟, ⎟ 2⎟ ⎠ 6

2

2

⎛

⎞

⎜ ⎟ ⎜ ⎟ ⎜ 3 ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ 1 ⎟ ⎝ ⎠ 4 ⎛

⎞

2

2

⎞

⎜ ⎟ ⎜ ⎟ ⎜ 3 ⎟ ⎜ ⎟, ⎜ ⎟ ⎜ 1 ⎟ ⎝ ⎠ 4

⎟ ⎟ 1⎟ ⎟, ⎟ 1⎟ ⎠ 3

wobei das jeweils gewählte Pivotelement ∗ eingekreist dargestellt ist, ∗i. Es ergibt sich somit das folgende Resultat: ⎛

⎞

1

⎜ ⎜ ⎜ 1/2 L = ⎜ ⎜ ⎜ 0 ⎝ 1/2

⎟ ⎟ ⎟ ⎟, ⎟ ⎟ ⎠

1 0

1

1

1

⎛ ⎜ ⎜ ⎜ R = ⎜ ⎜ ⎜ ⎝

1

2

2

2

1

1 1

2

⎞

⎟ ⎟ 1⎟ ⎟, ⎟ 1⎟ ⎠ 3

⎛

b1

⎞

⎛

b2

⎞

⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎜ b3 ⎟ ⎜ b2 ⎟ ⎟ ⎜ ⎟. ⎜ P⎜ ⎟ = ⎜ ⎟ ⎜ b1 ⎟ ⎜ b3 ⎟ ⎝ ⎠ ⎠ ⎝ b4 b4

4.4 LR–Faktorisierung In gewissen Situationen ist es möglich und zwecks Bewahrung etwaiger Bandstrukturen der Matrix A auch wünschenswert, auf eine Pivotstrategie zu verzichten und eine LR Faktorisierung

Abschnitt 4.4

67

LR – Faktorisierung

von der Form ⎛

A

⎜ ⎜ ⎜ ⎜ 21 ⎜ ⎜ p ⎜ pp ⎜ ⎝ N 1

=

⎞

⎞⎛ 1

⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎠⎝

1 pp

p

pp

ppp

N,N −1

p

r11

r12

ppp

rN N

⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ppp ⎟ ⎟ ⎠ pp p

r22 pp

p

1

(4.15)

rN N

zu bestimmen. Ein direkter Ansatz zur Bestimmung einer solchen LR Faktorisierung besteht darin, das Gleichungssystem (4.15) als N 2 Bestimmungsgleichungen für die N 2 gesuchten Größen rjk ( j ≤ k ) und jk ( j > k ) aufzufassen: min{j,k}

ajk =

j, k = 1, 2, . . . , N.

js rsk ,

(4.16)

s=1

Dabei gibt es verschiedene Reihenfolgen, mit denen man aus den Gleichungen in (4.16) die Einträge von L und R berechnen kann. Beispielsweise führt eine Berechnung der Zeilen von R und der Spalten von L entsprechend der Parkettierung nach Crout ⎛ ⎜ 1a ⎜ ⎜ 1b ⎜ ⎜ ⎜ ⎜↓ ⎜ ⎜ ⎜ ⎜ ⎝

⎞

→

⎟ ⎟ ⎟ 2a → ⎟ ⎟ ⎟ ⎟ 2b 3a → ⎟ ⎟ ↓ 3b 4a → ⎟ ⎟ ⎠ ↓ 4b 5

(4.17)

auf den in Schema 4.4 beschriebenen Algorithmus zur Bestimmung der LR Faktorisierung. for n = 1 : N for k = n : N for j = n + 1 : N

rnk = ank − jn =

n−1

ns rsk ;

s=1

ajn −

n−1

js rsn

end rnn ;

end

s=1

end Schema 4.4 LR– Faktorisierung nach Crout Wie man leicht abzählt, fallen bei diesem Algorithmus insgesamt (2N 3 /3)(1 + O( 1/N ) ) arithmetische Operationen an (Aufgabe 4.10).

68

Kapitel 4 Lösung linearer Gleichungssysteme

4.5 Cholesky–Faktorisierung symmetrischer, positiv definiter Matrizen 4.5.1 Grundbegriffe Gegenstand des vorliegenden Abschnitts sind die in der folgenden Definition betrachteten Matrizen. Definition 4.22 Eine Matrix A ∈ R N×N heißt symmetrisch, falls A = A gilt. Sie heißt positiv definit, falls xAx > 0 für alle 0 = x ∈ R N gilt. Beispielsweise sind die bei der kubischen Spline Interpolation auftretenden Systemmatrizen zur Berechnung der Momente symmetrisch und positiv definit. Einzelheiten dazu werden in Abschnitt 4.5.3 nachgetragen. Für positiv definite Matrizen wird nun eine der LR Faktorisierung a¨ hnliche Faktorisierung mit einem geringeren Speicherplatzbedarf vorgestellt. Wir beginnen mit einem vorbereitenden Lemma. Lemma 4.23 Die Matrix A ∈ R N×N sei symmetrisch: Dann gilt: (a) Die Matrix A ist positiv definit genau dann, wenn alle Eigenwerte von A positiv sind. (b)

......

⎛ ⎜ arr ⎜ p ⎜ pp ⎜ ⎝ asr

genau dann, wenn alle Hauptuntermatrizen ⎞ ars ⎟ ⎟ pp ppp ⎟ ∈ R (s−r+1)×(s−r+1) p ⎟ ⎠ p p p ass ppp

für 1 ≤ r ≤ s ≤ N

(4.18)

von A positiv definit sind. (c) Ist die Matrix A positiv definit, so gilt det ( A ) > 0. B EWEIS . (a) Ist die Matrix A positiv definit und λ ∈ R ein Eigenwert von A, so gilt für einen beliebigen Eigenvektor 0 = x ∈ R N von A zum Eigenwert λ Folgendes: 0 < xAx = λ xx > 0

¨ und damit λ > 0. Für den Nachweis der anderen Richtung der Aquivalenz benötigen wir die für symmetrische Matrizen A existierende Faktorisierung A = UDU

U ∈ R N×N regulär,

U −1 = U ,

D = diag (λ1 , . . . , λN ) ∈ R N×N .

(4.19)

Die Zahlen λ1 , . . . , λN ∈ R sind dabei gerade die entsprechend ihrer Vielfachheit gezählten Eigenwerte der Matrix A, und diese seien nun allesamt als positiv angenommen. Dann ist die Matrix D positiv definit, denn es gilt

Abschnitt 4.5

69

Cholesky– Faktorisierung positiv definiter Matrizen

zDz =

N

für 0 = z = ( zj ) ∈ R N .

λj zj2 > 0

j=1

Damit gilt auch xAx = (U x)D ( U x ) > 0

für 0 = x ∈ R N ,

so dass die Matrix A ebenfalls positiv definit ist. (b) Falls alle Hauptuntermatrizen von A positiv definit sind, so ist insbesondere auch die Ma¨ trix A positiv definit. Für den Nachweis der anderen Richtung der betrachteten Aquivalenz ( s−r+1 )×( s−r+1 ) eine sei nun die Matrix A als positiv definit angenommen, und es sei B ∈ R Hauptuntermatrix der Form (4.18). Die Matrix B ist offensichtlich symmetrisch, und sei nun N 0 = x = ( xj )sj=r ∈ R s−r+1. Für z = ( zj )N j=1 ∈ R mit r ≤ j ≤ s, xj , zj = 0, sonst gilt dann z = 0 und xBx

=

s

ajk xj xk

N

=

j,k=r

ajk zj zk

=

zAz > 0.

j,k=1

(c) Hier zieht man eine Faktorisierung von der Form (4.19) heran und erhält daraus wie angegeben det ( A )

=

det ( U −1 ) det ( D ) det ( U )

=

det ( D )

=

N

λj > 0.

j=1

Theorem 4.24 Die Matrix A ∈ R N×N sei symmetrisch und positiv definit. Dann gibt es genau eine untere Dreiecksmatrix L = ( jk ) ∈ R N×N mit jj > 0 für alle j und A = LL.

(4.20)

Die Faktorisierung (4.20) wird als Cholesky Faktorisierung von A bezeichnet. B EWEIS . Der Beweis wird mit vollständiger Induktion u¨ ber N geführt. Für N = 1 ist eine positiv definite Matrix A = (α) ∈ R 1×1 eine positive Zahl α > 0, die eindeutig in der Form √ α, α = · , = geschrieben werden kann. Wir nehmen nun an, dass für eine ganze Zahl N ≥ 1 die Aussage des Theorems richtig ist mit N − 1 anstelle N und betrachten dann eine symmetrische, positiv definite Matrix A ∈ R N×N . Diese lässt sich in der Form ⎞ ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

AN −1

b

⎟ ⎟ b ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ aN N

70

Kapitel 4 Lösung linearer Gleichungssysteme

partitionieren mit einem Vektor b ∈ R N −1 und einer Matrix AN −1 ∈ R (N −1)×(N −1) , die nach Lemma 4.23 positiv definit ist. Nach Induktionsvoraussetzung gibt es eine eindeutig bestimmte untere Dreiecksmatrix LN −1 = ( jk ) ∈ R (N −1)×(N −1) mit jj > 0 für j = 1, 2, . . . , N − 1 und AN −1 = LN −1 L N −1 . Die gesuchte Matrix L ∈ R N×N setzt man nun in der Form ⎛ ⎞ ⎜ ⎜ ⎜ ⎜ L = ⎜ ⎜ ⎜ ⎝

⎟ ⎟ 0⎟ ⎟ ⎟ ⎟ ⎟ ⎠ α

LN −1

c

an mit dem Ziel, einen Vektor c ∈ R N −1 und eine Zahl α > 0 so zu bestimmen, dass ⎞ ⎛ ⎞⎛ ⎛

A

=

⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

AN −1

b

⎟ ⎟ b ⎟ ⎟ ⎟ ⎟ ⎟ ⎠

!

=

⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

⎟⎜ ⎟⎜ ⎜ 0⎟ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎠⎝ α

LN −1

aN N

c

L N −1 0

⎞ ⎟ ⎟ c⎟ ⎟ ⎟ ⎟ ⎟ ⎠ α (4.21)

gilt. Gleichheit in (4.21) liegt genau dann vor, wenn LN −1 c = b

c c + α2 = aN N

(4.22)

gilt, und die erste dieser beiden Gleichungen besitzt sicher genau eine Lösung c = L−1 N −1 b, da ( N −1 )×( N −1 ) als untere Dreiecksmatrix mit nichtverschwindenden Diagonaleinträgen LN −1 ∈ R regulär ist. Auch die zweite Gleichung (4.22) besitzt eine Lösung α ∈ C, mit der dann die Faktorisierung (4.21) gültig ist. Wir zeigen abschließend α2 > 0; dann kann in (4.22) in eindeutiger Weise α > 0 gewählt werden. Wegen (4.21) gilt ⎛ ⎞ ⎞ ⎛ det ( A )

=

⎜ ⎜ ⎜ det ⎜ ⎜ ⎝

LN −1 c

⎜ ⎟ ⎜ 0⎟ ⎜ ⎟ ⎟ det ⎜ ⎜ ⎟ ⎝ ⎠ α

L N −1 0

⎟ c⎟ ⎟ ⎟ ⎟ ⎠ α

=

det ( LN −1 )2 α2

und wegen det ( A ) > 0 (siehe Lemma 4.23) sowie der Regularität von LN −1 folgt wie behauptet α2 > 0. Bemerkung 4.25 Der im Beweis von Theorem 4.24 vorgestellte Algorithmus zur Berechnung einer Faktorisierung A = LL wird als Quadratwurzelverfahren bezeichnet.

Abschnitt 4.5

71

Cholesky– Faktorisierung positiv definiter Matrizen

4.5.2 Die Berechnung einer Faktorisierung A = LL fur ¨ positiv definite N N Matrizen A ∈ R ×

In einem direkten Ansatz zur Bestimmung einer solchen LL Faktorisierung fasst man die Matrix Gleichung (4.20) als N ( N + 1 )/2 Bestimmungsgleichungen für die N ( N + 1 )/2 gesuchten Einträge jk ( j ≥ k ) auf: k

ajk =

1 ≤ k ≤ j ≤ N.

js ks ,

(4.23)

s=1

Spaltenweise Berechnung der Einträge der unteren Dreiecksmatrix L ∈ R N×N aus den Gleichungen in (4.23) führt auf den in Schema 4.5 beschriebenen Algorithmus. for n = 1 : N n−1 2 1/2 nk ; nn = ann − k=1

jn =

for j = n + 1 : N

ajn −

n−1

jk nk

nn ;

end

k=1

end Schema 4.5 LL– Faktorisierung Theorem 4.26 Zur Berechnung einer Cholesky Faktorisierung sind insgesamt (N 3 /3)(1 + O( N1 )) arithmetische Operationen durchzuführen. B EWEIS . Nach Schema 4.5 summiert sich die Zahl der genannten Operationen zu N

2n − 1 +

n=1

( 2n − 1 )

j=n+1

= −

N n=1

=

N

(N + 1 − n) + 2

=

N

( N + 1 − n )( 2n − 1 )

n=1 N

( N + 1 − n )n = −

n=1

N(N + 1) N ( N + 1 )( 2N + 1 ) ( 2N + 1 ) − 2 2 6

N n=1

=

n + 2( N + 1 )

N n=1

1 N3 1 + O . 3 N

n−2

N

n2

n=1

4.5.3 Eine Klasse positiv definiter Matrizen Zu Beginn des vorliegenden Abschnitts 4.5 wurde bereits darauf hingewiesen, dass beispielsweise die bei der kubischen Spline Interpolation auftretenden Systemmatrizen zur Berechnung der Momente symmetrisch und positiv definit sind. In diesem Abschnitt wird hierfür noch der Nachweis geliefert. Wir beginnen mit einem vorbereitenden Lemma.

72

Kapitel 4 Lösung linearer Gleichungssysteme

Lemma 4.27 Die Matrix A ∈ R N×N sei symmetrisch und strikt diagonaldominant, und sie besitze ausschließlich positive Diagonaleinträge. Dann ist die Matrix A positiv definit. B EWEIS . Gemäß Teil (a) von Lemma 4.23 genügt es nachzuweisen, dass alle Eigenwerte der Matrix A positiv sind. Zunächst stellt man fest, dass zu jedem Eigenwert λ ∈ R der Matrix A = ( ajk ) notwendigerweise ein Index j ∈ {1, 2, . . . , N } mit |ajj − λ| ≤

N

|ajk |

(4.24)

k=1 k=j

existieren muss3, da ansonsten die Matrix A − λI strikt diagonaldominant und damit regulär wäre. Aus der Abschätzung (4.24) erhält man dann die Aussage des Lemmas, ajj − λ ≤ |ajj − λ| ≤

N

|ajk |

λ ≥ ajj −

bzw.

k=1 k=j

N

|ajk | > 0.

k=1 k=j

Beispiel 4.28 In Abschnitt 2.4 ab Seite 24 sind Verfahren zur Berechnung interpolierender kubischer Splinefunktionen mit natürlichen, vollständigen beziehungsweise periodischen Randbedingungen vorgestellt worden. Die dabei jeweils entstehenden linearen Gleichungssysteme zur Berechnung der Momente beinhalten Systemmatrizen, die den Bedingungen von Lemma 4.27 genügen und somit positiv definit sind. Diese linearen Gleichungssysteme lassen sich also jeweils mit einer Cholesky Faktorisierung lösen.

4.6 Bandmatrizen Bei der Diskretisierung von gewöhnlichen oder partiellen Differenzialgleichungen oder auch der Berechnung der Momente kubischer Splinefunktionen ergeben sich lineare Gleichungssysteme Ax = b, bei denen A = ( ajk ) ∈ R N×N eine Bandmatrix ist, das heißt, es gilt ajk = 0 für k < j − p oder k > j + q mit gewissen Zahlen p, q: ⎛

⎞

a11 p p p a1,q+1

⎜ ⎜ pp p ⎜ p pp ⎜ ⎜ ⎜ ap+1,1 ⎜ A = ⎜ ⎜ pp p ⎜ ⎜ ⎜ ⎜ ⎝

pp

pp

pp

p

pp

p

p

p

aN,N −p 3

⎟ ⎟ ⎟ ⎟ ⎟ pp ⎟ p ⎟ ⎟ . aN −q,N ⎟ ⎟ ⎟ ⎟ p pp p ⎟ p p ⎠ p p p aN N

Diese Eigenschaft wird nochmals in Theorem 12.9 auf Seite 316 verwendet.

(4.25)

Abschnitt 4.7

73

Normen und Fehlerabschätzungen

Bei solchen Problemstellungen lässt sich der zu betreibende Aufwand bei allen in diesem Kapitel angesprochenen Methoden verringern. (Ausgenommen sind Pivotstrategien, da sich hier die Bandstruktur nicht auf die Faktorisierung u¨ berträgt.) Exemplarisch soll das Vorgehen für Bandmatrizen am Beispiel der LR Faktorisierung demonstriert werden: der Ansatz ⎛ ⎞ ⎞ ⎛ ⎛ 1 ⎞ a11 p p p a1,q+1 ⎜ p p ⎟ ⎟ r11 p p p r1,q+1 ⎜ p p p pp ⎜ p pp ⎟ ⎟⎜ ⎜ 21 p p ⎟ pp pp ⎜ ⎟ ⎟⎜ ⎜ ⎟ p p ⎜ ⎟ ⎟ ⎜ p p p p p ⎜ ⎟ p pp pp ⎟⎜ ⎜ ap+1,1 ⎟ ⎜ p pp pp ⎟ pp ⎟⎜ ⎜ ⎟ = ⎜ r p N −q,N ⎟ ⎟⎜ ⎜ ⎟ ⎜ pp pp pp pp ⎟ aN −q,N ⎟ p p p p ⎟⎜ ⎜ ⎜ p+1,1 p ⎟ pp ⎟⎝ ⎜ ⎟ ⎜ p pp ⎠ p pp pp pp pp pp ⎟ ⎜ ⎜ ⎟ p p p p p p p ⎠ ⎝ ⎠ ⎝ rN N aN,N −p p p p aN N N,N −p p p p N,N −1 1 beziehungsweise in Komponentenschreibweise min{j,k}

ajk =

js rsk ,

s=s0

j = 1, . . . , N, k = max{1, j − p}, . . . , min{j + q, N }, s0 := max{1, j − p, k − q }

führt bei einer Parkettierung wie in (4.17) auf den in Schema 4.6 angegebenen Algorithmus zur Bestimmung der LR Faktorisierung der Bandmatrix A. for n = 1 : N for k = n : min{n + q, N } s0 = max{1, n − p, k − q };

rnk = ank −

n−1

ns rsk ;

s=s0

end for j = n + 1 : min{n + p, N } s0 = max{1, j − p, n − q };

jn =

ajn −

n−1

js rsn

rnn ;

s=s0

end end Schema 4.6 LR– Faktorisierung für Bandmatrizen

4.7 Normen und Fehlerabschätzungen In diesem Abschnitt soll der Einfluss von Störungen4 der Matrix A ∈ R N×N beziehungsweise des Vektors b ∈ R N auf die Lösung des linearen Gleichungssystems Ax = b untersucht werden, für die Einzelheiten sei auf Abschnitt 4.7.5 verwiesen. Zuvor werden in den nun folgenden Abschnitten 4.7.1 4.7.4 die nötigen Voraussetzungen geschaffen. 4

Solche Störungen können durch Mess oder Rundungsfehler verursacht werden.

74

Kapitel 4 Lösung linearer Gleichungssysteme

Dabei werden zunächst allgemeiner Vektoren aus KN beziehungsweise Matrizen aus KN×N zugelassen, wobei entweder K = R oder K = C ist. Dies ermöglicht später die Herleitung von Schranken sowohl für Nullstellen von Polynomen als auch für Eigenwerte von Matrizen.

4.7.1 Normen Definition 4.29 Sei V ein beliebiger Vektorraum u¨ ber K. Eine Abbildung || · || : V → R + heißt Norm, falls Folgendes gilt: ||x + y || ≤

||x|| + ||y ||

(x, y ∈ V )

(Dreiecksungleichung );

(x ∈ V,

(positive Homogenität);

||αx||

=

|α|||x||

||x||

=

0

⇐⇒

x = 0

α ∈ K)

(x ∈ V ).

Eine Norm || · || : KN → R + wird auch als Vektornorm bezeichnet, und entsprechend wird eine Norm || · || : KN×N → R + auch Matrixnorm genannt. y

...................................................................................... .............. ........ ... ........ ....... .... ....... .... . ....... . ........ .... . . . . . . . . . ...... .... ....... ... ....... .... ........ ... ....... .... ....... ... ....... . . . . . . . . . ... ....... .... ......... .... ........ ... ....... .......... .......

x

x + y

Bild 4.1 Illustration der Dreiecksungleichung

Lemma 4.30 Für eine Norm || · || : V → R + gilt die umgekehrte Dreiecksungleichung ||x|| − ||y || ≤ ||x − y ||, x, y ∈ V. B EWEIS . Zum einen gilt ||x|| = ||x − y + y || ≤ ||x − y || + ||y || und somit ||x|| − ||y ||

≤

||x − y ||.

(4.26)

||x − y ||,

(4.27)

Vertauschung von x und in y in (4.26) liefert dann ||y || − ||x||

≤

und (4.26) (4.27) zusammen liefern die umgekehrte Dreiecksungleichung. Korollar 4.31 Eine Norm || · || : V → R + ist stetig, das heißt, für beliebige Folgen ( xn ) ⊂ V und Elemente x ∈ V folgt aus der Konvergenz ||xn − x|| → 0 für n → ∞ auch ||xn || → ||x|| für n → ∞. Im Folgenden werden einige spezielle Vektornormen vorgestellt.

Abschnitt 4.7

75

Normen und Fehlerabschätzungen

Theorem 4.32 Durch ||x||2

=

N

|xk |2

1/2

(euklidische Norm);

k=1

||x||∞

=

||x||1

=

max |xk |

(Maximumnorm);

k=1..N N

|xk |

(x ∈ KN );

(Summennorm );

k=1

sind jeweils Normen auf KN definiert. B EWEIS . Der Nachweis dafür, dass die Maximum- und Summennorm tatsächlich die Normeigenschaften erfüllen, ist elementar und wird an dieser Stelle nicht geführt. Für die euklidische Norm resultiert die Dreiecksungleichung aus der Cauchy Schwarzschen Ungleichung: für x, y ∈ KN gilt = ||x||22

||x + y ||22 = ( x + y )H ( x + y )

=

xH x

≤ 2|| x ||2 || y ||2

+ 2Re xH y +

= ||y ||22

yHy

≤ (||x||2 + ||y ||2 )2 , wobei Re z den Realteil einer komplexen Zahl z ∈ C bezeichnet. Man kann zeigen, dass je zwei verschiedene Normen || · ||, ||| · ||| : KN → R + a¨ quivalent in dem Sinne sind, dass es Konstanten c1 , c2 > 0 gibt mit c1 ||x||

≤

|||x|||

≤

c2 ||x||,

x ∈ KN .

Konkret gelten für die in Theorem 4.32 aufgeführten Vektornormen die folgenden Abschätzungen: √

||x||∞ ≤

||x||2

≤

N ||x||∞ ,

||x||∞ ≤

||x||1

||x||2 ≤

||x||1

≤ N||x||∞ , √ ≤ N ||x||2 .

(4.28) (4.29) (4.30)

Die (nicht zu verbessernden) Abschätzungen in (4.28) (4.29) erhält man leicht, und die erste Abschätzung in (4.30) erhält man wie folgt (wobei o.B.d.A. x = 0 angenommen sei): y :=

x || x ||1

;

||x||2

=

||x||1 ||y ||2

≤

1/2

||x||1 ||y ||1

=

||x||1 .

Die zweite Abschätzung in (4.30) schließlich folgt aus der Cauchy Schwarzschen Ungleichung: ||x||1 =

N k=1

1 · |xk |

≤

1/2 1/2 N N 1 |xk |2 k=1

=

√

N||x||2 .

k=1

Somit werden für große Zahlen N ∈ N die jeweils zweiten Abschätzungen in (4.28) (4.30) praktisch bedeutungslos aufgrund der Größe der auftretenden Koeffizienten.

76

Kapitel 4 Lösung linearer Gleichungssysteme

Bemerkung 4.33 Allgemeiner ist für jedes 1 ≤ p < ∞ durch 1/p N ||x||p := |xk |p , x ∈ KN , k=1

eine Norm auf KN definiert mit der Eigenschaft limp→∞ ||x||p = ||x||∞ für x ∈ KN .

Im Folgenden werden drei spezielle Matrixnormen vorgestellt. Dabei erhält nur die letzte der drei Normen eine besondere Indizierung, für die beiden anderen werden später eigene Bezeichnungen vergeben (siehe Theorem 4.40). Theorem 4.34 Durch ||A|| ||A|| ||A||F

= = =

max

j=1..N

max

k=1..N

N

N k=1 N

|ajk |

(Zeilensummennorm );

|ajk |

(Spaltensummennorm );

j=1

|ajk |2

1/2

(A = (ajk ) ∈ KN×N )

(Frobeniusnorm )

j,k=1

sind jeweils Normen auf KN×N definiert. B EWEIS . Der Nachweis dafür, dass die Zeilen beziehungsweise die Spaltensummennorm tatsächlich die Normeigenschaften erfüllen, ist elementar und wird an dieser Stelle nicht geführt. Jede Matrix A ∈ KN×N lässt sich als Vektor der Länge N 2 auffassen, und die Frobeniusnorm fällt dann mit der euklidischen Vektornorm in Theorem 4.32 zusammen, so dass die Frobeniusnorm tatsächlich auch die Normeigenschaften erfüllt. Definition 4.35 Eine Matrixnorm || · || : KN×N → R + nennt man (a) submultiplikativ, falls ||AB ||

≤

||A||||B ||

A, B ∈ KN×N ;

(b) mit einer gegebenen Vektornorm || · || : KN → R + verträglich, falls ||Ax|| ≤ ||A||||x|| A ∈ KN×N , x ∈ KN .

Definition 4.36 Sei || · || : KN → R + eine Vektornorm. Die induzierte Matrixnorm ist definiert durch ||A||

=

max

0=x∈K N

|| Ax || , || x ||

A ∈ KN×N .

(4.31)

Aufgrund der positiven Homogenität der Vektornorm gilt ||A|| = maxx∈KN , || x ||=1 ||Ax|| für jede Matrix A ∈ KN×N . Wegen der Kompaktheit der Sphäre {x ∈ KN : ||x|| = 1} sowie der Stetigkeit der Norm5 wird das Maximum in (4.31) tatsächlich angenommen. 5

siehe Korollar 4.31

Abschnitt 4.7

77

Normen und Fehlerabschätzungen

Die wesentlichen Eigenschaften induzierter Matrixnormen sind im Folgenden zusammengefasst: Theorem 4.37 Die durch eine Vektornorm induzierte Matrixnorm besitzt die in Definition 4.29 angegebenen Normeigenschaften, und sie ist sowohl submultiplikativ als auch verträglich mit der zugrunde liegenden Vektornorm. Es gilt ||I || = 1. B EWEIS . Die Normeigenschaften der induzierten Matrixnorm sind leicht nachzuprüfen, gleiches gilt für die Verträglichkeit. Zum Nachweis der Submultiplikativität seien nun || · || : KN → R + die Vektornorm mit induzierter Matrixnorm || · || : KN×N → R + . Für A, B ∈ KN×N und x ∈ KN mit Bx = 0 gilt dann || ABx || || x ||

=

|| A( Bx ) || || Bx || || Bx || || x ||

≤

||A||||B ||,

und im Fall 0 = x ∈ KN , Bx = 0 gilt sicher auch 0 = ||ABx||/||x|| ≤ ||A||||B ||, so dass man insgesamt ||AB || ≤ ||A||||B || erhält. Die Identität ||I || = 1 schließlich ist unmittelbar klar.

4.7.2 Spezielle Matrixnormen Definition 4.38 Für jede Matrix B ∈ KN×N bezeichnet σ ( B ) = {λ ∈ C : λ ist Eigenwert von B }, rσ ( B ) =

max |λ|

λ∈σ(B)

das Spektrum von B beziehungsweise den Spektralradius von B. Theorem 4.39 (a) Für eine Matrix A ∈ CN×N und die durch eine Vektornorm induzierte Matrixnorm || · || : CN×N → R + gilt ||A|| ≥ rσ ( A ).

(4.32)

(b) Ist A ∈ R N×N und sind alle Eigenwerte von A reell, so gilt die Ungleichung (4.32) auch für reelle Matrixnormen || · || : R N×N → R + . B EWEIS . (a) Sei 0 = x ∈ CN Eigenvektor zum Eigenwert λ ∈ C einer Matrix A ∈ CN×N , Ax = λx. Mit der zugehörigen Vektornorm || · || : CN → R + gilt dann ||A||

≥

|| Ax || || x ||

=

|λ| || x || || x ||

=

|λ|.

(b) In der vorliegenden Situation folgt die Behauptung wie in Teil (a) dieses Beweises, wobei dann jeweils “C“ durch “R“ zu ersetzen ist. Mit dem folgenden Theorem werden für die durch die Vektornormen || · ||∞ und || · ||1 jeweils induzierten Matrixnormen handliche Darstellungen geliefert.

78

Kapitel 4 Lösung linearer Gleichungssysteme

Theorem 4.40 Für A = ( ajk ) ∈ KN×N gilt ||A||∞ ||A||1

=

N

max

j=1..N

=

max

k=1 N

k=1..N

|ajk |

(Zeilensummennorm, siehe Theorem 4.34);

|ajk |

(Spaltensummennorm,

.......

).

j=1

B EWEIS . Es wird zunächst die angegebene Darstellung für ||A||∞ nachgewiesen. Für x ∈ KN gilt N N N ||Ax||∞ = max ajk xk ≤ max |ajk ||xk | ≤ max |ajk | ||x||∞ , j=1..N

j=1..N

k=1

j=1..N

k=1

k=1

und für den Nachweis der umgekehrten Abschätzung sei j ∈ {1, 2, . . . , N } beliebig aber fest. Für x = ( xk ) ∈ KN mit xk

|ajk |/ajk ,

=

falls ajk = 0,

1,

(k = 1, 2, . . . , N )

sonst,

gilt dann ||x||∞ = 1 und somit ||A||∞

≥

||Ax||∞

N ajk xk k=1

≥

=

N

|ajk |,

(4.33)

k=1

= | ajk |

und aufgrund der freien Wahl des Indexes j ∈ {1, 2, . . . , N } in der Abschätzung (4.33) folgt die Darstellung für ||A||∞ . Nun soll die Darstellung für ||A||1 nachgewiesen werden. Für x ∈ KN gilt ||Ax||1 =

N N

j=1

≤

ajk xk

N N

≤

max

k=1..N

N N

=

j=1 k=1

k=1

|ajk ||xk |

N

|ajk |

N

j=1

|xk |

j=1

k=1

=

k=1

max

k=1..N

N

|ajk | |xk |

|ajk | ||x||1 ,

j=1

und für den Nachweis der umgekehrten Abschätzung sei n ∈ {1, 2, . . . , N } beliebig aber fest. Mit dem n ten Einheitsvektor en = ( δkn )k ∈ KN erhält man wegen ||en ||1 = 1 somit ||A||1

≥

||Aen ||1

=

N N

j=1

k=1

ajk δkn

=

N

|ajn |,

(4.34)

j=1

und aufgrund der freien Wahl des Indexes n ∈ {1, 2, . . . , N } in der Abschätzung (4.34) folgt die Darstellung für ||A||1 . Im Folgenden können die Betrachtungen wieder auf den reellen Fall beschränkt werden6 , K = R. Als unmittelbare Konsequenz aus Theorem 4.40 erhält man: 6

siehe die einführenden Bemerkungen in diesem Abschnitt 4.7

Abschnitt 4.7

79

Normen und Fehlerabschätzungen

Korollar 4.41 Für Matrizen A ∈ R N×N gilt ||A||∞ = ||A||1 ,

||A||1 = ||A||∞ .

Das folgende Theorem liefert für die durch die euklidische Vektornorm || · ||2 induzierte Matrixnorm eine alternative Darstellung. Theorem 4.42 Für A ∈ R N×N gilt ||A||2

=

rσ ( AA )1/2

(Spektralnorm ).

B EWEIS . Es ist AA ∈ R N×N eine symmetrische, positiv semidefinite Matrix, so dass es ein vollständiges System u1 , . . . , uN ∈ R N von orthonormalen Eigenvektoren von AA gibt, das heißt, AAuk

=

k = 1, 2, . . . , N,

λk u k ,

u k u

= δk . Sei nun x ∈ R N mit ||x||2 = 1 mit {λ1 , . . . , λN } = σ ( A A ) ⊂ [ 0, ∞ ), und beliebig. Wegen der Orthonormalität der Eigenvektoren erhält man mit der Darstellung x = N k=1 ck uk Folgendes, ||Ax||22

=

xAAx

=

N

λk c2k

(∗)

≤

k=1

max λk

k=1,...,N

N

c2k

=

rσ ( AA )||x||22 ,

k=1

und in (∗) wird Gleichheit angenommen für einen Eigenvektor x zu einem maximalen Eigenwert von AA. Die Bezeichnung “Spektralnorm“ begründet sich in der folgenden Identität (4.35) für symmetrische Matrizen: Theorem 4.43 Sei A ∈ R N×N eine symmetrische Matrix, A = A. Dann gilt ||A||2 = rσ ( A ).

(4.35)

Für jede andere durch eine Vektornorm induzierte Matrixnorm || · || : R N×N → R + gilt rσ ( A ) ≤ ||A||.

B EWEIS . Wegen σ ( A2 ) = {λ2 : λ ∈ σ ( A ) } gilt rσ ( A2 ) = rσ ( A )2 und daher 1/2 ||A||2 = rσ ( AA )1/2 = rσ ( A2 )1/2 = rσ ( A )2 = rσ ( A ) . Der zweite Teil des Theorems folgt nun mit Theorem 4.39. Beispiel 4.44 Die symmetrische Matrix * A =

1 3 3 2

+

(4.36)

80

Kapitel 4 Lösung linearer Gleichungssysteme

√ √ besitzt die Eigenwerte λ1/2 = (3 ± 37 )/2, so dass ||A||2 = (3 + 37)/2 ≈ 4.541 gilt. Weiter gilt ||A||1 = ||A||∞ = 5. Nebenbei zeigt dieses Beispiel, dass die in (4.28) angegebene Abschätzung ||x||∞ ≤ ||x||2 , x ∈ R N , sich nicht auf die jeweils induzierten Matrixnormen u¨ berträgt. Als ein weiteres Beispiel betrachte man die nichtsymmetrische Matrix A ∈ R 2×2 definiert durch * A =

0 0

1 1

+

*

*

=⇒

A A =

Hier gilt ||A||1 = 2 und rσ ( A ) = 1 = ||A||∞ sowie ||A||2 = “A = A“ in Theorem 4.43 nicht verzichtet werden kann.

√

0 0

0 2

++ .

2, so dass auf die Voraussetzung

Das folgende Theorem liefert einfache Abschätzungen für die Spektralnorm. Theorem 4.45 Für jede Matrix A ∈ R N×N gelten die beiden folgenden Abschätzungen, 1/2 ||A||2 ≤ ||A||∞ ||A||1 , ||A||2 ≤ ||A||F .

B EWEIS . Die erste Abschätzung erhält man als Korollar zu Theorem 4.43, ||A||2 = rσ ( AA )1/2

||AA||2

1/2

=

≤ (||A||∞ ||A||∞ )1/2

(∗∗)

=

(∗)

≤

||AA||1/2 ∞

(||A||1 ||A||∞ )1/2 ,

wobei (∗) aus Theorem 4.43 und (∗∗) aus Korollar 4.41 folgt. Die zweite Abschätzung resultiert aus der Cauchy Schwarzschen Ungleichung, ||Ax||2 =

1/2 N N N N N 2 1/2 ajk xk ≤ |ajk |2 |xs |2 = ||A||F ||x||2 j=1

k=1

j=1

k=1

s=1

für x ∈ R N .

4.7.3 Die Konditionszahl einer Matrix Bei Stabilitätsuntersuchungen für lineare Gleichungssysteme spielt der nachfolgende Begriff eine besondere Rolle. Definition 4.46 Sei A ∈ R N×N eine reguläre Matrix und || · || : R N×N → R + eine Matrixnorm. Die Zahl cond( A )

=

||A||||A−1 ||

wird als Konditionszahl der Matrix A bezeichnet. Das folgende Theorem liefert eine alternative Darstellung der Konditionszahl, die unter anderem eine geometrische Deutung ermöglicht (siehe Bemerkung 4.48).

Abschnitt 4.7

81

Normen und Fehlerabschätzungen

Theorem 4.47 Sei A ∈ R N×N eine reguläre Matrix und || · || : R N → R + eine Vektornorm. Für die induzierte Konditionszahl gilt dann cond( A ) = max ||Ax|| min ||Ax|| . (4.37) || x ||=1

|| x ||=1

B EWEIS . Die Darstellung (4.37) erhält man wie folgt, ||A−1 || = =

max

0=y∈R N

|| A−1 y || || y ||

min

x∈R N ,|| x ||=1

(∗)

=

||Ax||

max

−1

0=x∈R N

|| x || || Ax ||

=

max

x∈R N ,|| x ||=1

1 || Ax ||

,

wobei die Identität (∗) aus der Substitution y = Ax resultiert. Bemerkung 4.48 Die Konditionszahl cond( A ) gibt also die Bandbreite an, um die sich die Vektorlänge bei Multiplikation mit der Matrix A a¨ ndern kann. Aus der Darstellung (4.37) ergibt sich zudem die Ungleichung cond( A ) ≥ 1.

4.7.4 Störungsresultate fur ¨ Matrizen Lemma 4.49 Für die durch eine Vektornorm induzierte Matrixnorm || · || : R N×N → R + und jede Matrix B ∈ R N×N mit ||B || < 1 ist die Matrix I + B regulär und es gilt || ( I + B )−1 ||

≤

1 . 1 − || B ||

B EWEIS . Die umgekehrte Dreiecksungleichung liefert für x ∈ R N || ( I + B )x|| = ||x + Bx||

≥

≥ ||x|| − ||B ||||x||

||x|| − ||Bx|| =

(1 − ||B ||)||x||,

was die Regularität der Matrix I + B impliziert. Die Substitution y = ( I + B )x in der vorangegangenen Abschätzung liefert dann auch ||y ||

≥

(1 − ||B ||)|| ( I + B )−1 y ||,

y ∈ RN ,

was den Nachweis von Lemma 4.49 komplettiert. Als eine Konsequenz aus Lemma 4.49 erhält man die Offenheit der Menge der regulären Matrizen und die Stetigkeit der Matrixinversion. Korollar 4.50 Sei || · || : R N×N → R + die durch eine Vektornorm induzierte Matrixnorm, und . .. A ∈ R N×N sei eine reguläre Matrix. Für jede Matrix .............. A ∈ R N×N mit ||.............. A|| < 1/||A−1 || ist die . . . Matrix A + .............. A regulär, und || ( A + ..............A )−1 || ≤ ...

1 . ... || A−1 ||−1 − ||............. A ||

|| ( A + .............. A )−1 − A−1 || ≤ c||.............. A|| ...

...

...

für ||.............. A|| ≤

1 , 2|| A−1 ||

mit c = 2||A−1 ||2 .

82

Kapitel 4 Lösung linearer Gleichungssysteme

...

...

...

B EWEIS . Wegen ||A−1.............. A|| ≤ ||A−1 ||||.............. A|| < 1 ist nach Lemma 4.49 die Matrix A + .............. A = ... ... ... A(I + A−1............. A) regulär, und mit der Darstellung ( A + .............A )−1 = ( I + A−1............. A )−1 A−1 erhält man zudem || ( A + ..............A )−1 || ...

≤

|| A−1 || ... 1 − || A−1.............. A ||

|| A−1 || . ... 1 − || A−1 || ||.............. A ||

≤

Die zweite Abschätzung des Korollars folgt unmittelbar aus der ersten Abschätzung zusammen mit der Darstellung ( A + ..............A )−1 − A−1 ...

||

= || ≤

......

−( A + ..............A )−1 ..............AA−1 , ...

...

|| A−1 || . ||.............. A||. ... || − ||............. A ||

−1 −1

|| A

Korollar 4.51 Sei || · || : R N×N → R + die durch eine Vektornorm induzierte Matrixnorm, und A ∈ R N×N sei eine reguläre Matrix. (a) Für jede Matrix B ∈ R N×N gilt: (b) Es gilt 1 cond( A )

≤

min

B ist singulär

=⇒

1 || A−1 ||

≤

||A − B ||;

||A − B || : B ∈ R N×N ist singulär . ||A||

(4.38)

B EWEIS . Aussage (a) ergibt sich durch Negation der ersten Aussage in Korollar 4.50, und Division in (a) durch ||A|| liefert Aussage (b). Bemerkung 4.52 1. Wegen der Stetigkeit der Matrixnorm (siehe Korollar 4.31) sowie der Abgeschlossenheit der Menge der singulären Matrizen aus R N×N (siehe Korollar 4.50) wird das Minimum in (4.38) tatsächlich auch angenommen. 2. Durch die Aussage (b) in Korollar 4.51 wird klar, dass 1/cond( A ) eine untere Schranke für den relativen Abstand der Matrix A zur Menge der singulären Matrizen darstellt.

4.7.5 Fehlerabschätzungen fur ¨ fehlerbehaftete Gleichungssysteme Es können nun die zentralen Theoreme dieses Abschnitts 4.7 formuliert werden. Theorem 4.53 (Fehlerbehaftete rechte Seiten) Mit || · || seien gleichzeitig sowohl eine Vektornorm auf R N als auch die induzierte Matrixnorm auf R N×N bezeichnet. Es sei A ∈ R N×N eine reguläre Matrix, und b, x ∈ R N und .............. b, .............. x ∈ R N seien Vektoren mit Ax = b,

A( x + ............ x ) = b + ............. b.

(4.39)

Dann gelten für den absoluten beziehungsweise den relativen Fehler die folgenden Abschätzungen, ||................ x|| ≤ ||A−1 ||||............... b||,

..

.

||.............. b || ||............. x || ≤ cond( A ) . || x || || b ||

(4.40)

Abschnitt 4.8

83

Orthogonalisierungsverfahren

B EWEIS . Aus (4.39) folgt unmittelbar A.............. x = .............. b beziehungsweise .............. x = A−1.............. b, woraus die erste Abschätzung in (4.40) resultiert. Aus dieser Abschätzung wiederum ergibt sich die zweite Abschätzung in (4.40), .

||............... x || || x ||

Ax=b

≤

||A−1 ||

.

||.............. b || || Ax || || b || || x ||

≤

..

cond( A )

||.............. b || . || b ||

Bemerkung 4.54 Fällt also die Konditionszahl einer Matrix A groß aus (cond( A ) 1), so tut dies auch in (4.40) die obere Schranke für den relativen Fehler in der Lösung der fehlerbehafteten Version des linearen Gleichungssystems Ax = b. In einem solchen Fall spricht man von schlecht konditionierten Gleichungssystemen Ax = b. Vergleichbares wie in Theorem 4.53 gilt auch im Fall fehlerbehafteter Matrizen: Theorem 4.55 (Fehlereinflüsse in der rechten Seite und der Matrix) Mit || · || seien gleichzeitig sowohl eine Vektornorm als auch die induzierte Matrixnorm bezeichnet, A ∈ R N×N sei eine . . reguläre Matrix, und .............. A ∈ R N×N sei eine Matrix mit ||.............. A|| < ||A−1 ||−1. . . Dann gilt für beliebige Vektoren b, x ∈ R N und ............. b, ............. x ∈ R N mit (A +

Ax = b,

...... .........

A ) ( x + ................ x ) = b + ............. b,

(4.41)

die Abschätzung .

||............... x || || x ||

≤

C

.

.

||.............. A || ||.............. b || + || A || || b ||

mit C =

1 1 cond( A )

−

|| ........ A || || A ||

.

B EWEIS . Aus (4.41) folgt unmittelbar (A +

. ...... ..........

A )................ x

=

..... ...........

.

b − ................ Ax, ...

und Korollar 4.50 liefert nun (neben der Regularität der Matrix A + .............. A) die Abschätzung ... . 1 || ........... b|| + || ...............A||||x|| . || .............. x|| ≤ ..... −1 −1 .. .. || A

||

− ||...... A ||

Anschließende Division durch ||x|| liefert wegen ||b|| ≤ ||A||||x|| die Aussage des Theorems.

4.8 Orthogonalisierungsverfahren In diesem Abschnitt soll für eine gegebene Matrix A ∈ R M×N , 1 ≤ N ≤ M, eine Faktorisierung der Form A = QS

(4.42)

bestimmt werden mit einer orthogonalen Matrix Q, Q ∈ R M×M ,

Q−1 = Q,

(4.43)

84

Kapitel 4 Lösung linearer Gleichungssysteme

und S ist eine verallgemeinerte obere Dreiecksmatrix, ⎞ ⎛ ⎞ ⎛ ................................... ⎜ ⎟ R ............................... .......................... ⎜ ⎟ ........ × × S = ⎜ ⎟ ∈ R M N , R = ⎝ .................................................... ⎠ ∈ R N N , .... ⎝ ⎠ 0

0 = ( 0 ) ∈ R ( M −N )×N . (4.44)

Eine solche Faktorisierung (4.42) ermöglicht beispielsweise die stabile Lösung von regulären aber eventuell schlecht konditionierten linearen Gleichungssystemen Ax = b (für M = N ); mehr hierzu in Abschnitt 4.8.4. Auch die stabile Lösung von Ausgleichsproblemen ||Ax−b||2 → min, x ∈ R N , ist mit einer solchen Faktorisierung möglich. Details hierzu finden Sie in Abschnitt 4.8.5.

4.8.1 Elementare Eigenschaften orthogonaler Matrizen Vorbereitend werden einige Eigenschaften orthogonaler Matrizen vorgestellt. Lemma 4.56 Sei Q ∈ R M×M eine orthogonale Matrix. Dann ist auch Q eine orthogonale Matrix, und es gilt ||Qx||2

=

||x||2

=

||Qx||2 ,

x ∈ RM ,

das heißt, Q und Q sind isometrisch bezüglich der euklidischen Vektornorm. B EWEIS . Es gilt (Q)−1 = (Q−1 )−1 = Q = (Q), somit ist auch Q eine orthogonale Matrix. Des Weiteren besitzt die Matrix Q die Isometrieeigenschaft: 1/2 ||Qx||2 = x Q Qx = (xx)1/2 = ||x||2 . =I

Diese beiden Aussagen ergeben dann die Identität ||Qx||2 = ||x||2 . Bezogen auf die euklidische Vektornorm || · ||2 a¨ ndert sich die Konditionszahl einer quadratischen regulären Matrix nicht bei Multiplikation mit einer orthogonalen Matrix: Korollar 4.57 Sei A ∈ R N×N regulär, und Q ∈ R N×N sei eine orthogonale Matrix. Dann gilt cond2 ( QA ) = cond2 ( A ). B EWEIS . Nach Lemma 4.56 gilt ||QAx||2 = ||Ax||2 für x ∈ R N , was unmittelbar auf ||A||2 = ||QA||2 führt. Weiter gilt nach Lemma 4.56 auch ||A−1 Q||2

= (∗)

=

max

|| A−1 Qx ||2 || x ||2

max

|| A−1 y ||2 || y ||2

0=x∈R N

0=y∈R N

=

max

0=x∈R N

|| A−1 Qx ||2 || Qx ||2

= ||A−1 ||2 ,

wobei (∗) mit der Substitution y = Qx folgt. Insgesamt erhält man daraus cond2 ( QA )

=

||QA||2 ||A−1 Q−1 ||2 = Q

=

||A||2 ||A−1 ||2

=

cond2 ( A ).

Abschnitt 4.8

85

Orthogonalisierungsverfahren

Das folgende Resultat wird in Abschnitt 4.8.3 u¨ ber die Gewinnung einer Faktorisierung A = QS mittels spezieller und hintereinander auszuführender Transformationen benötigt. Lemma 4.58 Für orthogonale Matrizen Q1 , Q2 ∈ R M×M ist auch Q1 Q2 eine orthogonale Matrix. −1 B EWEIS . Es gilt (Q1 Q2 )−1 = Q−1 = Q 2 Q1 = (Q1 Q2 ) . 2 Q1

4.8.2 Die Faktorisierung A = QR mittels Gram– Schmidt– Orthogonalisierung Für eine quadratische reguläre Matrix A ∈ R N×N nimmt der Ansatz (4.42) (4.44) die folgende Form an, A = QR

(4.45)

mit einer orthogonalen Matrix Q ∈ R N×N und der oberen Dreiecksmatrix R ∈ R N×N . Mit den Notationen ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ r11 p p p r1N ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎜ pp ⎟ pp (4.46) A = ⎜ a1 . . . aN ⎟ , Q = ⎜ q1 . . . qN ⎟ , R = ⎜ p p ⎟ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ rN N (mit Vektoren ak , qk ∈ R N ) führt der Ansatz (4.45) auf die folgenden Forderungen, ak =

k j=1

k = 1, 2, . . . , N,

rjk qj ,

q1 , . . . , qN ∈ R N

paarweise orthonormal.

(4.47) (4.48)

Im Folgenden wird beschrieben, wie man mittels einer Gram Schmidt Orthogonalisierung eine solche Faktorisierung (4.47) (4.48) gewinnt. Algorithmus 4.59 (Gram Schmidt Orthogonalisierung für eine reguläre Matrix A ∈ R N×N ) Hier geht man schrittweise für k = 1, 2, . . . , N so vor: ausgehend von bereits gewonnenen orthonormalen Vektoren q1 , q2 , . . . , qk−1 ∈ R N mit span {a1 , . . . , ak−1 }

=

span {q1 , . . . , qk−1 } =: Mk−1,

bestimmt man in Schritt k ≥ 1 das Lot von ak auf den linearen Unterraum Mk−1 ⊂ R N , qk := ak −

k−1

(a k qj )qj ,

(4.49)

j=1

und nach der Normierung qk :=

qk || qk ||2

(4.50)

86

Kapitel 4 Lösung linearer Gleichungssysteme

sind die Vektoren q1 , . . . , qk ∈ R N paarweise orthonormal mit span {a1 , . . . , ak }

=

span {q1 , . . . , qk }.

Der Gleichung (4.49) entnimmt man unmittelbar die Darstellung ak

=

|| qk ||2 qk + =: rkk

k−1 j=1

( a k qj ) qj ,

k = 1, 2, . . . , N,

=: rjk

(4.51)

und mit den Notationen aus (4.50) beziehungsweise (4.51) erhält man nach Abschluss der Gram Schmidt Orthogonalisierung die gesuchte Faktorisierung (4.47) (4.48)7 . Der in Algorithmus 4.59 beschriebene Orthogonalisierungsprozess ist jedoch unter Umständen nicht gutartig (wenn etwa || qk ||2 klein ausfällt), so dass zur Bestimmung einer QR Faktorisierung andere Methoden vorzuziehen sind (mehr hierzu im folgenden Abschnitt 4.8.3).

4.8.3 Die Faktorisierung A = QS mittels Householder– Transformationen Gegenstand dieses Abschnitts 4.8.3 ist die Bestimmung einer Faktorisierung der Form A = QS entsprechend (4.43) (4.44) mittels Householder Transformationen, wobei wieder der allgemeine Fall A ∈ R M×N mit M ≥ N ≥ 1 zugelassen wird. In dem folgenden Unterabschnitt werden die nötigen Vorbereitungen getroffen. Voruberlegungen ¨ Lemma 4.60 Für eine Matrix H = I − 2ww ∈ R s×s

mit

w ∈ Rs ,

ww = 1

(4.52)

mit s ≥ 1 gilt Folgendes: H = H H2 = I

H H = I

(H ist symmetrisch) H ist involutorisch

(4.54)

(H ist orthogonal).

(4.55)

(4.53)

B EWEIS . Die Identitäten (4.53) (4.54) ergeben sich wie folgt, H = I − 2( ww)

=

I − 2ww

H2 = (I − 2ww)(I − 2ww)

=

=

H,

= 1

I − 2ww − 2ww + 4w ( ww ) w

und die Identität (4.55) folgt unmittelbar aus (4.53) (4.54). 7

beziehungsweise in Matrixschreibweise und mit der Notation aus (4.46) die Faktorisierung A = QR

=

I,

Abschnitt 4.8

87

Orthogonalisierungsverfahren

Definition 4.61 Eine Abbildung Rs → Rs , mit einer Matrix H ∈ R Transformation.

s×s

x → Hx

der Form (4.52) mit s ≥ 1 bezeichnet man als Householder

Eine Householder Transformation mit einer Matrix H ∈ R s×s der Form (4.52) bewirkt aufgrund der Identität x − 2( wx )w = x − ( wx )w − ( wx )w eine Spiegelung von x an der Hyperebene {z ∈ R s : zw = 0}. Für den Fall s = 2 ist dies in Bild 4.2 veranschaulicht.

x − 2(w x)w

{z : z w = 0}

rH OC HH HHrx − (wx)w C C H r........H . C .............. HH Hr x * C C C ........ ... .. .. 0C HrH ... j w

Bild 4.2 Darstellung der Householder– Spiegelung für den zweidimensionalen Fall Bei der sukzessiven Triangulierung einer Matrix mittels Householder Transformationen (siehe unten) ist in jedem Teilschritt (für unterschiedliche Werte von s) ein Vektor w ∈ R s , ||w ||2 = 1, so zu bestimmen, dass die zugehörige Householder Transformation einen gegebenen Vektor x ∈ R s in ein Vielfaches des ersten Einheitsvektors e1 = ( 1, 0, . . . , 0 ) ∈ R s abbildet. Das folgende Lemma gibt einen solchen Vektor w ∈ R s an. Lemma 4.62 Gegeben sei ein Vektor 0 = x ∈ R s mit x ∈ span {e1 }. Für w

=

x + σe1 || x + σe1 ||2

mit

σ = ±||x||2 ,

(4.56)

gilt ||w ||2 = 1,

(4.57)

(I − 2ww)x = −σe1 .

(4.58)

B EWEIS . Wegen x ∈ span {e1 } verschwindet der Nenner in (4.56) nicht, so dass w ∈ R s wohldefiniert ist und offensichtlich (4.57) gilt. Für den Nachweis der Identität (4.58) berechnet man ||x + σe1 ||22

=

2 ||x||22 + 2σe 1x + σ

=

2( x + σe1 )x.

Daraus erhält man 2wx

=

2( x + σe1 )x || x + σe1 ||2

=

||x + σe1 ||2,

88

Kapitel 4 Lösung linearer Gleichungssysteme

was zusammen mit (4.56) die Darstellung 2w wx

=

x + σe1

liefert. Dies stimmt mit der Identität (4.58) u¨ berein. Bemerkung 4.63 Der Vektor w ∈ R s in (4.56) entsteht also aus x ∈ R s durch eine Modifikation des ersten Eintrags von x sowie einer anschließenden Normierung. Zur Vermeidung von Stellenauslöschungen wird in (4.56) σ = sgn( x1 )||x||2 gewählt. Hier bezeichnet für eine Zahl y∈R sgn( y ) =

falls y ≥ 0,

1, −1,

sonst.

Triangulierung mittels Householder– Transformationen Im Folgenden wird beschrieben, wie man ausgehend von der Matrix A = A( 1) ∈ R M×N sukzessive Matrizen der Form ⎞ ⎛ (k ) (k ) (k ) a a · · · · · · · · · a 11 12 1N ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ p p pp pp ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ (k ) (k ) ⎟ ⎜ a · · · · · · a k−1,k−1 k−1,N ⎟ ⎜ × k = 2, 3, . . . , N∗ , A(k ) = ⎜ ⎟ ∈ RM N , ⎟ ⎜ (k ) (k ) ⎟ ⎜ a · · · a kk kN ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ pp pp ⎟ ⎜ p p ⎟ ⎜ ⎠ ⎝ (4.59) (k ) (k ) aM k · · · aM N bestimmt, so dass dann schließlich A( N∗ ) = S gilt mit einer verallgemeinerten oberen Dreiecksmatrix S ∈ R M×N von der Form (4.44). Hierbei wird die Bezeichnung N, falls M = N, N∗ = N + 1, falls M > N, verwendet. Die Matrizen in (4.59) werden dabei für k = 1, 2, . . . , N∗ − 1 sukzessive durch Transformationen der Form ⎞ ⎛ ( k+1 )

A

k A , = H (k )

⎜ ⎜ k = ⎜ H ⎜ ⎜ ⎝

Ik−1 0

0 Hk

⎟ ⎟ ⎟ ⎟, ⎟ ⎠

Hk

=

IM −(k−1) − 2wk w k,

wk ∈ R M −(k−1) , ||wk ||2 = 1,

gewonnen, wobei wieder Is ∈ R s×s die Einheitsmatrix bezeichnet, und der Vektor wk ∈ R M −(k−1) ist so zu wählen, dass

Abschnitt 4.8

89

Orthogonalisierungsverfahren

⎛

a(kkk )

⎛

⎞

⎜ ⎟ ⎜ ⎟ Hk ⎜ ppp ⎟ ⎝ ⎠ (k ) aM k

=

−σk

⎞

⎟ ⎜ ⎜ 0 ⎟ ⎜ p ⎟ ⎜ pp ⎟ ⎠ ⎝ 0

gilt; die genaue Form von wk ∈ R M −k+1 und σk ∈ R entnimmt man Lemma 4.62. Nach Lemma 1 , . . . , H N∗ −1 orthogonal und symmetrisch, so dass man mit 4.60 sind die Matrizen H S

=

N∗ −1 H N∗ −2 · · · H 1 A, H

Q

2 · · · H 1 H N∗ −1 , H

=

die gewünschte Faktorisierung A = QS erhält, wobei Q nach Lemma 4.58 tatsächlich eine Orthogonalmatrix ist. Bemerkung 4.64 (a) Praktisch geht man für k = 1, 2, . . . , N∗ − 1, so vor, dass man das Diagonalelement a(kkk+1) gesondert abspeichert und in der Matrix A( k+1) den frei werdenden Platz in der k ten Spalte unterhalb der Diagonalen dazu verwendet, den Vektor wk abzuspeichern. (b) Die nötigen Matrixmultiplikationen der Form ( I − 2ww)B

=

B − wv,

v := 2wB

führt man so aus, dass zunächst der Vektor v berechnet und anschließend die Matrix B modifiziert (“aufdatiert“ ) wird.

4.8.4 Anwendung 1: Stabile Lösung schlecht konditionierter Gleichungssysteme Ax = b Für eine reguläre aber eventuell schlecht konditionierte Matrix A ∈ R N×N ermöglicht eine Faktorisierung der Form A = QR mit einer orthogonalen Matrix Q ∈ R N×N und einer oberen Dreiecksmatrix R ∈ R N×N eine stabile Lösung zugehöriger linearer Gleichungssysteme. Dies liegt daran, dass für einen gegebenen Vektor b ∈ R N das Gleichungssystem Ax = b a¨ quivalent ist zu dem gestaffelten Gleichungssystem Rx = Qb, wobei die Matrix R bezüglich der Norm || · ||2 keine schlechtere Konditionszahl als die Matrix A aufweist und die Norm des Vektors Qb nicht größer als die des Vektors b ist:8 cond2 ( R ) = cond2 ( QA )

=

cond2 ( A ),

||Q b||2 = ||b||2 .

4.8.5 Anwendung 2: Lineare Ausgleichsrechnung Lineare (unrestringierte) Ausgleichsprobleme sind von der Form ||Ax − b||2 → min 8

siehe Lemma 4.56 und Korollar 4.57 für die Einzelheiten

für x ∈ R N ,

(4.60)

90

Kapitel 4 Lösung linearer Gleichungssysteme

mit gegebener Matrix A ∈ R M×N und gegebenem Vektor b ∈ R M . Zunächst soll ein konkretes lineares Ausgleichsproblem vorgestellt werden. Beispiel 4.65 Im Folgenden ist diejenige Gerade in R 2 gesucht, die im quadratischen Mittel den geringsten vertikalen Abstand zu vorgegebenen Stützpunkten ( yj , fj ) ∈ R 2 , j = 1, 2, . . . , M besitzt, mit paarweise verschiedenen reellen Zahlen y1 , y2 , . . . , yM ; diese bezeichnet man als Ausgleichsgerade. Wegen der allgemeinen Darstellung { cy + d : y ∈ R} mit gewissen Koeffizienten c, d ∈ R für Geraden in R 2 lautet das zu lösende Minimierungsproblem folglich M

(cyj + d − fj )2 → min,

c, d ∈ R,

(4.61)

j=1

das man in der Form (4.60) schreiben kann, ,⎛ ⎞ ⎛ ⎞, , y 1 ( ) f1 , , , 1 ,⎜ p ⎟ ⎟, ⎜ c pp ⎟ , ⎜ pp ⎜ ppp ⎟ , → min − p ,⎝ ⎠ ⎝ ⎠, d , , , yM 1 fM ,

für c, d ∈ R.

2

Von allgemeinerer Form ist das Problem, Koeffizienten a0 , . . . , aN −1 ∈ R so zu bestimmen, dass −1 k für das Polynom p( y ) = N k=0 ak y der Ausdruck M

( p( yj ) − fj )2

(4.62)

j=1

minimal wird (mit M ≥ N ). Die zugehörige Lösung bezeichnet man als Ausgleichspolynom. Dieses Problem kann ebenfalls in der Form (4.60) geschrieben werden: ,⎛ ⎞⎛ ⎞ ⎛ ⎞, , , N −1 0 1 , , y . . . y y a 1 ,⎜ 1 1 ⎟⎜ 0 ⎟ ⎜ f1 ⎟ , ,⎜ p ⎟ ⎟ ⎟ , ⎜ ⎜ pp pp pp , ⎜ pp ⎟ ⎜ ppp ⎟ − ⎜ ppp ⎟ , → min für a0 , a1 , . . . , aN −1 ∈ R. p p p ,⎜ ⎟⎜ ⎟ ⎜ ⎟, ,⎝ ⎠⎝ ⎠ ⎝ ⎠, , , N −1 0 1 , yM yM . . . yM aN −1 fM , 2

Für einen kleinen Grad N − 1 und eine große Stützpunkteanzahl M tritt bei dem Ausgleichspolynom u¨ blicherweise nicht ein solches oszillierendes Verhalten auf, wie man es von dem interpolierenden Polynom (vom Grad ≤ M − 1) zu erwarten hat. Mit dem nachfolgenden Theorem wird klar, wie mittels Faktorisierungen der Form A = QS lineare Ausgleichsprobleme effizient gelöst werden können. Theorem 4.66 Für die Matrix A ∈ R M×N , 1 ≤ N ≤ M, mit maximalem Rang N sei eine Faktorisierung A = QS gegeben mit einer orthogonalen Matrix Q ∈ R M×M und der verallgemeinerten oberen Dreiecksmatrix S ∈ R M×N entsprechend (4.44), ⎞ ⎛ ) ( ................................... ............................... .......................... R . .. . . . . . ∈ R M×N , R = ⎝ .................................................. ⎠ ∈ R N×N , 0 = ( 0 ) ∈ R ( M −N )×N . S = ..... . 0 Zu gegebenem Vektor b ∈ R M sei Qb wie folgt partitioniert,

91

Weitere Themen und Literaturhinweise

* Qb =:

y1

+ ∈ RM ,

y2

y1 ∈ R N ,

y2 ∈ R M −N .

Dann ist für einen Vektor x∗ ∈ R N Folgendes a¨ quivalent: es löst x∗ das lineare Ausgleichsproblem ||Ax − b||2 → min

für x ∈ R N ,

genau dann, wenn Rx∗ = y1 erfüllt ist. B EWEIS . Für einen beliebigen Vektor x ∈ R N gilt ||Ax −

b||22

= ||QSx − QQ = ||Rx −

y1 ||22

b||22

+

= ||Sx − Q

b||22

,( , , = , ,

R

)

( x−

0

) ,2 , , , y2 ,

y1

2

||y2 ||22 ,

woraus die Aussage des Theorems folgt: ||Ax − b||2

≥

||y2 ||2 ;

||Ax − b||2

=

||y2 ||2

⇐⇒

Rx = y1 .

Weitere Themen und Literaturhinweise Der Gauß Algorithmus zur Lösung linearer Gleichungssysteme lässt sich auch mit der (numerisch allerdings aufwändigen) Totalpivotsuche durchführen (Aufgabe 4.7). Mehr Einzelheiten zu der in Abschnitt 4.6 behandelten LR Faktorisierung für Bandmatrizen werden beispielsweise in Schwarz/Klöckner [90], Weller [106] und Werner [107] vorgestellt. Untersuchungen zu den Auswirkungen von Störungen symmetrischer positiv definiter Matrizen auf ihre Cholesky Faktorisierung findet man in Higham [52]. Eine QR Faktorisierung für Bandmatrizen wird in Oevel [75] vorgestellt. Bei der Analyse schlecht konditionierter linearer Gleichungssysteme lässt sich die Singulärwertzerlegung einer Matrix verwenden (Aufgabe 4.16). Weitere Einzelheiten zu diesem Thema werden beispielsweise in Baumeister [2], Engl / Hanke /Neubauer [23], Golub /Van Loan [32], Hämmerlin/Hoffmann [45], Horn/Johnson [55], Kress [60], Louis [63] und in Rieder [82] behandelt. Zur stabilen Lösung schlecht konditionierter linearer Gleichungssysteme bietet sich die Verwendung von Regularisierungsverfahren an ([2], [23], [45], [60], [63], [82], Groetsch [39] und Hofmann [54]). Auch u¨ ber Matrixäquilibrierungen lässt sich eine Reduktion der Konditionszahl erzielen (Aufgabe 4.18 und Schaback/Wendland [88]). Erwähnenswert ist auch der Algorithmus von Strassen, mit dem sich der numerische Aufwand bei der Multiplikation zweier N × N Matrizen (von normalerweise O(N 3 ) arithmetischen Operationen) auf O(N log 2 7 ) ≈ O(N 2.807 ) arithmetische Operationen reduzieren lässt (siehe Strassen [97] ¨ beziehungsweise [45], [52] und Uberhuber [102]). Mittels verfeinerter Techniken kann man den Aufwand weiter reduzieren; der aktuelle Stand ist O(N 2.38 ) arithmetische Operationen (Pan [77]). Speziell auf Parallel und Vektorrechner zugeschnittene Verfahren finden Sie in Golub /Ortega [34], Schwandt [89] und in [88] und [90].

92

Kapitel 4 Lösung linearer Gleichungssysteme

¨ Ubungsaufgaben Aufgabe 4.1 Man löse das lineare Gleichungssystem * −4 + * + 1 x1 10 1 1 x2

=

* + 1 2

einmal mit dem Gauß Algorithmus ohne Pivotsuche und einmal mit dem Gauß Algorithmus inklusive Pivotsuche. Dabei verwende man jeweils eine dreistellige dezimale Gleitpunktarithmetik. (Hierbei ist nach jeder Operation das Zwischenergebnis auf drei gültige Dezimalstellen zu runden. ) Aufgabe 4.2 Zur Lösung eines linearen Gleichungssystems Ax = b mit einer Tridiagonalmatrix ⎛

A

=

⎞

a a ⎜ 11 12 ⎜ ⎜ a21 p p p p p p ⎜ ⎜ pp pp ⎜ p p ⎜ ⎜ ⎜ pp ⎜ p ⎝

⎟ ⎟ ⎟ ⎟ ⎟ pp ⎟ ∈ R N×N p ⎟ ⎟ ⎟ pp aN −1,N ⎟ p ⎠ aN,N −1 aN N

(es gilt ajk = 0 für k ≤ j − 2 oder k ≥ j + 2) vereinfache man den Gauß Algorithmus in geeigneter Weise und gebe die zugehörige Anzahl der arithmetischen Operationen an. Aufgabe 4.3 Es sei A = ( ajk ) ∈ R N×N eine Bandmatrix von der Form (4.25) auf Seite 72. Zur Lösung von linearen Gleichungssystemen Ax = b mit einer solchen Bandmatrix A gebe man einen modifizierten Gauß Algorithmus an, der mit höchstens p( 3 + 2q )( N − 1 ) arithmetischen Operationen auskommt. Aufgabe 4.4 Zur Lösung eines linearen Gleichungssystems Ax = b mit einer Matrix A ∈ R N×N wird der Gauß Algorithmus betrachtet. (a) Man zeige: ist die Matrix A symmetrisch, so sind auch die Matrizen B (1) , B (2) , . . . , B (N ) aus (4.4) auf Seite 57 allesamt symmetrisch. (b) Man zeige weiter: ist die Matrix A symmetrisch und positiv definit, so sind auch die Matrizen B (1) , B (2) , . . . , B (N ) aus (4.4) alle symmetrisch und positiv definit und der Gauß Algorithmus ist durchführbar. (c) Man gebe einen auf symmetrische Matrizen zugeschnittenen Gauß Algorithmus an und berechne die dabei anfallende Zahl der arithmetischen Operationen. Aufgabe 4.5 Die Matrix A = ( ajk ) ∈ R N×N sei diagonaldominant, das heißt, |ajj | ≥

N

|ajk |

für j = 1, 2, . . . , N,

k=1 k=j

und außerdem sei die Matrix A regulär. Man weise nach, dass der Gauß Algorithmus ohne Pivotwahl durchführbar ist. Aufgabe 4.6 Sei P ∈ R N×N eine Permutationsmatrix und π die zugehörige Permutation. Man zeige: (a) Die Spaltenvektoren von P sind paarweise orthonormal zueinander, P −1 = P . (b) Mit der Darstellung (4.5) gilt

¨ Ubungsaufgaben

93 ⎛

⎞

⎜ ⎟ P −1 = ⎝eπ−1 (1) . . . eπ−1 (N ) ⎠ .

Aufgabe 4.7 (Numerische Aufgabe) Man schreibe einen Code, der den Gauß Algorithmus einmal ohne Pivot , einmal mit Spaltenpivot und schließlich mit Totalpivotsuche durchführt. Bei letzterem ¨ werden – ausgehend von der Notation in Algorithmus 4.6 – beim Ubergang A(s) → A(s+1) zunächst Indizes p, q ∈ {s, s + 1, . . . , N } mit (s) a ≥ a( s) , j, k = s, s + 1, . . . , N, pq jk bestimmt und a(pqs) als Pivotelement verwendet. Man teste das Programm anhand des Beispiels Ax = b mit ajk = bj

=

1 , j+k−1

j, k = 1, 2, . . . , N,

1 , j+N −1

j = 1, 2, . . . , N.

Für N = 50, 100, 200 und jede Pivotstrategie gebe man die Werte x10j , j = 1, 2, 3, . . . , N/10 aus. Aufgabe 4.8 Man zeige: Eine Matrix A ∈ R N×N besitzt eine LR Faktorisierung genau dann, wenn die Hauptuntermatrizen von A von der Form ⎛ ⎞ a11 p p p a1n p ⎟ ⎜ pp p p n×n für n = 1, 2, . . . , N p pp ⎠ ∈ R ⎝ p an1 p p p ann alle regulär sind. Aufgabe 4.9 Sei A = (ajk ) ∈ R N×N symmetrisch und positiv definit. Man zeige Folgendes: (a) ajj > 0, (b)

a2jk

< ajj akk ,

j = 1, 2, . . . , N , j, k = 1, 2, . . . , N,

j = k,

(c) der betragsmäßig größte Eintrag von A liegt auf der Hauptdiagonalen. Aufgabe 4.10 Man rechne nach, dass bei der Berechnung einer LR Faktorisierung einer gegebenen Matrix A ∈ R N×N gemäß der Parkettierung von Crout insgesamt ( 2N 3 /3 ) (1 + O( 1/N ) ) arithmetische Operationen anfallen. Aufgabe 4.11 Man zeige Folgendes: (a) Die Menge der skalierten (die Diagonaleinträge sind alle = 1) unteren Dreiecksmatrizen L ∈ R N×N bildet bezüglich der Matrixmultiplikation eine Untergruppe in R N×N . (b) Die Menge der regulären oberen Dreiecksmatrizen R ∈ R N×N bildet bezüglich der Matrixmultiplikation eine Untergruppe in R N×N . (c) Die Darstellung A = LR einer nichtsingulären Matrix A ∈ R N×N als Produkt einer skalierten unteren Dreiecksmatrix L und einer regulären oberen Dreiecksmatrix R ist eindeutig (sofern sie existiert).

94

Kapitel 4 Lösung linearer Gleichungssysteme

Aufgabe 4.12 Gegeben sei die Matrix

⎛

1

2

3

−4

⎞

⎜ ⎟ ⎜ 2 8 6 −14 ⎟ ⎜ ⎟ ⎜ ⎟ 6 a −15 ⎠ ⎝ 3 −4 −14 −15 30 mit einem reellen Parameter a. Man berechne die zugehörige LR Faktorisierung beziehungsweise gebe an, für welchen Wert des Parameters a diese nicht existiert. Aufgabe 4.13 Die Matrix A ∈ R N×N sei symmetrisch und positiv definit. Man gebe einen Algorithmus zur Gewinnung einer Faktorisierung A = R R an. Hierbei bezeichnet R = ( rjk ) ∈ R N×N eine obere Dreiecksmatrix mit rjj > 0 für alle j. Man begründe zudem die Durchführbarkeit dieses Verfahrens. Aufgabe 4.14 Es sei A = (ajk ) ∈ R N×N eine symmetrische, positiv definite Bandmatrix der Bandbreite m, das heißt, ajk = 0 für j, k mit |j − k | ≥ m. Man weise nach, dass in der Cholesky Faktorisierung A = LL die untere Dreiecksmatrix L eine Bandmatrix der Bandbreite m ist. Aufgabe 4.15 Gegeben seien die Matrizen ( ) 101 99 A = , 99 101

( B =

101

99

−99 101

) .

(a) Berechne die Konditionszahlen cond∞ ( A ) und cond∞ ( B ). (b) Für die Vektoren

δ 1 δ ..... ..... .......... b = ........... b = 1 , δ , −δ mit einer kleinen reellen Zahl δ > 0 löse man die Gleichungssysteme b =

Ax = b,

.

.

A( x + ............. x ) = b + .............. b, .

A( x + ............ x ) = b + ............ b. .

Man vergleiche die jeweiligen relativen Fehler ||............... x||∞ /||x||∞ und ||.............. x ||∞ /||x||∞ mit der allgemeinen Fehlerabschätzung ||.............. x||/||x|| ≤ cond( A ) ||.............. b||/||b||. Aufgabe 4.16 Für diese Aufgabe verwende man das folgende Theorem u¨ ber die Singulärwertzerlegung einer Matrix: Theorem 4.67 Zu einer nichtsingulären Matrix A ∈ R N×N gibt es orthonormale Matrizen U, V ∈ R N×N und eine Diagonalmatrix Σ = diag (σ1 , . . . , σN ) ∈ R N×N (mit σ1 ≥ σ2 ≥ . . . ≥ σN > 0), so dass A = V Σ U .

(a) Man zeige: für jeden Vektor x ∈ R N gilt ausgehend von der Darstellung als LinearkombinatiN N der Matrix on x = k=1 ck uk der paarweise orthonormalen Spaltenvektoren u1 , u2 , . . . , uN ∈ R ×N N U ∈R Folgendes: Ax =

N

ck σk vk ,

k=1

wobei v1 , v2 , . . . , vN ∈ R N die paarweise orthonormalen Spaltenvektoren der Matrix V ∈ R N×N bezeichnen.

¨ Ubungsaufgaben

95

(b) Man gebe die Werte von ||A||2 , ||A−1 ||2 sowie cond2 ( A ) u¨ ber die Singulärwerte der Matrix A an. (c) Zur Lösung von .

.

A(x + ............... x) = b + .............. b .

gebe man mithilfe der Matrix U diejenigen Vektoren b ∈ R N beziehungsweise .............. b ∈ R N an, die in den Abschätzungen ||b||2 ..... ...........

|| x||2 ..... .........

|| x||2 ||x||2

≤

||A||2 ||x||2 ,

≤

||A−1 ||2 ||............... b||2 ,

≤

cond2 ( A )

.

.

||.............. b ||2 , || b ||2

Gleichheit ergeben. Aufgabe 4.17 Für eine reguläre Matrix A ∈ R N×N sei B ∈ R N×N eine Näherung für A−1 und || · || : R N×N → R eine beliebige submultiplikative Matrixnorm. Man zeige: || A−1 − B || || A−1 ||

≤ min{||AB − I ||, ||BA − I ||},

||BA − I || ≤ cond( A )||AB − I || Zu Testzwecken betrachte man die beiden Matrizen ⎛

⎞

⎜ 9999 9998 ⎟ A = ⎝ ⎠, 10000 9999

≤

cond( A )2 ||BA − I ||.

⎛

⎞

⎜ 9999.9999 −9997.0001 ⎟ ⎜ ⎟ B = ⎜ ⎟, ⎝ ⎠ −10001 9998

und berechne die Matrizen BA − I ∈ R N×N sowie AB − I ∈ R N×N . Aufgabe 4.18 (a) Es sei B = (bjk ) ∈ R N×N eine reguläre Matrix, die zudem zeilenäquilibriert ist, das heißt, N

|bjk | = 1,

j = 1, 2, . . . , N.

k=1

Man zeige, dass für jede reguläre Diagonalmatrix D ∈ R N×N die folgende Abschätzung gilt, cond∞ ( B ) ≤ cond∞ ( DB ). (b) Sei A ∈ R N×N eine reguläre Matrix. Man zeige: es gibt eine Diagonalmatrix D ∈ R N×N , so dass DA zeilenäquilibriert ist, und dann gilt cond∞ ( DA ) ≤ cond∞ ( A ).

Aufgabe 4.19 Es sei A = ( ajk ) ∈ R N×N eine reguläre Matrix. Zeige mithilfe der QR Faktorisierung die Hadamardsche Determinantenabschätzung n n 1/2 | det ( A ) | ≤ |ajk |2 . k=1

j=1

96

Kapitel 4 Lösung linearer Gleichungssysteme

Aufgabe 4.20 Man zeige für eine nichtsinguläre Matrix A ∈ R N×N und Vektoren u, v ∈ R N : (a) Im Fall vA−1 u = −1 gilt die Sherman Morrison Formel (A + uv)−1 = A−1 −

A−1 uvA−1 . 1 + vA−1 u

(b) Im Fall vA−1 u = −1 ist die Matrix A + uv singulär. Aufgabe 4.21 Transformieren Sie die Matrix ⎛

0 ⎜0 ⎜ A = ⎜ ⎝1 0

1 0 0 0

⎞ 0 1⎟ ⎟ ⎟ 1⎠ 1

mittels Householder Transformationen auf obere Dreiecksgestalt. Aufgabe 4.22 (Numerische Aufgabe) Man schreibe einen Code zur Lösung eines linearen Gleichungssystems mittels Householdertransformationen. Man teste das Programm anhand des Beispiels Ax = b mit ⎛ ⎞ ⎛ ⎞ 1 + δ δ 0 ··· 0 1 ⎜ ⎟ ⎜ ⎟ .. ⎜ .. ⎟ δ ⎜ ⎟ . ⎜ −1 δ . 1⎟ ⎜ ⎟ ⎜ ⎟ −1 + δ ⎜ ⎟ ⎜ ⎟ ×N . . N ⎟ ∈ RN , .. . . 0 1⎟ ∈ R A = ⎜ −1 , b = ⎜ .. ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ . ⎜ .. ⎟ .. ⎜ ⎟ ⎜ . ⎟ . δ 1 ⎝ 3 − N + δ⎠ ⎝ ⎠ −1 −1 · · · −1 1 2−N mit N = 20 und δ = 0.1. Man gebe den Lösungsvektor x = (x1 , x2 , . . . , xN ) aus.

97

5

Nichtlineare Gleichungssysteme

5.1 Vorbemerkungen Im Folgenden sei F : R N → R N eine gegebene Funktion und x∗ ∈ R N eine Nullstelle von F , F ( x∗ ) = 0, die es zu bestimmen gilt. Typischerweise lässt sich ein solches nichtlineares Gleichungssystem nur approximativ lösen, was im Folgenden mittels Iterationsverfahren der Form xn+1 = Φ( xn )

für n = 0, 1, . . .

(5.1)

geschehen soll mit einer geeigneten stetigen Iterationsfunktion Φ : R N → R N . Dabei soll die Abbildung Φ so beschaffen sein, dass Konvergenz im folgenden Sinne vorliegt. Definition 5.1 Sei Φ : R N → R N eine Iterationsfunktion. Das Verfahren (5.1) zur Bestimmung von x∗ ∈ R N heißt (lokal) konvergent, wenn eine Zahl δ > 0 existiert, so dass für alle Startwerte x0 ∈ B( x∗ ; δ ),

B( x∗ ; δ ) := {y ∈ R N : ||y − x∗ || < δ }

gilt ||xn − x∗ || → 0

für n → ∞.

(5.2)

Hier bezeichnet || · || : R N → R eine nicht näher spezifizierte Vektornorm. Bemerkung 5.2 Da die Iterationsfunktion Φ : R N → R N als stetig in x∗ vorausgesetzt ist, handelt es sich aufgrund der Konvergenz (5.2) bei x∗ ∈ R N notwendigerweise um einen Fixpunkt von Φ, Φ( x∗ ) = x∗ , denn x∗

=

lim xn+1

n→∞

=

lim Φ( xn )

n→∞

=

Φ lim xn n→∞

=

Φ( x∗ ).

Daher bezeichnet man das Verfahren (5.1) als Fixpunktiteration.

Mehr noch als Konvergenz (5.2) ist wünschenswert, dass das Verfahren (5.1) eine möglichst hohe Konvergenzordnung im Sinne der folgenden Definition besitzt. Definition 5.3 Sei Φ : R N → R N eine Iterationsfunktion mit Fixpunkt x∗ ∈ R N . Das Verfahren (5.1) heißt (lokal) konvergent von (mindestens) der Ordnung p ≥ 1, wenn ein δ > 0 existiert, so dass für alle Startwerte x0 ∈ B( x∗ ; δ ) gilt ||xn+1 − x∗ ||

≤

C||xn − x∗ ||p

für n = 0, 1, . . .,

(5.3)

98

Kapitel 5

Nichtlineare Gleichungssysteme

mit einer Konstanten 0 ≤ C < ∞, wobei im Fall p = 1 noch C < 1 gefordert wird. Bei Konvergenz der Ordnung p = 1 beziehungsweise p = 2 spricht man dann von (mindestens) linearer beziehungsweise quadratischer Konvergenz. Das Verfahren (5.1) heißt konvergent von genau der Ordnung p, wenn es konvergent von der Ordnung p ist und keine höhere Konvergenzordnung besitzt. Bemerkung 5.4 (a) Lineare Konvergenz impliziert für x0 ∈ B( x∗ ; δ ) ||xn − x∗ ||

≤

C n ||x0 − x∗ ||,

n = 0, 1, . . .

(5.4)

mit einer Konstanten 0 < C < 1. Insbesondere ist das Verfahren also lokal konvergent. (b) Ein Verfahren der Konvergenzordnung p > 1 besitzt für jedes 1 ≤ q ≤ p formal auch die niedrigere Konvergenzordnung q: für Startwerte 1/(p−1) 1 x0 ∈ B( x∗ ; δ), δ := min δ, 2C mit C aus (5.3), erhält man induktiv ||xn − x∗ || ≤ 2−n ||x0 − x∗ || für n = 0, 1, . . ., somit liegt lineare Konvergenz vor. Weiter berechnet man ≤ δ p−q ||xn+1 − x∗ || ≤ C ||xn − x∗ ||p = C ||xn − x∗ ||||xn − x∗ ||q ≤ δ p−q C ||xn − x∗ ||q

für n = 0, 1, . . .,

was die angegebene Konvergenzordnung 1 < q ≤ p liefert. (c) Je höher die Konvergenzordnung eines Verfahrens, desto schneller werden die Iterierten den gesuchten Wert x∗ approximieren, denn für Zahlen 0 ≤ q < p sowie Startwerte x0 hinreichend nahe bei x∗ und n hinreichend groß gilt ||xn − x∗ || 1 und damit ||xn − x∗ ||p ||xn − x∗ ||q .

5.2 Der eindimensionale Fall 5.2.1 Ein allgemeines Resultat Das folgende Theorem befasst sich mit Verfahren (5.1) im eindimensionalen Fall N = 1 und liefert Konvergenzresultate für hinreichend gute Startwerte x0 . Theorem 5.5 Sei Φ : R → R eine Iterationsfunktion mit Fixpunkt x∗ ∈ R, die zudem in x∗ insgesamt p mal differenzierbar sei mit p ∈ N. Weiter sei ⎧ ⎫ ⎨ Φ(k ) ( x∗ ) = 0, k = 1, 2, . . . , p − 1, falls p ≥ 2 ⎬ ⎩

|Φ ( x∗ ) | < 1,

falls p = 1

⎭

erfüllt. Dann ist das Verfahren (5.1) lokal mindestens konvergent von der Ordnung p. Wenn weiterhin Φ( p) ( x∗ ) = 0 gilt, so liegt die genaue Konvergenzordnung p vor.

Abschnitt 5.2

99

Der eindimensionale Fall

B EWEIS . Eine Taylorentwicklung der Funktion Φ im Punkt x∗ liefert Φ( x ) =

p Φ(k ) ( x∗ ) ( x − x∗ )k + k!

O (|x

− x∗ |p )

k=0

= Φ( x∗ ) +

Φ( p) ( x∗ ) ( x − x∗ )p + p!

O (|x

− x∗ |p )

für x → x∗ ,

= x∗

und somit Φ( x ) − x∗ ( x − x∗ )p

→

Φ( p) ( x∗ ) p!

für x → x∗ .

(5.5)

Folglich existiert zu jedem ε > 0 eine Zahl δ > 0 mit |Φ( x ) − x∗ |

≤

|Φ( p) ( x∗ ) | + ε |x − x∗ |p p!

für x ∈ B( x∗ ; δ ),

(5.6)

wobei im Fall p = 1 noch ε > 0 so klein zu wählen ist, dass die Ungleichung |Φ ( x∗ ) | + ε < 1 erfüllt ist. Wenn man nun - 1 1/(p−1) . |Φ(p) ( x∗ ) | x0 ∈ B(x∗ ; δ) , C := + ε δ := min δ, p!

2C

1

∈ B( x∗ ; δ) für n = 1, 2, . . ., und (5.6) liefert dann die angegebene

wählt , so gilt auch xn Konvergenzordnung ≥ p. Unter der Zusatzbedingung Φ( p) ( x∗ ) = 0 gibt es wegen der Konvergenzaussage (5.5) für 0 < ε < |Φ(p) ( x∗ ) |/p! eine Zahl δ > 0 mit (p) ( ) |Φ x∗ | − ε |x − x∗ |p für x ∈ B( x∗ ; δ ), |Φ( x ) − x∗ | ≥ p! was die genaue Konvergenzordnung p liefert.

5.2.2 Das Newton– Verfahren im eindimensionalen Fall Zur Bestimmung einer Nullstelle x∗ ∈ R einer gegebenen Funktion f : R → R wird im Folgenden das Newton Verfahren xn+1 = xn −

f ( xn ) f ( xn )

=: Φ( xn ),

n = 0, 1, . . .

(5.7)

betrachtet. Die geometrische Bedeutung des Newton Verfahrens ist in Bild 5.1 veranschaulicht. In dem nachfolgenden Theorem wird unter verschiedenen Voraussetzungen jeweils die Konvergenzordnung von Verfahren (5.7) angegeben2 . Theorem 5.6 Die Funktion f : R → R besitze eine Nullstelle x∗ ∈ R und sei in einer Umgebung von x∗ hinreichend oft differenzierbar. (a) Im Fall f ( x∗ ) = 0 konvergiert das Newton Verfahren (5.7) mindestens quadratisch. (Falls f ( x∗ ) = 0 gilt, so ist es sogar konvergent von der Ordnung ≥ p = 3.) 1 2

vergleiche hierzu die Argumentation in Teil (b) der Bemerkung 5.4 unter Heranziehung von Theorem 5.5

100

Kapitel 5

Nichtlineare Gleichungssysteme

.. ... .... .... ..... .... . . . . ... ..... ..... ..... ..... ...... ...... . . . . . .... ...... ...... ...... ...... ......... ........... . . . . . .... .. .......... ....... ... ....... ... ....... ... ........................................................... .. ....... .. ........ ....... . . . . . . ........ ...... ........ ........ ........ ........ .. . . .. . . . .. . . .. ... ........ .............. ......... ......... ............ .......... ...... ..... .. .... ...... ........... ...... ... . . . . . . . . . ...... ..... ...... ...... ...... ........ ........... ........... ............ ............

f (x)

x0

x2

x1

x

Bild 5.1 Veranschaulichung der Vorgehensweise beim Newton– Verfahren (b) Ist hingegen x∗ eine m fache Nullstelle von f mit einer Zahl m ≥ 2, gilt also f ( x ) = ( x − x∗ )m g ( x ),

g ( x∗ ) = 0,

und ist die Funktion g zweimal differenzierbar in x∗ , so ist die Iterationsfunktion Φ aus (5.7) differenzierbar in x∗ mit 1 (5.8) Φ ( x∗ ) = 1 − m . Das Newton Verfahren (5.7) ist in diesem Fall also (genau) linear konvergent. B EWEIS . Die Aussagen ergeben sich mit Theorem 5.5 angewandt auf Φ( x ) := x − f ( x )/f ( x ) sowie mit den folgenden Darstellungen: im Fall (a) hat man Φ = 1 −

( f )2 − f f ( f )2

f f , ( f )2

=

Φ =

( f )3 f + f ( f )2 f − 2f f ( f )2 , ( f )4

so dass also Φ ( x∗ ) = 0,

Φ( x∗ ) = x∗ ,

Φ ( x∗ ) =

f ( x∗ ) f ( x∗ )

gilt. Im Fall (b) erhält man f ( x )

=

m( x − x∗ )m−1 g ( x ) + ( x − x∗ )m g ( x )

und somit Φ( x ) = x −

f (x) f ( x )

Φ ( x ) = 1 −

[ g( x )

=

x−

( x − x∗ )g ( x ) mg ( x ) + ( x − x∗ )g ( x )

=:

Z(x)

x − N (x) ,

+ ( x − x∗ )g ( x )]N ( x ) − Z ( x )[ ( m + 1 )g ( x ) + ( x − x∗ )g ( x )] . N ( x )2

Dies liefert schließlich (5.8), also 0 < Φ ( x∗ ) < 1 und insbesondere auch Φ ( x∗ ) = 0.

5.3 Der Banachsche Fixpunktsatz In Abschnitt 5.2.1 ist das allgemeine Verfahren (5.1) im eindimensionalen Fall N = 1 und für hinreichend glatte Iterationsfunktionen Φ : R → R sowie hinreichend gute Startwerte x0

Abschnitt 5.3

101

Der Banachsche Fixpunktsatz

betrachtet worden. Im folgenden Theorem nun wird lineare Konvergenz für das allgemeine Verfahren (5.1) nachgewiesen für den mehrdimensionalen Fall N ≥ 1 und ohne Differenzierbarkeitsbedingungen an Φ, und als Startvektor werden beliebige Elemente x0 der zugrunde gelegten Menge zugelassen; u¨ berdies erhalt man die Existenz eines eindeutigen Fixpunktes. Dafür ist allerdings die globale Kontraktionseigenschaft (5.9) eine relativ schwer wiegende Forderung an die Iterationsfunktion Φ. Theorem 5.7 Sei M ⊂ R N eine abgeschlossene Teilmenge, und die Abbildung Φ : M → M sei bezüglich einer Vektornorm || · || : R N → R eine Kontraktion, das heißt, für eine Konstante 0 < L < 1 sei ||Φ( x ) − Φ( y ) ||

≤

L||x − y ||,

x, y ∈ M,

(5.9)

erfüllt. Dann gilt Folgendes: •

Φ besitzt genau einen Fixpunkt x∗ ∈ M;

•

Für jeden Startwert x0 ∈ M liefert die Fixpunktiteration3 xn+1 = Φ( xn ),

n = 0, 1, . . .

(5.10)

eine gegen x∗ konvergierende Folge, und es gilt genauer ||xn − x∗ ||

≤

L ||x − xn−1 || 1−L n

Ln ||x − x0 ||, 1−L 1

≤

n = 1, 2, . . . . (5.11)

B EWEIS . Sind x∗ , x ∗ ∈ M Fixpunkte von Φ, so gilt ∗ || ||x∗ − x

=

||Φ( x∗ ) − Φ( x ∗ ) ||

≤

L||x∗ − x ∗ ||

∗ || ≤ 0, was x∗ = x ∗ bedeutet. Im Folgenden soll die Existenz beziehungsweise ( 1 − L )||x∗ − x eines Fixpunktes von Φ nachgewiesen werden, was mithilfe der Fixpunktiteration geschieht. Die dabei erzielten Zwischenergebnisse liefern dann auch unmittelbar die Abschätzungen (5.11). Sei also der Startvektor x0 ∈ M beliebig, und ( xn ) ⊂ R N bezeichne die zugehörige Folge der Fixpunktiteration (5.10). Mithilfe einer Teleskopsumme erhält man dann für n, k ∈ N0 unter Verwendung von ||xj+1 − xj || ≤ L||xj − xj−1 || für j = 1, 2, . . . die folgenden Abschätzungen: n+k−1 x+1 − x ||xn+k − xn || = =n

≤

n+k−1

≤

vergleiche (5.1)

x+1 − x

=n

L−n ||xn+1 − xn ||

=n

3

n+k−1

≤

1 − Lk ||xn+1 − xn || 1−L

≤

L ||x − xn−1 || 1−L n

=

k−1

L ||xn+1 − xn ||

=0

≤ ≤

1 ||x − xn || 1 − L n+1 Ln ||x − x0 ||. 1−L 1

102

Kapitel 5

Nichtlineare Gleichungssysteme

Damit gilt insbesondere ||xn+k − xn ||

≤

L ||x − xn−1 || 1−L n

Ln ||x − x0 ||, 1−L 1

≤

n, k ≥ 0,

(5.12)

und somit ist ( xn ) ⊂ R N Cauchyfolge mit einem Grenzwert, der zudem Fixpunkt von Φ ist4 und daher mit x∗ ∈ M u¨ bereinstimmt. Der Grenzübergang “k → ∞“ in (5.12) liefert die angegebene Abschätzung (5.11). Bemerkung 5.8 (a) Der Ausdruck ( Ln /( 1−L ))||x1 −x0 || in (5.11) kann für jedes n vor Beginn der Iteration bestimmt werden (nur x1 wird hierzu benötigt) und ermöglicht eine a priori Fehlerabschätzung für den Approximationsfehler ||xn − x∗ ||. (b) Der mittlere Ausdruck (L/( 1 − L ) )||xn − xn−1 || in (5.11) hingegen kann im n ten Iterationsschritt bestimmt werden und ermöglicht eine a posteriori Fehlerabschätzung für den Approximationsfehler ||xn − x∗ ||. (c) Praktisch geht man so vor: für eine vorgegebene Fehlerschranke ε > 0 wird die Iteration in Schritt n = n( ε ) abgebrochen, falls erstmalig L ||xn − xn−1 || 1−L

≤

ε

gilt, und die a posteriori Fehlerabschätzung garantiert dann die gewünschte Fehlerabschätzung ||xn − x∗ || ≤ ε. Die a priori Fehlerabschätzung gestattet die Abschätzung n( ε ) ≤ a,

a =

log

|| x − x || 1 0 ( 1 − L )ε log( 1/L )

(5.13)

für die Anzahl der nötigen Iterationsschritte, wobei a die kleinste ganze Zahl ≥ a bezeichnet. Beispiel 5.9 Für f ( x ) := x − e−x , f ( x∗ ) = 0

x ∈ R,

für x∗ ≈ 0.56714329

soll die Nullstelle x∗ bestimmt werden unter Anwendung der Fixpunktiteration (5.1) mit der Iterationsfunktion Φ( x ) := e−x ,

x ∈ R.

Auf dem Intervall M = [ 0.5, 0.69 ] ist die Eigenschaft Φ(M) ⊂ M ebenso erfüllt wie die Kontraktionseigenschaft (5.9) mit L

=

max

x∈[ 0.5, 0.69 ]

|Φ ( x ) |

=

max

x∈[ 0.5, 0.69 ]

e−x

=

e−1/2

≈

0.606531.

In der folgenden Tabelle sind einige der durch das Verfahren (5.1) gewonnenen Iterierten aufgelistet, wobei als Startwert x0 = 0.55 gewählt ist und in der vorliegenden Situation das Verfahren 4

was aus der Bemerkung 5.2 folgt unter Beachtung der Tatsache, dass wegen der Kontraktionseigenschaft (5.9) die Abbildung Φ insbesondere stetig ist

Abschnitt 5.4

103

Das Newton– Verfahren im mehrdimensionalen Fall

von der speziellen Form xn+1 = e−xn , n = 0, 1, . . . , ist. n

xn

n

xn

n

xn

0

0.55000000

10

0.56708394

20

0.56714309

1

0.57694981

11

0.56717695

21

0.56714340

2

0.56160877

12

0.56712420

22

0.56714323

3

0.57029086

13

0.56715412

23

0.56714332

4

0.56536097

14

0.56713715

24

0.56714327

pp p

pp p

pp p

pp p

pp p

pp p

pp p

pp p

pp p

pp p

Die Situation soll für n = 12 genauer betrachtet werden. Die Fehlerabschätzung (5.11) liefert in diesem Fall 1.91 · 10−5

≈

|x12 − x∗ |

≤

8.13 · 10−5

≤

1.70 · 10−4 ,

so dass die a posteriori Abschätzung den wirklichen Fehler etwa um den Faktor 4 u¨ berschätzt, und die a priori Abschätzung u¨ berschätzt den wirklichen Fehler etwa um den Faktor 10. Das praktische Vorgehen soll nun für die spezielle Fehlerschranke ε = 0.0076 illustriert werden. Die a posteriori Abschätzung liefert n( ε ) = 4 als Stoppindex, |x4 − x∗ | ≤ ε. Die Abschätzung ¨ (5.13) liefert mit n( ε ) ≤ 16 eine Ubersch¨ atzung. Schließlich ist anzumerken, dass schon in Schritt 2 der (im Allgemeinen unbekannte) Approximationsfehler die Schranke ε unterschreitet, |x2 − x∗ | ≈ 0.0055 ≤ ε.

5.4 Das Newton–Verfahren im mehrdimensionalen Fall Für eine gegebene Funktion F : R N → R N soll nun die Konvergenz des Newton Verfahrens zur Lösung des Gleichungssystems F ( x ) = 0 im mehrdimensionalen Fall N ≥ 1 untersucht werden.5

5.4.1 Einige Begriffe aus der Analysis In diesem Abschnitt werden einige Hilfsmittel aus der Analysis bereitgestellt. Im Folgenden wird mit || · || sowohl eine (beliebig aber fest gewählte) Vektornorm auf R N als auch die induzierte Matrixnorm bezeichnet. Bekanntlich heißt eine Funktion F : R N → R N in einem Punkt x ∈ R N differenzierbar, falls eine lineare Abbildung Dx F : R N → R N existiert mit der Eigenschaft ||F ( x + h ) − F ( x ) − ( Dx F )( h ) || → 0 für R N h → 0. ||h|| Die Abbildung Dx F ist so eindeutig festgelegt und wird durch die Jacobi Matrix repräsentiert, 5

Für den eindimensionalen Fall sowie hinreichend gute Startwerte x0 ist dies bereits in Abschnitt 5.2.2 geschehen.

104

Kapitel 5

Nichtlineare Gleichungssysteme

⎛

( Dx F )( z ) = J ( x )z,

⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ J ( x ) := ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

⎞ ∂F1 (x) ∂x1

∂F1 (x) ∂x2

···

∂F2 (x) ∂x1

∂F2 (x) ∂x2

···

pp p

pp p

∂FN (x) ∂x1

∂FN (x) ∂x2

···

∂F1 ⎟ (x) ⎟ ∂xN ⎟

⎟ ⎟ ⎟ ∂F2 (x) ⎟ ⎟ ∂xN ⎟ × ⎟ ∈ RN N . ⎟ ⎟ pp ⎟ p ⎟ ⎟ ⎟ ⎟ ⎠ ∂FN (x) ∂xN

Die Funktion F : R N → R N heißt auf einer Menge M ⊂ R N differenzierbar, falls sie in jedem Punkt x ∈ M differenzierbar ist. Eine Menge M ⊂ R N heißt konvex, falls für je zwei Elemente x, y ∈ M auch die Verbindungsstrecke von x nach y zu M gehört, das heißt, ⊂ M, x, y ∈ M. x + t( y − x ) : 0 ≤ t ≤ 1 Im folgenden Lemma wird als Nachtrag zu Abschnitt 5.3 eine hinreichende Bedingung für die in Theorem 5.7 auftretende Kontraktionsbedingung (5.9) angegeben (für Φ = F ). Lemma 5.10 Eine gegebene Funktion F : R N → R N sei auf einer offenen konvexen Menge M ⊂ R N differenzierbar, und für eine Konstante 0 ≤ L < ∞ gelte ||Dx F || ≤ L,

x ∈ M,

wobei Dx F mit der zugehörigen Jacobi Matrix J ( x ) identifiziert wird. Dann gilt die Abschätzung ||F ( x ) − F ( y ) ||

≤

L||x − y ||,

x, y ∈ M.

B EWEIS . Die Aussage des Lemmas ergibt sich unmittelbar aus dem Mittelwertsatz F ( x ) − '1 F ( y ) = 0 Dy+t( x−y ) F ( x − y ) dt. Das nachfolgende Lemma u¨ ber eine Variante der Taylorentwicklung für Funktionen mehrerer Veränderlicher wird beim Beweis des darauf folgenden Konvergenzresultats für das Newton Verfahren benötigt. Lemma 5.11 Eine gegebene Funktion F : R N → R N sei auf der offenen konvexen Menge M ⊂ R N differenzierbar, und für eine Konstante 0 ≤ L < ∞ gelte ||Dx F − Dy F ||

≤

L||x − y ||,

Dann gilt die Abschätzung F ( x ) − F ( y ) − ( Dy F )( x − y )

≤

x, y ∈ M.

L ||x − y ||2, 2

x, y ∈ M.

Abschnitt 5.4

105

Das Newton– Verfahren im mehrdimensionalen Fall

B EWEIS . Nach Voraussetzung ist für beliebige x, y ∈ M die Funktion ϕ : [ 0, 1 ] → R N ,

t → F (y + t( x − y ) )

stetig differenzierbar auf dem Intervall [ 0, 1 ], und die Kettenregel liefert ϕ ( t )

=

( Dy

+ t( x−y ) F )( x

− y ),

0 ≤ t ≤ 1.

Für 0 ≤ t ≤ 1 erhält man so die Abschätzung ||ϕ ( t ) − ϕ ( 0 ) || = || ( Dy+t(x−y ) F )( x − y ) − ( Dy F )( x − y ) || ≤ ||Dy+t( x−y ) F − Dy F ||||x − y ||

≤

Lt||x − y ||2 .

Wegen ∆ := F ( x ) − F ( y ) − ( Dy F )( x − y ) =

Z 1 0

ϕ( 1 ) − ϕ( 0 ) − ϕ ( 0 )

=

ϕ ( t ) − ϕ ( 0 ) dt

erhält man so schließlich die Aussage des Lemmas, ||∆||

≤

Z 1 0

||ϕ ( t ) − ϕ ( 0 ) || dt

≤

L||x − y ||2

Z 1 0

t dt

=

L ||x − y ||2 . 2

5.4.2 Das Newton– Verfahren und seine Konvergenz Im Folgenden wird das Newton Verfahren =

xn+1

xn − ( Dxn F )−1 ( F ( xn )),

n = 0, 1, . . .,

(5.14)

zur Bestimmung einer Nullstelle der Funktion F betrachtet. Bemerkung 5.12 In numerischen Implementierungen des Newton Verfahrens geht man in den Schritten n = 0, 1, . . . jeweils so vor: Ausgehend von der bereits berechneten Iterierten xn ∈ R N löst man zunächst das lineare Gleichungssystem ( Dxn F )∆n = −F ( xn ) und erhält anschließend xn+1 = xn + ∆n , so dass auf die aufwändige Matrixinversion ( Dxn F )−1 verzichtet werden kann. Das nachfolgende Theorem liefert unter gewissen Voraussetzungen quadratische Konvergenz sowie eine Menge von zulässigen Startvektoren x0 , die Existenz einer Nullstelle x∗ wird vorausgesetzt. Theorem 5.13 Eine gegebene Funktion F : R N → R N sei auf der offenen konvexen Menge M ⊂ R N differenzierbar, und x∗ ∈ M sei eine Nullstelle von F . Wenn für gewisse Zahlen r, β, L > 0 Folgendes gilt, B( x∗ ; r )

⊂

||Dx F − Dy F ||

M, ≤

Dx∗ F ist invertierbar, L||x − y ||,

x, y ∈ M,

|| ( Dx∗ F )−1 || ≤ β,

106

Kapitel 5

Nichtlineare Gleichungssysteme

so ist für jeden Startwert

1 . mit δ := min r, 2βL das Newton Verfahren (5.14) wohldefiniert, und es liegt lokale quadratische Konvergenz vor: für die Iterierten gilt x0 ∈ B( x∗ ; δ )

||xn+1 − x∗ ||

≤

βL||xn − x∗ ||2

1 ||x − x∗ ||, 2 n

≤

n = 0, 1, . . . .

(5.15)

B EWEIS . Zunächst wird gezeigt, dass für jeden Vektor x ∈ R N die folgende Implikation gilt: ||x − x∗ || < δ

=⇒

|| ( Dx F )−1 || ≤ 2β.

Dx F ist invertierbar,

(5.16)

Die Voraussetzung ||x − x∗ || < δ impliziert nämlich η := || ( Dx∗ F )−1 ||||Dx F − Dx∗ F ||

≤

βL||x − x∗ ||

≤

βLδ

≤

1 , 2

und Korollar 4.50 liefert dann die Invertierbarkeit von Dx F sowie die angegebene Abschätzung (5.16), || ( Dx F )−1 ||

≤

|| ( Dx∗ F ) 1−η

−1

||

≤

β 1/2

=

2β.

Die Wohldefiniertheit des Newton Verfahrens (5.14) folgt dann aus der Abschätzung (5.16) zusammen mit der folgenden Aussage xn ∈ B( x∗ ; δ ),

n = 0, 1, . . . ,

(5.17)

die nun mit vollständiger Induktion nachgewiesen wird; nebenbei werden sich dann auch die Abschätzungen (5.15) ergeben. Nach Voraussetzung gilt x0 ∈ B( x∗ ; δ ), und für ein n ∈ N0 sei nun bereits xn ∈ B( x∗ ; δ ) gezeigt. Wegen (5.16) ist dann Dxn F invertierbar und xn+1 somit wohldefiniert, und es gilt xn+1

=

xn − ( Dxn F )−1 ( F ( xn ))

xn − ( Dxn F )−1 ( F ( xn ) − F ( x∗ ))

=

beziehungsweise (unter Anwendung von Lemma 5.11) xn+1 − x∗

||xn+1 − x∗ ||

=

xn − x∗ − ( Dxn F )−1 ( F ( xn ) − F ( x∗ )) ( Dxn F )−1 F ( x∗ ) − F ( xn ) − ( Dxn F )( x∗ − xn ) ;

=

||

=

||

......

L 2

≤ 2β ||xn − x∗ ||2

=

βL||xn − x∗ ||2

≤

1 ||x − x∗ ||, 2 n

≤1/( 2βL )

woraus xn+1 ∈ B( x∗ ; δ ) folgt, und der vorhergehenden Zeile entnimmt man auch noch die Abschätzungen (5.15), was den Beweis von Theorem 5.13 komplettiert.

Abschnitt 5.4

107

Das Newton– Verfahren im mehrdimensionalen Fall

5.4.3 Nullstellenbestimmung bei Polynomen Für Polynome liefert das (eindimensionale) Newton Verfahren unter günstigen Umständen die größte Nullstelle: Theorem 5.14 Gegeben sei ein reelles Polynom p( x ) ∈ Πr , das eine reelle Nullstelle λ1 besitze, so dass λ1 ≥ Re ξ für jede andere Nullstelle ξ ∈ C von p gilt.6 Dann sind für jeden Startwert x0 > λ1 die Iterierten des Newton Verfahrens p( xn ) , p ( xn )

xn+1 = xn −

n = 0, 1, . . .,

streng monoton fallend, und |xn − λ1 | → 0

für n → ∞.

B EWEIS . Es bezeichne λ1 ≥ λ2 ≥ . . . ≥ λ die reellen Nullstellen sowie ξ1 , ξ 1 , . . . , ξm, ξ m (mit + 2m = r ) die komplexen Nullstellen des Polynoms p, das o.B.d.A. den führenden Koeffizienten eins besitze. Ganz allgemein erhält man mit den Wurzeln ηk eines Polynoms q ∈ Πr mit führendem Koeffizienten eins die folgenden Darstellungen für q und q , r r r r 1 ( x − ηk ) ( x − ηj ) q ( x ) = = q( x ) = q ( x ), x−η k=1 j=1 j=k

k=1

k=1

k

und somit gilt in der vorliegenden Situation p( x ) =

( x − λk )

( x − ξj ) ( x − ξ j ),

j=1

k=1

p (x) =

m

k=1

1 x − λk

+

2

m

x − Re ξj

j=1

( x − ξj )( x − ξ j )

p( x ) .

Nun gilt für jedes ξ ∈ C\R ( x − ξ )( x − ξ )

= x2 − 2xRe ξ + |ξ |2 = ( x − Re ξ )2 ≥ 0,

>

x2 − 2xRe ξ + ( Re ξ )2

x ∈ R,

so dass in jedem Fall p( x ) > 0,

p (x) > 0

für x > λ1

und damit x−

p( x ) p ( x )

λ1

gilt. Andererseits gilt aber wegen der Darstellung (5.18) sowie wegen der Ungleichung m x − Re ξj 1 1 + 2 für x > λ1 > x−λ x−λ k=1

6

k

j=1

( x − ξj )( x − ξ j )

Hier bezeichnet wieder Re z den Realteil einer komplexen Zahl z ∈ C.

1

(5.18)

108

Kapitel 5

Nichtlineare Gleichungssysteme

auch x−

p( x ) p ( x )

>

für x > λ1 .

λ1

Mittels vollständiger Induktion erschließt man, dass für einen Startwert x0 > λ1 das Newton Verfahren eine streng monoton fallende Folge x1 , x2 , . . . mit xk > λ1 liefert, und dann liegt notwendigerweise Konvergenz vor mit einem Grenzwert, der als Fixpunkt der stetigen Iterationsabbildung (vergleiche den Beweis von Theorem 5.6) auch Nullstelle von p ist und somit mit λ1 u¨ bereinstimmt. Beispiel 5.15 Als Beispiel sei ein Polynom p ∈ Π11 betrachtet, dessen Nullstellen in der komplexen Ebene wie in Bild 5.2 verteilt seien.

ξ1

6

ξ3

ξ2

×

×

×

×

× λ5

×

×

×

λ4

λ3

×

λ2

×-

λ1

ξ2

ξ3

×

ξ1 Bild 5.2 Beispiel für die Verteilung der Nullstellen eines Polynoms elften Grades in der komplexen Ebene Hier liefert das Newton Verfahren für einen hinreichend großen Startwert näherungsweise die Nullstelle λ1 , und anschließende Anwendung des gleichen Verfahrens auf das deflationierte Polynom p1 ( x ) = p( x )/( x − λ1 ) liefert eine Näherung für die Nullstelle λ2 (wobei als Startwert x0 = λ1 verwendet werden kann). Ganz analog lässt sich eine Approximation für λ3 gewinnen. Theorem 5.14 liefert jedoch keine Aussage darüber, wie die Nullstellen λ4 und λ5 numerisch bestimmt werden können. Für die praktische Umsetzung von Theorem 5.14 wird noch ein hinreichend großer Startwert benötigt. Das folgende Lemma liefert untere Schranken für mögliche Startwerte. Lemma 5.16 Gegeben sei das Polynom p( x ) = a0 + a1 x + . . . + ar−1 xr−1 + xr , und ξ ∈ C sei eine beliebige Nullstelle von p( x ). (a) Es gelten die beiden Abschätzungen r−1 |ξ | ≤ max 1, |ak | , k=0

|ξ | ≤ max |a0 |, 1 + max |ak | . 1≤k≤r−1

Abschnitt 5.4

109

Das Newton– Verfahren im mehrdimensionalen Fall

(b) Im Fall ak = 0 für k = 1, . . . , r − 1 gelten die beiden Abschätzungen

|ξ | ≤ max

|a0 | , |a1 |

max 2

1≤k≤r−1

|ak | |ak+1 |

|ξ | ≤

,

r−1 k=0

|ak | . |ak+1 |

(c) Schließlich gilt noch |ξ | ≤ q 1/r ,

q :=

falls

r−1

|ak | < 1.

k=0

B EWEIS . Die Frobeniussche Begleitmatrix zu dem Polynom p ist folgendermaßen definiert, ⎛

−a0

0

⎜ ⎜ ⎜ 1 A := ⎜ ⎜ ⎜ ⎝

pp

p

pp

p

p pp pp p

0

1 −ar−1

⎞ ⎟ ⎟ ⎟ ⎟ ∈ R r×r . ⎟ ⎟ ⎠

Für das zugehörige charakteristische Polynom gilt die Identität det ( λI − A )

=

für λ ∈ C,

p( λ )

(5.19)

wie im Folgenden nachgewiesen wird. Entwicklung der Determinante der Matrix λI − A nach der letzten Zeile liefert ⎛

⎞ λ

⎜ ⎜ −1 p p p ⎜ det ( λI − A ) = det ⎜ pp ⎜ p ⎝

a0 p pp

λ

ar−2

⎟ ⎟ ⎟ ⎟ ⎟ ⎠

−1 λ + ar−1 ⎛ ⎛ ⎞ λ λ ⎜ ⎜ ⎟ ⎜ −1 p p p ⎜ −1 ⎟ ⎟ ⎜ ⎜ = ( λ + ar−1 ) det ⎜ ⎟ + det ⎜ pp pp ⎟ ⎜ ⎜ p p ⎝ ⎝ ⎠ −1 λ

= λr−1

⎞ a0 pp

p

pp

p

λ

pp p pp p

−1 ar−2

⎟ ⎟ ⎟ ⎟, ⎟ ⎠

110

Kapitel 5

Nichtlineare Gleichungssysteme

und erneute Entwicklung der auftretenden Determinanten nach jeweils der letzten Zeile liefert ⎛ ⎛ ⎞ ⎞ ⎞ ⎛ λ a0 λ a0 λ ⎜ ⎜ ⎟ ⎜ p ⎟ pp ⎟ ⎜ −1 p p p ⎜ −1 p p p ⎟ ⎜ −1 p p p pp ⎟ p ⎟ ⎜ ⎟ ⎟ ⎜ ⎟ ⎜ det ⎜ det + det = a ⎟ ⎜ ⎟ ⎜ k pp ⎟ pp ⎟ pp pp pp pp ⎜ ⎟ ⎜ ⎟ ⎜ p p λ p λ p p p ⎝ ⎝ ⎠ ⎝ ⎠ ⎠ −1 ak −1 λ −1 ak−1 ⎛

⎞ λ

= ak λk

a0

⎜ pp ⎜ −1 p p p p ⎜ + det ⎜ pp pp ⎜ p p λ ⎝ −1 ak−1

für k = r − 2, r − 3, . . . , 2, und schließlich gilt ( ) λ a0 det = −1 a1

⎟ ⎟ ⎟ ⎟, ⎟ ⎠

a1 λ + a0 ,

was den Beweis der Identität (5.19) komplettiert. Aufgrund von (5.19) nun stimmt die Menge der Nullstellen des Polynoms p mit der Menge σ ( A ) der Eigenwerte der Matrix A u¨ berein. Weiter gilt rσ ( A ) ≤ ||A|| für jede durch eine komplexe Vektornorm induzierte Matrixnorm, vergleiche Bemerkung 4.39, und wegen r−1 ||A||1 = max 1, |ak | , ||A||∞ = max |a0 |, 1 + max |ak | , 1≤k≤r−1

k=0

ergeben sich die Abschätzungen in (a). Für den Nachweis der Abschätzungen in (b) sei nun D := diag (a1 , . . . , ar−1 , 1). −1

Die Matrix D AD ∈ R ist a¨ hnlich zu der Matrix A, was σ ( D −1 AD ) = σ ( A ) beziehungsweise rσ ( D −1 AD ) = rσ ( A ) nach sich zieht. Weiter hat man die explizite Darstellung (es gilt ar = 1) ⎞ ⎛ /a 0 −a 0 1 ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ a /a p p p −a /a 1 2 ⎟ ⎜ 1 2 ⎟ ⎜ ⎟ ⎜ −1 r×r ⎟ ⎜ p D AD = ⎜ a2 /a3 p p −a2 /a3 ⎟ ∈ R , ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ pp pp ⎟ ⎜ 0 p p ⎟ ⎜ ⎠ ⎝ ar−1 /ar −ar−1 /ar r×r

so dass also die beiden Identitäten |a0 | |a | , max 2 k ||D−1 AD ||∞ = max , |a1 |

1≤k≤r−1

|ak+1 |

||D −1 AD ||1

=

r−1 k=0

|ak | |ak+1 |

111

Weitere Themen und Literaturhinweise

gelten, und analog zu (a) ergeben sich die in (b) angegebenen Abschätzungen. Schließlich erhält man (c) folgendermaßen: wegen (a) ist in jedem Fall |ξ | ≤ 1 erfüllt, und weiter gilt für jede Zahl x ∈ C mit q 1/r < |x| ≤ 1 die Abschätzung |p( x ) |

≥

|x|r −

r−1

|ak ||x|k

>

q −

k=0

r−1

|ak |

=

0,

k=0

so dass sogar |ξ |r ≤ q gilt. Dies komplettiert den Beweis des Lemmas. Eine Anwendung der vier Abschätzungen in (a) und (b) aus Lemma 5.16 auf einige spezielle Polynome liefert die in der folgenden Tabelle angegebenen Resultate. |ξ | ≤

p( x ) x2 + 1 x2 − 2x + 1

= (x − i)(x + i)

1

1

−

−

= ( x − 1 )2

3

3

4

2.5

Weitere Themen und Literaturhinweise Die numerische Lösung nichtlinearer Gleichungen wird ausführlich in Deuflhard [19] behandelt. Abschnitte u¨ ber die numerische Lösung solcher Gleichungen findet man außerdem in jedem der im Literaturverzeichnis aufgeführten Lehrbücher u¨ ber numerische Mathematik, beispielsweise in Deuflhard/Hohmann [21], Oevel [75], Schaback/Wendland [88] und in Werner [107]. Als eine Variante des in diesem Kapitel vorgestellten Newton Verfahrens ist das gedämpfte Newton Verfahren für n = 0, 1, . . . xn+1 = xn − γn ( Dxn F )−1 ( F ( xn )) zu nennen, mit einer der Konvergenzbeschleunigung dienenden und geeignet zu wählenden variablen Schrittweite γn . Eine weitere Variante des Newton Verfahrens stellen die Quasi Newandig zu ton Verfahren xn+1 = xn − A−1 n F ( xn ), n = 0, 1, . . . dar, wobei die (numerisch aufw¨ berechnenden) Jacobi Matrizen Dxn F durch einfacher zu gewinnende Matrizen An ≈ Dxn F ersetzt werden. Einzelheiten zu den beiden genannten Varianten werden beispielsweise in [19] beziehungsweise in Geiger/Kanzow [29], Großmann/Terno [41], Kosmol [59], Mennicken/Wagenführer [68], Nash/Sofer [72], Schwetlick [91], Stoer [95] sowie in Aufgabe 5.7 vorgestellt. Weitere Varianten wie das Sekantenverfahren beruhen auf Approximationen der Ableitungen durch Differenzenquotienten.

¨ Ubungsaufgaben Aufgabe 5.1 Gegeben sei die Gleichung x + lnx = 0, deren eindeutige Lösung x∗ im Intervall [ 0.5, 0.6 ] liegt. Zur approximativen Lösung dieser Gleichung

112

Kapitel 5

Nichtlineare Gleichungssysteme

betrachte man die folgenden fünf Iterationsverfahren: xn+1 := e−xn ,

xn+1 := −lnxn , xn+1 :=

−xn

axn + e a+1

xn+1 :=

,

xn+1 := ( xn + e−xn )/2, −xn

an xn + e an + 1

.

(5.20) (5.21)

Welche der drei in (5.20) angegebenen Verfahren sind brauchbar? Man bestimme in (5.21) Werte a ∈ R beziehungsweise a0 , a1 , . . . ∈ R so dass sich jeweils ein Verfahren von mindestens zweiter Ordnung ergibt. Aufgabe 5.2 Die Funktion ln ( x ) soll an der Stelle x = a > 0 näherungsweise berechnet werden. Dies kann beispielsweise mit dem Newton Verfahren zur Bestimmung einer Nullstelle der Funktion f ( x ) = ex − a geschehen. Man gebe die zugehörige Iterationsvorschrift an und weise quadratische Konvergenz nach. Kann man die Konvergenzordnung p = 3 erwarten? Schließlich berechne man für a = 1 und Startwert x0 = 1 die ersten vier Iterierten x1 , . . . , x4 . Auf wie viele Nachkommastellen genau stimmen diese mit dem tatsächlichen Wert 0 = ln ( 1 ) u¨ berein? Aufgabe 5.3 Zu einer kontraktiven Funktion Φ : R N → R N mit Kontraktionskonstante 0 < L < 1 bezeichne x∗ ∈ R N den Fixpunkt von Φ, und der Vektor x0 ∈ R N sei beliebig. Die Folge (xδn )n∈N0 sei gegeben durch .

xδ0 := x0 + .............. x0 , .

xδn+1 := Φ( xδn ) + ................ xn+1 ,

n = 0, 1, . . .,

.... ...........

wobei || xn || ≤ δ für n ∈ N0 gelte bezüglich einer gegebenen Vektornorm || · || : R N → R und einer gewissen Fehlerschranke δ. Man zeige Folgendes: δ Ln ||xδn − x∗ || ≤ + n = 0, 1, . . . . (L + 2)δ + ||xδ1 − xδ0 || , 1−L

1−L

Aufgabe 5.4 Es sei die Abbildung Φ : R 2 → R 2 definiert durch + * sin x + y x 1 1 + 4 . Φ = 2 1 + sin y + x y (a) Man untersuche die Kontraktionseigenschaft von Φ jeweils bezüglich || · ||∞ und || · ||2 . (b) Man berechne den Fixpunkt (ξ, η ) ∈ R 2 der Abbildung Φ mittels der gewöhnlichen Fixpunktiteration, für den Startwert ( x0 , y0 ) = ( 0, 0 ). Wie oft ist bei Verwendung der a priori Fehlerabschätzung zu iterieren, bis || ( xn , yn ) − ( ξ, η )||2

≤

10−2

garantiert werden kann? Die entsprechende Frage stellt sich bei Anwendung der a posteriori Fehlerabschätzung. Aufgabe 5.5 Gegeben sei das nichtlineare Gleichungssystem uv + u − v − 1 =

0,

=

0.

uv

(5.22)

¨ Ubungsaufgaben

113

(a) Man bestimme die exakten Lösungen des nichtlinearen Gleichungssystems (5.22). (b) Für die Startwerte x0 =

0 0

x0 =

und

1 1

führe man jeweils den ersten Iterationsschritt des Newton Verfahrens durch. Aufgabe 5.6 Für eine reguläre Matrix A ∈ R N×N ist die inverse Matrix X = A−1 offensichtlich eine Lösung der nichtlinearen Gleichung X −1 − A = 0.

(5.23)

Das Newton Verfahren zur Lösung der Gleichung (5.23) führt auf das Verfahren von Schulz Xn+1 := Xn + Xn ( I − AXn ),

n = 0, 1, . . . .

Man zeige: für jede Startmatrix X0 ∈ R N N mit ||I − AX0 || ≤ q < 1 (mit einer gegebenen submultiplikativen Matrixnorm || · || : R N×N → R ) konvergiert die Matrixfolge X0 , X1 , p p p ⊂ R N×N gegen die Matrix A−1 mit den Abschätzungen ×

||Xn − A−1 ||

≤

|| X0 || ||I − AXn || 1−q

|| X0 || (2n ) q 1−q

≤

für n = 0, 1, . . . .

Aufgabe 5.7 (Numerische Aufgabe) Man schreibe ein Programm zur Lösung eines nichtlinearen Gleichungssystems mittels der folgenden Variante des Newton Verfahrens: xn+1

=

xn − An F ( xn )

für n = 0, 1, . . .,

mit Akp+j = ( Dxkp F )−1

für

j = 0, 1, . . . , p − 1, k = 0, 1, . . . .

Hierbei bezeichnet Dx F die Jacobi Matrix der Abbildung F im Punkt x. Man breche die Iteration ab, falls die Bedingung ||xn − xn−1 ||2 ≤ tol erstmalig erfüllt ist oder falls n = nmax gilt. Hier sind p ∈ N, nmax ∈ N0 und tol > 0 frei wählbare Parameter. Man teste das Programm anhand des Beispiels ( ) sin u cos ( v ) u F v := 2 2 u +v −3

=

0 0 ,

mit den Parametern tol = 10−4 und nmax = 100 sowie mit den folgenden Startwerten beziehungsweise den folgenden Werten von p: 1 1 (b) x0 = 1 , p = 5; (a) x0 = 1 , p = 1; (c) x0 =

3 3 , p = 1;

(d) x0 =

3 3 , p = 5.

Aufgabe 5.8 Die Funktion f ∈ C 1 [ a, b ] sei streng monoton wachsend und konvex mit Nullstelle x∗ ∈ [ a, b ]. Man zeige, dass für jeden Startwert x0 ∈ [ x∗ , b ] die Näherungen xn des Newton Verfahrens gegen x∗ konvergieren mit xn+1 ≤ xn ,

n = 0, 1, . . . .

114

6

Numerische Integration von Funktionen

Zahlreiche Anwendungen wie etwa die Bestimmung von Flächen oder Normalverteilungen führen letztlich auf das Problem der Berechnung von Integralen I ( f ) :=

Z b a

f ( x ) dx

(6.1)

mit gewissen Funktionen f ∈ C [ a, b ]. Oftmals ist jedoch die Berechnung des Integrals (6.1) nicht möglich, da beispielsweise die Stammfunktion von f nicht berechnet werden kann oder die Funktionswerte von f als Resultat von Messungen nur an endlich vielen Stellen vorliegen. Beispiel 6.1 Die Preise von Kaufoptionen auf europäischen Finanzmärkten lassen sich unter gewissen vereinfachenden Annahmen (zum Beispiel konstanten Volatilitäten) mit der Black Scholes Formel explizit angeben. Für Details sei auf Günther/Jüngel [42] oder Hanke-Bourgeois [49] verwiesen. In unserem Zusammenhang ist von Interesse, dass dabei Auswertungen der Fehlerfunktion 2 π

erf( x ) = √

Z x 0

exp ( –t2 ) dt

für x ≥ 0

erforderlich sind. Deren Werte lassen sich jedoch lediglich näherungsweise bestimmen.

Man ist an einfachen Methoden zur näherungsweisen Berechnung des Integrals (6.1) interessiert, und hierzu werden im Folgenden Quadraturformeln In ( f ) = ( b − a )

n

σk f ( xk ),

(6.2)

k=0

herangezogen mit paarweise verschiedenen Stützstellen x0 , x1 , . . . , xn ∈ [ a, b ] und reellen Gewichten σ0 , σ1 , . . . , σn ∈ R. Definition 6.2 Die Zahl r ∈ N0 heißt Genauigkeitsgrad der Quadraturformel In , wenn In ( xm ) = I ( xm ) In ( x

r+1

)

= I ( x

r+1

für m = 0, 1, . . . , r,

(6.3)

)

erfüllt ist. Der Genauigkeitsgrad einer Quadraturformel In ist per Definition mindestens r ∈ N0 , falls (6.3) gilt. Bemerkung 6.3 (a) In : C [ a, b ] → R ist offensichtlich eine lineare Abbildung, es gilt also In ( αf + βg ) = αIn ( f ) + βIn ( g )

∀ f, g ∈ C [ a, b ],

α, β ∈ R.

Abschnitt 6.1

115

Interpolatorische Quadraturformeln

(b) Wegen der Linearität der Quadraturformel In und des Integrals I gilt: In besitzt den Genauigkeitsgrad r ⎧ ⎨ In ( P ) = I ( P ) für alle Polynome P vom Grad ≤ r, und ⇐⇒ ⎩ ( ) In P = I ( P ) für ein Polynom P vom ( genauen ) Grad = r + 1 ⎧ ⎨ In (P ) = I ( P ) für alle Polynome P vom Grad ≤ r, und ⇐⇒ ⎩ ( ) In P = In ( P ) für alle Polynom P vom ( genauen ) Grad = r + 1

6.1 Interpolatorische Quadraturformeln Definition 6.4 Interpolatorische Quadraturformeln In ( f ) sind folgendermaßen erklärt: nach einer Festlegung von n ∈ N0 sowie ( n + 1 ) paarweise verschiedenen Stützstellen x0 , x1 , . . . , xn ∈ [ a, b ] wird als Näherung für I ( f ) der Wert In ( f ) :=

Z b a

Qn ( x ) dx

herangezogen, wobei Qn ∈ Πn das interpolierende Polynom zu den Stützpunkten ( x0 , f ( x0 )), ( x1 , f ( x1 )), . . . , ( xn , f ( xn )) ∈ R 2 bezeichnet.

Bemerkung 6.5 Der Genauigkeitsgrad einer interpolatorischen Quadraturformel In ist offensichtlich mindestens n. Im Folgenden soll eine explizite Darstellung für In ( f ) hergeleitet werden. Daraus resultiert dann auch die Darstellung (6.2) für die Quadraturformel In ( f ) aus Definition 6.4. Theorem 6.6 Eine interpolatorische Quadraturformel In besitzt die Gestalt In ( f ) = ( b − a )

n

mit σk :=

σk f ( xk )

Z 1

k=0

0

n t − tm dt, tk − t m

tm :=

m=0 m=k

xm − a . (6.4) b−a

B EWEIS . Mit der Lagrangeschen Interpolationsformel Qn =

n

f ( xk )Lk

mit

n x − xm xk − xm

Lk ( x ) =

m=0 m=k

k=0

Z b erhält man In ( f ) = nk=0 f ( xk ) a Lk ( x ) dx, und aus der nachfolgenden Rechnung resultiert dann die Aussage des Theorems,

1 b−a

Z b a

Lk ( x ) dx

=

1 b−a

Z b a

n x − xm dx xk − xm

m=0 m=k

(∗)

=

Z 1 0

n t − tm dt tk − t m

m=0 m=k

wobei man die Identität (∗) mit der Substitution x = ( b − a )t + a erhält.

=

σk ,

116

Kapitel 6 Numerische Integration von Funktionen

Bemerkung 6.7 (a) Der Vorteil in der Darstellung (6.4) ist in der Unabhängigkeit der Gewichte σk sowohl von den Intervallgrenzen a und b als auch von der Funktion f begründet. Letztlich hängen die Gewichte nur von der relativen Verteilung der Stützstellen im Intervall [ a, b ] ab. (b) Für jede interpolatorische Quadraturformel In ( f ) = ( b − a ) nk=0 σk f ( xk ) gilt n

σk = 1,

(6.5)

k=0

da ihr Genauigkeitsgrad mindestens n ≥ 0 beträgt und somit ( b − a ) I ( 1 ) = b − a gilt.

n k=0

σk = In ( 1 ) =

6.2 Spezielle interpolatorische Quadraturformeln 6.2.1 Abgeschlossene Newton– Cotes– Formeln Die Newton Cotes Formeln ergeben sich durch die Wahl a¨ quidistanter Stützstellen bei interpolatorischen Quadraturformeln. Wenn zusätzlich Intervallanfang und ende Stützstellen sind, also x0 = a, xn = b gilt, so spricht man von abgeschlossenen Newton Cotes Formeln. Speziell gilt hier also (für n ≥ 1) xk := a + kh,

k = 0, 1, . . . , n,

h =

b−a . n

Lemma 6.8 Für die Gewichte σ0 , σ1 , . . . , σn der abgeschlossenen Newton Cotes Formeln gilt σk

=

1 n

Z n 0

n s−m ds k−m

für k = 0, 1, . . . , n.

(6.6)

m=0 m=k

B EWEIS . Aus der Identität (6.4) erhält man aufgrund von tk = k/n für die Gewichte die angegebene Darstellung, σk

=

Z 1 0

n m=0 m=k

t − m/n dt (k − m)/n

=

1 n

Z n 0

n s−m ds, k−m

m=0 m=k

wobei man die zweite Gleichung aus der Substitution t = s/n erhält. Die Darstellung (6.6) und die folgende Symmetrieeigenschaft der Gewichte der abgeschlossenen Newton Cotes Formeln ermöglichen die in den nachfolgenden Beispielen angestellten einfachen Berechnungen. Lemma 6.9 Für die Gewichte σ0 , σ1 , . . . , σn der abgeschlossenen Newton Cotes Formeln gilt σn−k = σk

für k = 0, 1, . . . , n.

(6.7)

Abschnitt 6.2

117

Spezielle interpolatorische Quadraturformeln

B EWEIS . Für die Lagrangeschen Basispolynome Lk gilt Ln−k ( x ) = Lk ( b + a − x ),

x ∈ [ a, b ],

(6.8)

denn Ln−k ∈ Πn und Q( x ) := Lk ( b + a − x ) ∈ Πn , und b−a b − a Q( xn−j ) = Lk b + a − a + ( n − j ) = Lk a + j n

= Lk ( xj )

=

=

δkj

n

Ln−k ( xn−j )

für j = 0, 1, . . . , n,

und die Eindeutigkeit des interpolierenden Polynoms resultiert in der Identität (6.8). Daraus erhält man 1

σn−k = b − a

Z b a

1

Ln−k ( x ) dx = b − a

Z b a

1

(∗)

Lk ( b + a − x ) dx = b − a

Z b a

Lk ( t ) dt = σk ,

wobei man (∗) mit der Substitution x = b + a − t erhält. Beispiel 6.10 (a) Für n = 1 erhält man die Trapezregel,

Z b f (a) + f (b) I1 ( f ) = ( b − a ) ≈ f ( x ) dx, a 2 denn (6.5) und (6.7) liefern σ0 + σ1 = 1 und σ0 = σ1 , somit σ0 = σ1 =

(b) Für n = 2 erhält man die Simpson Regel a+b 1 + f (b) ≈ I2 ( f ) = ( b − a ) f ( a ) + 4f 6

2

Z b a

1 . 2

f ( x ) dx,

denn die Eigenschaften (6.5) (6.7) ergeben Folgendes, σ0 =

1 2

Z 2 0

s−1 s−2 ds 0−1 0−2

=

1 , 6

σ2 = σ0 ,

σ1 = 1 − σ0 − σ2

=

2 . 3

Die geometrische Bedeutung der Trapez und der Simpson Regel ist in Bild 6.1 beziehungsweise Bild 6.2 dargestellt.

6

6

......................... ... ....... ...... ... ...... .. ...... ... ...... ... ...... . . .......... ... ......... . . . .. ........... ...... . ......................... . . . . ........ .............................. . . . . . . . . . . . . . . . ..... ......................... ...................... ................................................................ ..................................... ............................................................................................................. ......................................................................... ..................................... ............................................................................................................. ......................................................................... ......................................................................... .....................................

f (x)

f (x)

0

-

a

b

Bild 6.1 Vorgehensweise der Trapezregel

............... ..... . .................. . . . .................................... . . .......................................... . .............................................................................. . . . ............................................................ ...................................................................... . ............................................................................ .... ........................................................................................................................................ . . . . . . . . .... . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...... ......................................................................... ...................................................................................... ......................................................................... ......................................................................... ..................................... ............................................................................................................. ......................................................................... ..................................... ............................................................................................................. .....................................

0

a

b

Bild 6.2 Vorgehensweise der Simpson– Regel

(c) Der Fall n = 3 führt auf die Newtonsche 3/8 Regel 2a + b a + 2b 1 I3 ( f ) = ( b − a ) f ( a ) + 3f + 3f + f (b) ≈ 8

-

(a + b)/2

3

3

Z b a

f ( x ) dx.

118

Kapitel 6 Numerische Integration von Funktionen

(d) In der Situation n = 4 erhält man die Milne Regel 2(a + b) a + 3b 3a + b 1 I4 ( f ) = ( b − a ) 90 7f ( a ) + 32f + 12f + 32f + 7f ( b ) 4 4 4 ≈

Z b a

f ( x ) dx.

(e) Der Fall n = 8 liefert die folgende Quadraturformel, b−a 989f ( x0 ) + 5888f ( x1 ) − 928f ( x2 ) + 10496f ( x3 ) − 4540f ( x4 ) I8 ( f ) = 28350

+ 10496f ( x5 ) − 928f ( x6 ) + 5888f ( x7 ) + 989f ( x8 )

≈

Z b a

f ( x ) dx.

Zu der zuletzt betrachteten Quadraturformel I8 ( f ) ist Folgendes anzumerken: •

•

Es treten negative Gewichte auf, wie u¨ berhaupt für n ≥ 8 bei den abgeschlossenen Newton Cotes Formeln. Dies widerspricht der Vorstellung des Integrals als Grenzwert einer Summe von Funktionswerten mit positiven Gewichten. Die Summe der Beträge der Gewichte u¨ bersteigt den Wert eins, was zu einer Verstärkung von Rundungsfehlern führt. Es gilt das folgende Theorem, das hier ohne Beweis angeben wird.

Theorem 6.11 (Satz von Kusmin) Für die Gewichte σ0(n) , σ1(n) , . . . , σn(n) der abgeschlossenen Newton Cotes Formeln In gilt n

|σk(n) | → ∞

für n → ∞.

k=0

Aus den beiden genannten Gründen werden abgeschlossene Newton Cotes Formeln nur für kleine Werte von n angewandt.

6.2.2 Andere interpolatorische Quadraturformeln Beispiel 6.12 • Eine Rechteckregel lautet I0 ( f ) = ( b−a )f ( a ) (hier ist n = 0 und x0 = a), und eine weitere Rechteckregel ist I0 ( f ) = ( b − a )f ( b ) (hier ist n = 0 und x0 = b). a+b • Die Mittelpunktregel ist von der Form I ( f ) = ( b − a )f 2 (hier ist n = 0 und 0 x0 = ( a + b )/2).

Die geometrische Bedeutung der ersten Rechteck und der Mittelpunktregel ist in Bild 6.3 beziehungsweise Bild 6.4 dargestellt.

6.3 Der Fehler bei der interpolatorischen Quadratur Im Folgenden wird eine Abschätzung für den bei der interpolatorischen Quadratur auftretenden Fehler vorgestellt. Insbesondere wird dabei deutlich, dass die interpolatorischen Quadraturformeln lediglich für kurze Intervalle [ a, b ] (also für b − a 1) gute Näherungen an das zu bestimmende Integral darstellen.

Abschnitt 6.3

6

119

Der Fehler bei der interpolatorischen Quadratur

6

........ ...... .............. ....... ... ...... ... ...... .. ...... ... ...... . ...... ... . ........ . . ....... ... . . . . ... ........ . ............ ........... ....... . . . . . . . . ......... .... ................................ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . .............. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....... . . . .................. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....... . . . . . . . . .............. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...... . . . . . . . . . . . . . ............. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...... . . . . . . . . . . . . . . . . . .............. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...... . . . . . . . . . . . . . . . . . . . . . ............ . . . . . . . . . . . . . . . . . . . . . . . . . ............ . . . . . . . . . . . . . . . . . . . . . . . . . . ................ . . . . . ... . . . . . . . . . ................... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ........................................ . .................................. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . .. . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . .. . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . .. . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . .. .

f (x)

f (x)

-

0

a

0

Bild 6.3 Vorgehensweise der Rechteckregel

(a + b)/2

a

b

-

b

Bild 6.4 Vorgehensweise der Mittelpunktregel

Vorbereitend wird noch folgende Sprechweise eingeführt: eine reellwertige Funktion ψ heißt von einem Vorzeichen auf dem Intervall [ c, d ], wenn (sie dort definiert ist und) ψ ( x ) ≥ 0 für alle x ∈ [ c, d ] oder ψ ( x ) ≤ 0 für alle x ∈ [ c, d ] gilt. Theorem 6.13 Die interpolatorische Quadraturformel In ( f ) = ( b − a ) nk=0 σk f ( xk ) besitze mindestens den Genauigkeitsgrad r ≥ n, und die Funktion f : [ a, b ] → R sei ( r + 1 ) mal stetig differenzierbar. Dann gilt die folgende Fehlerabschätzung, |I ( f ) − In ( f ) | mit

cr :=

≤

r Z 1

min

tn+1 ,...,tr ∈ [ 0, 1 ] 0

( b − a )r+2

cr ( r + 1 )!

max |f (r+1) ( ξ ) |

ξ ∈ [ a, b ]

(6.9)

|t − tk | dt,

k=0

tk :=

xk − a , b−a

k = 0, 1, . . . , n.

(6.10)

Wenn mit den Werten t0 , t1 , . . . , tn aus (6.10) für eine bestimmte Wahl von tn+1 , . . . , tr ∈ [ 0, 1 ] das Produkt rk=0 ( t − tk ) von einem Vorzeichen in [ 0, 1 ] ist, so gilt mit einer Zwischenstelle ξ ∈ [ a, b ] die folgende Fehlerdarstellung, I ( f ) − In ( f )

=

( b − a )r+2

cr ( r + 1 )! f (r+1) ( ξ ) mit cr :=

(6.11) r Z 1 0

( t − tk ) dt.

(6.12)

k=0

B EWEIS . 1. Seien xn+1 , . . . , xr ∈ [ a, b ] beliebig aber so, dass x0 , x1 , . . . , xr paarweise verschieden sind. Es soll in diesem ersten Teil des Beweises die unten stehende Fehlerdarstellung (6.15) nachgewiesen werden. Sei dazu Qr ∈ Πr das zu den Stützpunkten (x0 , f ( x0 ) ), . . . , (xr , f ( xr ) ) gehörende interpolierende Polynom. Aufgrund der Darstellung (6.2) für In erhält man In (f ) = ( b − a )

n

σk f ( xk ) = ( b − a )

k=0

n

σk Qr ( xk ) = In ( Qr ) = I ( Qr ),

k=0

und somit I ( f ) − In ( f )

=

I ( f ) − I ( Qr )

=

Z b a

f ( x ) − Qr ( x ) dx.

(6.13)

120

Kapitel 6 Numerische Integration von Funktionen

Weiter gilt (siehe Theorem 1.17 auf Seite 10) ( ω ν )( x ) f ( r+1) ( ξ ( x ))

f ( x ) − Qr ( x ) =

(r

+ 1 )!

x ∈ [ a, b ],

,

(6.14)

mit ω ( x ) := ( x − x0 ) · · · ( x − xn ),

ν ( x ) := ( x − xn+1 ) · · · ( x − xr ),

und einer geeigneten Zwischenstellenfunktion ξ : [ a, b ] → [ a, b ]. Man beachte, dass die rechte Seite der Gleichung (6.14) als Differenz zweier stetiger Funktionen selbst stetig und damit integrierbar ist. Weiter sei noch angemerkt, dass ω bereits durch die Quadraturformel festgelegt ist, während die Nullstellen von ν noch variieren können. Aus (6.13) und (6.14) erhält man 1 ( r + 1 )!

I ( f ) − In ( f ) =

Z b a

( ω ν )( x ) f (r+1) (ξ ( x ) ) dx.

(6.15)

2. Es soll nun die Fehlerabschätzung (6.9) bewiesen werden, und hierzu seien xn+1 , . . . , xr ∈ [ a, b ] beliebig. Dann wählt man Zahlen m) , . . . , x(rm) ∈ [ a, b ], x(n+1

m = 1, 2, . . .,

so dass Folgendes gilt, m) x0 , x1 , . . . , xn , x(n+1 , . . . , x(rm) x(km) → xk

paarweise verschieden,

für m → ∞

( k = n + 1, . . . , r ).

Mit der Notation r

νm ( x ) =

(x − x(km) )

k=n+1

erhält man aus der Identität (6.15) angewandt mit ν = νm sowie einem anschließenden Grenzübergang m → ∞ Folgendes: |I ( f ) − In ( f ) | ≤

1 max |f (r+1) ( ξ ) | ( r + 1 )! ξ ∈ [ a, b ]

Z b a

Z

≤

......

|(ω νm )( x ) | dx

b

a

| ( ω ν )( x ) | dx +

( x ) ||νm ( x ) − ν ( x ) | dx , |ω a

→ 0 für m → ∞ Z b

wobei die Konvergenz des zweiten Terms aus der auf dem Intervall [ a, b ] vorliegenden gleichmäßigen Konvergenz νm → ν für m → ∞ resultiert. Somit erhält man |I ( f ) − In ( f ) |

≤

cr

1 max f (r+1) ( x ) ( r + 1 )! x ∈ [ a, b ]

mit cr

(∗)

:=

min

r Z b

xn+1 ,...,xr ∈ [ a, b ] a

k=0

|x − xk | dx

(∗∗)

=

( b − a )r+2

min

r Z 1

tn+1 ,...,tr ∈ [ 0, 1 ] 0

k=0

|t − tk | dt,

Abschnitt 6.3

121

Der Fehler bei der interpolatorischen Quadratur

wobei das Minimum in der Setzung (∗) aus Stetigkeitsgründen tatsächlich existiert, und (∗∗) resultiert aus der Substitution x = ( b − a )t + a. Die Abschätzung (6.9) ist damit nachgewiesen. 3. Für den Nachweis von (6.11) betrachte man die Zahlen xk = ( b−a )tk +a für k = n+1, . . . , r, so dass entsprechend der Voraussetzung die Funktion ω ν auf dem Intervall [ a, b ] von einem Vorzeichen ist, etwa ( ω ν )( x ) ≥ 0,

x ∈ [ a, b ].

Eine dem zweiten Teil dieses Beweises entsprechende Vorgehensweise liefert I ( f ) − In ( f ) ≤

(r

1 + 1 )!

max f (r+1) ( ξ )

ξ ∈ [ a, b ]

Z b a

( ω ν )( x ) dx

+ max |f (r+1) ( ξ ) | ξ ∈ [ a, b ]

→

(r

1 max f (r+1) ( ξ ) + 1 )! ξ ∈ [ a, b ]

Z b a

Z b a

→ 0 für m → ∞

( ) ( ) ( ) |ω x | νm x − ν x dx

( ω ν )( x ) dx

für m → ∞,

und analog folgt I ( f ) − In ( f ) ≥

1 min f (r+1) ( ξ ) ( r + 1 )! ξ ∈ [ a, b ]

Z b a

( ω ν )( x ) dx.

Die Anwendung des Zwischenwertsatzes auf die stetige Funktion f (r+1) liefert eine Zwischenstelle ξ ∈ [ a, b ] mit I ( f ) − In ( f ) =

(r

1 f (r+1) ( ξ ) + 1 )!

Z b a

( ω ν )( x ) dx,

(6.16)

und eine abschließende Substitution x = ( b − a )t + a ergibt die Identität (6.11). Beispiel 6.14 1. (Rechteckregeln) Für f ∈ C 1 [ a, b ] gelten die Fehlerdarstellungen Z b a Z b a

f ( x ) dx − ( b − a )f ( a ) =

( b − a )2

2

f ( ξ0 ) ,

(6.17)

(b − a) f ( x ) dx − ( b − a )f ( b ) = − f ( ξ1 ) 2

(6.18)

2

mit gewissen Zwischenstellen ξ0 , ξ1 ∈ [ a, b ]. Die Darstellung (6.17) beispielsweise erhält man aus Theorem 6.13 angewandt mit n = r = 0 und x0 = a beziehungsweise t0 = 0 unter Berücksichtigung von 0

( t − tk ) = t ≥ 0

für 0 ≤ t ≤ 1,

c0 =

k=0

Z 1 0

t dt =

t2 t=1 = 2 t=0

1 . 2

Analog leitet man die Darstellung (6.18) her. 2. (Trapezregel) In diesem Fall gilt für f ∈ C 2 [ a, b ] I ( f ) − I1 ( f ) = −

( b − a )3

12

f ( ξ )

(6.19)

122

Kapitel 6 Numerische Integration von Funktionen

mit einer Zwischenstelle ξ ∈ [ a, b ]. Dies folgt aus Theorem 6.13 angewandt mit n = r = 1, x0 = a, x1 = b beziehungsweise t0 = 0, t1 = 1 unter Berücksichtigung von 1

( t − tk ) =

t( t − 1 ) ≤ 0

für 0 ≤ t ≤ 1,

k=0 Z 1

c1 =

0

t( t − 1 ) dt =

t3 t2 t=1 1 − = − . 3 2 t=0 6

In dem vorangegangenen Beispiel wurde für n = 0 sowie für n = 1 verwendet, dass In jeweils mindestens den Genauigkeitsgrad r = n besitzt. Analog kann man natürlich bei der Simpson Regel (hier ist n = 2) vorgehen. Dort kann man sich jedoch zu Nutze machen, dass in diesem Fall der Genauigkeitsgrad r = 3 vorliegt, was im folgenden Abschnitt für eine allgemeinere Situation nachgewiesen wird.

6.4 Der Genauigkeitsgrad abgeschlossener Newton–Cotes– Formeln In fur ¨ gerade Zahlen n Das folgende Lemma wird für den Beweis von Theorem 6.16 benötigt, das die wesentliche Aussage dieses Abschnitts 6.4 darstellt. Lemma 6.15 Sei n ∈ N gerade, h = ( b − a )/n, und xk = a + kh für k = 0, 1, . . . , n. Für die Funktion F ( x ) :=

n Z x a

( y − xk ) dy,

x ∈ [ a, b ],

(6.20)

k=0

gilt F ( a ) = F ( b ) = 0,

F (x) > 0

für a < x < b.

(6.21)

Der Beweis von Lemma 6.15 wird am Ende von Abschnitt 6.4 nachgetragen. Theorem 6.16 Die abgeschlossenen Newton Cotes Formeln In besitzen für gerades n ≥ 2 den Genauigkeitsgrad r = n + 1. B EWEIS . Er gliedert sich in zwei Teile. 1. Offensichtlich ist der Genauigkeitsgrad von In mindestens n, siehe Bemerkung 6.5. Des Weiteren gilt I((x − ( a + b )/2)n+1 ) = 0, denn der Integrand ist eine ungerade Funktion bezüglich des Intervallmittelpunkts1( a + b )/2. Im Folgenden wird a + b n+1 In x − 2 = 0 (6.22) 1

Eine Erläuterung der Bezeichnung “ungerade bezüglich des Intervallmittelpunkts“ findet sich im Beweisteil 2) von Lemma 6.15.

Abschnitt 6.4

123

Genauigkeit abgeschlossener Newton– Cotes– Formeln

nachgewiesen, woraus sich dann unmittelbar ergibt, dass der Genauigkeitsgrad von In mindestens r = n + 1 beträgt. Für den Nachweis von (6.22) setzt man h = ( b − a )/n und xk = a + kh für k = 0, 1, . . . , n, so dass dann Folgendes gilt,

xn−k −

xn/2

=

a+b 2

=

a+b 2

= a +

a+b − xk − 2 ,

n h, 2 n

k = 0, 1, . . . , 2 − 1.

Aufgrund der Symmetrieeigenschaft σn−k = σk für k = 0, 1, . . . , n (siehe (6.7)) erhält man daher a + b n+1 In x − 2

= (b − a)

n/2−1

σk

xk −

k=0

= (b − a)

n/2−1

a + b n+1 a + b n+1 a + b n+1 + x − x + σ n−k − n/2 n/2 2 2 2

σk · 0 + σn/2 · 0

=

0,

k=0

was gerade die Aussage (6.22) darstellt. 2. Im Folgenden wird In ( xn+2 ) = I ( xn+2 )

(6.23)

nachgewiesen, woraus sich zusammen mit dem ersten Teil des Beweises die Aussage des Theorems u¨ ber den Genauigkeitsgrad von In ergibt. Für den Nachweis von (6.23) betrachtet man für das Monom f ( x ) = xn+2 und für eine beliebige Zahl xn+1 ∈ [ a, b ] mit xn+1 = xk für k = 0, 1, . . . , n die Fehlerformel (6.15) und integriert anschließend partiell: I ( xn+2 ) − In ( xn+2 )

= = (6.21)

=

Z b n+1 a

=

1 ( n + 2 )!

( x − xk ) dx

=

k=0

x=b F ( x )( x − xn+1 )x=a − 0−0−

Z b a

F ( x ) · 1 dx

Z b n+1 a

( x − xk )

k=0

Z b a Z b a

=

dn+2 n+2 (ξ ( x ) ) dx x dxn+2

≡ ( n+2 )!

F ( x )( x − xn+1 ) dx

(F wie in (6.20))

d F ( x ) dx (x − xn+1 ) dx −

Z b a

(6.21)

F ( x ) dx = 0.

Dies komplettiert den Beweis des Theorems. Beispiel 6.17 (Simpson Regel) Hier gilt für f ∈ C 4 [ a, b ] die Fehlerdarstellung Z b a

f ( x ) dx −

a+b b−a + f (b) f ( a ) + 4f 6 2

= −

( b − a )5 (4) f (ξ ) 2880

(6.24)

124

Kapitel 6 Numerische Integration von Funktionen

mit einer Zwischenstelle ξ ∈ [ a, b ], was aus Theorem 6.13 angewandt mit r = 3, n = 2, x0 = a, x1 = ( a + b )/2, x2 = b beziehungsweise t0 = 0, t1 = 1/2, t2 = 1 resultiert. Für die Wahl t3 = 1/2 erhält man nämlich (bezüglich der Notation siehe wieder Theorem 6.13) 3

( t − tk ) =

k=0

t(t − 12 )2 ( t − 1 ) Z 1

c3 =

0

≤

für t ∈ [ 0, 1 ],

0

1

t(t − 12 )2 ( t − 1 ) dt = − 120 ,

und mit Theorem 6.13 ergibt sich die in (6.24) angegebene Fehlerdarstellung, I ( f ) − I2 ( f ) = −

( b − a )5

4!

( b − a )5 1 (4) f ( ξ ) = − 2880 f (4) ( ξ ). 120

6.4.1 Der Beweis von Lemma 6.15 Die Identität F ( a ) = 0 ist offensichtlich richtig, und für den Nachweis der weiteren Aussagen des Lemmas sei der Integrand in (6.20) wie folgt bezeichnet, ω(y ) =

n

( y − xk ),

y ∈ R.

k=0

1) Es wird im Folgenden die Positivität der Funktion F auf der linken Hälfte des Intervalls [ a, b ] nachgewiesen, F (x) =

Z x a

a 0,

a+b . 2

(6.25)

Vorbereitendes hierzu wird in 1a) 1b) hergeleitet. 1a) Das Polynom ω mit genauem Grad n + 1 besitzt die paarweise verschiedenen Nullstellen x0 , x1 , . . . , xn . Wegen ω ( y ) → −∞ für y → −∞ (da ω ungeraden Grad besitzt) gilt also ω( y ) < 0

für y < a,

ω(a + τ ) > 0

für 0 < τ < h,

ω ( x1 + τ ) < 0 .. .. .. . . .

für 0 < τ < h,

siehe Bild 6.5 für eine Darstellung des Verlaufs der Funktion ω. Allgemein gilt ω ( x2j + τ ) > 0, ω ( x2j+1 + τ ) < 0

(6.26) für 0 < τ < h,

n j = 0, 1, . . . , 2 − 1.

1b) Weiter gilt |ω ( y + h ) | < |ω ( y ) |

für a ≤ y ≤

a+b − h, 2

y ∈ {x0 , . . . , xn/2−1 },

(6.27)

Abschnitt 6.4

125

Genauigkeit abgeschlossener Newton– Cotes– Formeln 0.01

0

−0.01

.... .. .. .. ... ... .. .. .... .. ... .. ... .. ... .. .. .. ... ... .. .... .. .. .... .. ..... ... .... ...... ...... .. ..... .................................................................................................................................... .. .. . ... ....... .................. .. .. ... .................. ... .. ... ... ... .. . . .. .. ... .. .. .. .. .. ... .. .. .. .. .... ... .. .. .. .. .. ....

−1 = x0 x1

x2

x3

x4

x5

x6

x7

x9 1 = x10

x8

Bild 6.5 Beispiel für den Verlauf der Funktion ω denn ω( y + h ) ω( y )

=

n ( ) k=0 y + h − xk n ( ) y − x k k=0

(y

=

n−1 + h − a ) k=0 ( y − xk ) n−1 ( y − b ) k=0 ( y − xk )

=

y+h−a , y−b

und wegen der Annahmen in (6.27) gilt |y + h − a|

b−a . 2

1c) Man erhält nun schließlich die in (6.25) angegebene Positivität der Funktion F : mit der Eigenschaft (6.26) erhält man unmittelbar Z x +τ 2j x2j

0 0,

mit 0 ≤ j ≤

n/2 − 1 , 2

(6.28)

und die Abschätzung (6.27) liefert Folgendes, ≥0

Z x 2j+1 +τ x2j

ω ( y ) dy

=

Z x 2j+τ x2j

>0 Z

x2j+1 ( ) ( ) ( ) ω y + ω y + h dy + x ω y dy > 0, 2j+τ = −| ω(y+h)|

0 0 für ( a + b )/2 ≤ x < b nach sich. Dies komplettiert den Nachweis der Aussagen in (6.21). 2a) Für den Beweis der Identität (6.29) wird benötigt, dass die Funktion ω ungerade bezüglich des Intervallmittelpunkts ( a + b )/2 = xn/2 ist: wegen a+b − xk = −( a+b − xn−k ) für k = 0, 1, 2 2

126

Kapitel 6 Numerische Integration von Funktionen

. . . , n gilt nämlich ω

a+b 2

+y

=

n n a+b a+b + y − xk = − − y − xn−k 2 2

k=0 (∗)

= −

k=0

n a+b

2

k=0

− y − xk

= −ω

a+b 2

−y

für 0 ≤ y ≤

b−a , 2

wobei man (∗) mit der Indextransformation k → n − k erhält. 2b) Mit 2a) folgt schließlich die Identität (6.29): F

a+b 2

+ τ

=

Z ( a+b)/2−τ 0

Z ( a+b)/2+τ

ω ( x ) dx +

( a+b )/2−τ

ω ( x ) dx = F

a+b 2

−τ

+ 0.

6.5 Summierte Quadraturformeln Zur numerischen Berechnung des Integrals I ( f ) = Intervall [ a, b ] mit Stützstellen xk = a + kh

'b a

f ( x ) dx kann man beispielsweise das

für k = 0, 1, . . . , N

h =

b−a N

(6.30)

versehen und die bisher betrachteten Quadraturformeln zur numerischen Berechnung der Integrale Z x k xk−1

k = 1, 2, . . . , N

f ( x ) dx,

verwenden. Die Resultate werden schließlich aufsummiert, und die so gewonnenen Formeln bezeichnet man als summierte Quadraturformeln. Im Folgenden werden einige Beispiele und die jeweils zugehörigen Fehlerdarstellungen vorgestellt.

6.5.1 Summierte Rechteckregeln Zwei Rechteckregeln sind in Beispiel 6.12 vorgestellt worden. Die summierten Rechteckregeln mit den a¨ quidistanten Stützstellen aus (6.30) lauten dann entsprechend T0 ( h ) = h T0 ( h ) = h

N −1 k=0 N

f ( xk ) ≈

f ( xk )

Z b a

f ( x ) dx,

(6.31)

......

(6.32)

.

k=1

Die geometrische Bedeutung der summierten Rechteckregel (6.31) ist in Bild 6.6 dargestellt. Ihre approximativen Eigenschaften sind in dem nachfolgenden Theorem festgehalten.

Abschnitt 6.5

127

Summierte Quadraturformeln

Theorem 6.18 Die Funktion f : [ a, b ] → R sei einmal stetig differenzierbar auf dem Intervall [ a, b ]. Dann gibt es Zwischenstellen ξ, ξ ∈ [ a, b ] mit Z b a

f ( x ) dx − T0 ( h ) =

b−a hf ( ξ ), 2

(6.33)

b−a − T0 ( h ) = − 2 hf ( ξ),

......

(6.34)

mit h = ( b − a )/N, und mit T0 ( h ) und T0 ( h ) wie in (6.31) beziehungsweise (6.32). B EWEIS . Es wird hier nur die Fehlerdarstellung (6.33) betrachtet, den Nachweis für (6.34) führt man ganz analog. Für T0 ( h ) liefert Beispiel 6.14 die Existenz einer Zwischenstelle ξk ∈ [ a, b ] mit Z x k xk−1

f ( x ) dx − hf ( xk−1 )

h2 f ( ξk ), 2

=

k = 1, 2, . . . , N,

und Summation u¨ ber k liefert Z b a

f ( x ) dx − T0 ( h )

=

N h2 f ( ξk ) 2

=

N 1 f ( ξk ) N

≤

k=1

N b−a 1 h f ( ξk ). 2 N k=1

Aufgrund der Ungleichungen min f ( x )

x ∈ [ a, b ]

≤

k=1

max f ( x )

x ∈ [ a, b ]

existiert nach Anwendung des Zwischenwertsatzes auf die Funktion f eine Zwischenstelle ξ ∈ [ a, b ] mit N 1

f ( ξ ) = N

f ( ξk ),

k=1

was die Fehlerdarstellung (6.33) liefert.

Bild 6.6 Summierte Rechteckregel

Bild 6.7 Summierte Trapezregel

6.5.2 Summierte Trapezregel Die von der (in Beispiel 6.10 definierten) Trapezregel abgeleitete summierte Trapezregel mit den Stützstellen aus (6.30) lautet N −1 Z b h f (a) + 2 T1 ( h ) = f ( xk ) + f ( b ) ≈ f ( x ) dx. (6.35) 2

k=1

a

128

Kapitel 6 Numerische Integration von Funktionen

Die geometrische Bedeutung der summierten Trapezregel (6.35) ist in Bild 6.7 veranschaulicht. Das nachfolgende Theorem liefert eine Fehlerdarstellung für diese summierte Quadraturformel. Theorem 6.19 Die Funktion f : [ a, b ] → R sei auf dem Intervall [ a, b ] zweimal stetig differenzierbar. Dann gibt es eine Zwischenstelle ξ ∈ [ a, b ] mit Z b

b−a

f ( x ) dx − T1 ( h ) = − 12 h2 f ( ξ ), mit h = ( b − a )/N und T1 ( h ) wie in (6.35). a

B EWEIS . Der Beweis verläuft entsprechend dem Beweis von Theorem 6.18: es gibt (siehe Beispiel 6.14) Zwischenstellen ξk ∈ [ a, b ] mit Z x k h h3 f ( xk−1 ) + f ( xk ) = − f ( ξk ), f ( x ) dx − k = 1, 2, . . . , N, 2

xk−1

12

und Summation u¨ ber k liefert Z b a

f ( x ) dx − T1 ( h ) = −

N N h3 b − a 2 1 b − a 2 f ( ξk ) = − h f ( ξk ) = − h f (ξ ) 12 12 N 12

k=1

k=1

für eine Zwischenstelle ξ ∈ [ a, b ], wobei man die Existenz einer solchen Zwischenstelle durch Anwendung des Zwischenwertsatzes auf die Funktion f erhält. Theorem 6.19 u¨ ber den Fehler bei der summierten Trapezregel ermöglicht den kurzen Beweis eines Resultats zur diskreten Fouriertransformation: B EWEIS VON T HEOREM 3.4. Die summierte Trapezregel zur Berechnung des Fourierkoeffizienten ck liefert 1

ck = N

N −1

f ( xj )e−ijk2π/N

+ O(h2 ),

k = 0, 1, . . . , N − 1,

j=0

somit [c0 , . . . , cN −1 ] = F [f ( x0 ), . . . , f ( xN −1 ) ] + [O(h2 ), . . . , O(h2 )] und eine Anwendung der diskreten Fourierrücktransformation F −1 führt auf die Behauptung.

6.5.3 Summierte Simpson– Regel Die von der (in Beispiel 6.10 vorgestellten) Simpson Regel abgeleitete summierte Simpson Regel lautet T2 ( h )

=

N N −1 h (a) + 4 ( xk−1/2 ) + 2 ( xk ) + f ( b ) f f f 6 k=1

k=1

≈

Z b a

f ( x ) dx, (6.36)

mit den a¨ quidistanten Stützstellen xk = a+kh, k ≥ 0, und mit h = ( b−a )/N. Das nachfolgende Theorem liefert eine Fehlerdarstellung für die summierte Simpson Regel.

Abschnitt 6.6

129

Asymptotik der summierten Trapezregel

Theorem 6.20 Die Funktion f : [ a, b ] → R sei auf dem Intervall [ a, b ] viermal stetig differenzierbar. Dann gibt es eine Zwischenstelle ξ ∈ [ a, b ] mit Z b

b−a

f ( x ) dx − T2 ( h ) = − 2880 h4 f (4) ( ξ ), mit h = ( b − a )/N und T2 ( h ) wie in (6.36). a

B EWEIS . Der Beweis verläuft wiederum entsprechend dem Beweis von Theorem 6.18. Für k = 1, 2, . . . , N gibt es (siehe Beispiel 6.17) Zwischenstellen ξk ∈ [ xk−1 , xk ] mit

Z x k h h5 ( 4 ) f ( xk−1 ) + 4f ( xk−1/2 ) + f ( xk ) = − f ( x ) dx − f ( ξk ), xk−1

6

2880

und Summation u¨ ber k liefert Z b a

f ( x ) dx − T2 ( h ) = −

N h5 f ( 4 ) ( ξk ) 2880

k=1

=

b−a

N 1

− 2880 h4 N

f ( 4 ) ( ξk )

k=1

b−a

= − 2880 h4 f (4) ( ξ ) für eine Zwischenstelle ξ ∈ [ a, b ], wobei man die Existenz einer solcher Zwischenstelle durch Anwendung des Zwischenwertsatzes auf die Funktion f (4) erhält. Bemerkung 6.21 Zwar ist die Zahl der erforderlichen Funktionsaufrufe bei der summierten Simpson Regel doppelt so hoch wie bei den summierten Rechteckregeln oder der summierten Trapezregel. Für hinreichend glatte Funktionen f ist die Anwendung der summierten Simpson Regel dennoch vorzuziehen, da sich beispielsweise gegenüber der summierten Trapezregel die Genauigkeit quadriert.

6.6 Asymptotik der summierten Trapezregel In dem vorliegenden Abschnitt 6.6 wird für die summierte Trapezregel (6.35) eine asymptotische Entwicklung vorgestellt, die beim Einsatz von Extrapolationsverfahren (siehe Abschnitt 6.7) Gewinn bringend eingesetzt werden kann.

6.6.1 Die Asymptotik Für die summierte Trapezregel T1 ( h ) aus (6.35) wird im folgenden Theorem eine asymptoti¨ sche Entwicklung angegeben, die gewisse Ahnlichkeiten mit einer Taylorentwicklung von T1 im Punkt h = 0 aufweist. (Man beachte jedoch, dass T1 ( h ) nur für diskrete positive Werte von h definiert ist.) Theorem 6.22 Sei f ∈ C 2r+2 [ a, b ], r ≥ 0. Für die summierte Trapezregel N −1 Z b h f ( xk ) + f ( b ) f ( x ) dx ≈ T1 ( h ) = 2 f ( a ) + 2 a k=1

h =

b−a N

(vergleiche (6.35)) gilt die folgende Darstellung: T1 ( h ) = τ0 + τ1 h2 + . . . + τr h2r + Rr+1 ( h ),

(6.37)

130 mit

Kapitel 6 Numerische Integration von Funktionen

τ0 =

Z b a

f ( x ) dx,

Rr+1 ( h ) = O(h2r+2 )

für h → 0,

(6.38)

und gewissen Koeffizienten τ1 , τ2 , . . . , τr ∈ R. B EWEIS . Siehe Abschnitt 6.9. Es fällt auf, dass in (6.37) Terme mit ungeraden Potenzen von h nicht auftreten, was man sich zu Nutze machen kann. Mehr hierzu finden Sie in dem nachfolgenden Abschnitt 6.7 u¨ ber Extrapolationsmethoden.

6.7 Extrapolationsverfahren 6.7.1 Grundidee Der vorliegende Abschnitt u¨ ber Extrapolationsverfahren lässt sich inhaltlich Kapitel 1 u¨ ber die Polynominterpolation zuordnen. Er wird erst hier präsentiert, da mit der vorgestellten Asymptotik der summierten Trapezregel nun eine spezielle Anwendung vorliegt. Für eine gegebene Funktion2 T ( h ), h > 0, liege mit gewissen Koeffizienten τ0 , τ1 , . . . , τr ∈ R das folgende asymptotische Verhalten vor, T ( h ) = τ0 + τ1 hγ + τ2 h2γ + . . . + τr hrγ + O(h( r+1)γ )

für h → 0,

(6.39)

mit einer Zahl γ > 0 und dem gesuchten Wert τ0 = limh→0+ T ( h ). Für eine Nullfolge positiver, paarweiser verschiedener Schrittweiten h sei T ( h ) bestimmbar. Wegen (6.39) gilt zunächst nur T ( h ) = τ0 + O( hγ )

für h → 0.

Mithilfe des im Folgenden vorzustellenden Extrapolationsverfahrens erhält man ohne großen Mehraufwand genauere Approximationen an die gesuchte Größe τ0 (siehe Theorem 6.26 unten). Der Ansatz des Extrapolationsverfahrens ist folgender: zu ausgewählten positiven Stützstellen h0 , h1 , . . . , hn wird das eindeutig bestimmte Polynom P0,... ,n ∈ Πn mit P0,...,n ( hγj ) = T ( hj ),

j = 0, 1, . . . , n,

herangezogen3 und der Wert P0,...,n ( 0 ) ≈ T ( 0 ) als Approximation für T ( 0 ) verwendet. Im Zusammenhang mit der summierten Trapezregel wird diese Vorgehensweise als Romberg Integration bezeichnet und geht auf Romberg [83] zurück. Beispiel 6.23 Die prinzipielle Vorgehensweise bei der Extrapolation ist für n = 3 in Bild 6.8 dargestellt. 2 3

die typischerweise ein numerisches Verfahren repräsentiert, das zu zulässigen Diskretisierungsparametern h jeweils eine Approximation für eine gesuchte Größe τ0 ∈ R liefert Für ein Polynom P wird die Funktion h → P ( hγ ) als Polynom in hγ bezeichnet.

Abschnitt 6.7

131

Extrapolationsverfahren ...... ....... . .... ... .

T (h0 )

................................. ................................... ............... ........... ........ ........ ....... . . . . . .. ..... .... ... ... ... ... . . ... ... .. ... .. . . ..................................... ... ............ ........ ... ...... ........ ... ...... ...... ... ...... ..... .... ..... .... .... ..... . .... . . . . . . ...... .. .. ....... .......... .... .......................... ..... ..... ...... ...... ....... . . . . . . . .............................

T (h1 )

T (h2 )

T (h3 )

τ0 P0,...,3 (0)

P0,...,3 (hγ )

...............................

h3

h2

h1

h0

Bild 6.8 Darstellung der Vorgehensweise bei der Extrapolation; es ist P0,...,3 ∈ Π3

6.7.2 Neville– Schema Der Wert P0,...,n ( 0 ) ≈ T ( 0 ) lässt sich mit dem Neville Schema berechnen. Für positive, paarweise verschiedene Schrittweiten h0 , h1 , . . . sei hierzu Pk,...,k+m ∈ Πm dasjenige Polynom mit Pk,...,k+m (hγj ) = T ( hj ),

j = k, k + 1, . . . , k + m,

(6.40)

und es bezeichne Tk,...,k+m := Pk,...,k+m ( 0 ).

(6.41)

Die Werte Tk,...,k+m lassen sich mit dem Neville Schema (1.7) rekursiv berechnen: Theorem 6.24 Für die Werte Tk,...,k+m aus (6.41) gilt Tk = T ( hk ) und Tk,...,k+m

=

Tk+1,...,k+m +

Tk+1,...,k+m − Tk,...,k+m−1 h γ k −1 hk+m

(m ≥ 1,

B EWEIS . Mit der Darstellung (1.7) auf Seite 6 berechnet man leicht Tk,...,k+m =

−hγk Tk+1,...,k+m + hγk+m Tk,...,k+m−1 hγk+m − hγk Tk+1,...,k+m − Tk,...,k+m−1 hγk+m − hγk

= Tk+1,...,k+m

−

hγk+m

=

+

Tk+1,...,k+m − Tk,...,k+m−1 . h γ k −1 hk+m

......

k ≥ 0).

132

Kapitel 6 Numerische Integration von Funktionen

Beispiel 6.25 Die zur summierten Trapezregel T1 ( h ) (hier gilt γ = 2) gehörenden Werte T0 , T1 und T01 lauten für die Schrittweiten h0 = b − a und h1 = ( b − a )/2 folgendermaßen, a+b b − a b − a f (a) f (b) T0 = , f (a) + f (b) , T1 = + + f 2

T01 = T1 =

2

T −T + 14 − 1 0

b−a 2

a+b f (a) f (b) + f 2 + 2 2

+ a+b b−a f ( a ) + 4f = + f (b) , 6

2

2

2

a+b b−a f (b) f (a) − 2 − 2 f 2 6

2

so dass T01 der Simpson Regel zur Approximation des Integrals

'b a

f ( x ) dx entspricht.

6.7.3 Verfahrensfehler bei der Extrapolation Die betrachteten Schrittweiten h0 , h1 , . . . seien nun so gewählt, dass bezüglich einer Grundschrittweite h > 0 Folgendes gilt, h/nj hj =

für j = 0, 1, . . . ,

mit 1 < n0 ≤ n1 < . . . .

(6.42)

Mit dem folgenden Theorem, das einen Spezialfall der in Bulirsch [8] betrachteten Situation darstellt, wird beschrieben, wie gut die Werte Tk,...,k+m = Pk,...,k+m ( 0 ) den gesuchten Wert τ0 = limh→0+ T ( h ) approximieren. Theorem 6.26 Sei T ( h ), h > 0, eine Funktion mit der asymptotischen Entwicklung (6.39), mit gewissen Zahlen γ > 0 und r ∈ N. Für eine Folge h0 , h1 , . . . von Schrittweiten mit der Eigenschaft (6.42) erfülle das Polynom Pk,...,k+m ∈ Πm die Interpolationsbedingung (6.40), und Tk,...,k+m sei wie in (6.41). Dann gilt im Fall 0 ≤ m ≤ r − 1 die asymptotische Entwicklung ( m+2 )γ τ h Tk,...,k+m = τ0 + (−1)m γ m+1γ für h → 0. h( m+1 )γ + O nk · · · nk+m

B EWEIS . O.B.d.A. darf k = 0 angenommen werden. Gemäß der Lagrangeschen Interpolationsformel gilt

m m hγ − hγs für h ∈ R, P0,...,m ( hγ ) = T ( hj ) γ γ j=0

s=0 s=j

hj − hs

und somit T0,...,m = P0,...,m ( 0 ) =

m

cm,j T ( hj ),

j=0

mit cm,j :=

(6.43) m s=0 s=j

hγs hγs − hγj

=

m s=0 s=j

1 . (6.44) 1 − ( ns /nj )γ

Nun gilt zum einen T ( hj ) =

m+1 k=0

τk hkγ + O(hj( m+2)γ ), j

(6.45)

Abschnitt 6.7

133

Extrapolationsverfahren

und des Weiteren gilt nach Aufgabe 1.4 aus Kapitel 1 Folgendes, ⎧ ⎪ 1 für k = 0, ⎪ m ⎨ kγ cm,j hj = 0 für k = 1, . . . , m, ⎪ ⎪ j=0 ⎩ γ (–1)m h0 . . . hγm für k = m + 1.

⎫ ⎪ ⎪ ⎬ ⎪ ⎪ ⎭

(6.46)

Die beiden Identitäten (6.45) und (6.46) eingesetzt in (6.43) ergeben dann

T0,...,m

=

m

cm,j

j=0

=

(

)

τk hkγ + O(hjm+2 γ ) j

k=0

m+1 m k=0

=

m+1

cm,j hkγ τk j

m

+

j=0

cm,j O(hj( m+2)γ )

j=0

τ0 + ( –1 )m τm+1 hγ0 . . . hγm

+

......

= O( h( m+2)γ )

unter Beachtung der Tatsache, dass die Koeffizienten cm,j aus (6.44) nicht von h abhängen. Dies komplettiert den Beweis des Theorems. Bemerkung 6.27 Prominente Unterteilungen sind: •

•

•

hj = hj−1 /2 für j = 1, 2, . . . mit h0 = h h

h

h

(Romberg Folge) h

h

h

h

h

h0 = h, h1 = 2 , h2 = 3 , h3 = 4 , h4 = 6 , h5 = 8 , h6 = 12 , h7 = 16 , h8 = 24 , . . . , (Bulirsch Folge) mit der Notation aus (6.42) allgemein nj = 2nj−2 für j ≥ 4 hj−1 = h/j für j = 1, 2, . . .

(harmonische Folge)

Beispiel 6.28 Speziell soll ausgehend von der Basisunterteilung h = ( b − a )/N noch die Romberg Folge hj = h/2j für j = 0, 1, . . . genauer betrachtet werden. Hier ist die Bedingung (6.42) mit nj = 2j erfüllt, und unter den Bedingungen von Theorem 6.26 erhält man für n ≤ r − 1 ( n (n+2)γ − 1) . τ h( n+1)γ + O T0,...,n = τ0 + h n( n+1 )γ/2 n+1 2

Zur Veranschaulichung soll das Resultat noch speziell für die summierte Trapezregel T1 ( h ) =

Z b a

f ( x ) dx + O( h2 )

betrachtet werden, mit n = 2. Mit der in Schema 6.1 angedeuteten Vorgehensweise erhält man so mit wenig Aufwand die sehr viel genauere Approximation T012 =

Z b a

f ( x ) dx + 643 h6 + O( h8 ). τ

134

Kapitel 6 Numerische Integration von Funktionen

T1 ( h0 ) = T0 T1 ( h1 ) = T1 → T01

T1 ( h2 ) = T2 → T12 → T012 Schema 6.1 Neville– Schema zu Beispiel 6.28

6.8 Gaußsche Quadraturformeln 6.8.1 Einleitende Bemerkungen Thema des vorliegenden Abschnitts ist die möglichst genaue numerische Berechnung gewichteter Integrale I ( f ) :=

Z b a

f ( x ) ( x ) dx

(6.47)

wobei f : [ a, b ] → R eine vorgegebene Funktion und eine gegebene Gewichtsfunktion ist, siehe die folgende Definition. Hierbei werden zur Vereinfachung der Notation endliche Intervalle betrachtet, −∞ < a ≤ b < ∞. Die nachfolgenden Betrachtungen lassen sich jedoch auf unendliche Intervalle u¨ bertragen. Definition 6.29 Es wird : [ a, b ] → ( 0, ∞ ] Gewichtsfunktion genannt, wenn sie auf dem offenen Intervall ( a, b ) stückweise stetig sowie u¨ ber [ a, b ] integrabel ist. Zur numerischen Berechnung des Integrals (6.47) werden wieder interpolatorische Quadraturformeln In ( f ) =

n

σk f ( λk ),

(6.48)

k=1

herangezogen, wobei im Unterschied zur Formel (6.2) teils aus historischen Gründen hier jedoch •

die Stützstellen mit λk bezeichnet werden,

•

die Summation bei k = 1 beginnt,

•

der Faktor b − a fehlt.

In diesem Abschnitt wird beschrieben, für welche Wahl der Stützstellen λ1 , λ2 , . . . , λn und Gewichte σ1 , σ2 , . . . , σn der Genauigkeitsgrad der zugehörigen interpolatorischen Quadraturformel einen möglichst hohen Wert annimmt. Die Begriffe interpolatorische Quadraturformel und Genauigkeitsgrad sind hierbei ganz kanonisch auf Integrale mit Gewichten zu u¨ bertragen

Abschnitt 6.8

135

Gaußsche Quadraturformeln

(wobei allerdings in den nachfolgenden Betrachtungen auch der Fall ≡ 1 von Interesse ist). Die resultierenden Formeln werden dann als Gaußsche Quadraturformeln bezeichnet. Bei der Herleitung dieser Formeln werden orthogonale Polynome benötigt.

6.8.2 Orthogonale Polynome Definition 6.30 Zu gegebener Gewichtsfunktion : [ a, b ] → ( 0, ∞ ] bezeichne p, q =

Z b a

||p|| = p, p1/2

p( x ) q ( x ) ( x ) dx,

für p, q ∈ Π.

Die Abbildung ·, · : Π × Π → R definiert ein Skalarprodukt auf dem Raum aller reellen Polynome Π, insbesondere ist also ·, · linear in jedem seiner Argumente bei jeweils festem anderem Argument, und es gilt p, p > 0 für 0 = p ∈ Π. Wir führen noch die folgende Notation ein. Definition 6.31 1. Zwei Polynome p, q ∈ Π heißen orthogonal zueinander, wenn p, q = 0 gilt. 2. Das orthogonale Komplement von Πn ⊂ Π ist gegeben durch . p ∈ Π : p, q = 0 ∀ q ∈ Πn , Π⊥ n = 0, 1, . . . . n := Offensichtlich ist Π⊥ n ein linearer Unterraum von Π. Eine spezielle Folge paarweise orthogonaler Polynome erhält man durch Gram Schmidt Orthogonalisierung der Monome 1, x, x2 , . . .: p0 = 1, pn = xn −

(6.49) n−1 m=0

n

x , pm pm , || pm ||2

n = 1, 2, . . . .

(6.50)

Nach Konstruktion ist also pn ein Polynom vom genauen Grad n mit führendem Koeffizienten eins, und es gilt pn ∈ Π⊥ n−1 .

(6.51)

Mit dem nachfolgenden Theorem wird eine Vorgehensweise vorgestellt, mit der sich diese Orthogonalpolynome effizient berechnen lassen. Theorem 6.32 Die Orthogonalpolynome in (6.49), (6.50) genügen der Drei Term Rekursion p0 = 1,

p1 = x − β0 ,

pn+1 = ( x − βn )pn − γn2 pn−1 ,

n = 1, 2, . . .,

mit den Koeffizienten βn =

xpn , pn || pn ||2

für n = 1, 2, . . .,

γn2 =

|| pn ||2 || pn−1 ||2

für n = 1, 2, . . . .

136

Kapitel 6 Numerische Integration von Funktionen

B EWEIS . Offenbar ist die angegebene Darstellung richtig für p0 und p1 . Für n ≥ 1 setzen wir qn+1 := ( x − βn )pn − γn2 pn−1 und zeigen im Folgenden qn+1 = pn+1 . Dazu beobachtet man, dass qn+1 (ebenso wie pn+1 ) ein Polynom mit genauem Grad n + 1 ist und den führenden Koeffizienten eins besitzt, und somit gilt r := pn+1 − qn+1 ∈ Πn .

(6.52)

Wir zeigen nun, dass qn+1 (ebenso wie pn+1 ) im orthogonalen Komplement von Πn liegt, so dass dann auch r = pn+1 − qn+1 ∈ Π⊥ n

(6.53)

gilt. Die Beziehungen (6.52) und (6.53) zusammen ergeben dann ||r ||2 = r, r = 0 und damit wie behauptet pn+1 = qn+1 . Wie angekündigt wird nun qn+1 ∈ Π⊥ n

(6.54)

nachgewiesen. Aufgrund der Identität pn , pn−1 = 0 und der Definition von βn gilt qn+1 , pn

=

xpn , pn − βn ||pn ||2

=

0.

(6.55)

Weiter erhält man wieder wegen pn , pn−1 = 0 sowie aufgrund der Definition von γn Folgendes, qn+1 , pn−1

=

pn , xpn−1 − γn2 ||pn−1 ||2

=

pn , xpn−1 − pn = 0,

(6.56)

wobei das letzte Gleichheitszeichen aus der Tatsache folgt, dass xpn−1 − pn ein Polynom vom Grad ≤ n − 1 darstellt. Ferner ist qn+1 auch orthogonal zu jedem Polynom vom Grad ≤ n − 2, denn es gilt qn+1 , q

=

pn , xq − βn pn , q − γn2 pn−1 , q =0

=0

=

0

∀ q ∈ Πn−2 . (6.57)

=0

Wegen Πn = span {pn , pn−1 } ⊕ Πn−2 folgt aus (6.55) (6.57) die nachzuweisende Eigenschaft (6.54), mit der man wie bereits beschrieben pn+1 = qn+1 erhält. Das folgende Theorem liefert Aussagen u¨ ber die Nullstellen der betrachteten Orthogonalpolynome. Theorem 6.33 Die Nullstellen λ1 , λ2 , . . . , λn des n ten Orthogonalpolynoms pn in (6.50) sind einfach und liegen alle im offenen Intervall ( a, b ). Sie besitzen die Darstellung4 λk =

4

xLk , Lk , || Lk ||2

Lk ( x ) :=

n x − λs λk − λs

für k = 1, 2, . . . , n.

(6.58)

s=1 s=k

wobei L1 , . . . , Ln ∈ Πn−1 die den Nullstellen λ1 , . . . , λn zugeordneten Lagrangeschen Basispolynome darstellen

Abschnitt 6.8

137

Gaußsche Quadraturformeln

B EWEIS . Es seien a < λ1 < · · · < λm < b (0 ≤ m ≤ n) diejenigen Nullstellen von pn in dem offenen Intervall ( a, b ), an denen pn sein Vorzeichen wechselt, also diejenigen Nullstellen von pn in ( a, b ) mit ungerader Vielfachheit. Im Folgenden wird m = n nachgewiesen. Wäre m ≤ n − 1, so hätte nämlich das Polynom m

q ( x ) :=

( x − λk )

k=1

den Grad 0 ≤ m ≤ n − 1, so dass wegen (6.51) pn , q = 0

(6.59)

folgt. Nun ist aber das Polynom pn ( x ) q ( x ) nach Konstruktion von einem Vorzeichen auf [ a, b ], so dass pn , q =

Z b a

pn ( x ) q ( x ) ( x ) dx = 0

gilt im Widerspruch zu (6.59). Um zur Darstellung (6.58) zu gelangen, faktorisiert man pn in der Form pn ( x ) = ( x − λk ) q( x ), mit einem geeigneten Polynom q ∈ Πn−1 und erhält daraus =

0

pn , q

=

x q , q − λk q, q .

Hieraus folgt wegen q, q = 0 x q , q || q||2

=

λk

=

xLk , Lk , || Lk ||2

wobei sich die letzte Gleichung daraus ergibt, dass die Polynome q und Lk bis auf einen konstanten Faktor u¨ bereinstimmen. Beispiel 6.34 In Tabelle 6.1 sind für verschiedene Intervalle und Gewichtsfunktionen die Bezeichnungen der zugehörigen orthogonalen Polynome aufgelistet. Intervall

( x )

zugehörige orthogonale Polynome

[ –1, 1 ]

1 √ 1/ 1 − x2

Legendre Polynome

[ –1, 1 ] [ –1, 1 ]

( 1 − x )α ( 1 + x )β ,

( –∞, ∞ ) ( –∞, ∞ )

α > −1, β > −1 −x2

e −x2

e

xα ,

α > −1

Tschebyscheff Polynome der ersten Art Tn Jacobi Polynome Hermite Polynome Laguerre Polynome

Tabelle 6.1 Verschiedene Systeme von Orthogonalpolynomen Man beachte, dass in den beiden zuletzt genannten Beispielen anders als bisher angenommen unendliche Intervalle betrachtet werden; hierzu sei auf die Bemerkung eingangs dieses Abschnitts 6.8 verwiesen.

138

Kapitel 6 Numerische Integration von Funktionen

6.8.3 Optimale Wahl der Stutzstellen ¨ und Gewichte Das folgende Theorem beschreibt, unter welchen Bedingungen an n Stützstellen und Gewichte der Genauigkeitsgrad einer Quadraturformel 2n − 1 beträgt. Theorem 6.35 Für ein n ∈ N seien λ1 , . . . , λn ∈ R paarweise verschiedene Zahlen, und weiter seien σ1 , . . . , σn ∈ R beliebig. Dann und nur dann gilt p, 1 =

n

für p ∈ Π2n−1 ,

σk p( λk )

(6.60)

k=1

wenn die folgenden Bedingungen (a) und (b) erfüllt sind, (a) die Zahlen λ1 , . . . , λn ∈ R stimmen mit den Nullstellen des n ten orthogonalen Polynoms pn (siehe (6.58)) u¨ berein, (b) die Gewichte σ1 , σ2 , . . . , σn haben die Gestalt σk = Lk , 1

für k = 1, 2, . . . , n,

wobei L1 , L2 , . . . , Ln ∈ Πn−1 die den Zahlen λ1 , λ2 , . . . , λn zugeordneten Lagrangeschen Basispolynome darstellen5. Unter diesen Bedingungen gilt auch σk = Lk , Lk > 0 für k = 1, 2, . . . , n. B EWEIS . “=⇒“ Es gelte (6.60), und zum Beweis von (a) setzen wir q ( x ) := ( x − λ1 ) · · · ( x − λn ) und weisen im Folgenden die Identität q = pn nach. Hierzu wendet man die Identität (6.60) auf das Polynom p( x ) := xm q ( x ) mit m ∈ {0, 1, . . . , n − 1} an und erhält q , xm = xm q , 1 =

n

σk λm k q ( λk ) = 0 k=1

für m = 0, 1, . . . , n − 1,

=0

was insgesamt q ∈ Π⊥ n−1 und damit q − pn ∈ Π⊥ n−1 nach sich zieht. Außerdem ist q ein Polynom mit genauem Grad n und führendem Koeffizienten eins, so dass sich die Eigenschaft q − pn ∈ Πn−1 ergibt, was schließlich (wie im Beweis des vorigen Theorems 6.32) q = pn liefert. Teil (b) ergibt sich wegen Lj ( λk ) = δjk unmittelbar aus der Identität (6.60) angewandt mit p = Lj . “⇐=“ Es gelte nun (a), (b), und p ∈ Π2n−1 sei beliebig. Dann lässt sich das Polynom p in der Form6 p = qpn + r schreiben mit gewissen Polynomen q, r ∈ Πn−1 . Wegen pn ( λk ) = 0 gilt dann p( λk ) = r ( λk ), 5 6

vergleiche (6.58) nach Polynomdivision mit Rest

k = 1, 2, . . . , n,

Abschnitt 6.8

139

Gaußsche Quadraturformeln

und mit der Lagrangeschen Interpolationsformel erhält man r( x )

=

n

=

r ( λk )Lk ( x )

k=1

n

p( λk )Lk ( x ).

k=1

Dies führt dann auf die angegebene Identität (6.60): p, 1

=

q , pn + r, 1 = 0

n

=

p( λk ) Lk , 1

=

k=1

n

σk p( λk ).

k=1

Die angegebene Darstellung σk = Lk , Lk > 0 für die Gewichte ergibt sich aus der Darstellung (6.60) angewandt auf das Polynom p = L2k . Bemerkung 6.36 Man beachte, dass hier (im Unterschied zu den abgeschlossenen Newton Cotes Formeln) die Gewichte in jedem Fall positiv ausfallen7 . Definition 6.37 Die Quadraturformel In ( f ) :=

n

für f ∈ C [ a, b ],

σk f ( λk )

(6.61)

k=1

mit den Stützstellen λ1 , . . . , λn ∈ R und Gewichten σ1 , . . . , σn wie in (a) und (b) aus Theorem 6.35 bezeichnet man als Gaußsche Quadraturformel. Als eine unmittelbare Konsequenz aus Theorem 6.35 erhält man: Korollar 6.38 Die Gaußsche Quadraturformel (6.61) ist interpolatorisch und besitzt mindestens den Genauigkeitsgrad r = 2n − 1. B EWEIS . Zu einer gegebenen Funktion f ∈ C [ a, b ] sei Qn−1 ∈ Πn−1 das interpolierende Polynom zu den Stützpunkten (λ1 , f ( λ1 ) ), (λ2 , f ( λ2 ) ), . . . , (λn , f ( λn ) ). Aus der Eigenschaft (6.60) erhält man die erste Aussage, n

σk f ( λk )

=

k=1

n

σk Qn−1 ( λk )

=

Qn−1 , 1 ,

k=1

und die angegebene untere Schranke für den Genauigkeitsgrad folgt ebenfalls unmittelbar aus (6.60). Mit dem folgenden Resultat wird die Fehleraussage aus Theorem 6.13 (siehe Seite 119) auf die vorliegende Situation der gewichteten Integrale u¨ bertragen. Theorem 6.39 Für den Fehler bei der Gaußquadratur (6.61) gilt unter der Voraussetzung f ∈ C 2n [ a, b ] die Darstellung Z b 1 2 ( x ) ( x ) dx f (2n) ( ξ ) I ( f ) − In ( f ) = p (6.62) n ( 2n )! a = mit tk := 7

λk −a b−a

( b − a )2n+1 ( 2n )!

Z 1 n 0

( t − tk )2 ( ( b − a )t + a) dt f (2n) ( ξ ) (6.63)

k=1

für k = 1, 2, . . . , n, und mit einer geeigneten Zwischenstelle ξ ∈ [ a, b ].

vergleiche hierzu die Anmerkungen vor Theorem 6.11

140

Kapitel 6 Numerische Integration von Funktionen

B EWEIS . Der Genauigkeitsgrad bei der Gaußquadratur (6.61) beträgt nach Korollar 6.38 mindestens r = 2n − 1. Wählt man zu den Stützstellen λ1 , λ2 , . . . , λn nun die weiteren Stützstellen λn+1 = λ1 , . . . , λ2n = λn , so ist 2n

( x − λk )

=

k=1

n

( x − λk )2

=

p2n ( x )

k=1

von einem Vorzeichen, und man erhält dann die Resultate (6.62) (6.63) mit der gleichen Vorgehensweise wie in den Teilen 1 und 3 des Beweises von Theorem 6.13. Bemerkung 6.40 1. Als unmittelbare Konsequenz aus Theorem 6.39 ergibt sich, dass der Genauigkeitsgrad der Gaußschen Quadraturformeln genau r = 2n − 1 beträgt. Dies ist optimal; für die Situation = 1 siehe hierzu Aufgabe 6.2. 2. Man kann auch summierte Gaußsche Quadraturformeln betrachten und anwenden; die Resultate aus Abschnitt 6.5 lassen sich ganz kanonisch u¨ bertragen.

6.8.4 Nullstellen von orthogonalen Polynomen als Eigenwerte Für größere Werte von n steht man noch vor dem Problem, die Nullstellen des n ten orthogonalen Polynoms pn sowie die Gewichte σ1 , . . . , σn zu bestimmen. Dazu gehen wir im Folgenden davon aus, dass die Koeffizienten βj und γj in der Rekursion p0 = 1,

p1 = x − β0 ,

pj+1 = ( x − βj )pj − γj2 pj−1 ,

(6.64) j = 1, 2, . . .,

explizit bekannt sind und betrachten dann die symmetrische Matrix ⎞ ⎛ β −γ 0 . . . 0 0 1 ⎟ ⎜ ⎜ .. ⎟ .. ⎜ −γ . . ⎟ ⎜ 1 β1 −γ2 ⎟ ⎜ ⎟ ⎜ ⎟ × . . . . J = ⎜ 0 −γ2 ⎟ ∈ Rn n . . . 0 ⎜ ⎟ ⎜ . ⎟ .. .. .. ⎜ .. . . . −γn−1 ⎟ ⎜ ⎟ ⎝ ⎠ 0 ... 0 −γn−1 βn−1

(6.65)

(6.66)

Theorem 6.41 Die Nullstellen λ1 , λ2 , . . . , λn des n ten Orthogonalpolynoms pn stimmen mit den Eigenwerten der Matrix J u¨ berein, und die Gewichte ergeben sich daraus folgendermaßen: σk = 1 , 1

n−1

τj2 p2j ( λk )

für k = 1, 2, . . . , n,

j=0

mit den Zahlen

τj :=

1 ( –1 ) /(γ1 γ2 · · · γj ) j

für j = 0, für j = 1, 2, . . . , n − 1.

(6.67)

Abschnitt 6.8

141

Gaußsche Quadraturformeln

B EWEIS . Es wird zunächst Folgendes nachgewiesen, Jv (k ) = λk v (k ) mit dem Vektor v (k ) =

für k = 1, 2, . . . , n,

τ0 p0 ( λk ), τ1 p1 ( λk ), . . . , τn−1 pn−1 ( λk ) = 1

(6.68)

∈ Rn.

Es ist (Jv (k ) )1 = β0 · 1 − γ1 τ1 p1 ( λk )

=

β0 + p1 ( λk )

=

β0 + λk − β0

= λk = λk v1 , (k )

und weiter erhält man aus den Rekursionsformeln (6.65) mit x = λk Folgendes (wobei in der nachfolgenden Situation j = n−1 noch γn := τn := 0 gesetzt wird und pn ( λk ) = 0 zu beachten ist): (Jv ( k ) )j+1 = −γj τj−1 pj−1( λk ) + βj τj pj ( λk ) − γj+1 τj+1 pj+1( λk )

j ( –1 ) = γ · · · γ γj2 pj−1 ( λk ) + βj pj ( λk ) + pj+1( λk ) 1 j = τj

= τj λk pj ( λk )

=

für j = 1, 2, . . . , n − 1,

(k ) λk vj+1

und (6.68) ist damit bewiesen. Im Folgenden soll noch die Darstellung (6.67) nachgewiesen werden. Die Identität (6.68) bedeutet noch, dass v (k ) Eigenvektor zum Eigenwert λk der Matrix J ist. Gemäß Theorem 6.33 sind diese Eigenwerte paarweise verschieden, und aus der Symmetrie der Matrix J erhält man dann

v (k ) v () = 0

für k = .

(6.69)

Aufgrund der paarweisen Orthogonalität der Polynome p0 , p1 , . . . sowie wegen Theorem 6.35 gilt δj0 1 , 1

=

pj , 1

=

n

σ pj ( λ )

für j = 0, 1, . . . , n − 1,

(6.70)

=1

und Multiplikation von (6.70) mit τj2 pj ( λk ) sowie anschließende Summation u¨ ber j liefert 1,1

=

n−1 n

σ τj2 pj ( λk ) pj ( λ )

j=0 =1

=

n

=

n =1

σ (v (k ) )v ()

σ

n−1

τj2 pj ( λk ) pj ( λ )

j=0

= σk (v (k ) )v (k ) ,

=1

wobei in der letzten Gleichheit noch die Orthogonalitätsbeziehung (6.69) eingeht. Dies liefert die Aussage (6.67). Bemerkung 6.42 Die gesuchten Eigenwerte der Matrix J aus (6.66) können für größere Werte von n nur numerisch berechnet werden. Entsprechende Methoden werden in Kapitel 13 vorgestellt.

142

Kapitel 6 Numerische Integration von Funktionen

6.9 Nachtrag: Beweis der Asymptotik fur ¨ die summierte Trapezregel 6.9.1 Bernoulli–Polynome Definition 6.43 Die Bernoulli Polynome Bk sind rekursiv erklärt: B0 ( x ) ≡ 1, und für k = 1, 2, . . . gilt Z x

Bk ( x ) = Ak + k

Bk−1 ( t ) dt,

0

mit Ak := −k

Z 1 Z x 0

0

x ∈ [ 0, 1 ],

(6.71)

Bk−1 ( t ) dt dx.

(6.72)

Beispielsweise gilt 1

1

B1 ( x ) = x − 2 , B3 ( x ) = x3 −

B2 ( x ) = x2 − x + 6 ,

3 2 1 x + x, 2 2

(6.73)

B4 ( x ) = x4 − 2x3 + x2 −

1 . 30

Theorem 6.44 Für die Bernoulli Polynome Bk aus (6.71) (6.72) gelten die folgenden Aussagen: (a) ( a¨ quivalente Formulierung) Es gilt Bk ∈ Πk für k = 0, 1, . . ., und Bk ( x )

=

Z 1

kBk−1( x ),

0

Bk ( x ) dx = 0

für k = 1, 2, . . . .

(6.74)

(b) Es gilt B1 ( 0 ) = −1/2, B1 ( 1 ) = 1/2, und Ak = Bk ( 0 ) = Bk ( 1 )

für k = 2, 3, . . . .

(c) Die Funktion B2k ist gerade bezüglich x = 1/2, und B2k+1 ist ungerade bezüglich x = 1/2, es gilt also B2k

1 2

+x

= B2k

1 2

−x

1 1 B2k+1 2 + x = −B2k+1 2 − x

1 2

für 0 ≤ x ≤ , ......

;

(d) B2k+1 ( 0 ) = B2k+1 (1) = 0 für k = 1, 2, . . . . B EWEIS . “(a)“ gilt offensichtlich. “(b)“: Die Aussage für B1 resultiert unmittelbar aus (6.73). Für k ≥ 2 folgt Ak = Bk ( 0 ) aus der Definition (6.71), und wegen der Mittelwerteigenschaft in (6.74) erhält man Bk ( 1 ) = Ak + k

Z 1 0

Bk−1 ( x ) dx = Ak + k · 0 = Ak .

Abschnitt 6.9

143

Beweis der Asymptotik für die summierte Trapezregel

“(c)“ wird mit vollständiger Induktion nachgewiesen. B0 ≡ 1 ist eine gerade Funktion bezüglich x = 1/2, und wir nehmen nun an, dass B2k eine bezüglich x = 1/2 gerade Funktion ist. Dann gilt B2k+1 ( x ) = A2k+1 + ( 2k + 1 )

Z x

B2k ( t ) dt

0 Z 1/2

= A2k+1 + ( 2k + 1 ) 0

2k+1 =: A

Z x

B2k ( t ) dt + ( 2k + 1 ) B2k ( t ) dt, 1/2

=: Q( x )

0 ≤ x ≤ 1.

Nun ist Q ungerade bezüglich x = 1/2, denn 1

Q( 2 + x) = =

Z 1/2+x 1/2 Z 1/2−x 1/2

B2k ( t ) dt

1 B + t dt 2k 0 2 1 = −Q − x . Z x

=

B2k ( t ) ( –1 ) dt

=

Z x 0

1 B2k 2 − t dt

2

Z 1 '1 Damit gilt aber notwendigerweise 0 Q( x ) dx = 0, und wegen 0 B2k+1 ( x ) dx = 0, vergleiche 2k+1 = 0 und somit B2k+1 = ( 2k + 1 )Q eine bezüglich x = 1/2 ungerade Funktion. (6.74), ist A

Sofort ergibt sich nun, dass B2k+2 bezüglich x = 1/2 eine gerade Funktion ist: Z 1/2+x 1 B2k+2 2 + x = A2k+2 + ( 2k + 2 ) 0 B2k+1 ( t ) dt

= A2k+2 + ( 2k + 2 ) = B2k+2

1 2

−x

Z 1/2−x 0

B2k+1 ( t ) dt + ( 2k + 2 )

Z 1/2+x

1/2−x

1 für 0 ≤ x ≤ . 2

B2k+1 ( t ) dt

= 0

“(d)“ Die erste Identität in (d) ist schon in (b) festgehalten, und die dritte Gleichheit ergibt sich aus der Tatsache, dass B2k+1 bezüglich x = 1/2 eine ungerade Funktion ist: B2k+1 ( 1 ) = B2k+1

1 2

+

1 1 1 = −B2k+1 = −B2k+1 ( 0 ) = −B2k+1 ( 1 ). − 2 2 2

Definition 6.45 Die Werte B2k ( 0 ), k = 0, 1, . . ., heißen Bernoullische Zahlen. Die ersten Bernoullischen Zahlen sind B0 ( 0 ) = 1,

B2 ( 0 ) =

1 , 6

B4 ( 0 ) = −

1 , 30

B6 ( 0 ) =

1 , 42

B8 ( 0 ) =

1 . 30

Die Bernoullischen Zahlen spielen beim Beweis von Theorem 6.22 eine Rolle.

6.9.2

Der Beweis von Theorem 6.22

Im Folgenden wird der Beweis von Theorem 6.22 geführt, und hierzu setzt man die Bernoulli Polynome Bk von dem Intervall [ 0, 1 ] ausgehend 1 periodisch fort, Sk ( x ) := Bk ( x − m )

für m ≤ x < m + 1,

m = 0, 1, . . . .

144

Kapitel 6 Numerische Integration von Funktionen

Es ist S0 eine Sägezahnfunktion, die Funktion S1 ist stückweise stetig differenzierbar, und für k ≥ 2 ist Sk stetig differenzierbar, und es gilt Sk ( x ) = kSk−1 ( x )

für m < x < m + 1,

m ∈ N0

(k = 1, 2, . . .).

Im weiteren Verlauf wird nachgewiesen, dass die Darstellung (6.37) richtig ist mit τ0 wie in (6.38) und für B (0) τk := ( 2k ) f (2k−1) ( b ) − f (2k−1) ( a ) , k = 1, 2, . . . , r, (6.75) 2k !

Z b x − a (2r+2) 1 ( x ) dx h2r+2 . (6.76) S2r+2 ( 0 ) − S2r+2 f Rr+1 ( h ) := ( ) 2r + 2 !

h

a

Aus (6.76) folgt dann |Rr+1 ( h ) |

2( b − a ) max |B2r+2 ( y ) | max |f (2r+2) ( x ) |h2r+2 + 2 )! y ∈ [ 0, 1 ] x ∈ [ a, b ]

≤

( 2r

und damit die zweite Darstellung in (6.38). Zum Beweis der Darstellung (6.37) mit den Koeffizienten aus (6.38), (6.75) und (6.76) wird zur Vereinfachung zunächst die Intervall Transformation [ a, b ] → [ 0, N ] vorgenommen: sei g ( t ) := f ( a + th ),

0 ≤ t ≤ N.

Die Identität (6.37) mit den Koeffizienten aus (6.38), (6.75) und (6.76) ist dann a¨ quivalent zu der Euler Maclaurinschen Summenformel ⎫ Z N g( 0 ) g( N ) ⎪ ( 1 ) + . . . + g(N − 1 ) + ( t ) dt + g − g ⎬ 0 2 2 r (6.77) B2k ( 0 ) (2k−1) ⎪ ( N ) − g (2k−1) ( 0 ) + Cr+1 = g ⎭ ( 2k )! k=1

mit dem Fehlerterm 1

Cr+1 := ( 2r + 2 )!

Z N 0

S2r+2 ( 0 ) − S2r+2 ( t ) g (2r+2) ( t ) dt,

(6.78)

denn ( ) g 0 g( N ) T1 ( h ) = h 2 + g ( 1 ) + . . . + g ( N − 1 ) + 2 , Z b a

f ( x ) dx = h

Z N 0

f (j ) ( a + th )hj = g (j ) ( t ),

g ( t ) dt,

Es soll nun die Identität (6.77) (6.78) nachgewiesen werden: t=1 Z 1 1 ( 1 ) + g(0 ) ) − ( t ) dt = B1 ( t )g ( t ) (g g − 0 2 =

Z 1 0

t=0

B1 ( t )g ( t ) dt

Z 1 0

0 ≤ t ≤ N.

B0 ( t )g ( t ) dt

=

Z 1 0

S1 ( t )g ( t ) dt,

und analog gilt 1 (g ( j + 1 ) + g ( j ) ) − 2

Z j+1 j

g ( t ) dt =

Z j+1 j

S1 ( t )g ( t ) dt,

j = 0, 1, . . . , N − 1,

so dass man g( 0 ) g( N ) + g(1 ) + . . . + g(N − 1 ) + 2 − 2

Z N 0

g ( t ) dt

=

Z N 0

S1 ( t )g ( t ) dt

145

Weitere Themen und Literaturhinweise

erhält. Das letzte Integral wird weiter partiell integriert, t=N Z N Z 1 1 N S S − S2 ( t )g ( t ) dt 1 ( t )g ( t ) dt = 2 ( t )g ( t ) 0 2! 2! 0 t=0

=

B2 ( 0 ) 1 (g ( N ) − g ( 0 ) ) − 2! 2!

und partielle Integration des letzten Integrals liefert wiederum t=N Z Z 1 N 1 1 S2 ( t )g ( t ) dt = − 3! S3 ( t )g ( t ) + 3! − 2! 0

t=0

= −

=

1 3!

N

0

Z N 0

S2 ( t )g ( t ) dt,

S3 ( t )g ( t ) dt

B3 ( 0 ) 1 (g ( N ) − g ( 0 ) ) + 3! 3!

Z N 0

S3 ( t )g ( t ) dt

=0 Z N 0

S3 ( t )g ( t ) dt.

Wiederholte partielle Integration liefert schließlich die Identität (6.77) mit der folgenden Konstanten, Z N 1 1 ( 0 ) g (2r+1) ( N ) − g (2r+1) ( 0 ) − Cr+1 = ( S S2r+2 ( t )g (2r+2) ( t ) dt 2r+2 ) ( ) 2r + 2 !

= =

1 (0) S ( 2r + 2 )! 2r+2 ( 2r

1 + 2 )!

Z N 0

Z N 0

2r + 2 !

1 g (2r+2) ( t ) dt − ( 2r + 2 )!

Z N 0

0

S2r+2 ( t )g (2r+2) ( t ) dt

S2r+2 ( 0 ) − S2r+2 ( t ) g (2r+2) ( t ) dt,

was mit der Setzung (6.78) u¨ bereinstimmt.

Weitere Themen und Literaturhinweise Eine Auswahl existierender Lehrbücher mit Abschnitten u¨ ber numerische Integration bildet ¨ Hämmerlin/Hoffmann [45], Kress [60], Krommer/ Uberhuber [61], Oevel [75], Stoer [95] und Werner [107]. Insbesondere in [61] werden viele weitere Themen wie die numerische Berechnung uneigentlicher und mehrdimensionaler Integrale beziehungsweise die symbolische Integration behandelt. Orthogonale Polynome werden ausführlich in Hanke Bourgeois [49] behandelt.

¨ Ubungsaufgaben Aufgabe 6.1 Gegeben sei eine Unterteilung ∆ : a ≤ x0 < x1 < . . . < xn ≤ b des Intervalls [ a, b ]. Man zeige, dass es eindeutig bestimmte Zahlen a0 , a1 , . . . , an ∈ R gibt mit n k=0

ak P ( xk ) =

Z b a

P ( x ) dx

für alle P ∈ Πn .

Aufgabe 6.2 Zu einer beliebigen Unterteilung a ≤ x0 < . . . < xn ≤ b des Intervalls [ a, b ] bezeichne In ( f ) = (b − a) nk=0 σk f ( xk ) eine Quadraturformel. Man zeige, dass ihr Genauigkeitsgrad ≤ 2n + 1 ist, es gibt also ein Polynom P ∈ Π2n+2 mit In ( P ) =

Z b a

P ( x ) dx.

146

Kapitel 6 Numerische Integration von Funktionen

Aufgabe 6.3 Man bestimme die Koeffizienten a0 , a1 , a2 ∈ R durch Taylorabgleich so, dass die Quaa +b draturformel Qf = a0 f ( a ) + a1 f + a2 f ( b ) zur näherungsweisen Berechnung des Integrals Z b a

2

f ( x ) dx einen möglichst hohen Genauigkeitsgrad besitzt.

Aufgabe 6.4 Zu einer periodischen stetigen Funktion f : R → R und den Stützstellen xj = 2πj/(N + 1) mit j = 0, 1, . . . , N für gerades N ∈ N bezeichne T f das interpolierende trigonometrische Polynom Z 2π N/2 (T f )( x ) dx. von der Form (T f )( x ) = A20 + k=1 (Ak cos kx+Bk sin kx). Weiter bezeichne Qf := 0 N Man zeige, dass sich Qf schreiben lässt als Qf = k=0 ak f ( xk ) mit (von f unabhängigen) positiven Gewichten ak > 0 für k = 0, 1, . . . , N . Aufgabe 6.5 Man weise mithilfe der Euler Maclaurinschen Summenformel für N ∈ N die folgende Identität nach, N N (N + 1) 2 k3 = . 2

k=1

Aufgabe 6.6 Das Funktionensystem (Un )n∈N0 der Tschebyscheff Polynome der zweiten Art bildet √ '1 bezüglich des Skalarprodukts u, v = −1 u( x ) v ( x ) 1 − x2 dx ein Orthogonalsystem. Aufgabe 6.7 (Numerische Aufgabe) Man berechne die vier bestimmten Integrale Z 0.5 0

1 16x + 1 2

dx,

Z 2 0

Z π/2

e−x dx, 2

0

cos

x 2 sin 3x dx, 2

Z π/2 / 0

| cos 2x| dx,

numerisch durch Extrapolation der Trapezsummen T1 (hj ) unter Anwendung der Romberg Schrittweite h0 = b − a und hj = hj−1 /2 für j = 1, 2, . . . . Genauer: mit den Bezeichnungen aus (6.40) (6.41) mit T = T1 und γ = 2 berechne man für k = 0, 1, . . . die Werte Tk−m,...,k

für m = 0, 1, . . . , min{k, m∗ }.

Man breche mit k =: k∗ ab, falls m∗ + 1 ≤ k ≤ 12,

Tk−m

∗ ,...,k

(6.79)

− Tk−m∗ +1,...,k ≤ ε

oder aber k = 13 10−8 ).

Man gebe für jedes der vier zu berechnenden Integrale die Werte erfüllt ist (mit m∗ = 4 und ε = (6.79) für k = 0, 1, . . . , k∗ in einem Tableau aus, jeweils auf acht Nachkommastellen genau.

147

7

Explizite Einschrittverfahren fur ¨ Anfangswertprobleme bei gewöhnlichen Differenzialgleichungen

Viele Anwendungen wie beispielsweise die Berechnung der Flugbahn eines Raumfahrzeugs beim Wiedereintritt in die Erdatmosphäre oder Räuber Beute Modelle führen auf Anfangswertprobleme für Systeme von gewöhnlichen Differenzialgleichungen. Ebenso resultieren gewisse Diskretisierungen von Anfangswertproblemen für partielle Differenzialgleichungen in Anfangswertproblemen für Systeme von gewöhnlichen Differenzialgleichungen. Ein konkretes Beispiel hierzu wird in Abschnitt 8.9.4 auf Seite 219 vorstellt. Solche Anfangswertprobleme für Systeme von gewöhnlichen Differenzialgleichungen sind Gegenstand des vorliegenden und des nächsten Kapitels. Definition 7.1 Ein Anfangswertproblem fur ¨ ein System von N gewöhnlichen Differenzialgleichungen 1. Ordnung ist von der Form y = f ( t, y ),

t ∈ [ a, b ],

(7.1)

y ( a ) = y0 ,

(7.2)

mit einem gegebenen endlichen Intervall [ a, b ], einem Vektor y0 ∈ R N und einer Funktion f : [ a, b ] × R N → R N ,

(7.3)

und gesucht ist eine differenzierbare Funktion y : [ a, b ] → R N mit den Eigenschaften (7.1) (7.2). Die Notation in (7.1) ist eine u¨ bliche Kurzform für y ( t ) = f ( t, y ( t )), t ∈ [ a, b ]. Differenzierbarkeit bedeutet hier komponentenweise Differenzierbarkeit, und es ist y ( t ) = (y1 ( t ), . . . , yN ( t ) ) ∈ R N .

7.1 Ein Existenz- und Eindeutigkeitssatz Die Existenz und Eindeutigkeit der Lösung ist auch bei Anfangswertproblemen für Systeme von gewöhnlichen Differenzialgleichungen eine grundlegende Fragestellung. Diese ist Gegenstand des nächsten Theorems, wobei die folgende Lipschitzbedingung für Funktionen f von der Form (7.3) eine wesentliche Rolle spielt, ||f ( t, u ) − f ( t, v ) ||

≤

L||u − v ||,

t ∈ [ a, b ],

u, v ∈ R N ,

(7.4)

mit einer Konstanten L > 0, wobei hier und im Folgenden || · || : R N → R eine beliebige Vektornorm bezeichnet.

148

Kapitel 7 Einschrittverfahren für Anfangswertprobleme

Neben der angesprochenen Existenz und Eindeutigkeitsaussage für Anfangswertprobleme von der Form (7.1) (7.2) liefert das folgende Theorem ein ebenso wichtiges Resultat zur stetigen Abhängigkeit von den Anfangswerten. Theorem 7.2 Es sei f : [ a, b ] × R N → R N eine stetige Funktion, die die Lipschitzbedingung (7.4) erfülle. Dann gelten die beiden folgenden Aussagen: (a) (Picard/Lindelöf) Das Anfangswertproblem (7.1) (7.2) besitzt genau eine stetig differenzierbare Lösung y : [ a, b ] → R N . (b) Für differenzierbare Funktionen y, y : [ a, b ] → R N mit y = f ( t, y ),

t ∈ [ a, b ];

y ( a ) = y0

y = f ( t, y),

.......

y( a ) = y0

gilt die Abschätzung ||y ( t ) − y( t ) ||

≤

eL(t−a) ||y0 − y0 ||,

t ∈ [ a, b ].

(7.5)

Einen Beweis hierzu finden Sie beispielsweise in Heuser [51], Abschnitt 12. Auch unter anderen Voraussetzungen an die Funktion f sind Existenz und Eindeutigkeitsaussagen für das Anfangswertproblem (7.1) (7.2) möglich. Zur Vereinfachung der Notation wird Folgendes angenommen:

In diesem und dem folgenden Kapitel 8 wird ohne weitere Spezifikation an die Funktion f angenommen, dass jedes der betrachteten Anfangswertprobleme von der Form (7.1) (7.2) jeweils eine eindeutig bestimmte Lösung y : [ a, b ] → R N besitzt.

An einigen Stellen erweist sich das folgende Resultat u¨ ber die Glattheit der Lösung des Anfangswertproblems (7.1) (7.2) als nützlich, das man mit der Kettenregel erhält. Theorem 7.3 Für eine p mal stetig partiell differenzierbare Funktion mit p ≥ 1 ist die Lösung des Anfangswertproblems (7.1) (7.2) mindestens ( p + 1 ) mal stetig partiell differenzierbar. Bemerkung 7.4 In der Situation von Theorem 7.3 lassen sich die höheren Ableitungen der Lösung angeben. Beispielsweise berechnet man im eindimensionalen Fall N = 1 sowie für p = 1 sofort Folgendes: ∂f ∂f ∂f ∂f y ( t ) = (t, y ( t ) ) + (t, y ( t ) )y ( t ) = + f (t, y ( t ) ). (7.6) ∂t

∂y

∂t

∂y

Abschnitt 7.2

149

Theorie der Einschrittverfahren

In den meisten Fällen lässt sich die Lösung des Anfangswertproblems (7.1) (7.2) nicht exakt berechnen, so dass man auf numerische Verfahren zurückgreift. Solche Verfahren werden in diesem und dem darauf folgenden Kapitel vorgestellt, wobei es die Zielsetzung der meisten dieser Verfahren ist, zu der Lösung y : [ a, b ] → R N des Anfangswertproblems (7.1) (7.2) schrittweise für = 0, 1, . . . Approximationen u ≈ y ( t ),

= 0, 1, . . . , n,

zu gewinnen auf einem noch nicht näher spezifizierten Gitter ∆ = {a = t0 < t1 < . . . < tn ≤ b}, h := t+1 − t

für = 0, 1, . . . , n − 1.

(7.7)

7.2 Theorie der Einschrittverfahren Im Folgenden werden Einschrittverfahren einführend behandelt. Definition 7.5 Ein (explizites) Einschrittverfahren zur näherungsweisen Bestimmung einer Lösung des Anfangswertproblems (7.1) (7.2) ist von der Gestalt u+1

=

u + h ϕ( t , u ; h ),

= 0, 1, . . . , n − 1;

u0 := y0

(7.8)

mit einer Verfahrensfunktion ϕ : [ a, b ] × R N × R + → R N und einem noch nicht näher spezifizierten Gitter beziehungsweise Schrittweiten der Form (7.7). Bemerkung 7.6 ( 1 ) Die Approximation u hängt von u−1 nicht jedoch (unmittelbar) von u−2 , u−3, . . . ab, was die Bezeichnung “Einschrittverfahren“ rechtfertigt. Im anschließenden Kapitel 8 werden dann Mehrschrittverfahren behandelt. ( 2 ) Ein Einschrittverfahren ist durch seine Verfahrensfunktion ϕ festgelegt, die Schrittweiten hingegen sind noch frei wählbar. Zur Vereinfachung der Notation wird dennoch im Folgenden bei Einschrittverfahren auf die Verfahrensvorschrift (7.8) verwiesen, obwohl Eigenschaften von ϕ behandelt werden. ( 3 ) Ebenfalls zwecks einer vereinfachten Notation wird als Definitionsbereich einer Verfah-

rensfunktion ϕ immer [ a, b ] × R N × R + angegeben, obwohl bei den meisten noch vorzustellenden speziellen Einschrittverfahren der Ausdruck ϕ( t, u; h ) lediglich für Schrittweiten h ≤ b − t wohldefiniert ist. ( 4 ) Eine wichtige Rolle spielen in der Praxis auch implizite Einschrittverfahren, die durch die

Definition (7.8) nicht unmittelbar erfasst sind. Solche impliziten Einschrittverfahren werden gemeinsam mit den Mehrschrittverfahren in Kapitel 8 behandelt. Die wichtigste Kennzahl eines Einschrittverfahrens ist seine Konvergenzordnung:

150

Kapitel 7 Einschrittverfahren für Anfangswertprobleme

Definition 7.7 Ein Einschrittverfahren (7.8) zur Lösung des Anfangswertproblems y = f ( t, y ), y ( a ) = y0 besitzt die Konvergenzordnung p ≥ 1, falls sich der globale Verfahrensfehler abschätzen lässt in der Form max ||u − y ( t ) ||

≤

=0,...,n

hmax :=

Chpmax ,

max {t+1 − t },

=0,...,n−1

mit einer von dem gewählten Gitter ∆ unabhängigen Konstanten C ≥ 0. Für die Bestimmung der Konvergenzordnung eines Einschrittverfahrens spielt der folgende Begriff eine maßgebliche Rolle. Definition 7.8 Für ein Einschrittverfahren (7.8) zur Lösung des Anfangswertproblems y = f ( t, y ), y ( a ) = y0 bezeichnet η ( t, h ) := y ( t ) + hϕ( t, y ( t ) ; h ) − y ( t + h )

Verfahrensvorschrift

für t ∈ [ a, b ],

0 ≤ h ≤ b − t,

den lokalen Verfahrensfehler im Punkt (t + h, y ( t + h ) ) bezüglich der Schrittweite h. Andere sinnvolle Definitionen des lokalen Verfahrensfehlers sind ebenfalls möglich (siehe Aufgabe 7.3). Definition 7.9 Ein Einschrittverfahren (7.8) zur Lösung des Anfangswertproblems y = f ( t, y ), y ( a ) = y0 besitzt die Konsistenzordnung p ≥ 1, falls für den lokalen Verfahrensfehler die Ungleichung ||η ( t, h ) ||

≤

Chp+1

für t ∈ [ a, b ],

0 ≤ h ≤ b − t,

(7.9)

erfüllt ist mit einer (von t und h unabhängigen) Konstanten C ≥ 0. Die Konsistenzordnung bezeichnet man oft nur kurz als Ordnung eines Einschrittverfahrens. Es wird nun die wesentliche Abschätzung für den bei Einschrittverfahren auftretenden globalen Verfahrensfehler vorgestellt, wofür die folgende Lipschitzbedingung an die Verfahrensfunktion benötigt wird, ϕ( t, u; h ) − ϕ( t, v ; h ) ≤ Lϕ ||u − v || für t ∈ [ a, b ], 0 < h ≤ b − t, (7.10) u, v ∈ R N . Bei allen in diesem Kapitel vorzustellenden speziellen Einschrittverfahren ist eine solche Lipschitzbedingung (7.10) erfüllt, falls die Funktion f der Lipschitzbedingung (7.4) genügt. Theorem 7.10 Ein Einschrittverfahren (7.8) zur Lösung des Anfangswertproblems y = f ( t, y ), y ( a ) = y0 besitze die Konsistenzordnung p ≥ 1 und erfülle die Lipschitzbedingung (7.10). Dann liegt die Konvergenzordnung p vor. Genauer gilt max ||u − y ( t ) ||

≤

=0,...,n

mit der Konstanten K =

C Lϕ

Khpmax ,

hmax :=

max {t+1 − t },

=0,...,n−1

(7.11)

eLϕ (b−a) − 1 , wobei C aus der Abschätzung (7.9) herrührt.

Abschnitt 7.2

151

Theorie der Einschrittverfahren

B EWEIS . Mit den Setzungen = u − y , = η ( t , h ),

e η

y := y ( t ),

= 0, 1, . . . , n, = 0, 1, . . . , n − 1,

gilt für = 0, 1, . . . , n − 1 y+1 = y + h ϕ( t , y ; h ) − η , u+1 = u + h ϕ( t , u ; h ), und daher

e+1 = e + h ϕ( t , u ; h ) − ϕ( t , y ; h ) + η

beziehungsweise ||e+1 || ≤ ||e || + h ϕ( t , u ; h ) − ϕ( t , y ; h ) + ||η || ≤ (1 + h Lϕ )||e || + h Chpmax , und das nachfolgende Lemma 7.12 liefert wegen e0 = 0 unmittelbar die Aussage des Theorems.

Bemerkung 7.11 Lipschitzbedingung (7.10) und Konsistenzordnung p zusammen gewährleisten also die Konvergenzordnung p des Einschrittverfahrens (7.8).

7.2.1 Ein elementares Resultat zur Fehlerakkumulation Lemma 7.12 Für Zahlen L > 0, a ≥ 0, h > 0 und b ≥ 0 sei a+1

≤

(1 + h L)a + h b,

= 0, 1, . . . , n − 1,

erfüllt. Dann gelten die Abschätzungen a

≤

eLx − 1 b + eLx a0 L

mit x :=

−1

hj

( = 0, 1, . . . , n).

j=0

B EWEIS . Der Fall = 0 ist klar, und den Induktionsschritt → + 1 führt man wie folgt:

a+1

≤ eh L Lx e −1 Lx ≤ (1 + h L) b + e a + h b 0 L ≤

eL(x +h ) − 1 − h L eLx+1 − 1 + h b + eL( x +h ) a0 = b + eLx+1 a0 . L L

152

Kapitel 7 Einschrittverfahren für Anfangswertprobleme

7.3 Spezielle Einschrittverfahren 7.3.1 Einschrittverfahren der Konsistenzordnung p = 1 Beispiel 7.13 Das Euler Verfahren ist von der Form u+1

=

u + h f ( t , u ),

= 0, 1, . . . , n − 1;

u0 := y0 .

(7.12)

Andere u¨ bliche Bezeichnungen für das Verfahren (7.12) sind Eulersches Polygonzugverfahren oder vorwärtsgerichtete Euler Formel. In Bild 7.1 ist die Vorgehensweise des Euler Verfahrens veranschaulicht. Dabei stellen die Funktionen y, y beziehungsweise y Lösungen der Differenzialgleichung y = f (t, y ) dar mit den Anfangswerten y(t0 ) = y0 , y(t1 ) = u1 beziehungsweise y(t2 ) = u2 . Die gestrichelten Linien stellen Tangenten dar und illustrieren die Bestimmung der jeweils nächsten Approximation. y .... ........ ...

.......... .......... ....... ...... ..... ..... ...... . . . .. ..... .... ..... .... ...... ... .... .. ... .. . . . . . . . . . . . . . . . .. . . . . . ........ .. ......... ..... ... .. ... .. ... .. ... .. .. .. . .. . .. .. .. ... .. ... .. ... .. ... .. ... ......... . . . . .. ... ........ .... ........ ....... .... ... ..... .... ..... ..... ..... . . .. . . .. . .... ........ ...... ............ ....... .. ........ ....... ........ ..

y(t)

u2

y( t )

y( t )

u1 u0 = y0

............................................

t0 = a

t1

t

t2

Bild 7.1 Vorgehensweise beim Euler– Verfahren

Theorem 7.14 Für eine stetig partiell differenzierbare Funktion f : [ a, b ] × R N → R N besitzt das Euler Verfahren die Konsistenzordnung p = 1. B EWEIS . Eine Taylorentwicklung der Lösung des Anfangswertproblems y = f ( t, y ), y ( a ) = y0 liefert y(t + h)

=

y ( t ) + y ( t )h + (yj ( τj ) )N j=1

h2 2

mit geeigneten Zwischenstellen τj ∈ [ a, b ], und daraus erhält man für den lokalen Verfahrensfehler η ( t, h )

=

y ( t ) + h f ( t, y ( t )) − y ( t + h ) = y ( t )

=

h2

−(yj ( τj ) )N j=1 2

beziehungsweise ||η ( t, h ) ||∞

≤

Ch2 ,

mit C =

1 max ||y ( τ ) ||∞ , 2 τ ∈ [ a, b ]

wobei die zweimalige stetige Differenzierbarkeit der Lösung y aus Theorem 7.3 folgt.

Abschnitt 7.3

153

Spezielle Einschrittverfahren

7.3.2 Einschrittverfahren der Konsistenzordnung p = 2 Zur Herleitung von Einschrittverfahren (7.8) der Konsistenzordnung p = 2 wird für die Verfahrensfunktion der Ansatz ϕ( t, u; h ) = a1 f ( t, u ) + a2 f t + b1 h, u + b2 hf ( t, u ) , (7.13) t ∈ [ a, b ], 0 ≤ h ≤ b − t, u ∈ R N , betrachtet mit noch festzulegenden Konstanten aj , bj ∈ R. Theorem 7.15 Ein Einschrittverfahren (7.8) mit einer Verfahrensfunktion der Form (7.13) ist konsistent von der Ordnung p = 2, falls die Funktion f : [ a, b ] × R N → R N zweimal stetig partiell differenzierbar ist und für die Koeffizienten Folgendes gilt: a1 + a2 = 1,

a2 b1 =

1 , 2

a2 b2 =

1 . 2

(7.14)

B EWEIS . Der Beweis wird für den eindimensionalen Fall N = 1 geführt. Taylorentwicklungen sowohl von ϕ( t, y ( t ) ; · ) im Punkt h = 0 als auch von der Lösung y in t zusammen mit Theorem 7.3 ergeben ϕ( t, y ( t ) ; h ) y(t + h )

=

=1/2 =1/2 = 1

∂f ∂f ( a1 + a2 ) f + h a2 b1 (t, y ( t ) ) + O( h2 ), + a2 b2 f

=

h2 y ( t ) + y ( t )h + y ( t ) 2

∂t

(7.6)

=

∂y

+ O( h3 )

∂f ∂ f h2 (t, y ( t ) ) + O( h3 ), y ( t ) + hf + + f ∂t ∂y 2

3 ( ) ( ) = hϕ(t, y t ; h) + O h

woraus für den lokalen Verfahrensfehler unmittelbar η ( t, h )

=

y ( t ) + hϕ( t, y ( t ) ; h ) − y ( t + h )

=

O( h3 )

folgt. Bemerkung 7.16 Der eine Freiheitsgrad in (7.14) kann nicht zur Gewinnung eines Verfahrens der Konsistenzordnung p = 3 verwendet werden. Es werden nun zwei Beispiele für Einschrittverfahren von der Form (7.13) vorgestellt. Beispiel 7.17 Die Verfahrensfunktion für das modifizierte Euler Verfahren lautet t ∈ [ a, b ], 0 ≤ h ≤ b − t, ϕ( t, u; h ) = f t + h2 , u + h2 f ( t, u ) , u ∈ RN , wobei ϕ aus dem Ansatz (7.13) hervorgeht für a1 = 0, a2 = 1 und b1 = b2 = 1/2, und das zugehörige Einschrittverfahren (7.8) besitzt nach Theorem 7.15 für eine hinreichend glatte

154

Kapitel 7 Einschrittverfahren für Anfangswertprobleme

Funktion f daher die Konsistenzordnung p = 2. Das Verfahren selbst lässt sich folgendermaßen formulieren, u+1/2 = u +

t+1/2 := t +

h f ( t , u ), 2

u+1 = u + h f ( t+1/2 , u+1/2 ),

h , 2

= 0, 1, . . . , n − 1.

Die Wirkungsweise des modifizierten Euler Verfahrens ist in Bild 7.2 veranschaulicht. Dabei stellen die Funktionen y, y, y beziehungsweise y0 Lösungen der Differenzialgleichung y = f (t, y ) dar mit den Anfangswerten y(t0) = y0 , y(t1/2 ) = u1/2 , y(t1 ) = u1 beziehungsweise y0(t3/2 ) = u3/2 . Die Näherung u1 erhält man von u0 ausgehend auf einer Geraden der Steigung y(t1/2 ). y ...... ........ ...

y(t)

..................................... ........ ........ ....... ....... ...... ...... ...... ..... ...... ..... . . 3/2 . 1 ...... .... ... . . . ......................................... . . . ............ ......... . ... . . . . . ............. ....... ..... ..... ........ ... .... . . . . . . ....... ...... ... .. ....... ........ ..... ... ....... ......... ..... ... . . . . . .......... . . . . . . . ....... .. . ........... ....... ..... .............. ... ....... .................. ..... .. ........ ..... ... ....... ..... ... . ....... . . . . . ....... . ... ........ ... ........ . ....... .. ....... . . . . .. ........ ... ....... 2 ..... ...... .... ....... . . . . . . . . . . .. ...... .... .......... . .. .............. . . . . . . . .. .. ..... ....... . . 1/2 .............. . . .............

u

u

ye(t)

y(t)

yb(t)

u

u

...........................................

t0 = a

t1/2

t1

t3/2

t

t2

Bild 7.2 Vorgehensweise beim modifizierten Euler– Verfahren

Beispiel 7.18 Die Verfahrensfunktion für das Verfahren von Heun lautet

1 ϕ( t, u; h ) = 2 f ( t, u ) + f t + h, u + hf ( t, u ) ,

t ∈ [ a, b ],

0 ≤ h ≤ b − t, u ∈ RN ,

wobei ϕ aus der allgemeinen Form (7.13) hervorgeht für a1 = a2 = 1/2 und b1 = b2 = 1. Das zugehörige Einschrittverfahren (7.8) besitzt also für eine hinreichend glatte Funktion f ebenfalls die Konsistenzordnung p = 2. Der Algorithmus selbst lässt sich folgendermaßen formulieren, v+1 = u + h f ( t , u ), u+1 w+1 = u + h f ( t+1 , v+1 ),

=

1 (v + w+1 ), 2 +1

= 0, 1, . . . , n − 1.

Abschnitt 7.4

155

Rundungsfehleranalyse

7.3.3 Einschrittverfahren der Konsistenzordnung p = 4 Beispiel 7.19 Die Verfahrensfunktion für das klassische Runge Kutta Verfahren lautet ϕ( t, u; h )

=

1 k + 2k2 + 2k3 + k4 , 6 1

0 ≤ h ≤ b − t,

t ∈ [ a, b ],

u ∈ RN , mit k1 := f ( t, u ), k3 := f (t +

k2 := f (t + h ,u 2

+

h k ), 2 2

h ,u 2

+

h k ), 2 1

k4 := f (t + h, u + hk3 ).

Durch Taylorentwicklung lässt sich nachweisen, dass das klassische Runge Kutta Verfahren für eine hinreichend oft differenzierbare Funktion f die Konsistenzordnung p = 4 besitzt. Bei jedem der vorgestellten speziellen expliziten Einschrittverfahren ist für die Anwendbarkeit des Konvergenzresultats aus Theorem 7.10 jeweils noch die Lipschitzeigenschaft (7.10) nachzuprüfen. Hier stellt man leicht fest, dass diese Lipschitzbedingung (7.10) jeweils genau dann erfüllt ist, wenn die Funktion f der Lipschitzbedingung (7.4) genügt.

7.4 Rundungsfehleranalyse In diesem Abschnitt 7.4 werden die Auswirkungen von fehlerbehafteten Anfangswerten und Rundungsfehlern bei Einschrittverfahren (7.8) untersucht. Hierzu sei im Folgenden angenommen, dass eine fehlerbehaftete Verfahrensvorschrift von der folgenden Form v+1 = v + h ϕ( t , v ; h ) + ρ ,

= 0, . . . , n − 1;

||ρ || ≤ δ,

.......

⎫ v0 := y0 + e0 ,⎬ ||e0 || ≤ ε, ⎭

(7.15)

vorliegt mit gewissen Vektoren e0 , ρ ∈ R N , und || · || bezeichnet eine nicht weiter spezifizierte Vektornorm. Theorem 7.20 Zur Lösung des Anfangswertproblems y = f ( t, y ), y ( a ) = y0 sei durch (7.8) ein Einschrittverfahren mit der Konsistenzordnung p ≥ 1 gegeben, das die Lipschitzbedingung (7.10) erfülle. Dann gelten für die durch die fehlerbehaftete Verfahrensvorschrift von der Form (7.15) gewonnenen Approximationen die folgenden Abschätzungen, δ + eLϕ ( b−a) ε max ||v − y ( t ) || ≤ K hpmax + h min =0,... ,n mit hmax = mit der Konstanten K :=

max{C,1} Lϕ (b−a) [e Lϕ

max h ,

=0,..,n−1

− 1], für C aus (7.9).

(7.16) hmin =

min

=0,..,n−1

h ,

156

Kapitel 7 Einschrittverfahren für Anfangswertprobleme

B EWEIS . Die Vorgehensweise im Beweis von Theorem 7.10 ist nur geringfügig zu modifizieren: mit den Setzungen e

= v − y ,

η

= η ( t , h ),

y := y ( t ),

= 0, 1, . . . , n, = 0, 1, . . . , n − 1,

gilt für = 0, 1, . . . , n − 1 y+1 = y + h ϕ( t , y ; h ) − η , v+1 = v + h ϕ( t , v ; h ) + ρ , und daher e+1 = e + h ϕ( t , v ; h ) − ϕ( t , y ; h ) + ρ + η beziehungsweise ||e+1 || ≤ ||e || + h ϕ( t , v ; h ) − ϕ( t , y ; h ) + ||η || + ||ρ || δ , ≤ (1 + h Lϕ )||e || + h Chpmax + h min

und Korollar 7.12 liefert zusammen mit der Abschätzung ||e0 || ≤ ε unmittelbar die Aussage des Theorems. Bemerkung 7.21 Die rechte Seite in der Abschätzung (7.16) setzt sich aus drei Termen zusammen: der erste Term Khpmax resultiert aus dem globalen Verfahrensfehler des Einschrittverfahrens, und der zweite Term δ/hmin korrespondiert zu den akkumulierten Rundungsfehlern. Der Term eLϕ (b−a) ε schließlich rührt von einem fehlerbehafteten Anfangswert her. Als unmittelbare Folgerung aus Theorem 7.20 erhält man im Fall eines exakt gegebenen Anfangswerts (ε = 0) und konstanter Schrittweite: Korollar 7.22 Es liege die Situation aus Theorem 7.20 vor mit v0 = y0 und h = h für = 0, 1, . . . , n − 1. Dann gilt mit der Konstanten K := max{C,1} [eLϕ b − 1] die Fehlerabschätzung Lϕ max ||v − y ( t ) ||

=0,...,n

≤

δ K hp + . h

Mit der Wahl h = hopt = (δ/p)1/(p+1) erhält man max ||v − y ( t ) ||

=0,...,n

≤

2K δ p/(p+1) . pp/(p+1)

Die Situation in Abschätzung (7.17) ist in Bild 7.3 veranschaulicht.

(7.17)

Abschnitt 7.5

157

Asymptotische Entwicklung der Approximationen

..... ........ . ..... ... ..... ... ...... .... ....... ... ...... ... ........ ...... . . ...... ....... ...... ...... ...... ....... ...... ...... ....... ........ ......... ...... . . . ...... . .. ...... ........ ...... .... .. ....... .... ... .... ... ....... ..... .... ... ... ........... ....... . . . . ... .... ... .. .... ... ..... ..... .... .... ..... ... ..... ..... .... ..... ..... ..... .... ..... ...... ..... .... ...... ...... ......... . .... ...... . . . . .... ....... .... ... ...... ...... ..... ...... ...... ..... ..... ....... ....... ...... ..... ....... ....... .......... ..... . ........ ...... .............. ......... ........ ............ ...... . . . . . . . . ........... ...... .. ........... ................ ....... ....... ..................................... ........ ....... ........ ........ ......... ......... ........... .......... .............................................. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .............................................................................. .... .................................................. ............................... ...................................... ................................ ................. ................................ .............................. .............................................

Gesamtfehler

Verfahrensfehler Khp 0 0

Rundungsfehler Kδ/h

hopt

Schrittweite h

Bild 7.3 Einfluss des Rundungsfehlers in Abhängigkeit von der Schrittweite h (vergleiche Korollar 7.22)

7.5 Asymptotische Entwicklung der Approximationen 7.5.1 Einfuhrende ¨ Bemerkungen Zur Lösung des Anfangswertproblems y = f ( t, y ), y ( a ) = y0 werden in dem vorliegenden Abschnitt 7.5.1 Einschrittverfahren (7.8) bezüglich unterschiedlicher Gitter betrachtet, die der Einfachheit halber jeweils gleichabständige Knoten besitzen sollen, h > 0,

t = a + h

für = 0, 1, . . . , n,

mit 0 < n ≤

b−a . (7.18) h

Im Folgenden ist es von Vorteil, die Schrittweitenabhängigkeit der Approximationen des Einschrittverfahrens (7.8) explizit anzugeben. Dies geschieht durch die folgende Notation, uh ( t+1 ) := uh ( t ) + hϕ( t , uh ( t ) ; h ),

= 0, . . . , n − 1;

uh ( 0 ) := y0 , (7.19)

mit t = t ( h ) entsprechend (7.18). Es ist dann uh ( t ) definiert für alle

a < t ≤ b,

h ∈ H t :=

t−a m

:

m = 1, 2, . . . . (7.20)

Die Funktion uh wird als Gitterfunktion bezeichnet. Besitzt das zugrunde liegende Einschrittverfahren die Konsistenzordnung p ≥ 1 und genügt die Verfahrensfunktion der Stabilitätsbedingung (7.10), so gilt nach Theorem 7.10 an jeder Stelle a < t ≤ b uh ( t )

=

y ( t ) + O( hp )

für H t h → 0.

(7.21)

In Abhängigkeit von der vorliegenden Konsistenzordnung und den Differenzierbarkeitseigenschaften der beteiligten Funktionen lässt sich die Darstellung (7.21) in Form einer asymptotischen Entwicklung präzisieren: Theorem 7.23 Bezüglich des Anfangswertproblems y = f ( t, y ), y ( a ) = y0 besitze eine gegebene Verfahrensfunktion ϕ : [ a, b ] × R N × R + → R N die Konsistenzordnung p ≥ 1 und genüge

158

Kapitel 7 Einschrittverfahren für Anfangswertprobleme

der Stabilitätsbedingung (7.10). Weiter seien die Funktionen f und ϕ jeweils ( p + r ) mal stetig partiell differenzierbar. Für gewisse Koeffizientenfunktionen cp+j ∈ C r+1−j ( [ a, b ], R N ) mit cp+j ( a ) = 0 für j = 0, 1, . . . , r − 1 gilt dann die folgende asymptotische Entwicklung: uh ( t ) = y ( t ) + cp ( t )hp + cp+1 ( t )hp+1 + . . . + cp+r−1 ( t )hp+r−1 + O( hp+r ), t ∈ [ a, b ],

h ∈ Ht,

(7.22)

wobei die angegebenen Konvergenzraten gleichmäßig in t auftreten. Hierbei bezeichnet C s ( D, R N ) die Menge der s mal stetig partiell differenzierbaren Funktionen ψ : D → R N , wobei D ⊂ R M gelte für ein M ≥ 1. Auf der Basis solcher asymptotischer Entwicklungen lassen sich Verfahren höherer Ordnung gewinnen1. Die Existenz einer solchen Asymptotik ist erstmals in Gragg [35] nachgewiesen worden. In den folgenden Abschnitten 7.5.2 und 7.5.3 wird eine später entwickelte, auf Hairer/Lubich [46] und Deuflhard/Bornemann [20] basierende Methode zur Herleitung für die genannte asymptotische Entwicklung (7.22) vorgestellt.

7.5.2 Herleitung der asymptotischen Entwicklung des globalen Verfahrensfehlers, 1. Teil Eine asymptotische Entwicklung (7.22) erhält man mittels nur zu diesem Anlass konstruierter spezieller Einschrittverfahren höherer Ordnung. Grundlage dafür bildet die folgende Rekursionsvorschrift, bei der die Verfahrensfunktion ψ ∗ : [ a, b ] × R N × R + → R N aus einer Verfahrensfunktion ψ hervorgeht mittels ψ ∗ (t, u; h) := ψ(t, u − hq cq ( t ) ; h) + cq ( t + h ) − cq ( t ) hq−1 , (7.23) mit einer Zahl q ≥ 1 und einer im Moment nicht näher spezifizierten Funktion cq : [ a, b ] → R N . Lemma 7.24 Bezüglich des Anfangswertproblems y = f ( t, y ), y ( a ) = y0 besteht zwischen den zu den Verfahrensfunktionen ψ und ψ ∗ gehörenden Gitterfunktionen vh und vh∗ der folgende Zusammenhang, vh∗ ( t ) = vh ( t ) + cq ( t )hq ,

t ∈ [ a, b ],

h ∈ Ht.

B EWEIS . Offensichtlich gilt vh ( 0 ) = vh∗ ( 0 ) = y0 , und dann erhält man induktiv für t = h, 2h, . . . , die Aussage des Lemmas vh∗ ( t + h ) = vh∗ ( t ) + hψ ∗ (t, vh∗ ( t ) ; h) = vh ( t ) + hq cq ( t ) + hψ(t, vh ( t ) ; h) + = vh ( t ) + hψ(t, vh ( t ) ; h) + cq ( t + h )hq .

= vh ( t + h ) 1

siehe Abschnitt 7.6 u¨ ber Extrapolationsmethoden

cq ( t + h ) − cq ( t ) hq

Abschnitt 7.5

159

Asymptotische Entwicklung der Approximationen

Bemerkung 7.25 Lemma 7.24 lässt sich sukzessive auf die folgenden Verfahrensfunktionen anwenden (das Schema ist zeilenweise zu lesen) ⎫ ⎪ ψ = ϕ, q = p, ϕ[ 1 ] := ψ ∗ ⎪ ⎪ ⎪ ⎪ ⎪ [1] [2] ∗ ⎬ ψ = ϕ , q = p + 1, ϕ := ψ (7.24) pp pp pp pp pp pp ⎪ ⎪ p p p p p p ⎪ ⎪ ⎪ ⎪ ⎭ ψ = ϕ[ r−1 ] , q = p + r − 1, ϕ[ r ] := ψ ∗ Mit der Notation u0,h = uh sowie us,h für die zu ϕ[ s ] gehörende Gitterfunktion (s = 1, 2 . . .) gilt nach Lemma 7.24 us+1,h ( t )

=

us,h( t ) + cp+s ( t )hp+s ,

s = 0, 1, . . . , r − 1,

beziehungsweise ur,h( t ) = uh ( t ) + cp ( t )hp + cp+1 ( t )hp+1 + . . . + cp+r−1( t )hp+r−1.

(7.25)

Für die komplette Herleitung der asymptotischen Entwicklung (7.22) sind nun “lediglich“ noch konkrete Funktionen cp , . . . , cp+r−1 zu ermitteln, so dass ur,h ( t ) − y ( t )

=

O( hp+r )

für H t h → 0

(7.26)

gilt beziehungsweise die zugehörige Verfahrensfunktion ϕ[ r ] aus dem Schema (7.24) die Konsistenzordnung p + r besitzt. Die angestellten Bemerkungen legen es nahe, eine Funktion cq zu wählen, so dass mittels der Rekursionsvorschrift (7.23) aus einer Verfahrensfunktion ψ mit der Konsistenzordnung q eine Verfahrensfunktion ψ ∗ erzeugt wird, die die Konsistenzordnung q + 1 besitzt. Die Einzelheiten dazu werden im Folgenden vorgestellt, wobei als Erstes eine Darstellung für den zu der zugrunde liegenden Verfahrensvorschrift ϕ gehörenden lokalen Verfahrensfehler geliefert wird: Lemma 7.26 Unter den in Theorem 7.23 genannten Bedingungen gilt für den zugrunde liegenden lokalen Verfahrensfehler die Entwicklung y ( t + h ) − y ( t ) − hϕ( t, y ( t ) ; h )

=

dp+1 ( t ) hp+1 + O( hp+2 )

für h → 0,

mit einer Funktion dp+1 ∈ C r ([ a, b ], R N ), wobei die angegebenen Konvergenzraten gleichmäßig in t auftreten. B EWEIS . Die Behauptung folgt unmittelbar aus einer Taylorentwicklung der Funktion g ( h ) = y ( t + h ) − y ( t ) − hϕ( t, y ( t ) ; h ) in h = 0, y ( t + h ) − y ( t ) − hϕ( t, y ( t ) ; h ) =

p+1

d ( t )h + O( hp+2 )

=0

= dp+1 ( t )hp+1 + O( hp+2 ), da wegen der vorliegenden Konsistenzordnung q notwendigerweise d0 ( t ) = . . . = dp ( t ) = 0 (p+1) p gilt. Für die Funktion dp+1 gilt die Darstellung dp+1( t ) = y ( p+1()!t ) − p!1 ∂∂hϕp ( t, y ( t ) ; 0 ).

160

Kapitel 7 Einschrittverfahren für Anfangswertprobleme

7.5.3 Herleitung der asymptotischen Entwicklung des globalen Verfahrensfehlers, 2. Teil In Vorbereitung auf das nächste Lemma sei ψ : [ a, b ] × R N × R + → R N eine beliebige Verfahrensfunktion, die bezüglich des Anfangswertproblems y = f ( t, y ), y ( a ) = y0 die Konsistenzordnung q ≥ 1 besitzt mit der folgenden Darstellung für den lokalen Verfahrensfehler, y ( t + h ) − y ( t ) − hψ(t, y ( t ) ; h) = dq+1( t ) hq+1 + O( hq+2 )

für h → 0, (7.27)

mit einer Funktion dq+1 : [ a, b ] → R N , wobei die angegebenen Konvergenzraten gleichmäßig in t auftreten. Des Weiteren wird die Konsistenzbedingung ψ ( t, u; 0 ) = f ( t, u )

für ( t, u ) ∈ [ a, b ] × R N

(7.28)

vorausgesetzt. In allen praxisrelevanten Fällen liegt die vorausgesetzte Konsistenzordnung in der verallgemeinerten Form der Aufgabe 7.3 auf Seite 171 vor, so dass dann (7.28) automatisch erfüllt ist. ¨ In den weiteren Uberlegungen spielt das folgende Anfangswertproblem für ein inhomogenes lineares System gewöhnlicher Differenzialgleichungen eine technische Rolle, cq ( t ) = Dy f ( t, y ( t )) cq ( t ) + dq+1( t ), Hierbei bezeichnet Dy f ( t, u ) =

∂ fi ∂yj

(t, u)

N i,j=1

t ∈ [ a, b ],

cq ( a ) = 0.

(7.29)

∈ R N×N die Funktionalmatrix der Abbildung

y → f ( t, y ) an der Stelle u ∈ R N . Entsprechend wird diese Notation im Folgenden für Verfahrensfunktionen verwendet. Mit dieser Wahl der Funktion cq erhält man unter hinreichend guten Differenzierbarkeitseigenschaften der beteiligten Funktionen durch die Rekursionsvorschrift (7.23) eine Verfahrensfunktion ψ ∗ mit der Konsistenzordnung q + 1. Lemma 7.27 Eine Verfahrensfunktion ψ ∈ C 3 ([ a, b ] × R N × R + , R N ) besitze die Konsistenzordnung q ≥ 1 mit einem lokalen Verfahrensfehler von der Form (7.27), und die Konsistenzbedingung (7.28) sei erfüllt. Weiter sei dq+1 ∈ C s ([ a, b ], R N ) für ein s ≥ 1 erfüllt, und die ∂2 ψ ( ( ) ) ∂2 ψ ( ( ) ) t, y t ; 0 und t → t, y t ; 0 seien für alle Indizes i, j minAbbildungen t → ∂h∂yj ∂yi ∂yj destens ( s − 1 ) mal stetig partiell differenzierbar auf [ a, b ]. Unter diesen Voraussetzungen besitzt die Verfahrensfunktion ψ ∗ aus (7.23) mit cq ∈ C s+1 ([ a, b ], R N ) aus (7.29) die Konsistenzordnung2 q + 1. Im Fall s ≥ 2 besitzt der zugehörige lokale Verfahrensfehler η ∗ die Darstellung η ∗ ( t, h ) = dq+2 ( t ) hq+2 + O(hq+3 )

für h → 0

gleichmäßig in t, mit einer Funktion3 dq+2 ∈ C s−1( [ a, b ], R N ). 2 3

bezüglich des gleichen Anfangswertproblems y = f ( t, y ), y ( a ) = y0 Die spezielle Form von dq+2 ist im Beweis angegeben.

Abschnitt 7.5

161

Asymptotische Entwicklung der Approximationen

B EWEIS . Der lokale Verfahrensfehler bezüglich ψ ∗ besitzt die folgende Form, η ∗ ( t, h ) := y ( t + h ) − y ( t ) − hψ ∗ (t, y ( t ) ; h) =

......

=

......

− hψ(t, y ( t ) − hq cq ( t ) ; h) − − hψ(t, y ( t ) ; h)

= η( t,h )

− hR( t, h ),

mit R( t, h ) :=

cq ( t + h ) − cq ( t ) hq

−

......

ψ(t, y ( t ) − hq cq ( t ) ; h) − ψ(t, y ( t ) ; h) .

Es soll zunächst der Fall q ≥ 2 behandelt werden. Taylorentwicklungen liefern = O( hq+2 )

O( h2q ) ,

R( t, h ) = −Dy ψ(t, y ( t ) ; h)hq cq ( t ) + cq ( t + h ) − cq ( t ) =

hcq ( t )

+

1 ( ) 2 c th 2 q

+ O( h )

(7.30)

für h → 0,

3

und zur Bearbeitung der Identität (7.30) verwendet man eine weitere Taylorentwicklung, Dy ψ(t, y ( t ) ; h) = Dy ψ(t, y ( t ) ; 0) +

= Dy f ( t, y ( t )) mit der Matrix

∂ Dy ψ ( t, y ( t ) ; 0 ) = ∂h

∂ Dy ψ ( t, y ( t ) ; 0 )h + O ( h2 ) ∂h

für h → 0,

∂ ψi ( ( ) ) ( ∂h∂y t, y t ; h )i,j=1 ∈ R N N , wobei ψi die i j 2

N

×

te Kom-

ponente der vektorwertigen Funktion ψ bezeichnet. Insgesamt erhält man

= 0

η ∗ ( t, h ) = dq+1 ( t ) + Dy f ( t, y ( t ))cq ( t ) − cq ( t ) hq+1 ∂D ψ

y ( t, y ( t ) ; 0 )cq ( t ) − 12 cq ( t ) hq+2 + O(hq+3 ) + ∂h

=: dq+2 ( t )

für h → 0,

wobei die angegebenen Konvergenzraten gleichmäßig in t auftreten. Im Fall q = 1 verwendet man anstelle (7.30) die folgende Taylorentwicklung zweiter Ordnung, R( t, h ) = −Dy ψ(t, y ( t ) ; h)hc1 ( t ) +

N c1 ( t ) Dy2 ψi t, y ( t ) ; h c1 ( t ) i=1 h2 + O(h3 )

=Dy2 ψi ( t,y ( t ) ; 0 )+O( h )

∂ 2 ψi ( ( ) ) N für h → 0, mit der Hessematrix Dy2 ψi t, y ( t ) ; h = ( t, y t ; h )k,l=1, wobei ψi die i ∂yk ∂yl te Komponente von ψ bezeichnet. Man erhält so die Darstellung =: d3 ( t )

N

∂ D ψ y ( t, y ( t ) ; 0 )c1 ( t ) − 1 c1 ( t ) h3 c1 ( t )Dy2 ψi (t, y ( t ) ; 0)c1 ( t ) η ∗ ( t, h ) = + 2 i=1

∂h

+ O(h4 ) wobei die angegebenen Konvergenzraten gleichmäßig in t auftreten.

für h → 0,

162

Kapitel 7 Einschrittverfahren für Anfangswertprobleme

Es sind nun alle Hilfsmittel zur Komplettierung des Beweises des Theorems u¨ ber die asymptotische Entwicklung des globalen Verfahrensfehlers zusammengestellt: B EWEIS VON T HEOREM 7.23. Die Aussage des Theorems folgt unmittelbar aus den in Bemerkung 7.25 angestellten Vorüberlegungen, wobei noch für jede Anwendung von Lemma 7.27 dessen Voraussetzungen nachzuprüfen sind, was im Folgenden geschieht. Es ist so, dass mit der Verfahrensfunktion ϕ auch jede der in (7.24) betrachteten Funktionen ϕ[ s ] der Stabilitätsbedingung (7.10) genügt. Weiter gelten die Identitäten f ( t, u ) = ϕ( t, u; 0 ) = ϕ[ 1 ] ( t, u; 0 ) = . . . = ϕ[ r−1 ] ( t, u; 0 ) sowie ∂ 2 ϕ[ 1 ] ∂ 2 ϕ[ r−1 ] ( t, u; 0 ) = . . . = ( t, u; 0 ) ∂h∂yj ∂h∂yj ⎧ 2 ∂ ϕ ⎪ ⎪ , ⎨ ∂h∂yj ( t, u; 0 ) N = ∂2 ϕ ⎪ ⎪ ( t, u; 0 ), ........ − ⎩ ∂yi ∂yj

falls p ≥ 2, ......

p = 1,

i=1

so dass Lemma 7.27 tatsächlich jeweils anwendbar ist. Theorem 7.23 ist damit vollständig bewiesen.

7.5.4 Asymptotische Entwicklungen des lokalen Verfahrensfehlers Es werden nun die vorgestellten asymptotische Entwicklungen des globalen Verfahrensfehlers zur Gewinnung von Verfahren höherer Ordnung eingesetzt. Zuvor wird noch eine asymptotische Entwicklung für den lokalen Verfahrensfehler angegeben, die sich bei der Konstruktion von Schrittweitensteuerungen verwenden lässt: Theorem 7.28 Unter den Bedingungen von Theorem 7.23 gilt für jede fixierte Zahl ∈ N die folgende Entwicklung für den lokalen Verfahrensfehler4: uh ( a + h ) = y ( a + h ) + bp+1 hp+1 + bp+2 hp+2 + . . . + bp+r−1 hp+r−1 + O( hp+r ) (7.31) = u für h > 0, mit gewissen von der Zahl abhängenden vektoriellen Koeffizienten bp+1 , . . . , bp+r−1 ∈ RN . B EWEIS . Aus Theorem 7.23 erhält man unter Verwendung der Taylorentwicklungen cp+j ( a + h ) =

r−j−1 k=1

4

k) (a) c(p+j

( h )k k!

+ O( hr−j )

für j = 0, 1, . . . , r − 1

Anders als bei der asymptotischen Entwicklung des globalen Verfahrensfehlers hängt die betrachte Stelle hier von h ab.

Abschnitt 7.6

163

Extrapolationsmethoden für Einschrittverfahren

unmittelbar die Aussage des Theorems, uh ( a + h ) = y ( a + h ) +

r−1

cp+j ( a + h )hp+j + O( hp+r )

j=0

= y ( a + h ) +

r−1 s=1

s k=1

k) (a) c(p+s−k

=: bp+s

k p+s h + O( hp+r ). k!

7.6 Extrapolationsmethoden fur ¨ Einschrittverfahren Im Folgenden wird ein Einschrittverfahren (7.19)5 mit der Konsistenzordnung p ≥ 1 und einer asymptotischen Entwicklung von der Form6 uh ( t ) = y ( t ) + cp ( t )hp + cp+1( t )hp+1 + . . . + cp+r−1( t )hp+r−1 + O( hp+r ) herangezogen. Bei fixiertem t ∈ [ a, b ] werden Extrapolationsverfahren für h → 0 betrachtet mit dem Ziel der Gewinnung von Verfahren höherer Ordnung. Zur Approximation von y ( t ) betrachte man für eine feste Stelle t ∈ [ a, b ] zu Schrittweiten h[0] > h[1] > . . . aus H t (siehe (7.20)) und einer Zahl 0 ≤ m ≤ r das vektorwertige Polynom P0,... ,m von der Form P0,... ,m ( h ) = d0 + dp hp + dp+1 hp+1 + . . . + dp+m−1 hp+m−1 ,

h ∈ R, (7.32)

mit vektoriellen Koeffizienten d0 , dp , dp+1, . . . , dp+m−1 ∈ R N , wobei diese m + 1 Koeffizienten so zu bestimmen sind, dass die m + 1 Interpolationsbedingungen P0,...,m (h[k] ) = uh[k] ( t )

für k = 0, 1, . . . , m,

(7.33)

erfüllt sind. Die betrachteten Schrittweiten seien dabei so gewählt, dass bezüglich einer Grundschrittweite h ∈ H t Folgendes gilt, h[k] = h/nk

für k = 0, 1, . . . ,

mit 1 ≤ n0 ≤ n1 ≤ . . . .

(7.34)

Als Näherung für y ( t ) wird P0,...,m ( 0 ) herangezogen. Durch diese Extrapolation nach h → 0 erhält man ein Verfahren der Ordnung p + m, es gilt P0,...,m ( 0 ) = y ( t ) + O( hp+m ). Die genauen Approximationseigenschaften sind in dem folgenden Theorem angegeben. Theorem 7.29 Gegeben sei ein Einschrittverfahren (7.19)5 mit einer asymptotischen Entwicklung von der Form (7.22). In der Situation (7.34) gilt für das (existierende und eindeutig bestimmte) Polynom P0,...,m von der Form (7.32) mit der Interpolationseigenschaft (7.33) die folgende Fehlerdarstellung P0,...,m ( 0 ) = y ( t ) +

p+r−1

Bs cs ( t ) hs + O( hp+r ),

s=p+m

mit von t und h unabhängigen Matrizen Bp+m , . . . , Bp+r−1 ∈ R N×N . 5 6

zur approximativen Bestimmung der Lösung des Anfangswertproblems y = f ( t, y ), y ( a ) = y0 siehe (7.22)

(7.35)

164

Kapitel 7 Einschrittverfahren für Anfangswertprobleme

B EWEIS . Der Beweis wird zunächst für den eindimensionalen Fall (N = 1) geführt. Die Menge der Polynome von der Form (7.32) stimmt (für N = 1) u¨ berein mit {P ∈ Πp+m−1 : P (ν ) ( 0 ) = 0 für ν = 1, 2, . . . , p − 1}, und die angegebene Existenz und Eindeutigkeit folgt dann aus der des Hermiteschen Interpolationsproblems, vergleiche Aufgabe 1.3 auf Seite 17. Im Folgenden wird die angegebene Fehlerdarstellung für P0,...,m ( 0 ) − y ( t ) = d0 − y ( t ) hergeleitet. Hierzu schreibt man die Interpolationsbedingungen (7.33) in Form eines linearen Gleichungssystems

⎛

⎞⎛

⎜1 ⎜ ⎜ ⎜ ⎜1 ⎜ ⎜ ⎜ ⎜ pp ⎜p ⎜ ⎜ ⎝ 1

1/np0

1/np+1 0

1/np1

1/np+1 1

pp p

pp p

1/npm

p p p 1/np+m−1 ⎟ ⎜ 0

⎞ d0

⎟⎜ ⎟⎜ ⎟⎜ hp dp p p p 1/np+m−1 ⎟ ⎜ ⎟⎜ 1 ⎟ ⎜ hp+1 d ⎟⎜ p+1 ⎟⎜ pp ⎟⎜ p ppp ⎟⎜ ⎟⎜ ⎠⎝ p p p 1/np+m−1 hp+m−1 dp+m−1 m

1/np+1 m

=: Am ∈ R (m+1)×( m+1)

⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠

⎛

=

⎞

⎜ uh[0] ( t ) ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ u (t) ⎟ ⎜ h[1] ⎟ ⎜ ⎟, ⎜ ⎟ p ⎜ ⎟ p p ⎜ ⎟ ⎜ ⎟ ⎝ ⎠ uh[m] ( t )

(7.36)

wobei die auftretende Matrix wegen der Eindeutigkeit des Polynoms P0,...,m regulär ist. Auf der anderen Seite führt eine Auswertung der asymptotischen Entwicklung (7.22) an den Stellen h[0] , h[1] , . . . , h[m] in Matrix Vektor Darstellung auf Folgendes,

= Am

⎛ 1/np0

⎜1 ⎜ ⎜ ⎜ ⎜ 1 1/np ⎜ 1 ⎜ ⎜ ⎜ pp pp ⎜p p ⎜ ⎜ ⎝ 1 1/npm

1/np+1 0 1/np+1 1 pp p

1/np+1 m

⎞⎛

⎞

⎞ ⎛ ⎟ ( ) t u h ⎟⎜ ⎟ ⎜ [0] ⎟ ⎟ ⎟⎜ ⎟ ⎜ ( t )hp ⎟ ⎟ ⎟ ⎜ ⎜ c p ⎟ ⎜ u (t) ⎟ p p p 1/np+m−1 ⎟ ⎜ ⎟⎜ ⎟ ⎜ h[1] ⎟ 1 ⎟ − rh ( t ),(7.37) ⎟ ⎜ c ( t )hp+1 ⎟ = ⎜ ⎟ p+1 ⎟⎜ ⎟ ⎜ p ⎟ ⎟⎜ ⎟ ⎜ pp p p ⎟ ⎟ ⎟ ⎜ ⎜ p pp ⎟ ⎟⎜ ⎟ ⎜ p ⎟⎜ ⎟ ⎠ ⎝ ⎠⎝ ⎠ ( ) u t p+m−1 h[m] p p p 1/n cp+m−1 ( t )hp+m+1 m ⎛ ⎞ 1/ns0 ⎜ ⎟ p+r−1 ⎜ 1/ns1 ⎟ s p+r ⎜ ⎟ ( ) mit rh t := ⎜ ppp ⎟ cs ( t ) h + O( h ), ⎠ s=p+m ⎝ 1/nsm ppp

1/np+m−1 ⎟⎜ 0

y(t)

Abschnitt 7.6

165

Extrapolationsmethoden für Einschrittverfahren

mit der gleichen Matrix wie in (7.36). Subtrahiert man nun das System (7.37) von dem Gleichungssystem (7.36), so führt dies auf ⎞⎛

⎛ ⎜1 ⎜ ⎜ ⎜ ⎜1 ⎜ ⎜ ⎜ ⎜ pp ⎜p ⎜ ⎜ ⎝ 1

ppp

1/np0

1/np+1 0

1/np1

1/np+1 1

pp p

pp p

1/npm

1/np+1 m

= Am

1/np+m−1 ⎟⎜ 0

⎞ d0 − y ( t )

⎟ ⎟⎜ ⎟ ⎟⎜ ⎟ ( t ) )hp ⎟ ⎜ ⎟ (d − c p p p+m−1 ⎟ ⎜ ⎟ p p p 1/n ⎟⎜ ⎟ 1 ⎟⎜ ⎟ = rh ( t ). (7.38) p+1 (dp+1 − cp+1 ( t ) )h ⎟⎜ ⎟ ⎟⎜ ⎟ pp ⎟⎜ ⎟ p p pp ⎟⎜ ⎟ ⎟⎜ ⎟ ⎠⎝ ⎠ p p p 1/np+m−1 (dp+m−1 − cp+m−1 ( t ) )hp+m+1 m

Multipliziert man noch A−1 uhrt eine Betrachtung der ersten Gleichung m auf beiden Seiten, so f¨ des entstehenden Systems für den eindimensionalen Fall N = 1 auf die Behauptung (unter Beachtung der Unabhängigkeit der Matrix Am von h und t). Im allgemeinen Fall N ≥ 1 sind in der Matrix Am und in den in rh auftretenden Vektoren die skalaren Einträge 1/nqj ∈ R jeweils durch die Matrizen (1/nqj )I ∈ R N×N zu ersetzen, ansonsten bleibt die Argumentation die Gleiche. Bemerkung 7.30 (a) Im Fall einer Konsistenzordnung p = 1 und der eindimensionalen Situation N = 1 ist die Aussage von Theorem 7.29 eine unmittelbare Konsequenz aus Theorem 6.26 in Kapitel 6 u¨ ber numerische Integration. (b) Die in dem genannten Kapitel 6 angegebenen speziellen Unterteilungsfolgen lassen sich auch als Schrittweiten h[0] > h[1] > . . . verwenden. Beispiel 7.31 Mit den genannten Bezeichnungen wird nun der Spezialfall der Konsistenzordnung p = 1 und die Schrittweiten h[0] = h, h[1] = h/2, h[2] = h/4 betrachtet mit der typischerweise kleinen Grundschrittweite h > 0. Man erhält dann die Fehlerdarstellung P012 ( 0 ) = y ( t ) + O( h3 ), mit einem kubisch in h fallenden Fehler. Der erforderliche Aufwand zur Berechnung von P012 (0) entsprechend dem Neville Schema (1.7) auf Seite 6 dagegen beträgt n + 2n + 4n = 7n = O( 1/h ) Schritte des vorliegenden Einschrittverfahrens, so dass der dafür erforderliche Aufwand lediglich linear in n = O( 1/h ) wächst. Beispiel 7.32 In der speziellen Situation uh ( t ) = y ( t ) + cp ( t )hp + cp+1( t )hp+1 + O( hp+2 ) für h → 0 und h[0] = h, h[1] = h/n1 berechnet sich der Wert P01 ( 0 ) zu P01 ( 0 ) = uh/n1 ( t ) +

uh/n1 ( t ) − uh ( t ) , np1 − 1

was man wahlweise mit dem Neville-Schema (1.7) oder u¨ ber das Gleichungssystem (7.36) im Beweis von Theorem 7.29 erhält. Das Gleichungssystem (7.38) aus dem angesprochenen Beweis

166

Kapitel 7 Einschrittverfahren für Anfangswertprobleme

liefert die Fehlerdarstellung P01 ( 0 ) = y ( t ) − βcp+1( t ) hp+1 + O( hp+2 ) mit dem Koeffizienten β := ( 1 −1/n1 )/( np1 −1 ), Details werden hier nicht ausgeführt (Aufgabe 7.10 auf Seite 172). Für die nachfolgenden Betrachtungen u¨ ber Schrittweitensteuerungen wird hier noch der Spezialfall t = a+ h mit fixiertem ∈ N genauer untersucht. Eine Taylorentwicklung der Funktion cp+1 im Punkt t = a liefert wegen der Identität cp+1( a ) = 0 die Abschätzung cp+1 ( a + h ) = O( h ) und somit P01 ( 0 ) = y ( a + h ) + O( hp+2 )

für h → 0.

7.7 Schrittweitensteuerung 7.7.1 Verfahrensvorschrift Zur Lösung des Anfangswertproblems y = f ( t, y ), y ( a ) = y0 wird für eine gegebene Verfahrensfunktion ϕ : [ a, b ] × R N × R + → R N mit der Konsistenzordnung p ≥ 1 die folgende Vorschrift herangezogen, w = u + u+1 = w +

h ϕ( t , u ; h2 ), 2 h ϕ( t 2

+

h , w ; h2 2

),

t+1 := t + h ,

= 0, 1, . . . .

(7.39)

Im Folgenden wird eine adaptive Wahl der Schrittweiten h vorgestellt mit dem Ziel einer effizienten Fehlerkontrolle. Einführende Erläuterungen hierzu findet man im folgenden Abschnitt 7.7.2, und in den nachfolgenden Abschnitten 7.7.3 und 7.7.4 wird die genaue Vorgehensweise zur Wahl der Schrittweiten h beschrieben. Bemerkung 7.33 Der Schritt ( t , u ) → ( t+1 , u+1 ) in der Verfahrensvorschrift (7.39) entspricht zwei Schritten ( t , u ) → ( t+1/2 , u+1/2 ) → ( t+1 , u+1 ) des Einschrittverfahrens (7.8) mit halber Schrittweite h /2. Diese Approximation u+1 ≈ y ( t+1 ) ∈ R N wird für eine Fehlerschätzung benötigt, daher kann man auch gleich die Verfahrensvorschrift (7.39) anstelle des ursprünglichen Einschrittverfahrens (7.8) verwenden.

7.7.2 Problemstellung Im Folgenden soll ausgehend von einer gegebenen Stelle t ∈ [ a, b ] und einer gegebenen Approximation u ≈ y ( t ) ∈ R N eine Schrittweite h > 0 bestimmt werden, für die ||u+1 − z ( t + h ) || ≈ ε

(7.40)

Abschnitt 7.7

167

Schrittweitensteuerung

erfüllt ist, wobei u+1 ∈ R N aus einem Schritt des gegenwärtig betrachteten Verfahrens (7.39) hervorgeht und ε > 0 eine vorgegebene Fehlerschranke darstellt, und z : [ t , b ] → R N bezeichnet die Lösung des Anfangswertproblems z = f ( t, z ),

t ∈ [ t , b ];

z ( t ) = u .

(7.41)

Weiter bezeichnet || · || in (7.40) eine nicht näher spezifizierte Vektornorm. Bemerkung 7.34 (a) Die Forderung (7.40) zeigt, dass die noch zu beschreibende Schrittweitensteuerung auf einer Vorgabe des lokalen Verfahrensfehlers beruht. Damit erhofft man sich ein vernünftiges Verhalten des globalen Verfahrensfehlers. (b) Die Forderung (7.40) stellt man aus den folgenden Gründen: •

•

der lokale Verfahrensfehler ||u+1 − z ( t + h ) || soll die vorgegebene Schranke ε nicht u¨ bersteigen. Dies wird durch die Wahl einer hinreichend kleinen Schrittweite h erreicht. Aus Effizienzgründen und zur Vermeidung der Akkumulation von Rundungsfehlern wird man die Schrittweite h jedoch nicht so klein wählen wollen, dass ||u+1 − z ( t + h ) || ε gilt.

(c) Zu beachten ist zudem, dass die Lösung des Anfangswertproblems (7.41) nicht bekannt ist und erst noch numerisch zu bestimmen ist. Zur Vereinfachung der Notation führen wir die folgende Bezeichnung für einen von dem Punkt ( t , u ) ausgehenden Schritt der Verfahrensvorschrift (7.39) mit Länge h ein,

u2×h/2 := w +

h ϕ(t 2

+ h2 , w ; h2 )

mit w = u +

h ϕ(t , u ; h2 ). 2

(7.42)

Zur Bestimmung einer Schrittweite h , für die die Forderung (7.40) ungefähr erfüllt ist, wird ausgehend von einer nicht zu kleinen Startschrittweite h(0) für k = 0, 1 . . ., so vorgegangen: • •

•

Zunächst berechnet man u2×h(k) /2 .

Anschließend ermittelt man eine Schätzung für den Fehler u2×h(k) /2 − z ( t + h(k) ) und bricht den Iterationsprozess mit kε := k ab, falls diese Schätzung kleiner gleich ε ausfällt. Andernfalls, falls diese Schätzung größer als ε ist, wird eine neue Testschrittweite h(k+1) < h(k) bestimmt.

Abschließend verfährt man mit h = h(kε ) und t+1 = t + h(kε ) fort. Einzelheiten zu der genannten Fehlerschätzung und der Bestimmung einer neuen Testschrittweite werden in den nachfolgenden Abschnitten 7.7.3– 7.7.4 beschrieben.

7.7.3 Vorgehensweise bei gegebener Testschrittweite h(k) Für eine Testschrittweite h(k) > 0, k ∈ N0 , bestimmt man entsprechend einem Schritt der ¨ Verfahrensvorschrift (7.42) den Vektor u2×h(k) /2 ∈ R N . Anschließend wird zur Uberpr¨ ufung der

168

Kapitel 7 Einschrittverfahren für Anfangswertprobleme

Eigenschaft u2×h(k) /2 − z ( t + h(k) ) ≈ ε der Wert z ( t + h(k) ) durch zh(k) ∈ R N geschätzt, wobei zh := u2×h/2 −

vh − u2×h/2 2p − 1

mit vh := u + hϕ( t , u ; h ),

h > 0.

(7.43)

Dabei erhält man die Approximation (7.43) mittels lokaler Extrapolation entsprechend Beispiel 7.32 mit n1 = 2. Der Fehler u2×h(k) /2 − z ( t + h(k) ) berechnet sich dann näherungsweise zu δ (k) := ||u2×h(k) /2 − zh(k) ||

=

||vh(k) − u2×h(k) /2 || . 2p − 1

(7.44)

Ist dann die Abschätzung δ (k) ≤ ε erfüllt, so gibt man sich (vergleiche (7.40) mit t+1 = t + h(k) ) mit der Schrittweite h = h(k) zufrieden und verfährt wie in Abschnitt 7.7.2 beschrieben fort (mit um eins erhöht). Die vorliegende Situation ist in Bild 7.4 veranschaulicht. ...... ........ . ....

z( t )

↑| ε ↓|

.......... ...................... .................. ............... .............. ............ ............ . . . . . . . . . . ........ ......... (k−1) ......... ........ ........ ........ (k) ....... . . . . . . ....... . . . . . . ..... ...... ...... ...... ..... ...... ...... . . . (k) . . .... ..... (k−1) ..... ..... ..... . . . . . ..... . . . ..

zh

zh

u2×h

/2

u2×h

/2

u

t

t+1 = t + h(k)

t + h(k−1)

..........................

Bild 7.4 Illustration zur Schrittweitensteuerung

7.7.4 Bestimmung einer neuen Testschrittweite h(k+1) im Fall δ (k) > ε Gilt mit der Notation aus (7.44) jedoch δ (k) > ε, so wiederholt man die in Abschnitt 7.7.3 vorgestellte Vorgehensweise mit k um eins erhöht, mit einer neuen Testschrittweite h(k+1) < h(k) . Bei der Festlegung einer solchen neuen Testschrittweite h(k+1) bedient man sich einer näherungsweisen Darstellung des Fehlers u2×h/2 − z ( t + h ): Lemma 7.35 Mit den Notationen (7.41) (7.44) gilt unter den Bedingungen von Theorem 7.23 u¨ ber die Asymptotik des globalen Verfahrensfehlers (dort für r = 2) Folgendes, h p+1 u2×h/2 − z ( t + h ) = δ (k) + O (h(k) )p+2 , 0 < h ≤ h(k) . (7.45) h(k)

Gilt also h(k) ε1/(p+2) , so gewinnt man aus der Darstellung (7.45) unter Vernachlässigung des Restglieds die neue Testschrittweite ε 1/(p+1) h(k+1) := h(k) (7.46) δ (k)

Abschnitt 7.7

169

Schrittweitensteuerung

und wiederholt damit die Vorgehensweise in Abschnitt 7.7.3, mit k um eins erhöht. B EWEIS VON L EMMA 7.35. Gemäß Theorem 7.28 existiert ein von h unabhängiger Vektor bp+1 ∈ R N mit u2×h/2 − z ( t + h )

=

bp+1 hp+1 + O( hp+2 ),

h > 0,

(7.47)

und im Folgenden wird eine Approximation für bp+1 geliefert. Mithilfe von Beispiel 7.32 erhält man mit zh aus (7.43) Folgendes, zh − z ( t + h ) = O( hp+2 ), und dies eingesetzt in (7.47) führt auf u2×h/2 − zh

=

bp+1 hp+1 + O( hp+2 ).

(7.48)

Wegen der Identität δ (k) = u2×h(k) /2 − zh(k) bedeutet die Darstellung (7.48) insbesondere ||bp+1 ||( h(k) )p+1 = δ (k) + O( ( h(k) )p+2 ) beziehungsweise ||bp+1 ||

=

δ (k) ( h(k) )p+1

+ O( h(k) ).

(7.49)

Die Darstellung (7.49) eingesetzt in (7.47) liefert die Aussage des Lemmas, u2×h/2 − z ( t + h )

= =

h p+1 δ (k) + O(h(k) )hp+1 + O( hp+2 ) h(k) ......

+ O( ( h(k) )p+2 ),

0 < h ≤ h(k) .

Bemerkung 7.36 ( 1 ) Für den Startschritt empfiehlt sich eine Wahl h(0) = εq mit einer Konstanten 1 < q < 1/( p + 2 ). ( 2 ) Zur der in diesem Abschnitt 7.7 vorgestellten Schrittweitenstrategie existieren Alternativen. Ebenfalls sinnvoll ist zum Beispiel ein Abbruchkriterium der Form c1 ε ≤ δ (kε ) ≤ c2 ε. Ist diese Bedingung etwa für ein k noch nicht erfüllt, so setzt man h(k+1) entsprechend (7.46), wobei hier eine Schrittweitenvergrößerung h(k+1) > h(k) eintreten kann. ( 3 ) Nicht behandelt wird hier die Frage, ob das in diesem Abschnitt 7.7 beschriebene Abbruch-

kriterium nach einer endlichen Wahl von Versuchsschrittweiten abbricht oder nicht (beziehungsweise ob kε < ∞ gilt).

7.7.5 Pseudocode zur Schrittweitensteuerung Die in Abschnitt 7.7 beschriebene Vorgehensweise wird abschließend in Form eines Pseudocodes zusammengefasst, wobei wieder ϕ : [ a, b ] × R N × R + → R N eine Verfahrensfunktion der Konsistenzordnung p ≥ 1 zur Lösung des Anfangswertproblems (7.1) (7.2) ist.

170

Kapitel 7 Einschrittverfahren für Anfangswertprobleme

Algorithmus 7.37 Seien

t0 = a,

u0 = y0 ,

= 0,

h(0) > 0,

ε > 0.

k = 0;

repeat repeat

if k = 0 w = u +

then h = h(0) h ( ϕ t , u ; h2 ); 2

else h = u+1 = w +

v = u + hϕ( t , u ; h );

δ =

ε 1/( p+1) δ h ( ϕ t 2

||v − u+1 || ; 2p − 1

h

end;

+ h2 , w ; h2 ); k = k + 1;

until δ ≤ ε; t+1 = t + h;

= + 1;

until t ≥ b;

Weitere Themen und Literaturhinweise Die Theorie der Anfangswertprobleme für gewöhnliche Differenzialgleichungssysteme wird beispielsweise in Heuser [51] und in Dallmann/Elster [14] einführend behandelt, und eine Auswahl existierender Literatur u¨ ber Einschrittverfahren zur numerischen Lösung solcher Probleme bildet Deuflhard/Bornemann [20], Grigorieff [38], Hairer / Nørsett /Wanner [47], Kress [60], Strehmel/Weiner [98], Stoer/Bulirsch [96] und Weller [106]. Insbesondere in [20], [47] und [98] findet man auch weitergehende Ausführungen u¨ ber die hier nur beiläufig behandelten Runge Kutta Verfahren. In März [65] und in [98] findet man Einführungen u¨ ber die hier nicht behandelten Algebro Differenzialgleichungssysteme, bei denen es sich um spezielle implizite Differenzialgleichungssysteme von der Form f ( t, y ( t ), y ( t )) = 0 handelt.

¨ Ubungsaufgaben Aufgabe 7.1 Man forme das Anfangswertproblem y1 = t2 − y1 − y22 , y2 = t + y2 + y13 , y1 ( 0 ) = 0,

y2 ( 0 ) = 1,

y1 ( 0 ) = 1

y2 ( 0 ) = 0

in ein Anfangswertproblem für ein System erster Ordnung um. Aufgabe 7.2 (a) Für das Anfangswertproblem y = (1 + |y |)−1

auf [ 0, b ],

weise man Existenz und Eindeutigkeit der Lösung nach.

y ( 0 ) = y0 ,

(7.50)

¨ Ubungsaufgaben

171

(b) Seien y und v Lösungen der Differenzialgleichung in (7.50) mit den Anfangswerten y ( 0 ) = y0 beziehungsweise v(0) = v0 . Man weise Folgendes nach, |y ( t ) − v ( t ) |

≤

e| t| |y0 − v0 |

für t ∈ [ 0, b ].

Aufgabe 7.3 Für ein Einschrittverfahren (7.8) zur Lösung des Anfangswertproblems y = f ( t, y ), y ( a ) = y0 lässt sich der lokale Verfahrensfehler allgemeiner auch für beliebige Punkte ( t, y ) ∈ [ a, b ] × R N definieren, η ( t, h ) := y + hϕ( t, y ; h ) − z ( t + h ),

0 ≤ h ≤ b − t,

wobei z : [ t, b ] → R N die Lösung des Anfangswertproblems z = f ( s, z ), s ∈ [ t, b ] mit Anfangswert z ( t ) = y bezeichnet. Entsprechend lässt sich der Begriff Konsistenzordnung p ≥ 1 aus Definition 7.9 für beliebige Punkte (t, y ) ∈ [ a, b ] × R N verallgemeinern. Man zeige: Für jedes Einschrittverfahren (7.8) zur Lösung des Anfangswertproblems y = f ( t, y ), y ( a ) = y0 mit einer verallgemeinerten Konsistenzordnung p ≥ 1 gilt die Konsistenzbedingung ϕ( t, y ; 0 )

=

f ( t, y )

für ( t, y ) ∈ [ a, b ] × R N .

Aufgabe 7.4 Man betrachte das Anfangswertproblem y = g( t ),

t ∈ [ a, b ],

(7.51)

y ( a ) = 0,

(7.52)

mit einer gegebenen hinreichend glatten Funktion g : [ a, b ] → R. Wendet man das Euler Verfahren mit konstanter Schrittweite h = ( b − a )/N auf das Anfangswertproblem (7.51) (7.52) an, so erhält man eine Z b

g( t ) dt. Gleiches gilt für das Verfahren von Heun. Man gebe beide Näherungsformel für das Integral a Nährungsformeln für das Integral sowie jeweils obere Schranken für den von der Zahl h abhängenden Integrationsfehler an. Aufgabe 7.5 Gegeben sei das Anfangswertproblem y = t − t3 ,

y ( 0 ) = 0.

Zur Schrittweite h sollen mit dem Euler Verfahren Näherungswerte u für y ( t ), t = h, berechnet werden. Man gebe y ( t ) und u explizit an und zeige, dass an jeder Stelle t der Fehler eh ( t ) = uh ( t ) − y ( t ) für h = t/n → 0 gegen Null konvergiert. Aufgabe 7.6 (Numerische Aufgabe) Man löse die van der Pol’sche Differenzialgleichung y − λ( 1 − y 2 )y + y = 0,

y ( 0 ) = 2,

y ( 0 ) = 0

für λ = 0 und λ = 12 numerisch jeweils mit dem Euler Verfahren, dem modifizierten Euler Verfahren sowie dem klassischen Runge Kutta Verfahren. Dabei verwende man jeweils einmal die konstante Schrittweite h = 0.025 und einmal die konstante Schrittweite h = 0.0025 und gebe tabellarisch die Näherungswerte an den Gitterpunkten t = 0.5, 1.0, 1.5, . . . , 15, an. Aufgabe 7.7 (Taylor Verfahren ) Für eine p fach differenzierbare Funktion f : [ a, b ] × R → R mit p ∈ N sei f (0) := f und

172

Kapitel 7 Einschrittverfahren für Anfangswertprobleme f [j ] :=

∂ f [j−1] ∂ f [j−1] + f ∂t ∂y

für j = 1, 2, . . . , p.

Zur Lösung des Anfangswertproblems y = f ( t, y ), y ( a ) = y0 ist dann u¨ ber die Verfahrensfunktion ϕ( t, y ; h ) :=

p hj−1 (j−1) ( t, y ) f j!

(7.53)

j=1

ein Einschrittverfahren u+1 = u + hϕ( t , u ; h ) der Ordnung p definiert. Nun zur Aufgabenstellung. Gegeben sei das Anfangswertproblem y = 1 − y

auf [ 0, 1 ],

y(0) = 0.

(7.54)

(a) Man bestimme für jede Zahl p ∈ N die zugehörige Verfahrensfunktion ϕ. (b) Man löse das Anfangswertproblem (7.54) für p = 2 und h = 1/n näherungsweise mit dem zur Verfahrensfunktion (7.53) gehörenden Einschrittverfahren und schätze den Fehler bei b = 1 ab. Aufgabe 7.8 Man zeige, dass das durch die Verfahrensfunktion ϕ( t, y ; h ) = k1 = f ( t, y ),

1 (k + 4k2 + k3 ), 6 1

k2 = f ( t +

h 2,y

+

h ) 2 k1 ,

k3 = f ( t + h, y + h( − k1 + 2k2 )),

gegebene Einschrittverfahren (einfache Kutta Regel) die Konvergenzordnung p = 3 besitzt. Aufgabe 7.9 Zur Lösung des Anfangswertproblems y = f ( t, y ), y ( a ) = y0 sei für jedes p > 0 ein Einschrittverfahren p ter Ordnung gegeben, welches für jeden Schritt die Rechenzeit pT0 benötigt und in t = b den Wert der gesuchten Funktion approximiert mit einem Fehler Khp . Die Konstanten K und T0 sollen vom jeweiligen Verfahren unabhängig sein. Man bestimme für p und einen vorgeschriebenen Fehler ε ≤ K in t = b die größtmögliche Schrittweite h = h(p, ε) und die zugehörige Gesamtrechenzeit T = T (p, ε). Wie verhält sich T in Abhängigkeit von p und welches ist die optimale Konsistenzordnung popt = popt (ε)? Wie verhält sich popt in Abhängigkeit von ε? Der Einfachheit halber sei angenommen, dass die Zahlen p und N (wobei der Zusammenhang h = ( b − a )/N besteht) reell gewählt werden dürfen. Aufgabe 7.10 Man weise die in Beispiel 7.32 getroffenen Aussagen nach. Aufgabe 7.11 (Numerische Aufgabe) Man löse numerisch die Differenzialgleichung y = −200t y 2 ,

t ≥ −3,

y ( –3 ) =

1 , 901

mit dem Standard Runge Kutta Verfahren der Ordnung p = 4 unter Verwendung der in Abschnitt 7.7 beschriebenen Schrittweitensteuerung. Zur Berechnung jeder neuen Schrittweite h starte man mit h(0) = h−1 (beziehungsweise im Fall k = 0 mit h(0) := 0.02) und korrigiere gemäß Abschnitt 7.7 solange, bis (siehe Bemerkung 7.36) ε/3 ≤ δ(k) ≤ 3ε oder k = 20 erfüllt ist, wobei ε = 10−7 gilt. Für = 1, 2, . . . , 50 gebe man jeweils die Näherungswerte in t sowie y ( t ), h−1 und die Anzahl der Versuche k zur Bestimmung der Schrittweite h an.

173

8

Mehrschrittverfahren fur ¨ Anfangswertprobleme bei gewöhnlichen Differenzialgleichungen

Mit den in diesem Kapitel behandelten Mehrschrittverfahren zur näherungsweisen Bestimmung einer Lösung des Anfangswertproblems (7.1) (7.2) (in Kurzschreibweise y = f ( t, y ), y ( a ) = y0 ) erhält man auf einfache Weise Verfahren höherer Konvergenzordnung.

8.1 Grundlegende Begriffe 8.1.1 Mehrschrittverfahren Definition 8.1 Ein m Schrittverfahren zur näherungsweisen Bestimmung einer Lösung des Anfangswertproblems y = f ( t, y ), y ( a ) = y0 besitzt auf einem a¨ quidistantem Gitter die Form m

αj u+j = hϕ(t , u , . . . , u+m ; h),

= 0, 1, . . . , n − m,

(8.1)

j=0

mit •

Koeffizienten αj ∈ R mit αm = 0 und einer Funktion ϕ : [ a, b ] × (R N )m+1 × R + → R N ,

•

Gitterpunkten beziehungsweise Schrittweiten t = a + h

•

(8.2)

für = 0, 1, . . . , n,

mit h =

b−a , n

(8.3)

nicht näher spezifizierten Startwerten u0 , . . . , um−1 ∈ R N .

Ein m Schrittverfahren bezeichnet man allgemeiner auch als Mehrschrittverfahren. ¨ Bemerkung 8.2 (a) Ublicherweise setzt man u0 := y0 , und die weiteren Startwerte u1 , u2 , . . . , N um−1 ∈ R sind in einer Anlaufrechnung zu ermitteln. (b) Nach der Anlaufrechnung wird für jedes ∈ {0, 1, . . . , n − m} so verfahren, dass aus den dann bereits bestimmten Näherungen u , . . . , u+m−1 ∈ R N gemäß der Verfahrensvorschrift (8.1) die Näherung u+m ∈ R N berechnet wird mit der Zielsetzung u+m ≈ y ( t+m ). Hier bezeichnet y : [ a, b ] → R N die Lösung des Anfangswertproblems y = f ( t, y ), y ( a ) = y0 .

174

Kapitel 8 Mehrschrittverfahren für Anfangswertprobleme

(c) Wie schon bei den Einschrittverfahren wird zwecks einer vereinfachten Notation der Definitionsbereich einer Funktion ϕ immer wie in (8.2) angegeben, obwohl bei den meisten noch vorzustellenden speziellen m Schrittverfahren der Ausdruck ϕ(t, v0 , . . . , vm−1 ; h) lediglich für Schrittweiten h ≤ ( b − t )/m wohldefiniert ist. (d) Hängt in der Verfahrensvorschrift (8.1) die rechte Seite tatsächlich von der Unbekannten u+m ab, so spricht man von einem impliziten m Schrittverfahren. Ist andererseits die Funktion ϕ unabhängig von u+m, so liegt ein explizites m Schrittverfahren vor. (e) Auf variablen Gittern, die hier nicht weiter behandelt werden, sind m Schrittverfahren von der Form m = 0, 1, . . . , n − m. αj u+j = h+m ϕ t , . . . , t+m , u , . . . , u+m ; h+m , j=0

(f) Ist in der Verfahrensvorschrift (8.1) die Funktion ϕ von der speziellen Form ϕ(t, v0 , . . . , vm ; h)

=

m

βj f ( t + jh, vj ),

j=0

so wird (8.1) als lineares m Schrittverfahren bezeichnet.

Beispiel 8.3 Ein spezielles lineares 2 Schrittverfahren ist die Mittelpunktregel, u+2 = u + 2hf ( t+1 , u+1 ),

= 0, 1, . . . , n − 2.

Ausführlich werden spezielle Mehrschrittverfahren in Abschnitt 8.3 behandelt.

(8.4)

8.1.2 Konvergenz– und Konsistenzordnung Die Approximationseigenschaften eines Mehrschrittverfahrens werden durch seine Konvergenzordnung beschrieben. Definition 8.4 Ein Mehrschrittverfahren von der Form (8.1) zur Lösung des Anfangswertproblems y = f ( t, y ), y ( a ) = y0 besitzt die Konvergenzordnung p ≥ 1, falls sich zu jeder Konstanten c ≥ 0 und beliebigen Startwerten u0 , . . . , um−1 ∈ R N mit ||uk − y ( tk ) || ≤ chp für k = 0, 1, . . . , m − 1 der globale Verfahrensfehler in der Form max ||u − y ( t ) ||

=m,...,n

≤

Khp

abschätzen lässt mit einer von der Schrittweite h unabhängigen Konstanten K ≥ 0. Hier und im Folgenden bezeichnet || · || : R N → R eine nicht näher spezifizierte Vektornorm. In Analogie zu den Einschrittverfahren spielen bei der Bestimmung der Konvergenzordnung eines Mehrschrittverfahrens die folgenden Begriffe eine wichtige Rolle.

Abschnitt 8.1

175

Grundlegende Begriffe

Definition 8.5 Für ein Mehrschrittverfahren (8.1) zur Lösung des Anfangswertproblems y = f ( t, y ), y ( a ) = y0 bezeichnet ⎫

m ⎪ ⎬ η ( t, h ) := αj y ( t + jh ) − hϕ(t, y ( t ), y ( t + h ), . . . , y ( t + mh ) ; h), (8.5) j=0 ⎪ b−t ⎭ 0 < h ≤ , m

den lokalen Verfahrensfehler im Punkt ( t, y ( t )) (bezüglich der Schrittweite h). Definition 8.6 Ein Mehrschrittverfahren (8.1) zur Lösung des Anfangswertproblems y = f ( t, y ), y ( a ) = y0 besitzt die Konsistenzordnung p ≥ 1, falls für eine Konstante C und eine hinreichend kleine Zahl H > 0 der lokale Verfahrensfehler die folgende Abschätzung erfüllt, ||η ( t, h ) ||

≤

Chp+1 ,

a ≤ t ≤ b,

0 ≤ h ≤ H.

Die Konsistenzordnung wird oft nur kurz als Ordnung eines Mehrschrittverfahrens bezeichnet.

8.1.3 Nullstabilität, Lipschitzbedingung Bei der Behandlung der Konvergenzordnung eines Mehrschrittverfahrens wird auch die folgende Lipschitzbedingung an die Funktion ϕ : [ a, b ] × (R N )m+1 × R + → R N aus der Verfahrensvorschrift (8.1) eine Rolle spielen, m ϕ(t, v0 , p p , vm ; h) − ϕ(t, w0 , p p , wm ; h) ≤ Lϕ ||vj − wj || (vj , wj ∈ R N ). (8.6) j=0

Bemerkung 8.7 (a) Falls f : [ a, b ] × R N → R N eine stetige Funktion ist, die die Lipschitzbedingung (7.4) erfüllt, so ist für lineare Mehrschrittverfahren die Lipschitzbedingung (8.6) erfüllt mit der speziellen Lipschitzkonstanten Lϕ = L maxj=0,...,m |βj |. (b) Falls die Lipschitzbedingung (8.6) erfüllt ist, so ist für hinreichend kleine Schrittweiten h die Existenz und Eindeutigkeit der Approximationen des m-Schrittverfahrens (8.1) gewährleistet, da man die Bestimmungsgleichung für u+m als Fixpunktgleichung schreiben kann, die für 0 < h < 1/(αm Lϕ ) einer Kontraktionsbedingung genügt. Schließlich ist bei den Konvergenzbetrachtungen für Mehrschrittverfahren die folgende Eigenschaft von Bedeutung. Definition 8.8 Ein m Schrittverfahren (8.1) zur Lösung von y = f ( t, y ), y ( a ) = y0 heißt nullstabil, falls für das erzeugende Polynom ρ( ξ )

:=

αm ξ m + αm−1 ξ m−1 + . . . + α0 ∈ Πm

die folgende Dahlquistsche Wurzelbedingung erfüllt ist,

ρ( ξ ) = 0,

ρ( ξ ) = 0

=⇒

|ξ | ≤ 1;

|ξ | = 1

=⇒

ξ ist einfache Nullstelle von ρ.

(8.7)

176

Kapitel 8 Mehrschrittverfahren für Anfangswertprobleme

¨ 8.1.4 Ubersicht Die nächsten Abschnitte des vorliegenden Kapitels behandeln die folgenden wichtigen Themen: • •

Kriterien zur Bestimmung der Konvergenzordnung von allgemeinen Mehrschrittverfahren, ¨ Kriterien zur Bestimmung der Konsistenzordnung sowie Uberpr¨ ufung der Nullstabilität allgemeiner Mehrschrittverfahren,

•

Behandlung spezieller Mehrschrittverfahren.

8.2 Der globale Verfahrensfehler bei Mehrschrittverfahren 8.2.1 Das Konvergenztheorem Es wird nun das wesentliche Konvergenzresultat für Mehrschrittverfahren vorgestellt. Theorem 8.9 Ein m Schrittverfahren (8.1) für das Anfangswertproblem y = f ( t, y ), y ( a ) = y0 sei nullstabil und die Funktion ϕ genüge der Lipschitzbedingung (8.6). Dann existieren Konstanten K ≥ 0 und H > 0, so dass für 0 < h = ( b − a )/n ≤ H die folgende Abschätzung gilt,

max ||u − y ( t ) || ≤ K max ||uk − y ( tk ) || + max ||η ( t, h ) || h . (8.8) =0,...,n

k=0,...,m−1

a≤t≤b−mh

B EWEIS . Zur Vereinfachung der Notation nehmen wir im Folgenden αm = 1 an und betrachten den skalaren Fall N = 1. Mit den Setzungen e

= u − y ,

η

= η ( t , h ),

y := y ( t ),

= 0, 1, . . . , n, = 0, 1, . . . , n − m,

gelten für = 0, . . . , n − m die folgenden Darstellungen m

αj y+j = hϕ(t, y , . . . , y+m ; h) + η ,

j=0 m

αj u+j = hϕ(t , u , . . . , u+m ; h),

j=0

und daher αj e+j = h ϕ(t , u , . . . , u+m ; h) − ϕ(t, y , . . . , y+m ; h) − η .

j=0 =: δ m

(8.9)

Abschnitt 8.2

177

Der globale Verfahrensfehler bei Mehrschrittverfahren

Dieses lässt sich folgendermaßen schreiben, ⎛ ⎛ ⎛ ⎞ ⎞⎛ ⎞ ⎞ 1 ⎜ e+1 ⎟ ⎜ 0 ⎜ 0 ⎟ ⎟ ⎜ e ⎟ ⎜ ⎜ ⎜ ⎟ ⎟⎜ ⎟ ⎟ ⎜ ⎜ ⎜ .. ⎟ ⎟ ⎟ ⎟ ⎜ pp pp ⎜ e+2 ⎟ ⎜ ⎜ . ⎟ ⎟ ⎜ e+1 ⎟ p p ⎜ ⎜ ⎜ ⎟ ⎟⎜ ⎟ ⎟ ⎜ ⎟ = ⎜ ⎟⎜ ⎟ + ⎜ ⎟ ⎜ .. ⎟ ⎜ ⎜ ⎟ ⎜ .. ⎟ ⎟ ⎜ . ⎟ ⎜ ⎜ 0 ⎟ ⎟⎜ . ⎟ 0 1 ⎜ ⎜ ⎜ ⎟ ⎟⎜ ⎟ ⎟ ⎝ ⎝ ⎝ ⎠ ⎠⎝ ⎠ ⎠ e+m e+m−1 δ − η −α0 p p p p p p −αm−1

=: E+1 =: A =: E =: F

(8.10)

mit der Matrix A ∈ R m×m und den Vektoren E , F ∈ R m . Aus der Darstellung (8.10) erhält man mittels vollständiger Induktion die Beziehung E

=

A E0 +

−1

= 0, 1, . . . , n − m + 1.

A−1−ν Fν ,

(8.11)

ν=0

Zur Abschätzung der rechten Seite von (8.11) beobachtet man, dass die Wurzeln des erzeugenden Polynoms ρ mit den Eigenwerten der Matrix A u¨ bereinstimmen1, und aufgrund der Nullstabilität erhält man aus dem nachzutragenden Lemma 8.15 die Beschränktheit der Potenzen der Matrix A, das heißt, ||Ak ||∞ ≤ C,

k = 0, 1, . . . ,

(8.12)

mit einer Konstanten C > 0. Aus (8.11) (8.12) resultiert die Abschätzung ||E ||∞

≤

−1 C ||E0 ||∞ + ||Fν ||∞ ,

= 0, 1, . . . , n − m + 1.

(8.13)

ν=0

Wegen (8.9) und (8.10) gilt ||Fν ||∞ = |δν − ην | ≤ |ην | + hLϕ

m

|eν+j |

j=0

≤

max

j=0,...,n−m

|ηj | + hLϕ m||Eν ||∞ + hLϕ ||Eν+1 ||∞ ,

und Summation ergibt −1

||Fν ||∞

≤

n

max

j=0,...,n−m

ν=0

|ηj |

+ hc1

−1

||Eν ||∞ + hLϕ ||E ||∞

ν=0

mit c1 := Lϕ ( m + 1 ). Dies eingesetzt in (8.13) führt für 0 < h ≤ H mit einer Konstanten H < 1/( CLϕ ) auf folgende Abschätzung, ||E ||∞

≤

C ||E0 ||∞ + n 1 − CLϕ H

max

j=0,...,n−m

|ηj |

+

Cc1 h ||Eν ||∞ , 1 − CLϕ H −1

ν=0

= 1, 2, . . . , n − m + 1. 1

Details hierzu findet man im Beweis von Lemma 5.16 im Kapitel u¨ ber nichtlineare Gleichungssysteme.

178

Kapitel 8 Mehrschrittverfahren für Anfangswertprobleme

Das ebenfalls noch nachzutragende diskrete Lemma von Gronwall 8.14 liefert dann die Behauptung, wenn man noch ||E0 ||∞ =

max

=0,...,m−1

|u − y ( t ) |,

|u − y ( t ) |

≤

||E ||∞ ,

berücksichtigt. Bemerkung 8.10 Dem Beweis von Theorem 8.9 entnimmt man noch, dass im Falle expliziter Verfahren H = ∞ als obere Schranke für die Schrittweiten gewählt werden kann und die wesentliche Fehlerabschätzung (8.8) für jede Schrittweite h = ( b − a )/n formal richtig ist. Es ist jedoch zu beachten, dass bei den noch zu behandelnden steifen Differenzialgleichungen (siehe Kapitel 8.9) der Fehler bei expliziten Verfahren erst für kleine Schrittweiten h > 0 klein ausfällt, was wegen der dort typischerweise großen Lipschitzkonstanten nicht im Widerspruch zur Fehlerabschätzung (8.8) steht. Hier ist der Einsatz impliziter Verfahren sinnvoller. Einzelheiten dazu werden in Abschnitt 8.9 vorgestellt. Als unmittelbare Folgerung aus Theorem 8.9 erhält man das folgende Korollar. Korollar 8.11 Ein nullstabiles m Schrittverfahren (8.1) mit der Konsistenzordnung p ≥ 1 und einer der Lipschitzbedingung (8.6) genügenden Funktion ϕ besitzt die Konvergenzordnung p. Es folgt ein Resultat u¨ ber fehlerbehaftete Mehrschrittverfahren. Korollar 8.12 (Rundungs und Verfahrensfehleranalyse) Ein m Schrittverfahren (8.1) zur Lösung des Anfangswertproblems y = f ( t, y ), y ( a ) = y0 besitze die Konsistenzordnung p ≥ 1 und sei nullstabil, und die Funktion ϕ genüge der Lipschitzbedingung (8.6). Für die Startwerte sei max

=0,...,m−1

||v − y ( t ) ||

≤

chp + δ1

erfüllt mit einer von h unabhängigen Konstanten c ≥ 0. Für die Lösung der Gleichungen m

αj v+j = hϕ(t , v , . . . , v+m ; h) + ρ ,

= 0, 1, . . . , n − m,

j=0

||ρ || ≤ δ2 ,

......

,

gilt dann die Fehlerabschätzung max ||v − y ( t ) ||

=0,...,n

≤

δ K hp + δ1 + h2 1/( p+1)

mit einer von h unabhängigen Konstanten K ≥ 0. Mit der Wahl h = δ2 max ||v − y ( t ) ||

=0,...,n

≤

erhält man

p/(p+1) K 2δ2 + δ1 .

B EWEIS . Verläuft wie der Beweis von Theorem 8.9. Man hat dort nur η = η ( t , h ) + ρ zu setzen.

Abschnitt 8.2

179

Der globale Verfahrensfehler bei Mehrschrittverfahren

8.2.2 Hilfsresultat 1: Das Lemma von Gronwall Als erster Nachtrag zum Beweis von Theorem 8.9 wird in diesem Abschnitt das diskrete Lemma von Gronwall vorgestellt. Vorbereitend hierzu wird die folgende kontinuierliche Fassung betrachtet. Lemma 8.13 (Gronwall) Für die Riemann–integrierbare Funktion Φ : [ 0, T ] → R sowie für Konstanten α, β ∈ R mit β > 0 sei Φ( t )

≤

α + β

Z t 0

Φ( s ) ds,

t ∈ [ 0, T ],

erfüllt. Dann gilt Φ( t ) ≤ αeβt ,

t ∈ [ 0, T ].

(8.14)

B EWEIS . Mit der Notation M := sup Φ( t ) 0≤t≤T

wird im Folgenden per Induktion u¨ ber n = 0, 1, . . . die folgende Abschätzung bewiesen, Φ( t )

≤

α

n ( βt ) ! =0

( βt )n+1

+ M(

n + 1 )!

t ∈ [ 0, T ].

,

(8.15)

Der Grenzübergang n → ∞ in (8.15) liefert dann die Abschätzung (8.14). Die Abschätzung (8.15) ist richtig für n = 0, Φ( t )

≤

α + β

Z t 0

Φ( s ) ds

≤

α + β

Z t 0

=

M ds

α + Mβt,

t ∈ [ 0, T ].

Wir nehmen nun an, dass für ein n ∈ N die Abschätzung (8.15) richtig ist mit n − 1 anstelle n. Dann gilt Φ( t ) ≤

≤

α + β

α + α

n−1 =0

=

α

n (βt) =0

!

Z t 0

Φ( s ) ds

≤

n−1 β α + β α ! =0

β +1 t+1 β n+1 tn+1 + M ! + 1 n! n + 1 + M

(βt)n+1 , (n + 1)!

=

Z t 0

s ds + M

α + α

βn n!

n (βt) =1

!

Z t 0

sn ds

+ M

(βt)n+1 (n + 1)!

t ∈ [ 0, T ],

was den Beweis des Gronwall Lemmas komplettiert. Eine unmittelbare Konsequenz aus dem Lemma von Gronwall ist das Resultat (7.5) u¨ ber die stetige Abhängigkeit von den Anfangswerten bei einem Anfangswertproblem y = f ( t, y ), y ( a ) = y0 . Hier soll das Lemma von Gronwall zum Beweis der folgenden diskreten Variante verwendet werden.

180

Kapitel 8 Mehrschrittverfahren für Anfangswertprobleme

Lemma 8.14 (Diskrete Variante des Lemmas von Gronwall) Seien positive Zahlen h0 , . . . , hr−1 > 0 sowie Konstanten α ≥ 0 und β ≥ 0 gegeben. Für Zahlen v0 , . . . , vr ∈ R seien die folgenden Ungleichungen erfüllt, |v0 | ≤ α,

|v |

≤

α + β

−1

hj |vj |

für = 1, 2, . . . , r.

j=0

Dann gilt die folgende Abschätzung, |v |

−1 α exp β hj ,

≤

= 0, 1, . . . , r.

j=0

B EWEIS . Es soll Lemma 8.13 angewandt werden, und hierzu betrachtet man mit der Notation x0 := 0 und x+1 := x + h für = 0, 1, . . . , r − 1 die Treppenfunktion Φ :=

r−1 =0

|v |χ[ x , x+1 ) + |vr |χ{ xr } : [ 0, T ] → R

( T := xr ),

wobei χM die charakteristische Funktion bezüglich einer gegebenen Menge M bezeichnet, es gilt also χM ≡ 1 auf M und ≡ 0 außerhalb von M. Für beliebige ∈ {0, 1, . . . , r − 1} und t ∈ [ x , x+1 ), sowie auch für = r und t = xr gilt dann Φ( t ) = |v |

≤

α + β

−1

hj |vj |

=

α + β

j=0

= α + β

Z x 0

Φ( s ) ds

−1 Z j=0

≤

α + β

Z t 0

xj+1

xj

Φ( s ) ds

Φ( s ) ds.

Das Lemma von Gronwall liefert nun |v |

=

Φ( x )

≤

αeβx

=

−1 αexp β hj

für = 0, 1, . . . , r.

j=0

Dies komplettiert den Nachweis der Aussage der diskreten Variante des Lemmas von Gronwall.

8.2.3 Beschränktheit der Matrixfolge A, A2, A3, . . . Das nachfolgende Lemma liefert den zweiten und letzten Nachtrag zum Beweis von Theorem 8.9. Zuvor führen wir noch die folgende Notation ein: einem Eigenwert λ ∈ C einer Matrix A ∈ R N×N entsprechen nur lineare Elementarteiler, falls die geometrische Vielfachheit von λ ¨ mit der algebraischen Vielfachheit u¨ bereinstimmt. Aquivalent dazu ist, dass alle zu λ gehörenden Jordanblöcke trivial sind. Lemma 8.15 Für eine gegebene Matrix A ∈ R N×N ist die Folge der Matrizen A, A2 , A3 , . . . beschränkt genau dann, (i) wenn der Spektralradius von A kleiner gleich eins ausfällt, rσ ( A ) ≤ 1;

Abschnitt 8.2

181

Der globale Verfahrensfehler bei Mehrschrittverfahren

(ii) und wenn jedem Eigenwert λ ∈ C von A mit |λ| = 1 nur lineare Elementarteiler entsprechen. ¨ B EWEIS . Für den Nachweis der Aquivalenz wird eine zu A a¨ hnliche Matrix J ∈ CN×N in Jordanscher Normalform herangezogen, ⎛ ⎜ J = ⎜ ⎝

J1 pp

⎟ ⎟, ⎠

p

J

Jr wobei N ≥ 1 und

⎞

⎛

⎞

r

=1 N

⎜ ⎜ ⎜ = ⎜ ⎜ ⎝

1

λ

pp

⎟ ⎟ ⎟ × ⎟ ∈ C N N , pp p 1⎟ ⎠ λ

pp

p

p

= 1, 2, . . . , r,

= N gilt. Im Fall N = 1 bedeutet diese Notation J = (λ ) ∈ C1×1 .

Seien nun zuerst die Bedingungen (i) und (ii) erfüllt, es gilt also |λ | ≤ 1;

im Fall |λ | = 1 sei N = 1

( = 1, 2, . . . , r ).

(8.16)

Man wählt nun ε > 0 so klein, dass für jedes ∈ {1, 2, . . . , r } im Fall N ≥ 2 die Ungleichung |λ | + ε ≤ 1 erfüllt ist, was aufgrund von (8.16) möglich ist. Dann betrachtet man J = D −1 JD,

D = diag (1, ε, ε2, . . . , εN −1 ) ∈ R N×N ,

und erhält unter Beachtung von J = (εk−j Jjk ) Folgendes, ⎛ ⎜ J = ⎜ ⎝

⎞

J1 pp

p

Jr

⎟ ⎟, ⎠

⎞

⎛ ⎜ ⎜ ⎜ J = ⎜ ⎜ ⎝

λ

ε pp

p

⎟ ⎟ ⎟ × ⎟ ∈ C N N , pp p ε⎟ ⎠ λ pp

p

= 1, 2, . . . , r, (8.17)

beziehungsweise J = (λ ) ∈ C1×1 im Fall N = 1. Aufgrund der Konstruktion gilt || J||∞

=

max || J ||∞ ≤ 1

=1,...,r

und daher || Jν ||∞ ≤ 1,

ν = 1, 2, . . . .

¨ Die Ahnlichkeit der Matrizen A und J impliziert A = T −1 JT mit einer regulären Matrix T ∈ N ×N C , und damit gilt Aν = T1−1 Jν T1 ,

ν = 0, 1, . . . ,

mit T1 := D −1 T.

Daher ist also auch die Matrixfolge A1 , A2 , . . . beschränkt. Wir nehmen nun umgekehrt an, dass eine der beiden Bedingungen (i), (ii) nicht erfüllt ist. Wenn die Bedingung (i) nicht erfüllt ist, so gilt für ein 1 ≤ ≤ r die Ungleichung |λ | > 1, und dann

182

Kapitel 8 Mehrschrittverfahren für Anfangswertprobleme

betrachte man im Fall N ≥ 2 etwa die Vektorfolge ⎞ν ⎛ ⎞ ⎛ ⎛ ⎞ 1 λ 1 λν ⎟ ⎜ ⎟ ⎜ ⎜ ⎟ pp pp ⎟ ⎜0 ⎟ ⎜ ⎜0⎟ p p ⎟ ⎜ ⎟ ⎜ ⎜ ⎟ = ⎜ ⎟ ⎜ ⎟ ⎜ p ⎟, pp ⎟ ⎜ ppp ⎟ ⎜ ⎜ pp ⎟ 1 p ⎠ ⎝ ⎠ ⎝ ⎝ ⎠ λ 0 0

ν = 0, 1, . . .,

und für N = 1 gilt Jν = (λν ) ∈ C1×1 . Falls (ii) nicht erfüllt ist, so gilt für ein 1 ≤ ≤ r sowohl |λ | = 1 als auch N ≥ 2, und hier betrachte man beispielsweise ⎛ ν−1 ⎞ ⎛ ⎞ν ⎛ ⎞ νλ 0 λ 1 ⎜ ν ⎟ ⎜ ⎟ ⎜1⎟ λ ⎟ ⎜ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ λ p p p ⎜ ⎟ ⎜ ⎟ ⎜ ν = 0, 1, . . . . ⎜ ⎟ ⎜0⎟ = ⎜ 0 ⎟ ⎟, pp ⎜ ⎟ ⎜ pp ⎟ 1 p ⎜ pp ⎟ ⎝ ⎠ ⎝ p⎠ ⎝ p ⎠ λ 0 0 In jedem Fall ist wegen

⎛ ⎜ Jν = ⎜ ⎝

⎞

J1ν pp

⎟ ⎟, ⎠

p

ν = 0, 1, . . .,

Jrν dann die Matrix J und damit auch die zu J a¨ hnliche Matrix A nicht potenzbeschränkt. Die Aussage des Lemmas ist damit vollständig nachgewiesen.

8.2.4 Die Konsistenzordnung linearer Mehrschrittverfahren Zum Abschluss der allgemeinen Betrachtungen u¨ ber Mehrschrittverfahren wird in dem folgenden Lemma ein einfaches Kriterium zur Bestimmung der Konsistenzordnung eines linearen Mehrschrittverfahrens vorgestellt. Lemma 8.16 Sind für das lineare m Schrittverfahren m

αj u+j

j=0

=

h

m

βj f ( t+j , u+j ),

= 0, 1, . . . , n − m,

j=0

mit einer p mal stetig partiell differenzierbaren Funktion f : [ a, b ] × R N → R N (für eine Zahl p ≥ 1) die Gleichungen m . j ν αj − νj ν−1 βj = 0, ν = 0, 1, . . . , p, (8.18) j=0

erfüllt, so ist das m Schrittverfahren konsistent von der Ordnung p. Für eine ( p + 1 ) mal stetig partiell differenzierbare Funktion f gilt mehr noch die Darstellung ⎫ ⎪ ⎪ (p+1 ) p+1 p+2 ⎪ (t) h + O( h ) für h → 0, η ( t, h ) = Cp+1 y ⎬ (8.19)

m p+1 j αj j p βj ⎪ ⎪ mit Cp+1 := − . ⎪ ⎭ ( p + 1 )! p! j=0

Abschnitt 8.3

183

Spezielle lineare Mehrschrittverfahren – Vorbereitungen

B EWEIS . Die Lösung des Anfangswertproblems y = f ( t, y ), y ( a ) = y0 ist nach Theorem 7.3 ( p + 1 ) mal stetig partiell differenzierbar. Taylorentwicklung der Funktionen y und y in dem Punkt t ∈ [ a, b − mh ] ergibt y ( t + jh ) =

p y (ν ) ( t ) ν ν j h + O( hp+1 ), ν!

ν=0

y ( t + jh ) =

p−1 ν=0

y (ν+1) ( t ) ν ν j h + O( hp ) ν!

=

p ν=0

ν

y ( ν ) ( t ) ν−1 ν−1 j h + O( hp ). ν!

Für den lokalen Verfahrensfehler folgt daraus η ( t, h ) =

m

αj y ( t + jh ) − h

j=0

=

m

m

βj f t + jh, y ( t + jh )

j=0

αj y ( t + jh ) − hβj y ( t + jh )

j=0

=

p m ν=0

j ν αj − νj ν−1 βj

j=0

y (ν ) ( t ) ν!

hν + O( hp+1 ),

0 < h ≤

b−t . (8.20) m

= 0 Die Darstellung (8.19) folgt durch die gleiche Entwicklung wie in (8.20), mit p ersetzt durch p + 1. Bemerkung 8.17 (a) Die ersten beiden Gleichungen aus (8.18) bedeuten ausgeschrieben m j=0

αj = 0

= ρ( 1 )

für ν = 0,

m j=1

jαj

= ρ (1)

=

m

βj

für ν = 1,

j=0

wobei ρ( ξ ) = αm ξ m + . . . + α0 das zugehörige erzeugende Polynom bezeichnet. Insbesondere implizieren Nullstabilität und Konsistenzordnung p ≥ 1 notwendigerweise ρ ( 1 ) = 0. (b) Die Approximationen u0 , . . . , un−m des Mehrschrittverfahrens (8.1) bleiben unverändert, wenn die Verfahrensvorschrift (8.1) mit einer beliebigen Konstanten = 0 multipliziert wird; in diesem Sinne sind also sowohl der lokale Verfahrensfehler η ( t, h ) als auch die Konstante Cp+1 in (8.19) nicht eindeutig festgelegt. Als (die von p abhängige) Fehlerkonstante bezeichnet man die normierte Größe Cp+1/ρ ( 1 ). (c) Die Konsistenzordnung der noch zu betrachtenden speziellen linearen Mehrschrittverfahren lässt sich auch anders als mit Lemma 8.16 bestimmen, wie sich noch herausstellen wird.

8.3 Spezielle lineare Mehrschrittverfahren – Vorbereitungen Die meisten der vorzustellenden Mehrschrittverfahren beruhen auf der Anwendung interpolatorischer Quadraturformeln auf a¨ quidistanten Gittern. Vorbereitend werden in diesem Abschnitt Darstellungen für Interpolationspolynome auf a¨ quidistanten Gittern geliefert.

184

Kapitel 8 Mehrschrittverfahren für Anfangswertprobleme

Definition 8.18 Für einen gegebenen Datensatz g0 , g1 , . . . , gr ∈ R N sind die Ruckw¨ ¨ artsdiffek N renzen ∇ gν ∈ R für 0 ≤ k ≤ ν ≤ r rekursiv erklärt durch ∇0 g ν = g ν ,

ν = 0, 1, . . . , r,

∇k gν = ∇k−1 gν − ∇k−1gν−1 ,

ν = k, k + 1, . . . , r

(k = 1, 2, . . . , r ).

Die bei den Rückwärtsdifferenzen auftretenden Zusammenhänge sind in Schema 8.1 dargestellt.

∇0 g 0 = g 0 ∇0 g 1 = g 1

→

∇1 g 1

∇0 g 2 = g 2 .. .

→

∇0 gr−1 = gr−1

→

∇1 g 2 .. .

→

∇1 gr−1

→

∇0 g r = g r

→

∇2 g 2 .. . ···

..

.

· · · ∇r−1 gr−1

∇1 g r

→

···

···

∇r−1 gr

→ ∇r g r

Schema 8.1 Abhängigkeiten der Rückwärtsdifferenzen Lemma 8.19 Für die Rückwärtsdifferenzen ∇k gν ∈ R N eines gegebenen Datensatzes g0 , g1 , . . . , gr ∈ R N gilt ∇k g ν

=

k

k ( –1 )j j gν−j ,

0 ≤ k ≤ ν ≤ r.

(8.21)

j=0

B EWEIS . Es bezeichne S den Rückwärtsshift, Sgν := gν−1 ,

ν = 1, 2, . . . , r.

Wenn man dann die Operatoren ( I − S ) und S j in naheliegender Weise rekursiv erklärt, so erhält man mit dem binomischen Satz k k k k ( –1 )j j S j gν ( –1 )j j gν−j . = ∇k gν = ( I − S )k gν = k

j=0

j=0

Die folgenden Darstellungen für das Interpolationspolynom und den zugehörigen Interpolationsfehler bei a¨ quidistanten Stützstellen dienen als Vorbereitung auf die Behandlung spezieller Mehrschrittverfahren.

Abschnitt 8.3

185

Spezielle lineare Mehrschrittverfahren – Vorbereitungen

Lemma 8.20 Gegeben seien insgesamt r + 1 a¨ quidistante Stützstellen x = x0 + h für = 0, 1, . . . , r, mit Zahlen x0 ∈ R und h > 0. Dann besitzt das zu gegebenen Vektoren g0 , g1 , . . . , gr ∈ R N gehörende eindeutig bestimmte (vektorwertige) interpolierende Polynom P ∈ ΠN r die Darstellung P ( xr + sh )

=

r

( –1 )k

−s k

∇k g r ,

s ∈ R.

(8.22)

k=0

Hierbei gelten die folgenden Identitäten, −s k

(−s)(−s − 1) · · · (−s − k + 1) k!

=

und es bezeichnet ΠN r :=

P (t) =

r

=

(−1)k s( s + 1 ) · · · ( s + k − 1 ), (8.23) k!

mit ak ∈ R N .

ak tk ,

k=0

B EWEIS VON L EMMA 8.20. Für die Newtonsche Darstellung des Polynoms P erhält man unter Verwendung von (8.23) und den Resultaten aus Abschnitt 1.4 Folgendes, P ( xr + sh ) = a0 + a1 ( xr + sh − xr ) + . . . + ar ( xr + sh − xr ) · · · ( xr + sh − x1 ) =

r

ak

r

(xr + sh − xr−j )

j=0

k=0

=

k−1

ak hk

k=0

k−1

=

r k=0

(s + j )

=

j=0

r

ak

k−1

(xr + sh − ( xr − jh ) )

j=0

−s ak hk ( –1 )k k! k

(8.24)

k=0

mit den dividierten Differenzen ak

=

g [ xr , . . . , xr−k ] ∈ R N ,

k = 0, 1, . . . , r.

(8.25)

Die Aussage des Lemmas erhält man nun aus (8.24) (8.25) zusammen mit der folgenden Darstellung für die dividierten Differenzen, g [ x , . . . , x−k ]

=

∇k g , k!hk

0 ≤ k ≤ ≤ r,

die man mittels vollständiger Induktion u¨ ber k = 0, 1, . . . , r erhält: g [ x ] = g = ∇0 g , = 0, 1, . . . , r; g [ x , . . . , x−k+1 ] − g [ x−1 , . . . , x−k ] g [ x , . . . , x−k ] = kh ∇k−1 g − ∇k−1 g−1 ∇k g , = k, k + 1, . . . , r. = = k−1 ((k − 1)!h )kh k!hk

Lemma 8.21 Zu einer gegebenen Funktion g ∈ C r+1 ( [ c, d ], R N ) und zu den a¨ quidistanten Stützstellen x = x0 + h ∈ [ c, d ] für = 0, 1, . . . , r bezeichne P ∈ ΠN orige r das zugeh¨

186

Kapitel 8 Mehrschrittverfahren für Anfangswertprobleme

(vektorwertige) interpolierende Polynom. Der Interpolationsfehler in xr + sh ∈ [ c, d ] besitzt die Darstellung ⎫ −s ⎬ g ( xr + sh ) − P ( xr + sh ) = ( –1 )r+1 r + 1 F ( s ) hr+1 , (8.26) ⎭ F ( s ) = (gj(r+1) ( ξj ( s )) )j=1,..,N ∈ R N , mit geeigneten Zwischenstellen ξj ( s ) ∈ [ c, d ] für j = 1, 2, . . . , N. B EWEIS . Aus Abschnitt 1.5 ist die folgende Fehlerdarstellung bekannt, gj ( xr + sh ) − Pj ( xr + sh )

=

ω( xr + sh ) gj( r+1) ( ξj ( s ) ) , ( r + 1 )!

mit ω ( x ) = ( x − x0 ) · · · ( x − xr ), und Pj bezeichnet die j te Komponente des vektorwertigen Polynoms P. Die Aussage des Lemmas folgt dann mit der Darstellung (8.23), ω ( xr + sh ) =

r

(xr + sh − ( xr − jh ) )

j=0

=

−s = hr+1 (−1)r+1 r + 1 ( r + 1 )! .

hr+1

r

(s + j )

j=0

8.4 Adams–Verfahren 8.4.1 Der Ansatz Zur Herleitung der ersten Klasse von Mehrschrittverfahren beobachtet man, dass die Lösung y : [ a, b ] → R N des Anfangswertproblems y = f ( t, y ), y ( a ) = y0 auch der folgenden Integralrelation genügt, y ( t+m ) − y ( t+m−1 )

=

Z t +m t+m−1

f ( t, y ( t )) dt,

= 0, 1, . . . , n − m,

(8.27)

was man durch Integration der Differenzialgleichung y = f ( t, y ( t )) von t+m−1 bis t+m erhält. Adams-Verfahren gewinnt man nun durch Ersetzen des Integranden durch geeignete Polynome P, u+m − u+m−1

=

Z t +m t+m−1

P ( t ) dt,

= 0, 1, . . . , n − m.

(8.28)

Je nach der speziellen Wahl von P erhält man explizite beziehungsweise implizite Verfahren. Im Folgenden werden Einzelheiten hierzu vorgestellt.

8.4.2 Adams– Bashfort– Verfahren Definition 8.22 Für m ≥ 1 erhält man das m schrittige Adams Bashfort Verfahren durch den Ansatz (8.28) mit ⎫ ⎬ P ∈ ΠN P ( tj ) = fj , j = , + 1, . . . , + m − 1, m−1 , (8.29) ⎭ ........ fj := f ( tj , uj ), .

Abschnitt 8.4

187

Adams– Verfahren .... .....

f+m .... .....

......... ......... . ........

f+m−1.................................................................................................................

P( t )

. .......... .. .............................. ... .................... ... .............................. ... .............................. . . . . . .................... . ......................................... ... .............................. ........ ...... ... .......... ...... ..... .............................. .... ..... .... ..... .................... ..... .... . . . . . . . .......... ....... .. ... ............................. .............................. ..... .......... ..... . . .............................. . . . .......... ....... . . . . . . .............................. . ...................... .................... .......... .............................. .......... .............................. .......... .............................. .................... .......... ....................

f+1

f−1

f+m−2

f

t−1 t

t+1

...

........ ....

t

t+m−1 t+m

Bild 8.1 Vorgehensweise des m– schrittigen Adams– Bashfort– Verfahrens im eindimensionalen Fall Die vorliegende Situation ist in Bild 8.1 veranschaulicht. Das folgende Theorem liefert eine explizite Darstellung für das Adams Bashfort Verfahren: Theorem 8.23 Das m schrittige Adams Bashfort Verfahren hat die Gestalt u+m − u+m−1

=

h

m−1

γk ∇k f+m−1 ,

= 0, 1, . . . , n − m,

(8.30)

k=0

mit den von m unabhängigen Koeffizienten γk := ( –1 )k

Z 1 −s

k

0

k = 0, 1, . . .,

ds,

(8.31)

die sich rekursiv berechnen durch 1 1 1 1 γ + k γ1 + k − 1 γ2 + . . . + 2 γk−1 + γk k+1 0

= 1

für k = 0, 1, . . . .

(8.32)

B EWEIS . Die Darstellung (8.30) (8.31) folgt umgehend aus Lemma 8.20 mit xj = t+j für j = 0, 1, . . . , m − 1, Z t +m

P ( t ) dt = h

t+m−1

Z 1 0

P ( t+m−1 + sh ) ds = h

m−1 k=0

( –1 )k

Z 1 −s 0

γk

k

ds ∇k f+m−1 . (8.33)

Bei dem Nachweis der Rekursionsformel (8.32) für die Koeffizienten γk bedient man sich der erzeugenden Funktion G( t ) := =

∞ k=0 Z 1 0

γk tk

=

( 1 − t )−s ds

∞

( –t )k

k=0

=

t = − , ( 1 − t ) ln ( 1 − t )

Z 1 −s 0

k

ds

(∗)

=

∞ Z 1 0

s=1 1 − ln ( 1 − t ) ( 1 − t )−s

−s k

( –t )k ds

k=0

s=0

−1 < t < 1.

(8.34)

188

Kapitel 8 Mehrschrittverfahren für Anfangswertprobleme

Hier folgt (∗) durch Vertauschen von Reihenentwicklung und Integration, was aufgrund der bei −s k festem −1 < t < 1 gleichmäßigen Konvergenz von ∞ k=0 k ( –t ) bezüglich s ∈ [ 0, 1 ] (in −s unserer Situation gilt2 k ≤ 1) zulässig ist. Die Darstellung (8.34) für G( t ) liefert G( t )

−ln(1 − t) t

1 , 1−t

=

|t| < 1,

beziehungsweise in Potenzreihenschreibweise

γ0 + γ1t + γ2 t2 + . . .

t2

t

1 + 2 + 3 + ...

=

1 + t + t2 + . . . , (8.35)

und ein Vergleich der Koeffizienten von t0 , t1 , t2 , . . . auf den beiden Seiten der Gleichung (8.35) ergibt die Aussage (8.32). Bemerkung 8.24 (a) Das m schrittige Adams Bashfort Verfahren (8.30) lässt sich in eindeutiger Weise in der Form u+m − u+m−1

=

h

m−1

= 0, 1, . . . , n − m,

βm,j f+j ,

(8.36)

j=0

schreiben mit den von der Zahl m abhängigen Koeffizienten βm,0 , βm,1 , . . . , βm,m−1 ∈ R, denn (8.21) ergibt unmittelbar m−1

γk ∇k f+m−1 =

k=0

m−1 k

k ( –1 )j j γk f+m−1−j

=

m−1

k=0 j=0

j=0

( –1 )j

m−1

k j γk f+m−1−j .

k=j

=: βm,m−1−j

(b) Aus der Rekursionsformel (8.32) berechnen sich die ersten vier Koeffizienten γ0 , . . . , γ3 ∈ R zu γ0 = 1,

γ1 =

1 , 2

γ2 =

5 , 12

γ3 =

3 . 8

Für m = 1, . . . , 4 lauten die m schrittigen Adams Bashfort Verfahren in der klassischen Darstellung eines linearen Mehrschrittverfahrens folgendermaßen, m=1:

u+1 = u + hf ,

m=2:

u+2 = u+1 + 2 (3f+1 − f ),

m=3:

u+3 = u+2 + 12 (23f+2 − 16f+1 + 5f ),

m=4:

u+4 = u+3 +

= 0, . . . , n − 1;

h

h

h (55f+3 − 59f+2 + 37f+1 − 9f ), 24

Insbesondere erhält man im Fall m = 1 das klassische Euler Verfahren. 2

siehe (8.23)

......

n − 2;

......

n − 3;

......

n − 4.

Abschnitt 8.4

189

Adams– Verfahren

Das folgende Theorem stellt die wesentlichen Eigenschaften der Adams Bashfort Verfahren heraus: Theorem 8.25 Das m schrittige Adams Bashfort Verfahren ist nullstabil. Im Fall f ∈ C m ( [ a, b ] × R N , R N ) besitzt es die Konsistenzordnung p = m, und die Fehlerkonstante lautet γm . B EWEIS . Das zugehörige erzeugende Polynom ist ρ( ξ ) = ξ m−1 ( ξ − 1 ), so dass die Dahlquistsche Wurzelbedingung offensichtlich erfüllt ist. Für den Nachweis der Konsistenzordnung betrachtet man den lokalen Verfahrensfehler, η ( t, h )

(∗)

=

y ( t + mh ) − y(t + ( m − 1 )h) − h

m−1

βm,j y ( t + jh )

j=0 (∗∗)

=

− h

......

m−1

γk ∇k y (t + ( m − 1 )h)

k=0 Z t+mh

(•)

=

t+( m−1)h

y ( s ) − P ( s ) ds,

mit P ( t + jh ) = y ( t + jh ),

P ∈ ΠN m−1 ,

für j = 0, 1, . . . , m − 1,

wobei ∇k y (t + ( m − 1 )h) die Rückwärtsdifferenzen bezüglich der Folge y ( t ), y ( t + h ), . . . , y ( t + ( m − 1 ) h ) bezeichnen. Die Identitäten (∗) und (∗∗) resultieren dabei unmittelbar aus der Verfahrensdarstellung (8.36) sowie der daran anschließenden Begründung, und die Identität (•) folgt mit Lemma 8.20 (siehe auch (8.33) im Beweis von Theorem 8.23). Mit der Darstellung (8.26) für den Interpolationsfehler erhält man dann Z 1

y (t + ( m − 1 + s )h) − P(t + ( m − 1 + s )h) ds Z 1 −s = hm+1 ( –1 )m = O( hm+1 ) für h → 0, m F ( s ) ds 0 (m+1) (ξj ( s ) ) j=1,..,N , ξj ( s ) ∈ [ t, t + mh ]. mit F ( s ) = yj

η ( t, h ) = h

0

Im Fall f ∈ C m+1 ( [ a, b ] × R N , R N ) verwendet man yj(m+1) (ξj ( s ) )

=

yj(m+1) ( t ) + O( h )

für h → 0

und folgert mit der Definition (8.31) für γm die folgende Darstellung für den lokalen Verfahrensfehler, η ( t, h )

=

γm y (m+1) ( t )hm+1 + O( hm+2 )

Wegen ρ ( 1 ) = 1 ist γm die Fehlerkonstante.

für h → 0.

190

Kapitel 8 Mehrschrittverfahren für Anfangswertprobleme

8.4.3 Adams– Moulton– Verfahren Definition 8.26 Für m ≥ 1 erhält man das m schrittige Adams Moulton Verfahren durch den Ansatz (8.28) mit ⎫ ⎬ P ∈ ΠN P ( tj ) = fj , j = , + 1, . . . , + m, m, (8.37) ⎭ ....... fj := f ( tj , uj ), .

..... .....

f ...... +m ......... P ( t ) .......... . ......... f+m−1.................................................................................................................

. .................... ... .................... .. .................... ... .............................. ... .............................. . . ....... .............................. ... ................ ...................... .......... ... ........ ...... .............................. ...... .... ..... .......... ... ..... .... .............................. ..... .... ..... .......... ....... ... ....... . . . . . . . . . .............................. . . . . . . . . ............. ... .......... ...... .............................. ...... . .................... . . . . . . .......... .......................... .............................. .......... .............................. .......... .............................. .................... .......... .............................. .......... ....................

f+1

f+m−2

f−1 f

t−1 t

t+1

...

........ .....

t

t+m−1 t+m

Bild 8.2 Vorgehensweise des m– schrittigen Adams– Moulton– Verfahrens im eindimensionalen Fall Die folgenden Resultate u¨ ber das Adams Moulton Verfahren lassen sich genauso wie die Resultate u¨ ber die Adams Bashfort Verfahren erzielen. Daher wird hier auf die jeweiligen Nachweise verzichtet. Theorem 8.27 Das m schrittige Adams Moulton Verfahren hat die Gestalt u+m − u+m−1

=

h

m

γk∗ ∇k f+m ,

= 0, 1, . . . , n − m,

k=0

mit den von m unabhängigen Koeffizienten γk∗ := ( –1 )k

Z 0

−s k

−1

ds,

für k = 0, 1, . . .,

die sich rekursiv berechnen durch γ0∗ = 1 und 1 1 1 1 ∗ γ ∗ + k γ1∗ + k − 1 γ2∗ + . . . + 2 γk−1 + γk∗ = 0 k+1 0

für k = 1, 2, . . . . (8.38)

Bemerkung 8.28 (a) Das m schrittige Adams Moulton Verfahren lässt sich in eindeutiger Weise in der Form u+m − u+m−1

=

h

m j=0

∗ βm,j f+j ,

= 0, 1, . . . , n − m,

Abschnitt 8.5

191

Nyström – und Milne– Simpson– Verfahren

schreiben mit den von der Zahl m abhängigen Koeffizienten m k ∗ ∗ βm,m−j = ( –1 )j j = 0, 1, . . . , m. j γk , k=j

(b) Aus der Rekursionsformel (8.38) berechnen sich die ersten vier Koeffizienten γ0∗ , . . . , γ3∗ zu γ0∗ = 1,

1 2

γ1∗ = − ,

γ2∗ = −

1 , 12

γ3∗ = −

1 . 24

Für m = 1, 2, 3 lauten die m schrittigen Adams Moulton Verfahren in der klassischen Darstellung eines linearen Mehrschrittverfahrens folgendermaßen, h

m=1:

u+1

= u + 2 (f+1 + f ),

m=2:

u+2

= u+1 + 12 (5f+2 + 8f+1 − f ),

m=3:

u+3

= u+2 +

= 0, . . . , n − 1;

h

h (9f+3 + 19f+2 − 5f+1 + f ), 24

......

n − 2;

......

n − 3.

Das für m = 1 gewonnene Verfahren wird als Trapezregel bezeichnet.

Das folgende Resultat stellt die wesentlichen Eigenschaften der Adams Moulton Verfahren heraus: Theorem 8.29 Das m schrittige Adams Moulton Verfahren ist nullstabil. Im Fall f ∈ C m+1 ( [ a, b ] × R N , R N ) besitzt es die Konsistenzordnung p = m + 1, und die Fehlerkonstan∗ te lautet γm+1 . Bemerkung 8.30 Ein m schrittiges Adams Moulton Verfahren besitzt demnach eine höhere Konvergenzordnung als ein m schrittiges Adams Bashfort Verfahren. Der dafür zu zahlende Preis besteht in der numerischen Lösung eines nichtlinearen Gleichungssystems für die Näherung u+m ∈ R N . Approximationen hierfür lassen sich mittels gewisser Fixpunktiterationen gewinnen, die in Abschnitt 8.7 vorgestellt werden.

8.5 Nyström– und Milne–Simpson–Verfahren 8.5.1 Der Ansatz Zur Herleitung einer zweiten Klasse von Mehrschrittverfahren integriert man die Differenzialgleichung y = f ( t, y ( t )) von t+m−2 bis t+m , y ( t+m ) − y ( t+m−2 )

=

Z t +m

t+m−2

f ( t, y ( t )) dt,

= 0, 1, . . . , n − m,

(8.39)

und spezielle Verfahren gewinnt man nun durch Ersetzen des Integranden durch geeignete Polynome P, u+m − u+m−2

=

Z t +m

t+m−2

P ( t ) dt,

= 0, 1, . . . , n − m.

(8.40)

Je nach der speziellen Wahl von P erhält man explizite beziehungsweise implizite Verfahren. Einzelheiten hierzu werden im Verlauf des vorliegenden Abschnitts 8.5 vorgestellt.

192

Kapitel 8 Mehrschrittverfahren für Anfangswertprobleme

8.5.2 Nyström– Verfahren Definition 8.31 Für m ≥ 2 erhält man das m schrittige Nyström Verfahren durch den Ansatz (8.40) mit P ∈ ΠN m−1 ,

P ( tj ) = fj ,

j = , + 1, . . . , + m − 1,

fj := f ( tj , uj ),

.

.......

...... .. ..

f+m f+m−1 .............

...................................... ................................... ...................................... ........................................ .... ..................................... ....... ....... ....................................................... ................. . . . . . . . . . . . . . . . . . . . . . . . . . . . .......... .................. ... ....... ......... +m−2.................................................................................. ...... ...... .............................................................. ..... ..... . . . . . . ... . . . . . . . . . . . . . . . . . . . .... .... .... ........................................ ...... .... .......................... ............................................................ ..... .................... ...... ............................................................ ...... .................... ...... . . . . ............................................................ . . . . . . .................. .................... ............................................................ ........................................ .................... ............................................................ .................... ............................................................ .................... ............................................................ ....................

f+1

f−1

f

f

t−1 t

t+1

... t+m−2

P( t )

........ ....

t

t+m

Bild 8.3 Vorgehensweise des m– schrittigen Nyström– Verfahrens im eindimensionalen Fall Die folgenden Resultate für die Nyström-Verfahren lassen sich genauso wie die Resultate u¨ ber die Adams Bashfort Verfahren herleiten. Auf die jeweiligen Nachweise wird daher wiederum verzichtet. Theorem 8.32 Das m schrittige Nyström Verfahren hat die Gestalt u+m − u+m−2

=

h

m−1

κk ∇k f+m−1 ,

= 0, 1, . . . , n − m,

k=0

mit den von m unabhängigen Koeffizienten κk := ( –1 )k

Z 1

−s

−1

k

ds,

k = 0, 1, . . .,

die sich rekursiv berechnen durch κ0 = 2 und 1 1 1 1 κ + k κ1 + k − 1 κ2 + . . . + 2 κk−1 + κk k+1 0

= 1 für k = 1, 2, . . . .

(8.41)

Bemerkung 8.33 (a) Das m schrittige Nyström Verfahren lässt sich in eindeutiger Weise in der Form u+m − u+m−2

=

h

m−1 j=0

βm,j f+j ,

= 0, 1, . . . , n − m,

Abschnitt 8.5

193

Nyström – und Milne– Simpson– Verfahren

schreiben mit den von der Zahl m abhängigen Koeffizienten βm,m−1−j

=

( –1 )j

m−1

k j κk ,

j = 0, 1, . . . , m − 1.

k=j

(b) Aus (8.41) berechnen sich die ersten fünf Koeffizienten κ0 , . . . , κ4 zu κ0 = 2,

κ1 = 0,

κ2 =

1 , 3

κ3 =

1 , 3

29 . 30

κ4 =

Für m = 2, 3, 4 lauten die m schrittigen Nyström Verfahren in der klassischen Darstellung eines linearen Mehrschrittverfahrens folgendermaßen, m=2:

u+2

= u + 2hf+1 ,

= 0, . . . , n − 2;

m=3:

u+3

= u+1 + 3 (7f+2 − 2f+1 + f ),

m=4:

u+4

= u+2 + 3 (8f+3 − 5f+2 + 4f+1 − f ),

h h

......

n − 2;

......

n − 4.

Für m = 2 erhält man also die Mittelpunktregel.

Das folgende Resultat stellt die wesentlichen Eigenschaften der Nyström Verfahren heraus: Theorem 8.34 Das m schrittige Nyström Verfahren ist nullstabil. Für f ∈ C m ( [ a, b ] × R N , R N ) besitzt es die Konsistenzordnung p = m. Die Fehlerkonstante lautet κm /2.

8.5.3 Milne– Simpson– Verfahren Definition 8.35 Für m ≥ 2 erhält man das m schrittige Milne Simpson Verfahren durch den Ansatz (8.40) mit P ∈ ΠN m,

P ( tj ) = fj ,

j = , + 1, . . . , + m,

fj := f ( tj , uj ),

.

......

Die folgenden Resultate für die Milne-Simpson-Verfahren ergeben sich genauso wie die Resultate u¨ ber die Adams Bashfort Verfahren. Auf die einzelnen Beweisführungen wird daher auch hier verzichtet. Theorem 8.36 Für m ≥ 2 hat das m schrittige Milne Simpson Verfahren die Gestalt u+m − u+m−2

=

h

m

κk∗ ∇k f+m ,

= 0, 1, . . . , n − m,

k=0

mit den von der Zahl m unabhängigen Koeffizienten Z 0 −s κk∗ := ( –1 )k k ds, −2

k = 0, 1, . . .,

die sich rekursiv berechnen durch κ0∗ = 2, κ1∗ = −2 und 1 1 1 1 ∗ κ ∗ + k κ1∗ + k − 1 κ2∗ + . . . + 2 κk−1 + κk∗ = 0 k+1 0

für k = 2, 3, . . . . (8.42)

194

Kapitel 8 Mehrschrittverfahren für Anfangswertprobleme .... ... ..

f+m−1 .............

f+m

....................................... ................................... ..................................... ......................................... ..... ........................................................................ ............................. . . .................................... ....................................... ...... .......... +m−2................................................................................. ....... ....... . . . . . . . . . . . . . . . . . . . . . . . . . . .... ........................................... ... ..... ...... .... ........................................ .... ........ ............. ................................................................................ ..... ...... ..... ........................................ ...... .................... ...... ............................................................ . . . . . . .................... .......................... ............................................................ .................... ............................................................ ........................................ .................... ............................................................ .................... ............................................................ .................... ........................................

f+1

f−1

f

f

t−1 t

t+1

... t+m−2

P( t )

........ .....

t

t+m

Bild 8.4 Vorgehensweise des m– schrittigen Milne– Simpson– Verfahrens im eindimensionalen Fall Bemerkung 8.37 (a) Das m schrittige Milne Simpson Verfahren (8.42) lässt sich in eindeutiger Weise in der Form u+m − u+m−2

=

h

m

∗ βm,j f+j ,

= 0, 1, . . . , n − m,

j=0

schreiben mit den von der Zahl m abhängigen Koeffizienten ∗ βm,m−j

=

( –1 )j

m k ∗ j κj ,

j = 0, 1, . . . , m − 1.

k=j

(b) Aus (8.41) berechnen sich die ersten fünf Koeffizienten κ0∗ , . . . , κ4∗ zu κ0∗ = 2,

κ1∗ = −2,

1

κ2∗ = 3 ,

κ3∗ = 0,

1

κ4∗ = − 90 .

Für m = 2 beziehungsweise m = 4 lauten die m schrittigen Milne Simpson Verfahren in der klassischen Darstellung eines linearen Mehrschrittverfahrens folgendermaßen, h

m = 2 : u+2 = u + 3 (f+2 + 4f+1 + f ), m = 4 : u+4 = u+2 +

0 ≤ ≤ n − 2;

h (29f+4 + 124f+3 + 24f+2 + 4f+1 − f ), 0 ≤ ≤ n − 4. 90

Für m = 2 erhält man das Verfahren von Milne, das der Simpson Regel zur numerischen Integration entspricht. Theorem 8.38 Für m ≥ 2 ist das m schrittige Milne Simpson Verfahren nullstabil. Wir unterscheiden nun die Fälle m = 2 und m ≥ 4:3 (a) Für eine hinreichend glatte Funktion f besitzt das (zweischrittige) Verfahren von Milne die Konsistenzordnung p = 4, und die Fehlerkonstante lautet −1/180. 3

Für m = 3 erhält man das gleiche Verfahren wie für m = 2.

Abschnitt 8.6

195

BDF – Verfahren

(b) Für m ≥ 4 und eine hinreichend glatte Funktion f besitzt das m-schrittige Milne–Simpson∗ /2. Verfahren die Konsistenzordnung p = m + 1, und die Fehlerkonstante lautet κm+1 Bemerkung 8.39 Ganz allgemein erhält man für jede Zahl q ≥ 3 weitere Klassen von Mehrschrittverfahren durch Integration der Differenzialgleichung y = f ( t, y ) von t+m−q bis t+m , y ( t+m ) − y ( t+m−q )

Z t +m

=

t+m−q

f ( t, y ( t )) dt,

= 0, 1, . . . , n − m,

sowie durch anschließendes Ersetzen des Integranden durch geeignete Polynome P, u+m − u+m−q

Z t +m

=

t+m−q

P ( t ) dt,

= 0, 1, . . . , n − m.

(8.43)

Bei allen auf solchen Ansätzen (mit q ≥ 1) beruhenden Ein und Mehrschrittverfahren wird für jeden Index die Vorgehensweise in (8.43) als Integrationsschritt bezeichnet.

8.6 BDF–Verfahren Im Folgenden werden die (impliziten) rückwärtigen Differenziationsformeln behandelt, die kurz als BDF Verfahren (backward differentiation formulas) bezeichnet werden.

8.6.1 Der Ansatz Definition 8.40 Für m ≥ 1 ist die Vorgehensweise bei dem m schrittigen BDF Verfahren für = 0, . . . , n − m folgendermaßen: ausgehend von den schon berechneten Approximationen uj ≈ y ( tj ) für j = , . . . , + m − 1, bestimmt man die Näherung u+m ≈ y ( t+m ) dahingehend, dass für das Interpolationspolynom P ∈ ΠN m,

P ( tj ) = uj ,

j = , + 1, . . . , + m,

(8.44)

Folgendes erfüllt ist, P ( t+m ) = f+m , !

mit f+m := f ( t+m , u+m ).

(8.45)

Der Vektor u+m ∈ R N wird also durch die zusätzliche Bedingung (8.45) festgelegt. Die vorliegende Situation ist in Bild 8.5 veranschaulicht. Theorem 8.41 Das m schrittige BDF Verfahren hat die Gestalt m 1 k ∇ u+m k

k=1

=

hf+m ,

= 0, 1, . . . , n − m.

(8.46)

196

Kapitel 8 Mehrschrittverfahren für Anfangswertprobleme .... ... ..

... .. ... ... ... . . . . . . . . . . . . . . . . . . . . . . ........... ........ .. ....... ........ ... ...... ...... ..... .... ..... ..... .... .... ..... ..... .... .......... ................ .... . . . . . . . . . . . . . . ..... ...... ....... ...........................

u+1

t−1 t

P( t )

u+m−2

u−1 u

−1

u+m

.. . ..... ....................... .......... ................ ..........

u+m−1...............

t+1

...

f+m ......... .....

t+m−1 t+m

t

Bild 8.5 Vorgehensweise des m– schrittigen BDF– Verfahrens im eindimensionalen Fall B EWEIS . Für das Polynom P aus (8.44) erhält man nach Lemma 8.20 auf Seite 185 die folgende Darstellung, P ( t+m + sh )

=

m

( –1 )k

−s k k ∇ u+m ,

s ∈ R,

(8.47)

k=0

mit noch freiem u+m ∈ R N . Zur Anpassung an die Bedingung (8.45) wird (8.47) differenziert, P ( t+m ) = und wegen

−s 0

d −s s=0 ds k

1 d P(t +m + sh) h ds s=0

m 1 d −s ( –1 )k ∇k u+m, s=0 h ds k

=

k=0

= 1 sowie4 d ( –s )( –s − 1 ) · · · ( –s − k + 1 ) s=0 ds k! ( –1 )k 1 · 2 · · · (k − 1) = = ( –1 )k k! k

=

=

−

( –1 )( –2 ) · · · ( –k + 1 )

k!

¨ für k ≥ 1 erhält man die Aquivalenz der Aussagen (8.44) (8.45) beziehungsweise (8.46). Bemerkung 8.42 (a) Das m schrittige BDF Verfahren (8.46) lässt sich in eindeutiger Weise in der Form m

αm,j u+j

=

hf+m ,

= 0, 1, . . . , n − m,

j=0

schreiben mit den von der Zahl m abhängigen Koeffizienten αm,0 , . . . , αm,m ∈ R, denn die Darstellung (8.21) liefert m 1 k ∇ u+m k

k=1

4

siehe (8.23)

=

m k k 1 ( –1 )j j u+m−j k

k=1

j=0

=

m j=0

( –1 )j

m

k=max{j,1}

1k u+m−j . k j

=: αm,m−j

Abschnitt 8.7

197

Prädiktor– Korrektor– Verfahren

(b) Für m = 1, . . . , 5 lauten die m schrittigen BDF Verfahren in der klassischen Darstellung eines linearen Mehrschrittverfahrens folgendermaßen (jeweils für ≤ n − m): m=1:

u+1 − u

=

hf+1 ;

− 4u+1 + u ) =

hf+2 ;

− 18u+2 + 9u+1 − 2u ) = 1 25u+4 − 48u+3 + 36u+2 − 16u+1 + 3u = 12 1 137u+5 − 300u+4 + 300u+3 − 200u+2 + 75u+1 − 12u = 60

hf+3 ;

m=2:

1 (3u+2 2

m=3:

1 (11u+3 6

m=4: m=5:

hf+4 ; hf+5 .

Insbesondere erhält man im Fall m = 1 das implizite Euler Verfahren.

Man kann Folgendes nachweisen (siehe Abschnitt III.3 in Hairer / Nørsett /Wanner [47]): Theorem 8.43 Das m-schrittige BDF-Verfahren ist genau für 1 ≤ m ≤ 6 nullstabil. Für hinreichend glatte Funktionen f besitzt es die Konsistenzordnung p = m, und die Fehlerkonstante lautet −1/( m + 1 ).

¨ 8.6.2 Tabellarische Ubersicht uber ¨ spezielle Mehrschrittverfahren Mehrschrittverfahren

Ordnung

Fehlerkonstante

m-schrittige –Adams Bashfort Verfahren, m ≥ 1

m

γm

m+1

∗ γm+1

m

κm /2

m+1

∗ κm+1 /2

m

−1/( m + 1 )

.......

–Adams Moulton Verfahren, m ≥ 1

.......

–Nyström Verfahren, m ≥ 2

.......

–Milne Simpson Verfahren, m ≥ 4

......

–BDF Verfahren, 1 ≤ m ≤ 6

¨ Tabelle 8.1 Ubersicht der Konsistenzordnungen und Fehlerkonstanten für spezielle nullstabile m– Schrittverfahren

8.7 Prädiktor–Korrektor–Verfahren Implizite m Schrittverfahren von der Form (8.1) mit αm = 1 implementiert man in der Form eines Prädiktor Korrektor Schemas. Bei im Folgenden fixiertem geht man dabei folgendermaßen vor: •

[1]

mittels einer Fixpunktiteration (dem Korrektor, engl. corrector) bestimmt man u+m , . . . , [M −1] [M ] u+m ∈ R N und schließlich u+m := u+m ∈ R N ;

198 •

Kapitel 8 Mehrschrittverfahren für Anfangswertprobleme [0]

den Startwert u+m ∈ R N verschafft man sich durch ein zunächst nicht näher spezifiziertes explizites m Schrittverfahren (den sogenannten Prädiktor, engl. predictor),

Die folgende Definition präzisiert dieses Vorgehen. Definition 8.44 Gegeben seien • •

ein implizites m Schrittverfahren von der Form (8.1) mit αm = 1 (der Korrektor); ∗ ein explizites m Schrittverfahren (der Prädiktor) mit Koeffizienten α0∗ , α1∗ , . . . , αm−1 sowie der Funktion

ϕ∗ : [ a, b ] × (R N )m × [ 0, H ] → R N . Bei dem zugehörigen Prädiktor Korrektor Verfahren geht man für = 0, . . . , n − m so vor: für [0] [M −1] [M ] fixiertes bestimmt man u+m , . . . , u+m , u+m =: u+m ∈ R N entsprechend den folgenden Bestimmungsgleichungen, [0]

u+m +

m−1

αj∗ u+j = hϕ∗ t , u , . . . , u+m−1 ; h ,

(8.48–a)

j=0 [ν]

u+m +

m−1

[ν−1] αj u+j = hϕ t , u , . . . , u+m−1 , u+m ; h ,

ν = 1, 2, . . . , M, (8.48–b)

j=0 [M ]

u+m = u+m . Hier setzt man u0 = y0 , und die u¨ brigen Startwerte u = u(0) ≈ y ( t ), = 1, . . . , m − 1, hat man in einer (an dieser Stelle nicht näher spezifizierten) Anlaufrechnung zu bestimmen. Das folgende Lemma macht deutlich, dass sich das vorgestellte Prädiktor Korrektor Verfahren als nichtlineares explizites m Schrittverfahren von der Form (8.1) darstellen lässt. Lemma 8.45 Gegeben sei ein Prädiktor Korrektor Verfahren entsprechend Definition 8.44. Für die gewonnenen Approximationen u ≈ y ( t ) ∈ R N eines Prädiktor Korrektor Verfahrens gilt die Darstellung u+m +

m−1

αj u+j = hψ [M ] (t , u , . . . , u+m−1 ; h),

= 0, 1, . . . , n − m, (8.49)

j=0

wobei die Funktion ψ [M ] : [ a, b ] × (R N )m × [ 0, H ] → R N wie folgt rekursiv definiert ist, ψ [ν] (t, v0 , . . . , vm−1 ; h)

=

[ν−1] ϕ(t, v0 , . . . , vm−1 , vm ; h),

ν = 1, . . . , M, (8.50)

mit [0] vm

=

hϕ∗ ( t, v0 , . . . , vm−1 ; h) −

[ν−1] vm

=

[ν−1]

hψ

(

......

) −

m−1 j=0 m−1 j=0

⎫ ⎪ ⎪ ⎪ ⎬

αj∗ vj , αj vj ,

ν = 2, . . . , M.

⎪ ⎪ ⎪ ⎭

(8.51)

Abschnitt 8.7

199

Prädiktor– Korrektor– Verfahren

B EWEIS . Für den Nachweis der Darstellung (8.49) setzt man in (8.50)– (8.51) v0 := u ,

v1 := u+1 , . . . , vm−1 := u+m−1 ,

und durch Vergleich von (8.48) und (8.51) erkennt man mittels vollständiger Induktion leicht [ν]

[ν] vm = u+m ,

ν = 0, 1, . . . , M,

[M ]

wobei vm entsprechend (8.51) definiert sei. Dies bedeutet nichts anderes als [ν]

u+m +

m−1

αj u+j

=

hψ [ν] (t , u , . . . , u+m−1 ; h),

ν = 1, 2, . . . , M. (8.52)

j=0

Für ν = M erhält man aus (8.52) schließlich die Darstellung (8.49). Gegenstand des folgenden Theorems sind die Konsistenzordnung und Nullstabilität von Prädiktor Korrektor Verfahren. Theorem 8.46 Gegeben sei ein Prädiktor Korrektor Verfahren von der Form in Definition 8.44, welches die folgenden Eigenschaften besitze: •

•

der Prädiktor besitze die Konsistenzordnung p∗ ≥ 1, und die Funktion ϕ∗ genüge einer Lipschitzbedingung der Form (8.6); der Korrektor sei nullstabil und besitze die Konsistenzordnung p ≥ p∗ + M, und die Funktion ϕ genüge einer Lipschitzbedingung der Form (8.6).

Dann ist das Prädiktor Korrektor Verfahren nullstabil und besitzt die Konsistenzordnung p∗ + M, und die zugehörige Funktion ψ [M ] genügt der Lipschitzbedingung (8.6). B EWEIS . Die zu den Funktionen ϕ beziehungsweise ϕ∗ gehörenden Lipschitzkonstanten seien mit L beziehungsweise L∗ bezeichnet. (a) Die Nullstabilität folgt unmittelbar aus der Darstellung (8.49). (b) Wir zeigen im Folgenden für ν = 1, 2, . . . , M induktiv, dass die Funktion ψ [ν] aus (8.50) einer Lipschitzbedingung der Form (8.6) genügt mit einer gewissen Lipschitzkonstanten L[ν] . [ν] [ν] Tatsächlich erhält man für wm entsprechend vm aus (8.50), (8.51) Folgendes (für 0 < h ≤ H ), ||ψ [1] (t, v0 , . . . , vm−1 ; h) − ψ [1] (t, w0 , . . . , wm−1 ; h)|| m−1 [0]

[0] ≤ L ||vj − wj || + vm − wm j=0

m−1 ≤ L ||vj − wj || 1 + j=0

≤ L 1 +

max

j=0, p p ,m−1

|αj∗ |

+ hϕ∗ (t, v0 , p p , vm−1 ; h) − ϕ∗ (t, w0 , p p , wm−1 ; h)

m−1 |αj∗ | + HL∗ ||vj − wj || , j=0,...,m−1

j=0 [1] =: L max

200

Kapitel 8 Mehrschrittverfahren für Anfangswertprobleme

und genauso erhält man für ν = 2, 3, . . . , M: [ν] ψ (t, v0 , . . . , vm−1 ; h) − ψ [ν] (t, w0 , . . . , wm−1 ; h) m−1 ≤ L ||vj − wj || 1 + max |αj | j=0, p p ,m−1

j=0

+ h ψ [ν−1] (t, v0 , p p , vm−1 ; h) − ψ [ν−1] (t, w0 , p p , wm−1 ; h)

≤ L 1 +

m−1 |αj | + HL[ν−1] ||vj − wj || . j=0,...,m−1

j=0 [ν] =: L max

(c) Für den Nachweis der angegebenen Konsistenzordnung definiert man η ∗ ( t, h ) = y ( t + mh ) + η [ν] ( t, h ) = y ( t + mh ) +

m−1 j=0 m−1

⎫ ⎪ αj∗ y ( t + jh ) − hϕ∗ t, y(t), . . . , y ( t + ( m − 1 )h ) , ⎪ ⎪ ⎪ ⎪ ⎪ ⎬

αj y ( t + jh ) − hψ [ν] (

......

j=0

ν = 1, 2, . . . , M,

(8.53) ),⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎭

womit η∗ der lokale Verfahrensfehler des Prädiktors ist, und η [M ] ( t, h ) stellt den lokalen Verfahrensfehler des Prädiktor Korrektor Verfahrens dar. Im Folgenden wird mittels vollständiger Induktion Folgendes gezeigt, ||η [ν] ( t, h ) ||

=

O(hp∗ +ν+1 )

für h → 0

( ν = 1, 2, . . . , M ),

(8.54)

und für ν = M erhält man die angegebene Konsistenzordnung für das Prädiktor Korrektor Verfahren. Für den Nachweis von (8.54) zieht man für ν = 1, 2, . . . , M die Definition (8.50) von ψ [ν] heran, ψ [ν] t, y ( t ), y ( t + h ), . . . , y ( t + (m − 1)h ) ; h [ν] = ϕ t, y ( t ), y ( t + h ), . . . , y ( t + ( m − 1 )h ), vm ;h , mit [0]

vm

=

m−1 ∗ hϕ∗ t, y ( t ), . . . , y ( t + ( m − 1 )h ) − αj y ( t + jh ) j=0

(8.53)

=

[ν−1]

vm

ν≥1

=

y ( t + mh ) − η∗ ( t, h ), m−1 hψ [ν−1] t, y ( t ), . . . , y ( t + ( m − 1 )h ) − αj y ( t + jh ) j=0

(8.53)

=

y ( t + mh ) − η

[ν−1] (

t, h ).

(8.55)

Abschnitt 8.7

201

Prädiktor– Korrektor– Verfahren

Dies eingesetzt in (8.55) ergibt unter Verwendung der Notation η [0] = η∗ ψ [ν] (t, y ( t ), . . . , y ( t + ( m − 1 )h ) ; h) = ϕ(t, y ( t ), . . . , y ( t + ( m − 1 )h ), y ( t + mh ) − η [ν−1] ( t, h ) ; h) = ϕ(∼∼∼, y ( t + mh ) ; h) + ϕ(∼∼∼, y ( t + mh ) − η [ν−1] ( t, h ) ; h) − ϕ(∼∼∼, y(t + mh); h) wobei ∼∼∼ für “t, y ( t ), . . . , y ( t + ( m − 1 )h )“ steht. Bezeichnet noch η ( t, h ) den lokalen Verfahrensfehler des Korrektors, so erhält man aus der letzten Darstellung zusammen mit (8.53) die folgenden Abschätzungen, ||η [1] ( t, h ) || ≤ ||η ( t, h ) || + hL||η ∗ ( t, h ) ||, ||η [ν] ( t, h ) || ≤

......

+ hL||η [ν−1] ( t, h ) ||,

ν = 2, 3, . . . , M,

beziehungsweise mit vollständiger Induktion ||η [ν] ( t, h ) ||

=

O(hp+1 ) + hO(hp∗ +ν )

=

O(hp∗ +ν+1 )

für h → 0

( ν = 1, 2, . . . , M ),

was mit der Aussage (8.54) u¨ bereinstimmt. Bemerkung 8.47 In der typischen Situation p − 1 = p∗ = m ist nach Theorem 8.46 ein Korrektorschritt ausreichend, man wählt also M = 1.

8.7.1 Linearer Prädiktor/Linearer Korrektor Typischerweise sind sowohl Prädiktor als auch Korrektor lineare Mehrschrittverfahren, es gilt also ϕ∗ (t, v0 , . . . , vm−1 ; h) =

m−1

βj∗ f ( t + jh, vj ),

j=0

ϕ(t, v0 , . . . , vm ; h) =

m

βj f ( t + jh, vj ).

j=0

In dieser speziellen Situation wird das Prädiktor Korrektor Verfahren in Form eines Pseudocodes dargestellt. Algorithmus 8.48 Für ein gegebenes lineares implizites m Schrittverfahren von der Form (8.1) mit αm = 1 (der Korrektor) sowie ein explizites lineares m Schrittverfahren mit Koeffizienten αj∗ , βj∗ , j = 0, . . . , m−1 (der Prädiktor) nimmt das zugehörige Prädiktor Korrektor Verfahren die folgende Gestalt an:

202

Kapitel 8 Mehrschrittverfahren für Anfangswertprobleme

for = 0, 1, . . . , n − m [0]

P u+m

+

m−1

αj∗ u+j

=

j=0

h

m−1

βj∗ f+j ;

j=0

for ν = 1, . . . , M : [ν−1] [ν−1] = f t+m , u+m f+m

m−1 m−1 [ν] [ν−1] αj u+j = h βj f+j + hβm f+m u+m + j=0

E C

j=0

[M ]

u+m = u+m [M ]

E f+m = f ( t+m , u+m ) Wie u¨ blich ist hier u0 := y0 , und die weiteren Startwerte u1 , . . . , u ∈ R N sind in einer nicht näher spezifizierten Anlaufrechnung zu berechnen, und schließlich setzt man f := f ( t , u ) für = 0, . . . , m − 1. Das resultierende Verfahren bezeichnet man als P(EC)M E Verfahren, wobei E für “evaluate“ steht. Bemerkung 8.49 Zur Einsparung einer Funktionsauswertung kann man in Algorithmus 8.48 [M ] [M −1] die Setzung f+m = f ( t+m , u+m ) zu f+m := f+m modifizieren. Das resultierende GesamtM verfahren bezeichnet man als P(EC) –Verfahren, welches hier nicht weiter diskutiert werden soll und auch nicht als Mehrschrittverfahren von der Form (8.1) darstellbar ist.

8.8 Lineare homogene Differenzengleichungen 8.8.1 Die Testgleichung In diesem Abschnitt soll das Verhalten spezieller Mehrschrittverfahren zu Illustrationszwecken anhand der Testgleichung y ( t ) = λy ( t ),

t≥0

( λ ∈ R ),

untersucht werden. Ein allgemeines lineares m Schrittverfahren nimmt hier die Form m

γj u+j = 0,

= 0, 1, . . .,

(8.56)

j=0

an mit γj = αj − hλβj für j = 0, 1, . . . , m. Im Folgenden wird beschrieben, wie man die Lösungen (u )∈N0 der Differenzengleichung (8.56) erhält.

Abschnitt 8.8

203

Lineare homogene Differenzengleichungen

8.8.2 Existenz und Eindeutigkeit bei linearen homogenen Differenzengleichungen Definition 8.50 Im Folgenden bezeichne s(K )

-

=

u = (u )∈N0 | u ∈ K

.

(8.57)

den Raum der Folgen, mit K = C oder K = R. Eine Abbildung L : s(K ) → s(K ) von der Form m

=

( Lu )

= 0, 1, . . .

γj u+j ,

(8.58)

j=0

mit gegebenen Koeffizienten γ0 , γ1 , . . . , γm ∈ R, γm = 0, bezeichnet man als linearen Differenzenoperator m ter Ordnung. Die Gleichung Lu = 0 nennt man zugehörige homogene Differenzengleichung. Schließlich bezeichnet N (L)

=

-

u = (u )∈N0 ∈ s(K )

|

Lu = 0

.

(8.59)

den Nullraum von L. Bemerkung 8.51 Mit den natürlichen Verknüpfungen bildet s(K ) einen linearen Vektorraum u¨ ber K, und eine Abbildung L : s(K ) → s(K ) von der Form (8.58) ist linear. 0) Theorem 8.52 Zu gegebenem Differenzenoperator (8.58) und Startwerten u(00) , . . . , u(m−1 ∈K gibt es genau eine Folge u ∈ s(K ) mit

Lu = 0,

u = u(0)

für = 0, 1, . . . , m − 1.

(8.60)

B EWEIS . Für eine Folge u ∈ s(K ) bedeutet Lu = 0 Folgendes, u+m

=

m−1 − γj u+j γm ,

= 0, 1, . . .,

(8.61)

j=0

woraus unmittelbar Existenz und Eindeutigkeit einer Folge (u )∈N0 ∈ s(K ) mit der Eigenschaft (8.60) resultieren. Theorem 8.53 Für jeden linearen Differenzenoperator L der Ordnung m gilt dim N (L) = m. B EWEIS . Für ν = 1, 2, . . . , m sei die Folge u[ν] ∈ s(K ) folgendermaßen definiert, 1 Lu

[ν]

= 0,

[ν] u

=

1,

für = ν − 1,

0,

für ∈ {0, . . . , m − 1}\{ν − 1}.

Diese m Folgen bilden eine Basis von N (L), wie im Folgenden nachgewiesen wird.

204

Kapitel 8 Mehrschrittverfahren für Anfangswertprobleme

(i) Die Folgen u[1] , . . . , u[m] sind linear unabhängig, denn für gegebene Koeffizienten c1 , . . . , cm ∈ K gilt: m

cν u[ν] = 0

;

m

0 =

ν=1

cν u[ν]

ν=1

=

m

[ν]

cν u

= c+1 ,

= 0, . . . , m − 1.

ν=1

(ii) Andererseits gilt N ( L ) ⊂ span {u[1] , . . . , u[m] }, denn für eine beliebige Folge u ∈ N ( L ) gelten mit cν := uν−1 für ν = 1, . . . , m die Identitäten m ν=1

cν u[ν]

=

m

[ν]

cν u

= c+1 = u ,

= 0, 1, . . . , m − 1,

ν=1

beziehungsweise u =

m

cν u[ν] aufgrund von Theorem 8.52.

ν=1

8.8.3 Die komplexwertige allgemeine Lösung der homogenen Differenzengleichung Lu = 0 Zur Bestimmung einer Basis des m dimensionalen Raums der komplexwertigen Lösungsfolgen der Gleichung Lu = 0 mit gegebenem Differenzenoperator L der Form (8.58) macht man zunächst den Ansatz u = (ξ )∈N0 mit ξ ∈ C und erhält (Lu)

=

m j=0

γj ξ +j

(∗)

=

ξ

m

γj ξ j ,

= 0, 1, . . .,

j=0

so dass die Gleichung Lu = 0 erfüllt ist, falls ξ ∈ C eine Nullstelle des charakteristischen Polynoms ψ( ξ )

=

γm ξ m + γm−1 ξ m−1 + . . . + γ0

(8.62)

ist. Diese Aussage (und insbesondere die Identität (∗) ) ist auch wahr für ξ = 0, wobei der genannte Ansatz hier u = (1, 0, 0, . . .) ∈ s(C ) bedeutet. Im Falle einer s fachen Nullstelle ξ ∈ C mit s ≥ 2 ist dieser Ansatz jedoch nicht hinreichend allgemein. Es stellt sich Folgendes heraus: •

gilt ξ = 0, so ist für jedes 0 ≤ ν ≤ s − 1 auch u = ( ν ξ )∈N0 Lösung der Gleichung Lu = 0.

•

Gilt andererseits ξ = 0, so ist für jedes 0 ≤ ν ≤ s−1 auch u = ( 0, . . . , 0, 1, 0, 0, . . .) ∈ s(C ) Lösung der Gleichung Lu = 0.

ν−mal

Das allgemeine Resultat hierzu ist in dem folgenden Theorem festgehalten. Theorem 8.54 Zu gegebenem Differenzenoperator L der Form (8.58) seien ξ1 , . . . , ξr ∈ C die paarweise verschiedenen Nullstellen des charakteristischen Polynoms (8.62) mit den jeweiligen

Abschnitt 8.8

205

Lineare homogene Differenzengleichungen

Vielfachheiten m1 , . . . , mr ∈ N. Für beliebige Polynome Pk ∈ Πmk −1 , k = 1, 2, . . . , r (mit komplexen Koeffizienten) sowie gegebenenfalls Zahlen aj ∈ C, j = 0, 1, . . . , mk∗ −1 , ist je nach der Situation (i)

ξk = 0 für k = 1, . . . , r;

(ii)

ξk∗ = 0 für ein 1 ≤ k∗ ≤ r;

durch (i) u =

r

Pk ( )ξk ,

= 0, 1, . . . ,

k=1

(ii) u =

r

+

......

mk∗ −1

aj δj ,

⎪ (ξk∗ = 0 für ein k∗ )⎪ ⎪ ⎪ ⎭

......

j=0

k=1 k=k∗

⎫ ⎪ (ξk = 0 für alle k ) ⎪ ⎪ ⎪ ⎬ (8.63)

eine Folge u ∈ s(C ) mit Lu = 0 definiert. Umgekehrt lässt sich jede Lösung u ∈ s(C ) der Gleichung Lu = 0 in der Form (8.63) darstellen. B EWEIS . Im Folgenden verwenden wir die Notation ων ( x ) := x( x − 1 ) · · · ( x − ν + 1 )

ν−1

=

( x − s ),

x ∈ R,

s=0

so dass ων ein Polynom vom genauen Grad ν mit den Nullstellen 0, 1, . . . , ν − 1 ist. Weiter sei noch festgehalten, dass für k = 1, 2, . . . , r die Eigenschaft ψ ( ν ) ( ξk ) = 0 für ν = 0, 1, . . . , mk − 1 gleichbedeutend mit m

γj ων ( j )ξkj−ν

=

ν = 0, 1, . . . , mk − 1,

0,

(8.64)

j=ν

ist. Dies gilt mit der Konvention 00 = 1 auch für den Fall ξk = 0 und bedeutet hier nichts anderes als γ0 = γ1 = . . . = γmk −1 = 0. Im Folgenden soll das spezielle System (u[ k, ν ] )k=1,...,r

⊂ s(C )

ν=0,...,mk −1

definiert durch u[ k, ν ]

=

(ων ( )ξk−ν )∈N0

für

k ∈ {1, . . . , r }, ν ∈ {0, . . . , mk − 1}

(8.65)

betrachtet werden, wobei diese spezielle Wahl von u[ k, ν ] einen kurzen Beweis der linearen Unabhängigkeit ermöglicht. Die Elemente u[ k, ν ] ∈ s(C ) lassen sich folgendermaßen darstellen: •

Für ξk = 0 gilt die Identität u[ k, ν ]

=

ξk−ν (ων ( )ξk )≥0 ,

const.

[ k, ν ]

und aufgrund der speziellen Form von ων gilt u

= 0 für = 0, 1, . . . , ν − 1.

(8.66)

206 •

Kapitel 8 Mehrschrittverfahren für Anfangswertprobleme

Mit der Konvention 0 × ∞ = 0 bedeutet die Darstellung (8.65) im Falle ξk∗ = 0 Folgendes, =

u [ k∗ , ν ]

ν!(δν )≥0 ,

ν = 0, 1, . . . , mk∗ − 1.

(8.67)

Die Tatsache dim N (L) = m ist aufgrund von Theorem 8.53 bereits bekannt, und des Weiteren gilt rk=1 mk = m. Im Folgenden wird nachgewiesen, dass das System (8.65) eine Basis von N (L) bildet. Mit den Darstellungen (8.66) (8.67) für dieses System erhält man die Darstellungen (8.63), wenn man noch berücksichtigt, dass sich jedes Polynom P ∈ Πn in eindeutiger Weise in der Form P ( x ) = ns=0 as ωs ( x ) darstellen lässt. Für den Nachweis der Basiseigenschaften des Systems (8.65) wird als Erstes für fixierte k ∈ {1, . . . , r } und ν ∈ {0, . . . , mk −1} die Identität Lu[ k, ν ] = 0 nachgewiesen. Hierzu beobachtet man, dass für festes die Funktion C → C, j → ων ( + j ) ein Polynom ν ten Grades in j darstellt, so dass es Koeffizienten aν,,s ∈ C für s = 0, 1, . . . , ν gibt mit ων ( + j )

ν

=

j = 0, 1, . . . .

aν,,s ωs ( j ),

s=0

Damit gilt (Lu[ k, ν ] )

=

m

[ k, ν ]

j=0

=

m

γj

j=0

ν

m

=

γj u+j

γj ων ( + j )ξk+j−ν

j=0

+j−ν

= ξk

aν,,s ωs ( j ) ξk

s=0

ν

aν,,s

m

s=0

j=0

γj ωs ( j )ξkj−ν

(8.64)

=

= 0.

0

Es ist nun noch die lineare Unabhängigkeit der Familie (8.65) nachzuweisen. Hierzu seien (ckν )k=1,...,r ⊂ C Koeffizienten mit ν=0,...,mk −1

ckν u[ k, ν ]

=

0.

k=1,...,r ν=0,...,mk −1

Dies bedeutet 0 =

[ k, ν ]

ckν u

=

k=1,...,r ν=0,...,mk −1

ckν ων ( )ξk−ν ,

k=1,...,r ν=0,...,mk −1

beziehungsweise in Matrixschreibweise Bc

=

r k=1

Bk ck

=

0

= 0, 1, . . . , m − 1,

Abschnitt 8.8

207

Lineare homogene Differenzengleichungen

mit Matrizen und Vektoren

B

=

⎛ ⎞

⎛

⎞

⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

⎟ ⎟ ⎟ ⎟ × ⎟ ∈ Cm m , ⎟ ⎟ ⎠

B1

...

Br

c

=

⎜c ⎟ ⎜ 1⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ p⎟ ⎜ pp ⎟ ∈ Cm , ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎝ ⎠ cr

wobei Bk ∈ Cm×mk und ck ∈ Cmk wie folgt erklärt sind, ⎛

⎞ ω0 ( 0 )

Bk

0 ppp 0 ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ pp pp 1 ⎜ ⎟ ( ) ( ) ω 1 ξ ω 1 p p 0 1 k ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ p pp p ⎜ ⎟ 0 p p ⎜ ⎟ = ⎜ ⎟, ⎟ ⎜ ⎜ ω ( m − 1 )ξ mk −1p p p p p p ωmk −1 ( mk − 1 ) ⎟ ⎟ ⎜ 0 k k ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ p p p p ⎟ ⎜ p p ⎟ ⎜ ⎟ ⎜ ⎠ ⎝ m−mk m−1 ω0 ( m − 1 )ξk p p p p p p ωmk −1 ( m − 1 )ξk

(ων ( )ξk−ν )=0,...,m−1

⎛ ⎜ ck = ⎜ ⎝

ck0 pp p

⎞ ⎟ ⎟. ⎠

ck,mk −1

ν=0,...,mk −1

Die lineare Unabhängigkeit der Familie (8.65) ergibt sich nun aus der Regularität der Matrix B ∈ Cm×m , die im Folgenden nachgewiesen wird. Hierzu beobachtet man, dass für ein Polynom p( ξ )

=

m−1

dj ξ j ,

j=0

mit den paarweise verschiedenen Nullstellen ξ1 , ξ2 , . . . , ξr ∈ C und den jeweiligen Vielfachheiten m1 , . . . , mr ∈ N nur5 p ≡ 0 beziehungsweise d0 = . . . = dm−1 = 0 gelten kann, denn wegen rk=1 mk = m besitzt das Polynom p ∈ Πm−1 mindestens m Nullstellen (entsprechend ihren Vielfachheiten gezählt). Wegen p( ν ) ( ξ k )

=

m−1

d ων ( )ξk−ν ,

=ν 5

siehe beispielsweise Fischer [26], Abschnitt 1.3

ν = 0, 1, . . . , mk − 1,

k = 1, 2, . . . , r,

208

Kapitel 8 Mehrschrittverfahren für Anfangswertprobleme

ist dies gleichbedeutend damit, dass das Gleichungssystem Ad = 0 nur die triviale Lösung besitzen kann, wobei ⎛ ⎞

A

=

⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

A1 pp p

⎟ ⎟ ⎟ ⎟ ∈ Cm×m , ⎟ ⎟ ⎠

Ar und die Matrix Ak ∈ Cmk×m ist folgendermaßen erklärt, ⎛ mk −1 1 ppp ω0 ( m − 1 )ξkm−1 ⎜ ω0 ( 0 ) ω0 ( 1 )ξk p p p ω0 ( mk − 1 )ξk ⎜ ⎜ pp pp ⎜ 0 ω1 ( 1 ) p p ⎜ ⎜ Ak = ⎜ p pp ⎜ pp pp pp p p pp p ⎜ p ⎜ ⎝ 0 ppp 0 ωmk −1 ( mk − 1 ) p p p ωmk −1 ( mk − 1 )ξkm−mk

(ων ( )ξk−ν )ν=0,...,mk −1

⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ . ⎟ ⎟ ⎟ ⎟ ⎠

=0,...,m−1

Dies zieht die Regularität der Matrix A nach sich. Wegen der Eigenschaft B = A folgt daraus die behauptete Regularität der Matrix B. Eine erste Konsequenz aus Theorem 8.54 ist die folgende Aussage: Korollar 8.55 Sei L ein Differenzenoperator der Form (8.58). Genau dann hat jede Lösung u ∈ s(C ) der Gleichung Lu = 0 die Eigenschaft sup=0,1,... |u | < ∞, wenn für die paarweise verschiedenen Nullstellen ξ1 , . . . , ξr ∈ C des charakteristischen Polynoms (8.62) Folgendes gilt, ⎫ ⎧ ⎬ ⎨ |ξk | = 1, (k = 1, 2, . . . , r ). |ξk | < 1 oder ⎩ ξ einfache Nullstelle ⎭ k

8.8.4 Die reellwertige allgemeine Lösung der homogenen Differenzengleichung Lu = 0 In erster Linie ist man an den reellen Lösungen der Differenzengleichung Lu = 0 interessiert. Hierzu bedient man sich für λ ∈ C der Polarkoordinatendarstellung λ = ρeiϕ ∈ C, ρ > 0, ϕ ∈ [ 0, 2π ), und erhält unmittelbar die Darstellung λ

=

ρ eiϕ

=

ρ ( cos ( ϕ ) + isin ( ϕ ) ),

= 0, 1, . . . .

Berücksichtigt man noch, dass aufgrund der reellen Koeffizienten von ψ ( ξ ) = γm ξ m +γm−1 ξ m−1 +. . .+γ0 mit jeder Nullstelle ξ ∈ C von ψ auch ψ(ξ) = 0 gilt, erhält man als zweite Konsequenz aus Theorem 8.54 die allgemeine Form der reellen Lösungsfolgen der Gleichung Lu = 0:

Abschnitt 8.8

209

Lineare homogene Differenzengleichungen

Theorem 8.56 Zu gegebenem Differenzenoperator L von der Form (8.58) seien ξ1 , . . . , ξr1 ∈ R sowie λ1 , λ1 , . . ., λr2 , λr2 ∈ C\R die paarweise verschiedenen Nullstellen des charakteristischen Polynoms (8.62), mit den jeweiligen Vielfachheiten m1 , . . . , mr1 und n1 , . . . , nr2 ∈ N, sowie den Polarkoordinatendarstellungen λk = ρk eiϕk ∈ C, mit ρk > 0, ϕk ∈ (0, 2π). Für beliebige Polynome Pk ∈ Πmk −1

k ∈ Πn −1 Qk , Q k

für k = 1, . . . , r1 ,

für k = 1, . . . , r2 ,

sowie gegebenenfalls Zahlen a0 , . . . , amk∗ −1 ∈ R ist je nach der Situation (i)

ξk = 0

für k = 1, . . . , r1 ;

(ii)

ξk∗ = 0 für ein 1 ≤ k∗ ≤ r1 ;

durch

(i)

u =

r1

Pk ( )ξk +

k=1

(ii) u =

r1

......

+ k ( ) sin [ ϕk ] ρk Qk ( ) cos ( ϕk ) + Q k=1 r2

+

+

......

k=1 k=k∗

mk∗ −1

j=0

aj δj

eine Folge u ∈ s(R ) mit Lu = 0 definiert. Umgekehrt lässt sich jede Lösung u ∈ s(R ) der Gleichung Lu = 0 in der Form (i) beziehungsweise (ii) darstellen.

8.8.5 Eine spezielle Differenzengleichung Zur näherungsweisen Lösung des Anfangswertproblems y = f ( t, y ), y ( a ) = y0 wird im Folgenden zu Testzwecken das Zweischrittverfahren u+2 − 4u+1 + 3u

=

−2hf ( t , u ),

= 0, 1, . . . , n − 2,

(8.68)

untersucht. Theorem 8.57 (a) Das Verfahren (8.68) besitzt unter den u¨ blichen Glattheitsvoraussetzungen an die Funktion f die Konsistenzordnung p = 2. Es ist jedoch nicht nullstabil. (b) Die Anwendung des Verfahrens (8.68) auf die Testgleichung y ( t ) = −y ( t ),

t ∈ [ 0, b ],

y ( 0 ) = 1,

(8.69)

mit der Schrittweite h = b/n > 0 sowie den Startwerten u0 = 1 und u1 = e−h liefert Folgendes, u =

h3 e−t + 6 et /3 3 (1 + O(h)) y ( t )

für h → 0,

wobei (8.70) gleichmäßig in gilt, es hängt also O(h) nicht von ab.

= 0, 1, . . . , n, (8.70)

210

Kapitel 8 Mehrschrittverfahren für Anfangswertprobleme

e−t +

h3 6

t

y ( t )

u

2 3 .. .

0.02 0.03 .. .

9.802 × 10−1 9.704 × 10−1 .. .

9.802 × 10−1 9.704 × 10−1 .. .

9.802 × 10−1 9.704 × 10−1 .. .

7 8 .. .

0.07 0.08 .. .

9.324 × 10−1 9.231 × 10−1 .. .

9.328 × 10−1 9.242 × 10−1 .. .

9.328 × 10−1 9.242 × 10−1 .. .

13 14 .. .

0.13 0.14 .. .

8.781 × 10−1 8.694 × 10−1 .. .

1.148 × 100 1.682 × 100 .. .

1.156 × 100 1.705 × 100 .. .

20 21 .. .

0.20 0.21 .. .

8.187 × 10−1 8.106 × 10−1 .. .

6.050 × 102 1.819 × 103 .. .

6.22 × 102 1.871 × 103 .. .

30 31 .. .

0.30 0.31 .. .

7.408 × 10−1 7.334 × 10−1 .. .

3.688 × 107 1.110 × 108 .. .

3.792 × 107 1.142 × 108 .. .

100

1.00

3.679 × 10−1

1.164 × 1041

1.199 × 1041

et /3 3

Tabelle 8.2 Illustration des Differenzenverfahrens (8.68), mit der Schrittweite h = 0.01 angewandt auf die Testgleichung (8.69) für b = 1 Wegen der fehlenden Nullstabilität ist also keine Konvergenz des Verfahrens (8.68) zu erwarten, und anhand der Testgleichung lässt sich das genaue Divergenzverhalten beobachten: an jeder festen Stelle t = h verhält sich u für = t/h → ∞ wie t3 et/3 3 /( 6 3 ). Für die feste Schrittweite h = 0.01 sind die durch das Verfahren (8.68) gelieferten Resultate in Tabelle 8.2 vorgestellt. B EWEIS VON T HEOREM 8.57. (a) Die angegebene Konsistenzordnung ergibt sich unmittelbar aus Lemma 8.16. Das zu dem Verfahren (8.68) gehörende erzeugende Polynom ist ρ( ξ ) = ξ 2 − √ 4ξ + 3 mit den Wurzeln ξ1/2 = 2 ± 4 − 3 = 2 ± 1 beziehungsweise ξ1 = 3, ξ2 = 1, so dass also keine Nullstabilität vorliegt. (b) Anwendung des Verfahrens (8.68) auf die Testgleichung y = −y führt auf die Differenzengleichung u+2 − 4u+1 + ( 3 − 2h )u

=

= 0, 1, . . . , n − 2.

0,

Das zugehörige charakteristische Polynom lautet ψ( ξ )

=

=

2 ±

ξ 2 − 4ξ + 3 − 2h,

ξ ∈ C,

mit den Nullstellen ξ1/2

/ 4 − ( 3 − 2h )

=

2 ±

√

1 + 2h.

(8.71)

Abschnitt 8.8

211

Lineare homogene Differenzengleichungen

Die allgemeine Lösung von (8.71) ist demnach u

=

c1 ξ1 + c2 ξ2 ,

= 0, 1, . . . .

(8.72)

Anpassung dieser allgemeinen Lösung an die exakten Anfangsbedingungen u0 = 1, u1 = e−h ergibt u0 = c1 + c2 = 1, u1 = c1 ξ1 + c2 ξ2 = e−h beziehungsweise =

c1

ξ2 − e−h , ξ2 − ξ1

=

c2

e−h − ξ1 . ξ2 − ξ1

(8.73)

Zur Beschreibung des Verhaltens von u aus (8.72) mit Koeffizienten wie in (8.73) verwendet man √

1+x

=

1 +

1 x 2

−

1 2 x 8

+

1 3 x 16

+ O(x4 )

für x → 0

und erhält für die Nullstellen die folgenden Taylorentwicklungen, ξ1

=

2 +

1 + h + O(h2 )

=

3 + h + O(h2 )

für h → 0

(8.74)

beziehungsweise ξ2 = 2 − (1 + h − 12 h2 + = e−h − 13 h3 + O( h4 )

1 3 h 2

+ O( h4 ) ) = 1 − h +

1 2 h 2

− 12 h3 + O(h4 )

für h → 0.

(8.75)

Für die Koeffizienten c1 , c2 aus (8.73) erhält man mit den Darstellungen (8.74) (8.75) und wegen ξ2 − ξ1 = −2 + O(h) Folgendes, c1 =

− 13 h3 + O(h4 ) −2 + O(h)

c2 =

ξ2 − ξ1 + O(h3 ) ξ2 − ξ1

=

+ O(h4 )

für h → 0,

1 + O(h3 )

für h → 0.

1 3 h 6

=

Die Lösungsfolge u ∈ s(R ) der Differenzengleichung (8.71) mit u0 = 1, u1 = e−h nimmt somit folgende Gestalt an, u =

1 3 h (1 6

+ O( h ) )(3 + h + O( h2 ) ) + (1 + O(h3 ))(e−h + O(h3 ))

(8.76)

für h → 0. Zur Behandlung des zweiten Summanden der rechten Seite in (8.76) berechnet man noch [e−h + O( h3 ) ]

=

e−t [1 + O( h3 )eh ]

(∗)

e−t [1 + O( h2 ) ]

=

für h → 0,

wobei sich (∗) unter Berücksichtigung von log ( 1 + x ) = O( x ) und ex = 1 + O( x ) für x → 0 aus log 1 + O( h3 )eh

=

O( h3 )eh

=

O( h2 )

für h → 0

(8.77)

212

Kapitel 8 Mehrschrittverfahren für Anfangswertprobleme

ergibt. Den ersten Summanden der rechten Seite in (8.76) behandelt man ganz a¨ hnlich,

= 3 1 + 13 h + O( h2 ) = 3 eh/3 + O( h2 ) 3 + h + O( h2 ) (∗∗) = 3 et /3 1 + O( h2 )e−h/3 = 3 et /3 1 + O( h ) für h → 0,

wobei man (∗∗) genauso wie (8.77) erhält. Daraus resultiert die Darstellung (8.70), u = e−t (1 + O( h2 ) ) + 16 h3 et /3 3 (1 + O( h ) ) −t = e + 16 h3 et /3 3 (1 + O( h ) ) für h → 0, = y ( t )

= 0, 1, . . . , n.

Dies komplettiert den Beweis.

8.9 Steife Differenzialgleichungen 8.9.1 Einfuhrende ¨ Bemerkungen In vielen Anwendungen wie etwa der chemischen Reaktionskinetik treten Anfangswertprobleme für spezielle Differenzialgleichungen y = f ( t, y ), t ∈ [ a, b ] auf, bei denen ein Gleichgewichtszustand ψ : [ a, b ] → R N existiert, dem sich jede Lösung y : [ a, b ] → R N der Differenzialgleichung unabhängig von der Lage des Anfangswerts schnell annähert, das heißt, außerhalb eines kleinen Intervalls [ a, a + ε ] gilt y ≈ ψ. Solche Differenzialgleichungen werden als “steif“ bezeichnet und erfordern eine besondere numerische Behandlung, wie sich herausstellen wird. Im Folgenden wird zunächst der Begriff “steife Differenzialgleichung“ etwas präzisiert. Definition 8.58 Ein Anfangswertproblem y = f ( t, y ), y ( a ) = y0 genügt einer oberen Lipschitzbedingung bezüglich eines gegebenen Skalarprodukts ·, · : R N × R N → R, wenn es eine stetige Funktion M : [ a, b ] → R gibt mit 2

f ( t, u ) − f ( t, v ) , u − v

3

≤

M ( t )||u − v ||2 ,

u, v ∈ R N .

(8.78)

Gilt M ( t ) ≤ 0 für jede Zahl t ∈ [ a, b ], so bezeichnet man das gegebene Anfangswertproblem als dissipativ. Hier und im Folgenden bezeichnet || · || : R N → R die durch das Skalarprodukt induzierte Norm. Im weiteren Verlauf sollen Anfangswertprobleme y = f ( t, y ), y ( a ) = y0 betrachtet werden, die (a) zum einen dissipativ sind oder zumindest einer oberen Lipschitzbedingung genügen mit M ( t ) von moderater positiver Größe, beispielsweise M ( t ) ≤ 1; (b) zum anderen die folgende Eigenschaft besitzen, 2 3 f ( t, u ) − f ( t, v ) , u − v m( t ) := inf ||u − v ||2 u, v ∈ R N u = v

0

für t ∈ [ a, b ].

(8.79)

Abschnitt 8.9

213

Steife Differenzialgleichungen

Eine Anfangswertproblem y = f ( t, y ), y ( a ) = y0 mit den in (a) und (b) beschriebenen Eigenschaften bezeichnet man als steif. Bemerkung 8.59 Bei steifen Differenzialgleichungen kann aufgrund der Abschätzung 2 3 f ( t, u ) − f ( t, v ) , u − v ||u − v ||2

≤

||f ( t, u ) − f ( t, v ) || ||u − v ||

die Funktion f : [ a, b ] × R N → R N die Lipschitzbedingung (7.4) höchstens noch mit einer groß ausfallenden Lipschitzkonstanten L ≥ |m( t ) | erfüllen, so dass die Konvergenzsätze 7.10 und 8.9 für Einschritt- beziehungsweise Mehrschrittverfahren wegen der auftretenden großen Konstanten erst für kleine Schrittweiten h > 0 sinnvolle Resultate liefern. In dem folgenden Beispiel wird anhand einer einfachen steifen Differenzialgleichung das Verhalten sowohl des expliziten als auch des impliziten Euler Verfahrens getestet. Wie sich zeigt, liefert das explizite Euler Verfahren erst für sehr kleine Integrationsschritte vernünftige Ergebnisse, was aufgrund der vorigen Bemerkung 8.59 auch nicht sonderlich u¨ berraschend ist. Beispiel 8.60 Das Anfangswertproblem y = λy − ( 1 + λ )e−t ,

t ∈ [ 0, 1 ],

y ( 0 ) = y0 ,

(8.80)

besitzt die Lösung y(t)

=

e−t + ( y0 − 1 )eλt ,

t ∈ [ 0, 1 ].

Für λ ∈ R, λ 0 gilt demnach y ( t ) ≈ e−t bereits für kleine Werte 0 < t 1. Tatsächlich ist das Anfangswertproblem (8.80) für λ ∈ R mit λ 0 steif, mit M ( t ) ≡ m( t ) ≡ −|λ|. Im Folgenden werden für die beiden Werte λ = −10 (das Anfangswertproblem (8.80) ist in dieser Situation nicht steif) und λ = −1000 (dann ist das Anfangswertproblem (8.80) steif) jeweils sowohl für das explizite als auch das implizite Eulerverfahren numerische Ergebnisse präsentiert. In allen vier Fällen werden gleichabständige Gitter unterschiedlicher Feinheit verwendet, und zwar solche mit den Knotenabständen h = 2−k

für k = 2j,

j = 2, 3, . . . , 6.

Die Resultate sind in Tabelle 8.3 wiedergegeben. Der Anfangswert ist jeweils y0 = 1, und die Lösung des Anfangswertproblems (8.80) ist dann unabhängig von λ und lautet y ( t ) = e−t für t ∈ [ 0, 1 ]. Man beachte, dass im Falle des expliziten Eulerverfahrens der Fehler an der Stelle t = 1 für kleiner gewählte Schrittweiten zunächst u¨ ber alle Schranken hinauswächst. Für die Schrittweiten h = 2−10 und h = 2−12 werden vernünftige Ergebnisse erzielt. Wie sich in Beispiel 8.60 gezeigt hat, liefert das implizite Euler Verfahren hier trotz der in Bemerkung 8.59 angestellten Beobachtungen für alle kleinen Schrittweiten h > 0 vernünftige Ergebnisse. Dieses Verhalten ist kein Zufall, wie sich in Abschnitt 8.9.3 herausstellen wird.

214

Kapitel 8 Mehrschrittverfahren für Anfangswertprobleme

λ = −10 h

λ = −1000

uh ( 1 ) − y ( 1 )

uh ( 1 ) − y ( 1 )

expl. Eulerverf.

impl. Eulerverf.

h

uh ( 1 ) − y ( 1 )

uh ( 1 ) − y ( 1 )

expl. Eulerverf.

impl. Eulerverf.

0.0625 −1.247 × 10−3

1.308 × 10−3

0.0625

1.283 × 1024

1.175 × 10−5

0.0156 −3.174 × 10−4

3.212 × 10−4

0.0156

2.865 × 1069

2.892 × 10−6

0.039

−7.971 × 10−5

7.994 × 10−5

0.039

8.014 × 10112

7.202 × 10−7

0.010

−1.995 × 10−5

1.996 × 10−5

0.010

−1.797 × 10−7

1.799 × 10−7

0.002

−4.989 × 10−6

4.990 × 10−6

0.002

−4.495 × 10−8

4.496 × 10−8

Tabelle 8.3 Numerische Ergebnisse für das explizite/implizite Eulerverfahren. Dabei bezeichnet uh (1) jeweils die gewonnenen Approximationen für y(1).

8.9.2 Existenz und Eindeutigkeit der Lösung bei Anfangswertproblemen fur ¨ Differenzialgleichungen mit oberer Lipschitzeigenschaft Für Anfangswertprobleme bei Differenzialgleichungen mit oberer Lipschitzeigenschaft sollen zunächst die Fragen “Existenz und Eindeutigkeit einer Lösung“ sowie die “stetige Abhängigkeit von den Anfangswerten“ diskutiert werden. Zwar kann unter diesen Voraussetzungen nicht auf Theorem 7.2 von Picard/Lindelöf auf Seite 148 zurückgegriffen werden, eine stetige Abhängigkeit von den Anfangswerten (und damit insbesondere die Eindeutigkeit der Lösung) liegt dennoch vor: Theorem 8.61 Die Funktion f : [ a, b ] × R N → R N genüge der oberen Lipschitzbedingung (8.78) bezüglich eines gegebenen Skalarprodukts ·, · und einer gegebenen Funktion M. Dann gilt für differenzierbare Funktionen y, y : [ a, b ] → R N mit y = f ( t, y ),

t ∈ [ a, b ],

y(a) = y0 ,

y = f ( t, y),

......

y(a) = y0 ,

die Abschätzung ||y ( t ) − y( t ) ||

≤

exp

Z

t

a

M ( s ) ds ||y0 − y0 ||,

B EWEIS . Die Funktion Φ( t )

=

|| ( y − y)( t ) ||2 ,

t ∈ [ a, b ],

t ∈ [ a, b ].

(8.81)

Abschnitt 8.9

215

Steife Differenzialgleichungen

ist differenzierbar auf dem Intervall [ a, b ], und es gilt 2 3 2 3 (∗) Φ ( t ) = 2 ( y − y) ( t ) , ( y − y)( t ) = 2 f ( t, y ( t )) − f ( t, y( t )) , (y − y)( t ) ≤ 2M ( t ) || ( y − y)( t ) ||2

=

2M ( t )Φ( t ),

t ∈ [ a, b ],

(8.82)

wobei die letzte Abschätzung aus der oberen Lipschitzbedingung (8.78) resultiert. Die Identität folgt unmittelbar aus dem nachfolgenden Lemma 8.62. Die Abschätzung (8.82) zusammen mit der weiter unten nachzutragenden Variante des Gronwall Lemmas liefert die Behauptung (8.81).

(∗)

Es sind noch zwei Hilfsresultate nachzutragen. Lemma 8.62 Es seien ·, · : R N × R N → R ein Skalarprodukt mit induzierter Norm || || : R N → R und u : [ a, b ] → R N eine differenzierbare Funktion. Dann ist die Funktion Φ( t )

=

||u( t ) ||2 ,

t ∈ [ a, b ],

differenzierbar auf dem Intervall [ a, b ], mit Φ (t)

=

2 u ( t ) , u( t ) ,

t ∈ [ a, b ].

B EWEIS . Die Aussage ergibt sich zum Beispiel folgendermaßen, Φ( t + h ) − Φ( t ) h

||u( t + h ) ||2 − ||u( t ) ||2 h u( t + h ) , u( t + h ) − u( t ) u( t + h ) − u( t ) , u( t ) = + h h für h → 0. → 2 u ( t ) , u( t ) =

Das folgende Resultat stellt eine Variante des Gronwall Lemmas dar: Lemma 8.63 Für die differenzierbare Funktion Φ : [ a, b ] → R sei Φ ( t ) ≤ c( t ) Φ( t ),

t ∈ [ a, b ],

erfüllt mit der stetigen Funktion c : [ a, b ] → R. Dann gilt Φ( t ) ≤ exp

Z

t

a

c( s ) ds Φ( a ),

t ∈ [ a, b ].

B EWEIS . Mit der Notation Zt β ( t ) := exp − a c( s ) ds ,

t ∈ [ a, b ],

(8.83)

216

Kapitel 8 Mehrschrittverfahren für Anfangswertprobleme

erhält man auf dem Intervall [ a, b ] Folgendes, ( Φβ )

= Φ β + Φβ

=

Φ β − cΦβ

=

β(Φ − cΦ)

≤

0,

so dass die Funktion Φβ auf dem Intervall [ a, b ] monoton fallend ist und damit insbesondere Φ( t )β ( t ) ≤ Φ(a) gilt für t ∈ [ a, b ], was gerade die Aussage (8.83) darstellt. In gewissen Situationen gewährleistet auch die obere Lipschitzeigenschaft (8.78) die Existenz der Lösungen der zugehörigen Anfangswertprobleme, so zum Beispiel bei Anfangswertproblemen für autonome Differenzialgleichungen y = f ( y ),

t ∈ [ a, b ],

y ( a ) = y0 ,

(8.84)

was in dem folgenden Theorem ohne Beweis festgehalten wird (siehe Strehmel/Weiner [98]). Theorem 8.64 Genügt die (von t unabhängige) Funktion f : R N → R N einer oberen Lipschitzbedingung (8.78), gilt also 2

f (u) − f (v ) , u − v

3

≤

M ||u − v ||2 ,

u, v ∈ R N ,

(8.85)

mit einer Konstanten M ∈ R, so besitzt das Anfangswertproblem (8.84) genau eine Lösung. Beispiel 8.65 Das autonome Anfangswertproblem y = −y 3 ,

t ∈ [ a, b ],

y ( a ) = y0 ∈ R,

ist dissipativ (bezüglich des Skalarprodukts u, v = uv für u, v ∈ R ) und besitzt nach Theorem 8.64 eine eindeutige Lösung. Man beachte, dass Theorem 7.2 hier nicht anwendbar ist, denn die Funktion f ( y ) = −y 3 für y ∈ R genügt keiner globalen Lipschitzbedingung von der Form (7.4). Zum Abschluss dieses einführenden Abschnitts werden untere und obere Lipschitzschranken für stetig partiell differenzierbare Funktionen angegeben. Lemma 8.66 Die Funktion f : [ a, b ] × R N → R N sei stetig partiell differenzierbar. (a) Mit der Notation aus (8.79) gilt m( t ) =

inf

0=w∈R N

Dy f ( t, u )w , w ||w ||2

für t ∈ [ a, b ],

u, w ∈ R N .

(8.86)

(b) Die Funktion f genügt bezüglich einer gegebenen Funktion M : [ a, b ] → R der oberen Lipschitzbedingung (8.78) genau dann, wenn Folgendes gilt, 2

Dy f ( t, u )w , w

3

≤

M ( t )||w ||2

für t ∈ [ a, b ],

u, w ∈ R N .

Abschnitt 8.9

217

Steife Differenzialgleichungen

B EWEIS . Der Mittelwertsatz für vektorwertige Funktionen bedeutet f ( t, u ) − f ( t, v )

Z

=

1

0

Dy f ( t, v + s( u − v )) ds ( u − v )

beziehungsweise 2

f ( t, u ) − f ( t, v ) , u − v

3

4 4 Z

=

0

1

5 5 Dy f ( t, v + s( u − v )) ds ( u − v ) , u − v . (8.87)

Auf der anderen Seite gilt 1 Dy f ( t, u )w = lim h f ( t, u + hw ) − f ( t, u ) , h→0

u, w ∈ R N ,

t ∈ [ a, b ]. (8.88)

Aus den Darstellungen (8.87) und (8.88) erhält man unmittelbar die Aussagen (a) und (b) des Lemmas.

8.9.3 Das implizite Euler– Verfahren fur ¨ steife Differenzialgleichungen In diesem Abschnitt wird für das in Beispiel 8.60 auftretende günstige Verhalten des impliziten Euler Verfahrens bei der Lösung steifer Anfangswertprobleme eine mathematische Erklärung geliefert. Das folgende Lemma dient dabei als Vorbereitung. Lemma 8.67 Die Funktion f : [ a, b ] ×R N → R N genüge der oberen Lipschitzbedingung (8.78) mit M ( t ) ≡ M. Je nach der Situation (i) M ≤ 0 beziehungsweise (ii) M > 0 gilt dann für beliebige u, v ∈ R N sowie t ∈ [ a, b ] die folgende Abschätzung, ⎫ ⎬ u − v − h(f ( t, u ) − f ( t, v ) ) ∀ h > 0, (i) M ≤ 0 : ||u − v || ≤ (8.89) ....... ...... (ii) M > 0 : ≤ ( 1 + κh ) ∀ 0 < h ≤ H,⎭ mit der Zahl 0 < H < 1/M und der Konstanten κ := M/(1 − HM) in der Situation (ii). B EWEIS . Nach Voraussetzung gilt 2 3 h f (t, u) − f (t, v), u − v

≤

hM||u − v ||2

beziehungsweise 2 3 − h f ( t, u ) − f ( t, v ) , u − v 2 3 = u − v − h f ( t, u ) − f ( t, v ) , u − v ≤ u − v − h f ( t, u ) − f ( t, v ) ||u − v ||.

(1 − hM )||u − v ||2 ≤

2

u − v, u − v

3

Die Behauptung im Fall M ≤ 0 folgt daraus unmittelbar, und im Fall M > 0 ergibt sie sich nach der weiteren Rechnung 1 1 − hM

=

M 1 + h 1 − hM

≤

=κ

M 1 + h. 1 − HM

218

Kapitel 8 Mehrschrittverfahren für Anfangswertprobleme

Für gleichabständige Knoten t = a + h, = 0, 1, . . . , n, mit h = ( b − a )/n ist das implizite Euler Verfahren zur Lösung von y = f ( t, y ), y ( a ) = y0 von der Form (vergleiche Bemerkung 8.42) u+1

=

u + hf ( t+1 , u+1 ),

= 0, 1, . . . , n − 1,

u0 := y0, (8.90)

und besitzt für eine hinreichend glatte Funktion f die Konsistenzordnung p = 1, das heißt, für den lokalen Verfahrensfehler (vergleiche (8.5) auf Seite 175) η ( t, h )

=

y ( t + h ) − y ( t ) − hf ( t + h, y ( t + h )),

0 < h ≤ b − t,

gilt die Abschätzung ||η ( t, h ) ||

≤

Ch2 ,

0 ≤ h ≤ b − t,

mit einer von h und t unabhängigen Konstanten C ≥ 0. Das folgende Theorem liefert die wesentliche Konvergenzaussage für das implizite Euler Verfahren zur Lösung steifer Differenzialgleichungen. Man beachte, dass die Konstante K hier im Falle M ≤ 0 moderat ausfällt. Theorem 8.68 Erfüllt die Funktion f : [ a, b ] × R N → R N die obere Lipschitzbedingung (8.78) mit M ( t ) ≡ M, so gilt für den globalen Verfahrensfehler des impliziten Euler Verfahrens (8.90) die folgende Abschätzung, max ||u − y ( t ) || ≤ Kh,

=0,...,n

⎧ ⎨

C(b − a), mit K := C ⎩ eM (b−a)/(1−HM ) − 1 ,

⎫ (8.91) falls M ≤ 0 ⎬

M

.......

M >0⎭

mit der Einschränkung 0 < h ≤ H < 1/M im Fall M > 0. B EWEIS . Mit den Setzungen e = u − y ,

y := y ( t ),

η = η ( t , h ),

= 0, 1, . . . , n, = 0, 1, . . . , n − 1,

gilt für = 0, 1, . . . , n − 1 y+1 = y + hf ( t+1 , y+1 ) + η , u+1 = u + hf ( t+1 , u+1 ), und daher e+1 − h f ( t+1 , u+1 ) − f ( t+1 , y+1 )

=

e − η .

(8.92)

Abschnitt 8.9

219

Steife Differenzialgleichungen

Im Fall M ≤ 0 erhält man aus (8.89) und (8.92) ||e+1 || ≤ e+1 − h f ( t+1 , u+1 ) − f ( t+1 , y+1 ) ≤ ||e || + ||η ||

≤

=

||e − η ||

||e || + Ch . 2

Wegen e0 = 0 erhält man mittels vollständiger Induktion die angegebene Abschätzung (8.91) für den Fall M ≤ 0. Für M > 0 geht man vergleichbar vor: wiederum aus (8.89) und (8.92) erhält man mit κ := M/(1 − MH) die folgenden Abschätzungen, ||e+1 || ≤ (1 + κh)e+1 − h f ( t+1 , u+1 ) − f ( t+1 , y+1 ) 1 ≤ ( 1 + κh )||e || + 1−M ||η ||, ≤ (1 + κh) ||e || + ||η || H und mit Lemma 7.12 erhält man die Abschätzung (8.91) auch für den Fall M > 0. Dies komplettiert den Beweis des Theorems.

8.9.4 Steife Differenzialgleichungen in den Anwendungen Die Linienmethode bei der Wärmeleitungsgleichung Ein Anfangsrandwertproblem für die räumlich eindimensionale Wärmeleitungsgleichung ist gegeben durch ∂u ∂t

=

∂2 u , ∂x2

0 < x < L,

u( 0, t ) = u( L, t ) = 0, u( x, 0 ) = f (x),

0 < t < T,

t ∈ [ 0, T ], x ∈ [ 0, L ],

wobei f : [ 0, L ] → R eine gegebene Funktion ist. Die Funktion u : [ 0, L ] × [ 0, T ] → R soll numerisch bestimmt werden. Für a¨ quidistante Gitterpunkte xj = j∆x,

j = 1, 2, . . . , N − 1

( ∆x = L/N ),

und eine hinreichend glatte Funktionen u ergibt eine Approximation von

∂2 u ( xj , t ), 1 ≤ j ≤ ∂x2

N − 1, durch zentrale Differenzenquotienten 2. Ordnung Folgendes (Details werden später vorgestellt, siehe Lemma 9.6): ∂2 u ( xj , t ) ∂x2

=

u( xj+1 , t ) − 2u( xj , t ) + u( xj−1 , t ) + O(( ∆x )2 ). ( ∆x )2

Vernachlässigung des Terms O(( ∆x )2 ) führt auf das folgende gekoppelte System von N − 1 gewöhnlichen Differenzialgleichungen für yj ( t ) ≈ u(xj , t), yj ( t ) =

1 yj+1( t ) − 2yj ( t ) + yj−1 ( t ) , (∆x)2

yj (0) = f ( xj ),

0 < t < T, j = 1, 2, . . . , N − 1,

⎫ ⎬ ⎭

(8.93)

220

Kapitel 8 Mehrschrittverfahren für Anfangswertprobleme

(mit y0 ( t ) := yN ( t ) := 0) beziehungsweise in kompakter Form y ( t ) = −Ay ( t ),

y(0) = w0 ,

0 < t < T,

mit

y(t) =

y1( t ), . . . , yN −1( t ) ⎛ 2 −1 ⎜ ⎜ ⎜ −1 p p p 1 ⎜ ⎜ A = (∆x)2 ⎜ pp ⎜ p ⎜ ⎝

, ⎞

w0

=

f ( x1 ), . . . , f ( xN −1 ) ,

⎟ ⎟ ⎟ p ⎟ ⎟ ∈ R (N −1)×( N −1) . ⎟ pp p −1 ⎟ ⎟ ⎠ −1 2 pp

Die vorgestellte Vorgehensweise, die Wärmeleitungsgleichung durch ein System gewöhnlicher Differenzialgleichungen bezüglich der Zeit t mittels Diskretisierung in Ortsrichtung x zu approximieren, wird als Linienmethode bezeichnet. Die Eigenwerte λk der symmetrischen Matrix A lassen sich explizit berechnen (eine Herleitung wird in Lemma 9.12 nachgereicht), λk

=

kπ 4 sin 2 2N (∆x)2

0

>

für k = 1, 2, . . . , N − 1,

so dass das System (8.93) bezüglich des Skalarprodukts u, v = Wegen λN −1

≈

N −1 j=1

uj vj dissipativ ist.

4 ( ∆x )2

ist es für kleine Ortsschrittweiten ∆x sehr steif.

Weitere Themen und Literaturhinweise Die auf Seite 170 genannten Lehrbücher zum Thema Einschrittverfahren enthalten allesamt auch Einführungen u¨ ber Mehrschrittverfahren zur numerischen Lösung nichtsteifer Anfangswertprobleme. Im Folgenden werden einige weitere Themenkreise ansatzweise vorgestellt. (a) Asymptotische Entwicklungen des globalen Verfahrensfehlers existieren auch für Mehrschrittverfahren. Wie sich herausstellt, liegen für spezielle Mehrschrittverfahren wie etwa die implizite Trapezregel oder das explizite Zweischrittverfahren von Gragg [35] asymptotische Entwicklungen in h2 vor, bei denen man wie schon bei der summierten Trapezregel angepasste Extrapolationsverfahren verwendet, etwa das Gragg-Bulirsch-Stoer-Verfahren aus Bulirsch/ Stoer [9]. Es besteht auch die Möglichkeit einer simultanen Anwendung von Extrapolationsverfahren und Schrittweitensteuerungsstrategien. Einzelheiten hierzu findet man beispielsweise in Deuflhard [17], [18] und in Hairer / Nørsett /Wanner [47].

¨ Ubungsaufgaben

221

(b) Für stetig partiell differenzierbare Funktionen f lässt sich eine obere Lipschitzbedingung auch noch sinnvoll definieren, falls die zugrunde liegende Vektornorm || · || : R N → R + nicht durch ein Skalarprodukt induziert ist. Hierzu bedient man sich der logarithmischen Norm µ[·] : R N×N → R, die folgendermaßen definiert ist, ||I + hA|| − 1 , h

µ[A] := lim

h→0+

A ∈ R N×N ,

(8.94)

wobei || · || : R N×N → R + die durch die zugrunde liegende Vektornorm induzierte Matrixnorm bezeichnet. Die logarithmische Norm ist unabhängig voneinander von Dahlquist [13] und Lozinski [64] eingeführt worden. Deren allgemeine Eigenschaften sowie konkrete Darstellungen für einige durch geläufige Vektornormen induzierte logarithmische Normen werden in den Aufgaben 8.11 8.16 vorgestellt. Mithilfe logarithmischer Normen lassen sich zum Beispiel Aussagen u¨ ber die stetige Abhängigkeit von den Anfangswerten treffen. Gilt etwa bezüglich einer gegebenen Funktion M : [ a, b ] → R eine verallgemeinerte obere Lipschitzbedingung von der Form µ[Dy f ( t, u ) ]

≤

für t ∈ [ a, b ],

M (t)

u ∈ RN ,

so behält die Fehlerabschätzung (8.81) u¨ ber die stetige Abhängigkeit von den Anfangswerten ihre Gültigkeit (Dekker/Verwer [15]). (c) Neben dem impliziten Euler Verfahren eignen sich viele andere implizite Ein und Mehrschrittverfahren zur numerischen Lösung steifer Anfangswertprobleme. Ausführliche Behandlungen dieses Themas findet man beispielsweise in Deuflhard/Bornemann [20], Hairer/Wanner [48] oder Strehmel/Weiner [98].

¨ Ubungsaufgaben Aufgabe 8.1 Man zeige, dass ein lineares m Schrittverfahren genau dann für alle Anfangswertprobleme mit hinreichend glatten Funktionen f : [ a, b ] × R N → R N die Konsistenzordnung p besitzt, wenn mit der Notation m L[y ( t ), h] := αj y ( t + jh ) − hβj y ( t + jh ) j=0

die Beziehungen

L [t0 , h]

=

L[t1 , h]

= . . . = L [tp , h] = 0 erfüllt sind.

Aufgabe 8.2 Man bestimme mithilfe des Gleichungssystems (8.18) die (genaue) Konsistenzordnung des Zweischrittverfahrens h f ( t+2 , u+2 ) + 4f ( t+1 , u+1 ) + f ( t , u ) . u+2 − u = 3

Für das Mehrschrittverfahren u+3 + γ ( u+2 − u+1 ) − u

=

h

3+γ f ( t+2 , u+2 ) + f ( t+1 , u+1 ) 2

bestimme man die von γ ∈ R abhängige Konsistenzordnung p. Für welche Werte von γ ∈ R ist das Verfahren nullstabil? Aufgabe 8.3 Man zeige, dass für jede Zahl m ∈ N (bis auf Normierung) genau ein m-schrittiges lineares Verfahren

222

Kapitel 8 Mehrschrittverfahren für Anfangswertprobleme m

αj u+j = h

j=0

m

βj f ( t+j , u+j )

j=0

mit der Konsistenzordnung 2m existiert, aber keines mit der Konsistenzordnung 2m + 1. Hinweis: Für p = 2m und p = 2m + 1 betrachte man jeweils das Konsistenz-Gleichungssystem (8.18) für die Unbekannten αj , j = 0, 1, . . . , m, und −βj , j = 0, 1, . . . , m, und argumentiere wie zum Ende des Beweises von Theorem 8.54. Aufgabe 8.4 (a) Für die homogene Differenzengleichung u+3 − 4u+2 + 5u+1 − 2u = 0,

= 0, 1, . . .

gebe man die allgemeine Lösung an. (b) Man löse folgende Differenzengleichungen: u+2 − 2u+1 − 3u = 0,

u0 = 0,

u+1 − u = 2 ,

u1 = 1,

u0 = 0,

u+1 − u = ,

u0 = 0,

u+2 − 2tu+1 + u = 0,

u0 = 1,

u1 = t ∈ ( –1, 1 ).

Aufgabe 8.5 (a) Man zeige, dass jede Lösung y ( t ) der skalaren Differenzialgleichung 2. Ordnung y = f ( t, y ),

t ∈ [ a, b ],

(8.95)

der folgenden Identität genügt (für t, t ± h ∈ [ a, b ] ): y ( t + h ) − 2y ( t ) + y ( t − h ) Z 1 ( 1 − s ) f ( t + sh, y ( t + sh ) ) + f ( t − sh, y ( t − sh ) ) ds. = h2 0

(8.96)

(b) Zur numerischen Lösung einer Anfangswertaufgabe für (8.95) setze man in (8.96) t = t+m−1 und ersetze die Funktion f ( s, y ( s )) durch dasjenige Polynom P ∈ Πm−1 , welches die Stützpunkte (t+j , f+j ), j = 0, . . . , m− 1 interpoliert, wobei die u¨ bliche Notation f+j = f (t+j , u+j ) verwendet wird. Daraus leite man die expliziten linearen Störmer Verfahren u+m − 2u+m−1 + u+m−2

=

h2

m−1

σk ∇k f+m−1 ,

= 0, 1, . . . , n − m

k=0

mit den Koeffizienten σk = ( –1 )k

Z 1 0

−s

(1 − s)

k

+

s k

ds

her. Für m = 2 und m = 3 gebe man die Verfahren an. Aufgabe 8.6 Man beweise: Für ein nullstabiles lineares Mehrschrittverfahren der Konsistenzordnung p gilt ξ1 ( hλ ) = ehλ + O( hp+1 )

für h → 0,

wobei ξ1 ( hλ ) die Nullstelle des Polynoms Q( ξ, hλ ) = ρ( ξ ) − hλσ ( ξ ) mit ξ1 ( hλ ) → ξ1 (0) = 1 für hλ → 0 bezeichnet. Hier ist ρ das erzeugende Polynom, und σ ( ξ ) := βm ξ m + . . . + β0 ∈ Πm .

¨ Ubungsaufgaben

223

Aufgabe 8.7 Für die Fälle m = 1, 2, 3 rechne man die auf Seite 197 angegebenen expliziten Darstellungen der BDF-Formeln nach und und u¨ berprüfe jeweils die Nullstabilität. Aufgabe 8.8 Das zweischrittige Verfahren u+2 + 4u+1 − 5u = h 4f ( t+1 , u+1 ) + 2f ( t , u )

(8.97)

besitzt unter den u¨ blichen Glattheitsvoraussetzungen die Konsistenzordnung p = 3. Ist es nullstabil? Man wende es mit der Schrittweite h > 0 und Startwerten u0 = 1 und u1 = e−h auf die Testgleichung y = −y, y ( 0 ) = 1 an und zeige, dass mit t = 0 und h = h = t/ für → ∞ Folgendes gilt: 1 4( − 216 h 1 + O( h ))(–5 − 3h + O( h2 ) ) , u = (1 + O( h4 ) ) e−t/ + O( h4 ) und dabei der erste Summand für → ∞ gegen e−t konvergiert und der zweite Summand sich für große wie −

t4 ( –5 ) 3t/5 e 216 4

verhält. Aufgabe 8.9 (Numerische Aufgabe) Man löse numerisch das Anfangswertproblem y = −y,

y(0) = 1,

mit dem •

•

zweischrittigen Verfahren (8.97), einmal mit den Startwerten u0 = 1, u1 = e−h und dann auch mit √ den Startwerten u0 = 1, u1 = λ1 := −2 − 3h + 9 + 6h + 4h2 ; und für γ = 0 und γ = 9 mit dem dreischrittigen Verfahren 3+γ u+3 + γ ( u+2 − u+1 ) − u = h f ( t+2 , u+2 ) + f ( t+1 , u+1 ) 2

(vergl. Aufgabe 8.2) mit den Startwerten u0 = 1, u1 = e−h und u2 = e−2h . Die Schrittweite sei jeweils h = 0.01. Geben Sie tabellarisch zu den Gitterpunkten t = t = h, = 2, 3, . . . , 100 die exakte Lösung y ( t ), die Näherung uh ( t ), den Fehler uh ( t ) − y ( t ) und im Falle des t4 (−5) 3t/5 ersten Verfahrens − 216 e an. 4 Aufgabe 8.10 (Numerische Aufgabe) Man löse das Anfangswertproblem y ( t ) = λy ( t ),

t ∈ [ 0, 15 ],

y(0) = 1, für λ = −1 und λ = 1 jeweils mit den beiden folgenden Prädiktor Korrektor Verfahren: 1. Das Verfahren von Milne besitzt Prädiktor und Korrektor (0)

u+4 = u + (ν+1)

u+4

4 h 2f+3 − f+2 + 2f+1 3

= u+2 +

1 (ν) h f+4 + 4f+3 + f+2 , 3

ν = 0, 1, . . . .

224

Kapitel 8 Mehrschrittverfahren für Anfangswertprobleme

2. Das Verfahren von Hamming besitzt den gleichen Prädiktor wie das Verfahren von Milne, und der Korrektor ist hier 9 3 (ν ) ν+1) u(+4 − u+3 + 18 u+1 = h f+4 + 2f+3 − f+2 . 8

8

(ν ) ν) ). Für die Anlaufrechnung verwende man das Hierbei bedeutet f = f ( t , u ) und f+4 = f ( t+4 , u(+1 klassische Runge Kutta Verfahren und für die Korrektoriteration das Abbruchkriterium ( ν+1) ν) u − u(+4 +4 ≤ 10−5 . ν) |u(+4 |

Man verwende jeweils die Schrittweite h = 0.1 und gebe tabellarisch zu den Gitterpunkten t = 0.1, 0.2, 0.3, . . . , 1.0, 2.0, 3.0, . . . , 15, die exakte Lösung y ( t ), die Näherung uh ( t ), den Fehler uh ( t ) − y ( t ) und die Anzahl der durchgeführten Iterationsschritte an. Aufgabe 8.11 Für die Matrix ⎛ A = ⎝

−10 12 12 −20

⎞ ⎠ ∈ R 2×2

berechne man die logarithmischen Normen µ∞ [A], µ1 [A] und µ2 [A]. Aufgabe 8.12 Diskretisierung der Wärmeleitungsgleichung mit Neumann Randbedingungen ∂u ∂t

=

∂2 u + f ( x, t ), ∂x2

∂u (0, t ) ∂x

=

∂u (1, t ) = 0, ∂x

0 ≤ x ≤ 1,

a ≤ t ≤ b, ......

u(x, 0) = g(x),

,

0 ≤ x ≤ 1,

führt mithilfe zentraler Differenzenquotienten erster und zweiter Ordnung (bei a¨ quidistanter Ortsschrittweite ∆x = 1/N ) auf ein Anfangswertproblem für ein System von N + 1 gewöhnlichen Differenzialgleichungen y ( t ) = Ay ( t ) + z ( t ),

y ( a ) = z0

mit einer geeigneten Matrix A ∈ R (N +1 )×(N +1) . Man gebe eine Matrixnorm an, so dass für die zugehörige logarithmische Norm µ[A] ≤ 0 gilt. Aufgabe 8.13 Man weise µ[A] =

lim

h→+0

ln||ehA || h

für A ∈ R N×N

nach. Hinweis: Zunächst zeige man µ[A] =

lim

h→+0

||ehA || − 1 . h

Aufgabe 8.14 Man weise nach, dass für Matrizen A, B ∈ R N×N und nichtnegative Zahlen c ∈ R, c ≥ 0 Folgendes gilt, µ[cA] = cµ[A],

µ[A + B ]

≤

µ[A] + µ[B ].

¨ Ubungsaufgaben

225

Aufgabe 8.15 Man zeige: (a) Ist die Norm || · || : KN → R durch ein Skalarprodukt ·, · : KN × KN → R induziert, so gilt für die zugehörige logarithmische Norm die Darstellung µ[A] =

max

x∈K N : || x ||=1

Re Ax, x

für A ∈ KN×N ,

wobei man im reellen Fall K = R den Ausdruck Re Ax, x durch Ax, x ersetzen kann. (Die Definition (8.94) für logarithmische Normen lässt sich auch für komplexe Matrizen beziehungsweise für Normen auf komplexen Räumen verwenden. ) (b) Für eine durch eine Vektornorm || · || : CN → R induzierte logarithmische Norm µ[·] : CN×N → R gilt die Ungleichung µ[A] ≥ max Re λ λ∈σ(A)

für A ∈ CN×N .

Gilt hier im Allgemeinen Gleichheit? Aufgabe 8.16 Sei µ∞ [·] : R N×N → R die zur Maximumnorm || · ||∞ : R N → R gehörende logarith¨ mische Norm. Man weise für 0 = A ∈ R N×N die folgende Aquivalenz nach: µ∞ [A] ≤ 0

⇐⇒

||I + µA||∞ ≤ 1

∀ 0 < µ ≤ ||A||∞ .

226

9

Randwertprobleme bei gewöhnlichen Differenzialgleichungen

9.1 Problemstellung, Existenz, Eindeutigkeit 9.1.1 Problemstellung Viele praxisrelevante Fragestellungen führen auf Randwertprobleme für gewöhnliche Differenzialgleichungen. Beispiel 9.1 Die zeitlich stationäre Temperaturverteilung in einem dünnen Metallstab wird beschrieben durch das folgende Randwertproblem: c

∂2 u ∂x2

= f ( x ),

u( a ) = α,

a < x < b, u( b ) = β,

wobei f : [ a, b ] → R eine gegebene Funktion ist, die anliegende, zeitlich unabhängige Wärmequellen darstellt. Die Funktion u : [ a, b ] → R beschreibt die zeitlich unabhängige Temperaturverteilung in dem Stab und ist gesucht. Die Temperaturen (hier mit α beziehungsweise β bezeichnet) an den beiden Rändern sind vorgegeben, und c > 0 stellt eine Materialkonstante dar. Randwertprobleme für gewöhnliche Differenzialgleichungen sind Gegenstand des vorliegenden Kapitels. Definition 9.2 Ein Randwertproblem für eine gewöhnliche Differenzialgleichung zweiter Ordnung mit separierten Randbedingungen ist von der Form u = f ( x, u, u ), u( a ) = α,

x ∈ [ a, b ],

u( b ) = β,

(9.1) (9.2)

auf einem endlichen Intervall [ a, b ] und mit gegebenen Zahlen α, β ∈ R sowie einer Funktion f : [ a, b ] × R 2 → R, und gesucht ist eine zweimal stetig differenzierbare Funktion u : [ a, b ] → R mit den Eigenschaften (9.1) (9.2). Die Notation in (9.1) ist eine u¨ bliche Kurzform für u ( x ) = f ( x, u( x ), u ( x )), x ∈ [ a, b ]. Oft werden solche Randwertprobleme auch in abgeschwächter Form betrachtet, bei der eine stetige Lösung u : [ a, b ] → R der Differenzialgleichung u = f ( x, u, u ) lediglich auf dem offenen Intervall ( a, b ) gesucht wird (und die zweimalige stetige Differenzierbarkeit von u lediglich dort gefordert wird). Zur Vereinfachung der Situation werden Randwertprobleme im weiteren Verlauf in der spezielleren Fassung (9.1) (9.2) betrachtet.

Abschnitt 9.1

227

Problemstellung, Existenz, Eindeutigkeit

Bemerkung 9.3 In den Anwendungen treten auch Randwertprobleme für gewöhnliche Differenzialgleichungen höherer Ordnung und für Systeme von gewöhnlichen Differenzialgleichungen auf: Ein Randwertproblem für eine gewöhnliche Differenzialgleichung n ter Ordnung mit linearen Randbedingungen ist von der Form

•

u(n) = f ( x, u, u , . . . , u(n−1) ), n−1

cjk u(k ) ( a ) + djk u(k ) ( b )

x ∈ [ a, b ], j = 0, 1, . . . , n − 1

= αj ,

(9.3) (9.4)

k=0

mit einer gegebenen Funktion f : [ a, b ] × R n → R und gegebenen reellen Koeffizienten cjk , djk und αj ∈ R sowie einer zu bestimmenden n mal stetig differenzierbaren Funktion u : [ a, b ] → R. Ein Randwertproblem für ein System von n gewöhnlichen Differenzialgleichungen erster Ordnung mit linearen Randbedingungen ist von der Form

•

U = F ( x, U ),

x ∈ [ a, b ],

AU ( a ) + BU ( b ) = U0

(9.5) (9.6)

mit einer gegebenen Funktion F : [ a, b ] × R n → R n und Matrizen A, B ∈ R n×n und einem Vektor U0 ∈ R n , und mit einer zu bestimmenden differenzierbaren vektorwertigen Funktion U : [ a, b ] → R n . Jedes Randwertproblem von der Form (9.3) (9.4) lässt sich mit den Setzungen U1 = u, U2 = u , . . . , Un = u(n−1) in ein Randwertproblem für ein System von n gewöhnlichen Differenzialgleichungen erster Ordnung von der Form (9.5) (9.6) u¨ berführen. Die folgenden Betrachtungen beschränken sich auf die in (9.1) (9.2) betrachteten Randwertprobleme für gewöhnliche Differenzialgleichungen zweiter Ordnung.

9.1.2 Existenz und Eindeutigkeit der Lösung Wie schon bei Anfangswertproblemen für gewöhnliche Differenzialgleichungen ist auch bei Randwertproblemen zunächst die Frage der Existenz und Eindeutigkeit der Lösung zu behandeln. Beispiel 9.4 Die homogene lineare gewöhnliche Differenzialgleichung zweiter Ordnung u ( x ) + u( x )

=

0,

a < x < b,

besitzt die allgemeine Lösung u( x ) = c1 sin x + c2 cos x für x ∈ [ a, b ], mit Koeffizienten c1 , c2 ∈ R, wobei aus der Theorie der gewöhnlichen Differenzialgleichungen bekannt ist, dass hierfür keine weiteren Lösungen existieren. Im Folgenden sollen verschiedene Randbedingungen (auf unterschiedlichen Grundintervallen) betrachtet werden.

228

Kapitel 9 Randwertprobleme

(a) Das Randwertproblem u + u = 0

auf [ 0, π/2 ],

u( 0 ) = 0,

u( π/2 ) = 1,

besitzt die eindeutige Lösung u( x ) = sin x, x ∈ [ 0, π/2 ]. (b) Bei dem Randwertproblem u + u = 0

auf [ 0, π ],

u( 0 ) = 0,

u( π ) = 0,

stellt jede Funktion von der Gestalt u( x ) = c1 sin x, x ∈ [ 0, π ], mit c1 ∈ R eine Lösung dar. (c) Schließlich existiert für das Randwertproblem u + u = 0

auf [ 0, π ],

u( 0 ) = 0,

u( π ) = 1,

keine Lösung.

Durch das vorangegangene Beispiel 9.4 wird deutlich, dass es bei Randwertproblemen für gewöhnliche Differenzialgleichungen keine so allgemein gültige Existenz– und Eindeutigkeitsaussage wie bei Anfangswertproblemen gibt. Unter gewissen Zusatzbedingungen lassen sich jedoch Existenz und Eindeutigkeit nachweisen. Ein entsprechendes Resultat für die in (9.5) (9.6) beschriebene allgemeine Situation bei Systemen von gewöhnlichen Differenzialgleichungen erster Ordnung findet man beispielsweise in Stoer/Bulirsch [96]. Es wird nun noch ein Spezialfall des Randwertproblems (9.1) (9.2) bei gewöhnlichen Differenzialgleichungen zweiter Ordnung betrachtet. Es handelt sich hierbei um das folgende Sturm Liouvillesche Randwertproblem mit homogenen Randbedingungen, −u ( x ) + r ( x )u( x ) = ϕ( x ), u( a ) = u( b ) = 0,

a ≤ x ≤ b,

(9.7) (9.8)

wobei r, ϕ : [ a, b ] → R vorgegebene stetige Funktionen sind. Hier gilt die folgende Aussage: Theorem 9.5 Das Randwertproblem (9.7) (9.8) besitzt für stetige Funktionen r, ϕ : [ a, b ] → R eine eindeutig bestimmte Lösung u ∈ C 2 [ a, b ], falls r nicht-negativ ist, r ( x ) ≥ 0 für x ∈ [ a, b ]. B EWEIS . Siehe Kress [60], Theorem 11.4. Zur numerischen Lösung von solchen Randwertproblemen (9.7) (9.8) und allgemeiner von Randwertproblemen von der Form (9.1)–(9.2) werden im Folgenden Differenzenverfahren, Variationsmethoden (Galerkin Verfahren) und Einfachschießverfahren vorgestellt.

9.2 Differenzenverfahren 9.2.1 Numerische Differenziation In dem folgenden Lemma wird der später benötigte zentrale Differenzenquotient zweiter Ordnung (zur Approximation der zweiten Ableitung einer Funktion von einer Veränderlichen) definiert und seine Approximationseigenschaften behandelt. Bei dieser Gelegenheit werden gleich noch die gängigen Differenzenquotienten zur Approximation der ersten Ableitung vorgestellt.

Abschnitt 9.2

229

Differenzenverfahren

Lemma 9.6 (a) Für u ∈ C 2 [ a, b ] gelten mit geeigneten Zahlen θ1 , θ2 ∈ [ 0, 1 ] die Beziehungen u( x + h ) − u( x ) h = u ( x ) + u ( x + θ1 h ) h 2 h u( x ) − u( x − h ) = u ( x ) − u ( x − θ2 h ) h 2

(vorwärts gerichteter Differenzenquotient) (rückwärts

).

......

(b) Für u ∈ C 3 [ a, b ] gilt mit einer geeigneten Zahl θ ∈ [ –1, 1 ] Folgendes, u( x + h ) − u( x − h ) 2h

= u ( x ) + u(3) ( x + θh )

h2 6

(zentraler Differenzenquotient 1. Ordnung) .

(c) Für u ∈ C 4 [ a, b ] gilt mit einer geeigneten Zahl θ ∈ [ –1, 1 ] Folgendes, u( x + h ) − 2u( x ) + u( x − h ) h2

=

h2

u ( x ) − u(4) ( x + θh ) 12

(zentraler Differenzenquotient 2. Ordnung).

Die rechts vorgestellten Bezeichnungen beziehen sich auf die linke Seite der jeweiligen Gleichung. B EWEIS . Die Aussagen erhält man mittels geeigneter Taylorentwicklungen der Funktion u in x. (a) Hier verwendet man u( x ± h )

=

u( x ) ± u ( x )h + u ( x ± θ1/2 h )

h2 . 2

(b) Eine weitere Taylorentwicklung der Funktion u in x liefert mit geeigneten Zahlen θ1 , θ2 ∈ [ 0, 1 ]

u( x ± h )

=

h2

u( x ) ± u ( x )h + u ( x ) 2

h3

± u(3) ( x ± θ1/2 h ) 6 ,

und eine Subtraktion führt auf die angegebene Darstellung, u( x + h ) − u( x − h ) 2h

h2 = 0 + u ( x )h + 0 + u(3) ( x + θ1 h ) + u(3) ( x − θ2 h ) 12 (∗)

= u ( x )h + u(3) ( x + θh )

h2 , 6

mit einer Zahl θ ∈ [ –1, 1 ], wobei man die Identität (∗) mithilfe des Mittelwertsatzes erhält. (c) Ganz entsprechend erhält man mit geeigneten Zahlen θ1 , θ2 ∈ [ 0, 1 ] auch u( x ± h )

=

h2

u( x ) ± u ( x )h + u ( x ) 2

h3

± u( 3 ) ( x ) 6

h4

+ u(4) ( x ± θ1/2 h ) 24 ,

und daraus erhält man für eine Zahl θ ∈ [ –1, 1 ] die folgende Identität, u( x + h ) − 2u( x ) + u( x − h ) h2

h2 = 0 + u ( x ) + 0 + u(4) ( x ± θ1 h ) + u(4) ( x ± θ2 h ) 24 h2

= u ( x ) + u(4) ( x + θh ) 12 .

230

Kapitel 9 Randwertprobleme

9.2.2 Der Ansatz fur ¨ Differenzenverfahren Im Folgenden wird der Ansatz für Differenzenverfahren vorgestellt, wobei dies anhand des speziellen Randwertproblems −u + ru = ϕ, u( a ) = u( b ) = 0 mit der nichtnegativen Funktion r ≥ 0 geschieht1 . Das zugrunde liegende Intervall [ a, b ] wird mit Gitterpunkten versehen, die hier a¨ quidistant gewählt seien, xj = a + jh,

j = 0, 1, . . . , N

b−a . N

mit h =

(9.9)

Eine Betrachtung des genannten Randwertproblems −u + ru = ϕ, u( a ) = u( b ) = 0 an diesen Gitterpunkten bei einer gleichzeitigen Approximation der Werte u ( x1 ), . . . , u ( xN −1 ) durch jeweils entsprechende zentrale Differenzenquotienten 2. Ordnung führt auf das folgende gekoppelte System von N − 1 linearen Gleichungen, ⎫ −vj+1 + 2vj − vj−1 ⎬ ( ) ( ) + r x v = ϕ x , j = 1, 2, . . . , N − 1, j j j h2 (9.10) ⎭ (v0 = vN = 0) für die Approximationen vj ≈ u( xj ), j = 1, . . . , N − 1. Setzt man noch rj = r ( xj ),

ϕj = ϕ( xj ),

j = 1, 2, . . . , N − 1,

so erhält man für das Gleichungssystem (9.10) die folgende Matrix Vektor Darstellung ⎛

⎞⎛

⎛

⎞

⎜ 2 + r1 h −1 ⎟ ⎜ v1 ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ −1 2 + r h2 p p p ⎟⎜ v ⎟ 2 ⎟⎜ 2 ⎟ 1 ⎜ ⎜ ⎟⎜ ⎟ ⎟⎜ ⎟ h2 ⎜ ⎜ ⎟ ⎜ ⎟ p pp pp p ⎜ ⎟ ⎜ ⎟ −1 p p ⎜ ⎟⎜ p ⎟ ⎜ ⎟⎜ ⎟ ⎝ ⎠⎝ ⎠ vN −1 −1 2 + rN −1 h2

=: A ∈ R (N −1)×(N −1)

⎞

⎜ ϕ1 ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ϕ ⎟ ⎜ 2 ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ pp ⎟ ⎜ p ⎟ ⎜ ⎟ ⎜ ⎟ ⎝ ⎠ ϕN −1

2

=

∈

R N −1 . (9.11)

Daraus erhält man unmittelbar die folgende Fehlerdarstellung: Theorem 9.7 Für das Differenzenschema (9.10) zur Lösung des Randwertproblems (9.7) (9.8) mit r ≥ 0 gilt mit der Notation uj := u( xj ) und der Matrix A aus (9.11) die Fehlerdarstellung ⎛ 1 ⎜ A⎜ h2 ⎝

v1 − u1 ppp

vN −1 − uN −1 1

vergleiche (9.7) (9.8)

⎞ ⎟ ⎟ ⎠

⎛ =

h2 ⎜ − 12 ⎜ ⎝

u(4) ( x1 + θ1 h ) ppp

u (xN −1 + θN −1 h) (4 )

⎞ ⎟ ⎟. ⎠

(9.12)

Abschnitt 9.2

231

Differenzenverfahren

B EWEIS . Die Aussage folgt unmittelbar aus der zu (9.10) a¨ quivalenten Darstellung (9.11) und der aus Teil (c) in Lemma 9.6 resultierenden Identität ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ u1 u(4) ( x1 + θ1 h ) ϕ1 ⎜ p ⎟ ⎟ 1 ⎜ h2 ⎜ p ⎟ ⎜ p ⎟ ⎜ ⎟. ppp A ⎜ pp ⎟ ⎠ = ⎝ p ⎠ + 12 ⎝ ⎠ h2 ⎝ uN −1 ϕN −1 u(4) (xN −1 + θN −1 h)

Für den Nachweis der eindeutigen Lösbarkeit des Gleichungssystems (9.10) und die gleichzeitige Herleitung eine Normabschätzung des Fehlers in (9.12) wird im Folgenden • •

die Regularität der Matrix A ∈ R (N −1)×( N −1) nachgewiesen sowie eine Abschätzung der Form h2 ||A−1 ||∞ ≤ C geliefert mit einer von der Zahl N unabhängigen Konstanten C > 0.

Hierzu sind ein paar Vorbereitungen erforderlich.

9.2.3 Das Konvergenzresultat fur ¨ Differenzenverfahren Definition 9.8 Für zwei Matrizen S = ( sjk ), T = ( tjk ) ∈ R N×N schreibt man S ≤ T

:⇐⇒

sjk ≤ tjk

für j, k = 1, 2, . . . , N,

beziehungsweise a¨ quivalent dazu T ≥ S. Eine Matrix S ∈ R N×N heißt nichtnegativ, wenn S ≥ 0 gilt. Im Folgenden werden die unmittelbar erforderlichen Resultate u¨ ber nichtnegative Matrizen geliefert. Weitere Eigenschaften solcher Matrizen werden in Abschnitt 9.2.4 vorgestellt. Lemma 9.9 Für gegebene Matrizen S, T ∈ R N×N gelten die folgenden Implikationen, 0 ≤ S ≤ T

=⇒

T ≥ 0

=⇒

||S ||∞ ≤ ||T ||∞ ; ( ) 1 p ||T ||∞ = T pp . 1

(9.13) (9.14)

∞

B EWEIS . Mit den Notationen S = ( sjk ), T = ( tjk ) ∈ R N×N erhält man die Aussage (9.13) folgendermaßen, ||S ||∞ = =

max

j=1,... ,N

max

j=1,... ,N

N

|sjk |

=

k=1 N

|tjk |

=

max

j=1,...,N

N k=1

sjk

≤

max

j=1,...,N

||T ||∞ .

k=1

Aus den letzten beiden Identitäten resultiert dann auch die Aussage (9.14).

N k=1

tjk

232

Kapitel 9 Randwertprobleme

Das folgende Theorem liefert die wesentlichen Hilfsmittel für den Beweis der nachfolgenden Fehlerabschätzung bei Differenzenverfahren zur Lösung von Randwertproblemen. Der Beweis von Teil (a) dieses Theorems wird in Abschnitt 9.2.4 nachgereicht. Theorem 9.10 (a) Die Matrix A ∈ R (N −1)×( N −1) aus (9.11) ist regulär, und im Ordnungssinn gilt (vergleiche Definition 9.8) ⎞ ⎛ 2 −1 ⎟ ⎜ ⎟ ⎜ −1 p p p p p p ⎟ ⎜ × 0 ≤ A−1 ≤ A−1 A0 := ⎜ ⎟ ∈ R (N −1) ( N −1) ist regulär; (9.15) 0 , pp pp ⎟ ⎜ p p −1 ⎠ ⎝ −1 2 (b) es gilt ||A−1 ||∞

≤

||A−1 0 ||∞

2

( b − a ) −2 h . 8

≤

(9.16)

B EWEIS . Der Beweis von Teil (a) wird nachgetragen, hier wird nur der Nachweis für Teil (b) geführt. Das spezielle Randwertproblem −z ( x ) = 1,

z ( a ) = z ( b ) = 0,

a < x < b,

besitzt die Lösung 1

z ( x ) = 2 ( x − a ) ( b − x ),

a ≤ x ≤ b,

so dass insbesondere z ∈ C 4 [ a, b ] und z ( 4) ≡ 0 gilt. Aus der Fehlerdarstellung für den zentralen Differenzenquotienten 2. Ordnung erhält man deshalb ⎛ ⎞ 1 −1 ⎝ pp ⎠ A0 p 1

⎛ =

z1 pp p

1 ⎝ h2

⎞ ⎠,

(9.17)

zN −1

mit der Notation zj = z ( xj ). Die zweite Abschätzung in (9.16) folgt nun unmittelbar aus (9.14) sowie Teil (a) dieses Theorems, und die erste Abschätzung in (9.16) erhält man sofort aus (9.13) sowie wiederum aus Teil (a) dieses Theorems. Die vorherige Aussage ermöglicht die Herleitung der folgenden Fehlerabschätzung für Differenzenverfahren zur Lösung von Randwertproblemen. Theorem 9.11 Gegeben sei das Randwertproblem (9.7) (9.8) mit r ≥ 0, für dessen Lösung u ∈ C 4 [ a, b ] erfüllt sei. Dann gilt max |vj − u( xj ) |

j=0,...,N

mit der Konstanten M :=

( b − a )2

96

≤

Mh2 ,

||u(4) ||∞ und den Notationen aus (9.9) und (9.10).

B EWEIS . Die Aussage folgt unmittelbar aus den Theoremen 9.7 und 9.10.

Abschnitt 9.2

233

Differenzenverfahren

9.2.4 Vorbereitungen fur ¨ den Beweis von Teil (a) des Theorems 9.10 Die Regularität der Matrix A0 aus (9.15) ist eine unmittelbare Konsequenz aus der Tatsache, dass die Eigenwerte von Tridiagonalmatrizen mit konstanten Einträgen entlang der Haupt- und der Nebendiagonalen direkt angegeben werden können: Lemma 9.12 Eine Tridiagonalmatrix ⎛ ⎞ a b ⎜ ⎟ ⎜c a ... ⎟ ⎟ ∈ R (N −1)×( N −1) A = ⎜ ⎜ .. .. ⎟ . b⎠ . ⎝ c a mit Zahlen a, b, c ∈ R, b · c > 0, besitzt die folgenden Eigenwerte, kπ √ , k = 1, 2, . . . , N − 1. λk = a + 2sgn( c ) bc cos N Die zugehörigen Eigenvektoren sind im Beweis angegeben. B EWEIS . Zur Vereinfachung der Notation wird im Folgenden der Fall a = 0 betrachtet. (Die Aussage in der allgemeinen Situation erhält man danach durch Betrachten der Matrix A − aI.) Mit den Setzungen c 1/2 π M := b , D := N , −1 N −1 x[k] := (x )N =1 ∈ R [k]

erhält man unter Verwendung der Darstellung M [k] x = 2i eikD − e−ikD ,

[k]

mit x

:= M /2 sin (k D )

= 1, 2, . . . , N − 1,

(9.18)

für j = 1, 2, . . . , N − 1 Folgendes, 1 (Ax[k] )j = cM j−1 ei( j−1)kD + bM j+1 ei(j+1)kD 2i

− cM j−1 e−i(j−1)kD + bM j+1 e−i(j+1)kD =

Mj cM −1 e−ikD + bMeikD eijkD − cM −1 eikD + bMe−ikD e−ijkD , 2i

wobei diese Vorgehensweise auch in den Fällen j = 1 und j = N − 1 zulässig ist, da die rechte Seite der Gleichung in (9.18) für = 0 und = N verschwindet. Wegen cM −1 = bM = √ sgn( c ) bc berechnet man daraus mit der Abkürzung σ = sgn( c ) Folgendes,

√ √ √ M j √ −ikD σ bce + σ bceikD eijkD − σ bce−ikD + σ bceikD eijkD (Ax[k] )j = 2i ijkD √ [k] M j √ ikD = σ bc e e = 2σ bc cos ( kD ) xj . + e−ikD − eijkD 2i Für Matrizen A, deren Eigenwerte allesamt im offenen Einheitskreis liegen, lässt sich die Inverse der Matrix I − A als Neumannsche Reihe darstellen. Genauer gilt Folgendes:

234

Kapitel 9 Randwertprobleme

Theorem 9.13 Für eine Matrix A ∈ R N×N sind die folgenden Aussagen a¨ quivalent: (a) σ ( A ) ⊂ {λ ∈ C : |λ| < 1}; (b) Es existiert eine Vektornorm || · || : R N → R, so dass für die zugehörige Matrixnorm gilt ||A|| < 1; ∞ (c) Die Reihe Aν ist konvergent; ν=0

(d) Es gilt A → 0 für ν → ∞. ν

Wenn eine der (und damit alle) Bedingungen erfüllt ist, so gilt ( I − A )−1 =

∞

Aν .

(9.19)

ν=0

B EWEIS . ( a ) =⇒ ( b ): Für jede Zahl ε > 0 existiert2 eine verallgemeinerte Jordan Faktorisie mit einer regulären Matrix T ∈ CN×N sowie rung der Form A = T −1 JT ⎞ ⎛ ⎞ ⎛ ε λ k J1 ⎟ ⎜ pp pp ⎟ ⎟ ⎜ ⎜ p p ⎟ ⎟ ⎜ ⎜ × pp k = 1, 2, . . . , r, Jk = ⎜ J = ⎜ ⎟, ⎟ ∈ C Nk Nk , p pp ⎟ ⎜ ⎠ ⎝ ε p ⎠ ⎝ Jr λk r 1×1 mit Nk ≥ 1, . Hier sei nun k=1 Nk = N. Im Fall Nk = 1 bedeutet dies Jk = [λk ] ∈ C ε > 0 hinreichend klein gewählt, so dass für jeden Index k ∈ {1, 2, . . . , r } die Ungleichung |λk | + ε < 1 erfüllt ist, was wegen Voraussetzung (a) möglich ist. Aufgrund der Konstruktion gilt || J||∞ =

max || Jk ||∞ < 1.

k=1,...,r

Man setzt dann ||x||T := ||T x||∞ ,

x ∈ RN ,

und weist leicht nach, dass || · ||T eine Norm auf R N darstellt. Für die zugehörige Matrixnorm ist dann tatsächlich ||A||T < 1 erfüllt, denn für jeden Vektor x ∈ R N gilt ||Ax||T

=

||T Ax||∞

=

x||∞ || JT

≤

|| J||∞ ||T x||∞

=

|| J||∞ ||x||T .

( b ) =⇒ ( c ): Die Behauptung folgt unmittelbar aus der absoluten Konvergenz, ∞ ν=0

||Aν ||

≤

∞

||A||ν < ∞.

ν=0

( c ) =⇒ ( d ): In jedem mit einer Norm versehenen Vektorraum folgt aus der Konvergenz einer ( ) Reihe ∞ j=0 xj die Konvergenz seiner Summanden gegen null, xj → 0 j → ∞ . 2

siehe den Beweis von Lemma 8.15

Abschnitt 9.2

235

Differenzenverfahren

( d ) =⇒ ( a ): Wenn λ ∈ C ein Eigenwert von A mit |λ| ≥ 1 ist, so erhält man mit einem

zugehörigen Eigenvektor x ∈ CN und für jede Vektornorm || · || : CN → R ||Aν x||

=

||λν x||

=

|λ|ν ||x||

≥

||x||

beziehungsweise ||Aν || ≥ 1 für ν = 1, 2, . . . im Widerspruch zur Annahme (d). Schließlich gilt unter den Bedingungen (a) (d) (I − A)

n−1

Aν

=

ν=0

n

( Aν − Aν+1 )

=

I − An

→

I

für n → ∞,

ν=0

woraus man die Darstellung (9.19) erhält. Weitere Eigenschaften nichtnegativer Matrizen Es folgen einige Aussagen u¨ ber nichtnegative Matrizen. Lemma 9.14 Für nichtnegative Matrizen S, T ∈ R N×N sind sowohl S + T ∈ R N×N als auch S T ∈ R N×N nichtnegative Matrizen. Weiter gilt für Matrizen S1 , S2 ∈ R N×N und T1 , T2 ∈ R N×N mit 0 ≤ S1 ≤ S2 und 0 ≤ T1 ≤ T2 auch 0 ≤ S1 T1 ≤ S2 T2 . Konvergente Folgen nichtnegativer Matrizen besitzen nichtnegative Grenzwerte. B EWEIS . Ist elementar und wird hier nicht geführt. Theorem 9.15 Für Matrizen S, T ∈ R N×N und λ ∈ R gilt die folgende Implikation, 1 1 λ > rσ ( S ), 0 ≤ S ≤ T, =⇒ λ > rσ ( T ) 0 ≤ (λI − S )−1 ≤ (λI − T )−1 .

(9.20)

ν B EWEIS . Zunächst wird der Spezialfall λ = 1 > rσ ( T ) betrachtet. Es ist ∞ ν=0 S konvergent, denn unter Anwendung von Lemma 9.9, Lemma 9.14 und Theorem 9.13 erhält man n1 S ν ∞ ν=n0

≤

n1 T ν ∞

→

0

für n0 ≤ n1 ,

n0 , n1 → ∞.

ν=n0

Wiederum nach Theorem 9.13 folgt daraus 1 > rσ ( S ) sowie die Darstellbarkeit der Inversen der ν Matrix I − S als Neumannsche Reihe, ( I − S )−1 = ∞ ν=0 S . Daraus resultiert schließlich der zweite Teil der Aussage (9.20) für den Spezialfall λ = 1, ( I − S )−1

=

∞ ν=0

Sν

≤

∞

Tν

=

( I − T )−1 .

ν=0

Die Aussage für die allgemeine Situation λ > 0 erhält man durch Betrachtung von λ−1 S und λ−1 T : es gilt λ−1 S ≤ λ−1 T sowie 1 > rσ ( λ−1 T ), mit der schon bewiesenen Aussage (9.20) für den Spezialfall λ = 1 erhält man die Regularität der Matrix I −λ−1 S sowie ( I −λ−1 S )−1 ≤ ( I − λ−1 T )−1 und daraus wiederum unmittelbar die Aussage (9.20) in ihrer ganzen Allgemeinheit. Als unmittelbare Konsequenz erhält man das folgende Resultat.

236

Kapitel 9 Randwertprobleme

Theorem 9.16 Für Matrizen A, B ∈ R N×N mit 0 ≤ A ≤ B gilt rσ ( A ) ≤ rσ ( B ). B EWEIS . Diese Aussage erhält man unmittelbar durch Anwendung von Theorem 9.15 für λ = rσ ( A ) + ε mit ε > 0, ε → 0. Das folgende Resultat für nichtnegative Matrizen wird im nachfolgenden Kapitel 10 benötigt. Theorem 9.17 Für jede Matrix B ∈ R N×N mit B ≥ 0 und jede Zahl λ > 0 gilt die folgende ¨ Aquivalenz, 1 λI − B ist regulär, λ > rσ ( B ) ⇐⇒ (9.21) ( λI − B )−1 ≥ 0. B EWEIS . Die Implikation “=⇒“ folgt unmittelbar aus Theorem 9.15 angewandt mit S = 0. Für den Nachweis der Implikation “⇐=“ wird zunächst der Spezialfall λ = 1 betrachtet. Ist die Matrix I − B regulär und gilt ( I − B )−1 ≥ 0, so folgt 0 ≤

n−1

=

Bν

ν=0

n−1

B ν ( I − B )( I − B )−1

=

ν=0

(B ν − B ν+1 )( I − B )−1

ν=0

= ( I − B n ) ( I − B )−1 ≥0

n−1

≤

( I − B )−1 ,

≥0

beziehungsweise insbesondere 0 ≤

n−1

Bν

≤

( I − B )−1 ,

n = 1, 2, . . . .

ν=0

n ν ν ν Wegen n−1 ur n = 1, 2, . . . ist also ∞ ν=0 B ≤ ν=0 B f¨ ν=0 B notwendigerweise konvergent und damit gilt3 die Ungleichung rσ ( B ) < 1. Die allgemeine Situation λ > 0 für die Implikation “⇐=“ in der Aussage (9.21) lässt sich auf den Fall λ = 1 zurückführen, λI − B regulär,

λ > rσ ( B )

⇐⇒

1 > rσ ( λ−1 B ),

( λI − B )−1 ≥ 0

⇐⇒

I − λ−1 B regulär,

( I − λ−1 B )−1 ≥ 0.

Dies komplettiert den Beweis des Theorems. Als Konsequenz aus Theorem 9.17 erhält man das folgende klassische Resultat. Theorem 9.18 (Satz von Perron) Für jede Matrix A ∈ R N×N mit A ≥ 0 ist die Zahl λ = rσ ( A ) ein Eigenwert von A. B EWEIS . Wäre die Matrix λI − A regulär, so ergäbe sich 0

(∗)

≤

(∗∗)

( ( λ + ε )I − A)−1 → ( λI − A )−1

für 0 < ε → 0,

wobei die Ungleichung (∗) aus Theorem 9.17 resultiert, und (∗∗) folgt mit Korollar 4.50 u¨ ber die Stetigkeit der Matrixinversion. Daraus erhält man ( λI − A )−1 ≥ 0 im Widerspruch zur Aussage von Theorem 9.17. 3

vergleiche Theorem 9.13

Abschnitt 9.3

237

Galerkin– Verfahren

9.2.5 Nachweis der Aussage in Teil (a) von Theorem 9.10 Für den Nachweis der Aussage (9.15) betrachtet man die folgenden Matrizen D, D0 , S und S0 ∈ R (N −1)×( N −1) , D = 2I + h2 diag (r1 , . . . , rN −1 ), ⎛ 1 ⎜ ⎜ 0 ⎜ 2 + r1 h2 ⎜ ⎜ ⎜ 1 ⎜ pp ⎜ p ⎜ 2 + r2 h2 ⎜ S = ⎜ ⎜ ⎜ pp ⎜ p ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ 2 +

D0 = 2I, ⎞

⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ pp ⎟ p ⎟ ⎟ ⎟, ⎟ ⎟ 1 ⎟ 0 2 + rN −2 h2 ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ 1 0 rN −1 h2

⎛

S0

0

⎜ ⎜1 ⎜2 = ⎜ ⎜ ⎜ ⎝

⎞

1 2

⎟ ⎟ ⎟ ⎟ ⎟ pp pp 1⎟ p p 2 ⎠ 1 0 2

pp

p

pp

p

und erhält damit die Darstellungen A = D ( I − S ),

A0 = D0 ( I − S0 ).

Mit Lemma 9.12 erhält man kπ : k = 1, . . . , N − 1 σ ( S0 ) = cos N

⊂

{x : −1 < x < 1},

und offensichtlich gilt 0 ≤ S ≤ S0 , so dass nach Theorem 9.15 die Matrizen I − S0 und I − S regulär sind und mehr noch 0 ≤ ( I − S )−1 ≤ ( I − S0 )−1 gilt. Weiterhin sind die Matrizen D und D0 offensichtlich regulär mit D −1 ≤ D0−1 . Insgesamt erhält man also die Regularität der Matrix A sowie 0 ≤ A−1

=

( I − S )−1 D −1

≤

( I − S0 )−1 D0−1

=

A−1 0 ,

was den Beweis von Teil (a) des Theorems 9.10 komplettiert. Bemerkung 9.19 Der vorgestellte Beweis lässt sich noch kompakter führen mithilfe der im anschließenden Kapitel behandelten Theorie der M Matrizen (siehe insbesondere Aufgabe 10.7).

9.3 Galerkin–Verfahren In dem vorliegenden Abschnitt werden Galerkin Verfahren behandelt, die bei speziellen Problemstellungen und bei Verwendung geeigneter Ansatzräume bessere Approximationseigenschaften als Differenzenverfahren besitzen.

238

Kapitel 9 Randwertprobleme

9.3.1 Einfuhrende ¨ Bemerkungen Im Folgenden wird der Ansatz für Galerkin Verfahren zur approximativen Lösung von Randwertproblemen vorgestellt. Exemplarisch soll dies zunächst anhand des speziellen Sturm Liouvilleschen Randwertproblems −u + ru = ϕ, u( a ) = u( b ) = 0, mit der nichtnegativen Funktion r : [ a, b ] → R + geschehen4 . Hierzu wird dieses Randwertproblem als Operatorgleichung Lu = ϕ geschrieben mit ⎫ ⎬ L : C [ a, b ] ⊃ DL → C [ a, b ], u → −u + ru, (9.22) ⎭ DL = {u ∈ C 2 [ a, b ] : u( a ) = u( b ) = 0}, und im weiteren Verlauf bezeichne noch u, v 2 :=

Z b a

u( x ) v ( x ) dx,

u, v ∈ C [ a, b ],

(9.23)

das L2 Skalarprodukt, und S ⊂ DL sei ein linearer Unterraum mit dim S < ∞. Als Raum S kann hier beispielsweise der Raum der kubischen Splines mit natürlichen Randbedingungen verwendet werden. In der vorliegenden speziellen Situation ist die Galerkin Approximation s ∈ S folgendermaßen erklärt5 : s ∈ S,

L s , ψ 2 = ϕ, ψ 2

für alle ψ ∈ S.

(9.24)

Interessiert ist man an der Verwendung von solchen Räumen S, für die einerseits der Fehler s − u bezüglich der L2 Norm || · ||2 oder anderer gängiger Normen möglichst klein ausfällt, und andererseits soll die zugehörige Galerkin Approximation mit möglichst wenig Aufwand bestimmt werden können. Im weiteren Verlauf werden die folgenden Themen abgehandelt: •

Galerkin Verfahren werden in einer allgemeinen Form und für eine große Klasse von Problemstellungen definiert sowie ihre Konvergenzeigenschaften behandelt ( u¨ bernächster Abschnitt 9.3.3).

•

Die Bedeutung der in Abschnitt 9.3.3 erzielten Konvergenzresultate sollen anhand des Sturm Liouvilleschen Differenzialoperators Lu = −u + ru aus (9.22) erläutert werden. Die dafür benötigten Eigenschaften von L werden in dem nachfolgenden Abschnitt 9.3.2 hergeleitet.

9.3.2 Eigenschaften des Differenzialoperators Lu = −u $$ + ru Im Folgenden werden einige Eigenschaften des Differenzialoperators Lu = −u + ru aus (9.22) vorgestellt. Als Erstes geht es darum, das anhand des Modellbeispiels aus (9.22) betrachtete Galerkin Verfahren dahingehend sinnvoll zu verallgemeinern, dass eine Verwendung des Raums S der linearen Splinefunktionen infrage kommt, der aufgrund der fehlenden Differenzierbarkeitseigenschaften nicht in dem Definitionsbereich DL des Sturm Liouvilleschen 4 5

vergleiche (9.7) (9.8) Die konkrete Art der Berechnung wird in Abschnitt 9.3.4 behandelt.

Abschnitt 9.3

239

Galerkin– Verfahren

Differenzialoperators enthalten ist. Dabei ist die folgende symmetrische Bilinearform hilfreich, ⎫ Z b ⎬ [[u, v ]] := a (u v + ruv )( x ) dx, u, v ∈ C∆1 [ a, b ], (9.25) C∆1 [ a, b ] = {u : [ a, b ] → R : u ist stückweise stetig differenzierbar}.⎭ ¨ stetig differenzierbar, falls sie auf dem Hierbei heißt eine Funktion u : [ a, b ] → R stuckweise Intervall [ a, b ] stetig ist und eine Zerlegung ∆ = {a = x0 < x1 < . . . < xN = b} existiert, so dass auf jedem der offenen Teilintervalle ( x0 , x1 ), ( x1 , x2 ), . . . , ( xN −1 , xN ) die Ableitung der Funktion u existiert und dort eine stetige Funktion darstellt. Das Symbol ∆ in C∆1 [ a, b ] bezieht sich nicht auf eine vorab festgelegte Zerlegung. Die Bedeutung des in (9.25) auftretenden Integrals mit stückweise stetig differenzierbaren Funktionen u, v wird klar mit der folgenden Setzung, Z b a

u ( x ) v ( x ) dx =

M Z k=1

zk

zk−1

u ( x ) v ( x ) dx,

(9.26)

wobei die Zahlen a = z0 < z1 < . . . < zM = b so gewählt sind, dass die Funktion u v auf jedem der offenen Teilintervalle ( z0 , z1 ), ( z1 , z2 ), . . . , ( zM −1 , zM ) definiert und stetig ist. Wegen der fehlenden Setzung der Funktion u v an den Stellen z0 , . . . , zM sind die die Integrale auf der rechten Seite von (9.26) als uneigentliche Integrale zu verstehen. Entsprechend ist für stück'b weise stetig differenzierbare Funktionen u : [ a, b ] → R der Wert ||u ||2 = ( a u ( x )2 dx)1/2 zu verstehen. Mit dem folgenden Lemma wird der Zusammenhang zwischen der angegebenen Bilinearform und dem Sturm Liouvilleschen Differenzialoperator L beschrieben: Lemma 9.20 Es gilt [[u, v ]]

=

Lu, v 2

für u ∈ DL ,

v ∈ D,

(9.27)

mit D = {u ∈ C∆ [ a, b ] : u( a ) = u( b ) = 0}. 1

B EWEIS . Auch für stückweise stetig differenzierbare Funktionen sind die Regeln der partiellen Integration anwendbar, und so erhält man Z b Z b b Lu, v 2 = (–u + ru)( x ) v ( x )dx = −(u v )( x ) a + (u v + ruv )( x ) dx a

= 0 +

Z b a

a

(u v + ruv )( x ) dx

=

[ u, v ]].

Bemerkung 9.21 Man beachte, dass der Ausdruck [[u, v ]] auch für Funktionen u ∈ D\DL definiert ist. Aufgrund der Identität (9.27) stellt die Bilinearform [[·, ·]] somit bezüglich des ersten Eingangs eine Fortsetzung der Bilinearform L·, ·2 dar. Diese Eigenschaft ermöglicht die Erweiterung des in (9.24) anhand des Sturm Liouvilleschen Differenzialoperators Lu = −u + ru eingeführten Galerkin Verfahrens auch auf solche Ansatzräume S ⊂ D, die nicht in DL enthalten sind (vergleiche Definition 9.28 unten).

240

Kapitel 9 Randwertprobleme

Als unmittelbare Konsequenz aus Theorem 9.20 und der Symmetrie der Bilinearform [[·, ·]] erhält man die Symmetrie des Sturm Liouvilleschen Differenzialoperators L. Korollar 9.22 Der Sturm Liouvillesche Differenzialoperator L in (9.22) ist symmetrisch, es gilt also Lu, v 2

=

u, Lv 2

für u, v ∈ DL .

B EWEIS . Die Behauptung folgt unmittelbar aus Lemma 9.20, Lu, v 2

=

[ u, v ]]

=

[[v , u]]

=

Lv , u2

=

u, Lv 2.

In dem nächsten Theorem werden die (später benötigte) positive Definitheit der Abbildung u → [[u, u]] nachgewiesen und gängige obere und untere Schranken für [[u, u]] hergeleitet. (Diese Schranken ermöglichen die Herleitung konkreter Fehlerabschätzungen für die Galerkin Approximation.) Das folgende Lemma liefert hierfür die technischen Hilfsmittel. 1/2

Lemma 9.23 Mit der Notation ||u||2 = u, u2 gilt die Friedrichsche Ungleichung ||u||2

≤

( b − a )||u ||2

für u ∈ C∆1 [ a, b ]

mit u( a ) = 0.

(9.28)

B EWEIS . Aufgrund der Eigenschaft u( a ) = 0 gilt u( x )

=

Z x a

u ( t ) dt

für x ∈ [ a, b ],

(9.29)

da der Haupsatz der Differenzial und Integralrechnung auch für stückweise stetig differenzierbare Funktionen gültig ist. Ausgehend von (9.29) liefert eine Anwendung der Cauchy Schwarzschen Ungleichung die folgende Abschätzung, = ||u ||2 2 u( x ) 2 ≤

Z x a

12 dt ·

Z x a

u ( t )2 dt = ( x − a )

Z x a

u ( t )2 dt ≤ ( b − a )

Z b a

u ( t )2 dt

für x ∈ [ a, b ], und die angegebene Ungleichung (9.28) resultiert nun unmittelbar aus der trivialen Abschätzung 'b ||v ||2 = ( a v ( s )2 ds)1/2 ≤ ( b − a )1/2 ||v ||∞ für v ∈ C [ a, b ]. Mithilfe des vorhergehenden Lemmas lassen sich obere und untere Schranken für [[u, u]] herleiten, die die Grundlage für nachfolgende konkrete Fehlerabschätzungen darstellen. Theorem 9.24 Es gelten die Ungleichungen ||u ||22 ≤ [[u, u]]

≤

κ1 ||u ||22

mit der Konstanten κ1 = 1 + ||r ||∞ ( b − a )2 .

für u ∈ C∆1 [ a, b ]

mit u( a ) = 0, (9.30)

Abschnitt 9.3

241

Galerkin– Verfahren

B EWEIS . Die angegebenen Ungleichungen erhält man folgendermaßen, [[u, u]]

=

.......

=

Z b a

(∗)

( ( u )2 + ru2 )( s ) ds

≥

≤

......

Z b a

u ( s )2 ds

=

||u ||22 ,

||u ||22 + ||r ||∞ ||u||22

(∗∗)

≤

κ1 ||u ||22 ,

wobei die Abschätzungen (∗) und (∗∗) aus der Nichtnegativität r ≥ 0 beziehungsweise der Friedrichschen Ungleichung resultieren. Die später benötigten Eigenschaften des speziellen Differenzialoperators Lu = −u +ru stehen nun allesamt zur Verfügung.

9.3.3 Galerkin– Verfahren – ein allgemeiner Ansatz Galerkin Verfahren lassen sich in den unterschiedlichsten Situationen einsetzen und werden hier daher in genügender Allgemeinheit betrachtet. Zunächst werden die entsprechenden Annahmen zusammengetragen. Voraussetzungen 9.25 (a) In einem reellen Vektorraum V wird die lineare Gleichung mit L : V ⊃ DL → V linear ,

Lu = ϕ

ϕ∈V

betrachtet, wobei DL ein linearer Unterraum von V ist. Diese Gleichung Lu = ϕ besitze eine Lösung u∗ ∈ DL . Weiter sei ·, · : V × V → R eine Bilinearform auf V. (b) Es bezeichne [[·, ·]] : D × D → R eine zweite Bilinearform auf einem linearen Unterraum D ⊂ V, wobei D eine Obermenge des Definitionsbereichs DL der Abbildung L darstellt, DL ⊂ D. Diese zweite Bilinearform [[·, ·]] sei positiv definit, [[u, u]] > 0

für 0 = u ∈ D,

und zwischen den beiden genannten Bilinearformen bestehe der folgende Zusammenhang, [[u, v ]]

=

Lu, v

für u ∈ DL ,

v ∈ D.

(9.31)

Beispiel 9.26 Der im vorangegangenen Abschnitt 9.3.2 betrachtete Differenzialoperator Lu −u + ru erfüllt mit den in dem dortigen Zusammenhang betrachteten Bilinearformen die Voraussetzung 9.25 genannten Bedingungen mit den Notationen V = C [ a, b ] und ·, · ·, · 2 .

= in =

Bemerkung 9.27 (a) Unter den in Voraussetzung 9.25 genannten Bedingungen ist der Operator L notwendigerweise injektiv. Falls nämlich Lu = 0 erfüllt ist für eine Funktion u ∈ DL , so gilt 0

=

Lu, u

=

[ u, u]]

;

u = 0.

242

Kapitel 9 Randwertprobleme

(b) Die Abbildung D u → [[u, u]]1/2 bezeichnet man als Energienorm. Tatsächlich erfüllt sie die Normeigenschaften, was offensichtlich ist im Fall einer symmetrischen Bilinearform [[·, ·]], die dann ein Skalarprodukt darstellt. Man kann aber auch für den nichtsymmetrischen Fall die Normeigenschaften der Energienorm nachweisen (Aufgabe 9.10). (c) Die Eigenschaft (9.31) dient in den nachfolgenden Betrachtungen lediglich dazu, Galerkin Verfahren in einer relativ allgemeinen Form zu erklären. Es existiert jedoch ein weiterer Anwendungsbereich, der hier kurz angesprochen werden soll. Aufgrund der Eigenschaft (9.31) stellt die Lösung u∗ ∈ DL der Operatorgleichung Lu = ϕ auch eine Lösung der Variationsgleichung finde u ∈ D

mit [[u, v ]]

=

ϕ, v

für alle v ∈ D

(9.32)

dar. Diese Variationsgleichung (9.32) erlangt in denjenigen Anwendungen eine eigenständige Bedeutung, bei denen die Gleichung Lu = ϕ entgegen der Voraussetzung 9.25 nicht in D lösbar ist, die Variationsgleichung (9.32) jedoch eine Lösung u∗ ∈ D besitzt. Solche Lösungen bezeichnet man dann als verallgemeinerte oder schwache Lösung von Lu = ϕ. Die nachfolgenden Resultate gelten auch für schwache Lösungen. Definition 9.28 Es seien die in Voraussetzung 9.25 genannten Bedingungen erfüllt. Zur approximativen Lösung der Gleichung Lu = ϕ ist für einen gegebenen linearen Unterraum S ⊂ D mit dim S < ∞ die Galerkin–Approximation s ∈ S wie folgt erklärt, s ∈ S,

[[ s , ψ ]]

=

ϕ, ψ

für alle ψ ∈ S.

(9.33)

Dieses Verfahren wird als Galerkin Verfahren beziehungsweise im Falle der Symmetrie der Bilinearform [[·, ·]] auch als Ritz Verfahren bezeichnet. Bemerkung 9.29 (a) Wenn S ⊂ DL gilt, so kann man (9.33) in der folgenden klassischen und der (aus dem in (9.24) angegebenen Beispiel) bereits bekannten Form schreiben, s ∈ S,

L s, ψ

=

ϕ, ψ

für alle ψ ∈ S.

(b) Die Galerkin Approximation ist eindeutig bestimmt. Sind nämlich s, s ∈ S zwei Galerkin Approximationen, so gilt insbesondere s − s ∈ S und dann [[ s − s, s − s]] = 0, so dass aufgrund von Teil (b) der Annahme 9.25 notwendigerweise s = s gilt. (c) Wenn u∗ ∈ DL die Lösung der Gleichung Lu = ϕ bezeichnet, so gilt für jedes Element s ∈ S: s − u∗ , ψ = 0 für alle ψ ∈ S. (9.34) s ist Galerkin Approximation ⇐⇒ Dies folgt unmittelbar aus den Darstellungen (9.32) und (9.33). (d) Allgemeiner als in (9.33) kann man für lineare Räume S1 ⊂ D und S2 ⊂ V mit dim S1 = dim S2 < ∞ Approximationen s ∈ S1 von der folgenden Form betrachten, s ∈ S1 ,

[[ s , ψ ]]

=

ϕ, ψ

für ψ ∈ S2 .

(9.35)

In diesem Zusammenhang wird S1 als Ansatzraum und S2 als Testraum bezeichnet. Bei Galerkin Verfahren stimmen demnach Ansatz und Testraum u¨ berein.

Abschnitt 9.3

243

Galerkin– Verfahren

Die folgende Minimaleigenschaft der Galerkin Approximation bildet die Grundlage für die Herleitung konkreter Fehlerabschätzungen bei Galerkin Verfahren. Man beachte, dass hier die Symmetrie der Bilinearform [[·, ·]] benötigt wird. Theorem 9.30 Es seien die in Voraussetzung 9.25 genannten Bedingungen erfüllt, und zusätzlich sei die Bilinearform [[·, ·]] : D × D → R symmetrisch. Dann minimiert die Galerkin Approximation s ∈ S in dem Raum S ⊂ D den Fehler bezüglich der Energienorm, es gilt also = min s − u∗ , s − u∗ . (9.36) s − u∗ , s − u∗ s∈S

B EWEIS . Die Aussage erhält man durch folgende Rechnung, bei der s ∈ S beliebig gewählt ist, s − u∗ , s − u∗ = 0 nach (9.34)

= s − u∗ , s − u∗ + s − s, s − u∗ + s − u∗ , s − s = s − u∗ , s − u∗ ....... − s − s, s − s + s − u∗ , s − s =

≥ 0 = 0 ....... . ≤

Die in Theorem 9.30 vorgestellte Minimaleigenschaft der Galerkin Approximation bezüglich der Energienorm ist ein erster Schritt zur Herleitung konkreter Fehlerabschätzungen für das Galerkin Verfahren. Ausgangspunkt weiterer Fehlerabschätzungen ist das folgende triviale Resultat, das man in den Anwendungen typischerweise mit speziellen Normen ||| · ||| : D → R + einsetzt. Theorem 9.31 Es seien die in Voraussetzung 9.25 genannten Bedingungen erfüllt mit einer symmetrischen Bilinearform [[·, ·]], und bezüglich einer nichtnegativen Abbildung ||| · ||| : D → R + gelte c1 |||u|||2

≤

[[u, u]]

≤

c2 |||u|||2

für alle u ∈ D

mit gewissen Konstanten c2 ≥ c1 > 0. Dann gilt ||| s − u∗ |||

≤

c min |||s − u∗ ||| s∈S

mit c =

"

c2 . c1

(9.37)

(9.38)

B EWEIS . Die Aussage folgt unmittelbar aus der Eigenschaft (9.36). In der Situation (9.38) nennt man das Galerkin Verfahren quasioptimal bezüglich ||| · |||, da die Galerkin Approximation bis auf einen konstanten Faktor aus dem Raum S die optimale Approximation an u∗ darstellt. Auch für nichtsymmetrische Bilinearformen [[·, ·]] erhält man unter vergleichbaren Bedingungen die Quasioptimalität der Galerkin Approximation.

244

Kapitel 9 Randwertprobleme

Theorem 9.32 (Lemma von Céa) Es seien die in Voraussetzung 9.25 genannten Bedingungen erfüllt und bezüglich einer Abbildung ||| · ||| : D → R + gelte c1 |||u|||2 ≤ [[u, u]]

für u ∈ D,

[[u, v ]] ≤ c2 |||u||||||v|||

für u, v ∈ D

(9.39)

mit gewissen Konstanten c2 ≥ c1 > 0. Dann gilt ||| s − u∗ ||| ≤ c mins∈S |||s − u∗ ||| mit c = c2 /c1 , das Galerkin Verfahren ist also quasioptimal bezüglich ||| · |||. B EWEIS . Die Aussage erhält man durch folgende Rechnung, bei der s ∈ S beliebig gewählt ist, c1 ||| s − u∗ |||2

(∗)

≤ =

(∗∗)

≤

s − u∗ , s − u∗ s − u∗ , s − u∗

+

c2 ||| s − u∗ ||||||s − u∗ |||,

s−s s − u∗ ,

= 0

wobei man die Abschätzungen (∗) und (∗∗) jeweils unmittelbar aus den Bedingungen in (9.39) erhält. Eine Division durch ||| s − u∗ ||| liefert nun (im Fall ||| s − u∗ ||| = 0, andernfalls ist die Aussage sowieso trivial) die Quasioptimalität. Bemerkung 9.33 Typischerweise ist in Theorem 9.32 die Abbildung ||| · ||| eine Norm, und die erste der beiden Bedingungen in (9.39) wird dann als Koerzivität der Bilinearform [[·, ·]] bezüglich ||| · ||| bezeichnet. Die zweite Bedingung in (9.39) stellt eine Beschränktheitsbedingung an die Bilinearform [[·, ·]] dar.

9.3.4 Systemmatrix Zur konkreten Berechnung der Galerkin Approximation benötigt man noch eine Basis für den Raum S: Lemma 9.34 Es seien die in Voraussetzung 9.25 genannten Bedingungen erfüllt und das SyN stem s1 , . . . , sN ∈ S bilde eine Basis von S. Es ist das Element s = k=1 ck sk ∈ S mit den Koeffizienten c1 , . . . , cN ∈ R genau dann Galerkin Approximation, wenn die Koeffizienten c1 , . . . , cN ∈ R dem folgenden linearen Gleichungssystem genügen, ⎞⎛ ⎞ ⎞ ⎛ ⎛ , s ]] p p p [[sN , s1 ]] [[s c ϕ, s 1 1 1 1 ⎟⎜ ⎟ ⎟ ⎜ ⎜ ⎟⎜ ⎟ ⎟ ⎜ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ p p ⎟ p pp ⎟ ⎜ ⎟. ⎜ ⎜ ppp p p p (9.40) p p p ⎟⎜ p ⎟ = ⎜ ⎟ ⎜ ⎟⎜ ⎟ ⎟ ⎜ ⎜ ⎠⎝ ⎠ ⎠ ⎝ ⎝ [[s1 , sN ]] p p p [[sN , sN ]] cN ϕ, sN B EWEIS . Nach Definition (9.33) ist mit der gegebenen Basis von S ein Element s ∈ S genau dann Galerkin Approximation, wenn s ∈ S und [[s, sj ]] = ϕ, sj für j = 1, 2, . . . , N gilt. Mit dem Ansatz s = N k=1 ck sk ∈ S ist dies gleichbedeutend mit

Abschnitt 9.3

245

Galerkin– Verfahren N

[[sk , sj ]]ck

=

ϕ, sj ,

j = 1, 2, . . . , N.

k=1

Die Matrixversion hierzu ist identisch mit (9.40).

Bemerkung 9.35 (a) Die in (9.40) auftretende Matrix wird als Systemmatrix oder auch als Steifigkeitsmatrix bezeichnet und ist regulär aufgrund der Eindeutigkeit der Galerkin Approximation (siehe Teil (b) von Bemerkung 9.29). Daraus erhält man auch unmittelbar die Existenz der Galerkin Approximation. (b) Das Gleichungssystem (9.40) stellt lediglich eine “Halbdiskretsierung“ der gegebenen Operatorgleichung Lu = ϕ dar, denn sowohl die Einträge in der Systemmatrix als auch die Komponenten des Vektors auf der rechten Seite des Gleichungssystems sind in der Regel nicht exakt bekannt und müssen numerisch berechnet werden. Im Fall der beiden speziellen Bilinearformen aus Voraussetzung 9.25 kann dies beispielsweise mittels Quadraturformeln geschehen. Allgemein bezeichnet man solche Verfahren, bei denen die Einträge in der Systemmatrix beziehungsweise der rechten Seite des Gleichungssystems (9.40) durch exakt auswertbare Näherungsformeln approximiert werden, als volldiskrete Galerkin Verfahren.

9.3.5 Finite– Elemente– Methode In der Praxis ist der zugrunde liegende Raum V typischerweise ein Funktionenraum und man verwendet als Basis des zum Galerkin Verfahren gehörenden Raums S oft Funktionen s1 , . . . , sN ∈ S mit einem jeweils kleinen Träger, es gilt also sk = 0 außerhalb einer vom jeweiligen Index k abhängenden Menge und sk · sj = 0 für einen Großteil der Indizes. In diesem Fall wird das zugehöriges Galerkin Verfahren auch als Finite Elemente Methode bezeichnet.

Beispiel 9.36 Zu der Zerlegung ∆ = {a = x0 < x1 < . . . < xN = b} eines Intervalls [ a, b ] sei S der Raum der linearen Splines, S = S∆,1 . Eine Basis dieses ( N + 1 ) dimensionalen

Vektorraums erhält man durch Hutfunktionen (lineare B Splines), die folgendermaßen erklärt sind, ⎧ 1 ⎪ ( x − xj−1 ), falls x ∈ [ xj−1 , xj ], ⎪ ⎪ ⎨ hj−1 1 sj ( x ) = (x − x ), falls x ∈ [ xj , xj+1 ], hj j+1 ⎪ ⎪ ⎪ ⎩ 0 sonst

⎫ ⎪ ⎪ ⎪ ⎬ ⎪ ⎪ ⎪ ⎭

j = 0, 1, . . . , N, (9.41)

wobei hj = xj+1 − xj , j = 0, 1, . . . , N − 1 die Knotenabstände bezeichnet. In (9.41) sind in den Fällen “j = 0“ beziehungsweise “j = N “ die Situationen “x ∈ [ x−1 , x0 ]“ beziehungsweise “x ∈ [ xN , xN +1 ]“ ohne Relevanz. Die vorliegende Situation ist in Bild 9.1 veranschaulicht.

246

Kapitel 9 Randwertprobleme

1

0

...... ........ . .... ... ..

s0..

s1 s2

s3

s5

s4

. .. .. .. .... .......... ....... ....... ..... .. .... .... .... .............. ........ .... .... ... .. ... ...... .... ....... .... ... ....... ... ... .. ..... .. ....... .... ....... .... .... .... ... .... ... .... ....... .... ... ........ ... . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....... ... . .... ... .... ... ..... ................... ..... .... ..... ....... . ...... ...... ............. ... .. ... .. .... ...... .... ...... ....... ....... .... .. ... .. .... .... ... ....... ... ........ .... ... .... ... .... .... .... ....... ....... .... ... ... ........ ... ....... ... ...... .... . .... .... . . . . . . . . . ....... ... .. . .... ......... ... .... .... ... ....... ... ..... .......... ...... .... ..................................... ....

a = x0

x1 x2 x3

x5 = b

x4

x

Bild 9.1 Darstellung der Hutfunktionen an einem Beispiel Für das Referenzbeispiel (9.22) mit den homogenen Randbedingungen verwendet man sinnvollerweise Räume S mit in den Randpunkten a und b verschwindenden Funktionen, beispielsweise also den Raum der linearen Splines S∆,1 mit Nullrandbedingungen, S = {s ∈ S∆,1 : s( a ) = s( b ) = 0}. Eine Basis dieses ( N − 1 ) dimensionalen Vektorraums bilden die Hutfunktionen s1 , . . . , sN −1 . Beispiel 9.37 Mit der Notation xj = a + jh ∈ R für j = −3, −2, . . . , N + 3 mit h = ( b − a )/N sei S der Raum der kubischen Splines zur a¨ quidistanten Zerlegung ∆ = {a = x0 < x1 < . . . < xN = b} des Intervalls [ a, b ]. Eine Basis dieses ( N + 3 ) dimensionalen Vektorraums S = S∆,3 erhält man beispielsweise, indem man hilfsweise auf dem Intervall [ x−3 , xN +3 ] und = {x−3 < x−2 < . . . < xN +3 } die eindeutig bestimmten kubischen Splizur Zerlegung ∆ nefunktionen s−1 , s0 , . . . , sN , sN +1 ∈ S∆,3 urlichen Randbedingungen und den Funktib mit nat¨ onswerten sj ( xj ) = 2/3, sj ( xj±1 ) = 1/6 und sj ( x ) = 0 in den restlichen Knoten heranzieht. Bei diesen Funktionen handelt es sich um spezielle kubische B Splines, deren explizite Form beispielsweise in Oevel [75] angegeben ist. Durch Einschränkung der Definitionsbereiche dieser B Splines auf das Intervall [ a, b ] erhält man eine Familie von Funktionen, die eine Basis von S = S∆,3 darstellt. Die vorliegende Situation ist in Bild 9.2 veranschaulicht.

2/3

..... ........ ..

1/6 0 x−1

s0

s1

s2

s3

s4

s5

.......... ......... ..... ......... .................. .................. ..... ....... ........... ....... ........... ....... ...... ...... .... ..... .... .... .... .... ..... ... .... .... .... .... .... ... .... .... .... .... .... ... .... ...... ... ..... ... .... ... ..... ... ..... ... ... ... .. ... ... ... ... ...... ...... . . ..... . . . . . . . . ..... ...... ..... ..... ...... ... ... ... ... ... ..... ... ... ... ..... ... ..... ... ... ..... ... ... ..... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... . ... ... . . . . . . . . . . . ... ... ... . ... . . . ... ... ... ..... ... .... ... .... ... ... .... ... ... ... ... ... .. ... ... ........ .. . . . . . . . . . ...... . . . . .. ........ ....... ........ .... ......... . . . . . . . . . . . . .... . . . ..... . ...... ..... ..... .... ..... .......... ..... ..... . . ...... ..... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....... ....... . ....... ....... . ....... ...................... ...................... ...................... ...................... ....................... ........................ ................................................ ................................................. .................................................. .................................................. .........................

s−1

x0 = a

s6

x1

x2

x3

x4

x5 = b

...................

x

x6

Bild 9.2 Darstellung von kubischen B– Splines anhand eines Beispiels (N = 5) Ist bei Verwendung der Finite Elemente Methode der zugrunde liegende Operator L ein Differenzialoperator, so besitzt die zugehörige Systemmatrix bei richtiger Anordnung der Basiselemente typischerweise eine Bandstruktur, so dass sich das entsprechende Gleichungssystem (9.40) mit verhältnismäßig geringem Aufwand lösen lässt. Die Situation wird im nachfolgenden Abschnitt verdeutlicht.

Abschnitt 9.3

247

Galerkin– Verfahren

9.3.6 Anwendungen Im Folgenden wird nun wieder das spezielle Sturm Liouvillesche Randwertproblem aus Abschnitt 9.3.1 betrachtet: Es bezeichne L : C [ a, b ] ⊃ DL → C [ a, b ] den speziellen Differenzialoperator aus (9.22). Weiter bezeichnet ·, ·2 das L2 Skalarprodukt (siehe (9.23)), und [[·, ·]] : (9.42) C∆1 [ a, b ] × C∆1 [ a, b ] → R sei die Bilinearform (9.25). Die Gleichung Lu = ϕ besitze eine Lösung u∗ ∈ DL . Ausgehend von der in (9.42) beschriebenen Situation werden nun die Approximationseigenschaften des Galerkin Verfahrens bezüglich spezieller Ansatzräume S vorgestellt. Vorbereitend wird die folgende allgemeine Abschätzung festgehalten, die eine unmittelbare Konsequenz aus den bereits gewonnenen Resultaten ist. Korollar 9.38 Ausgehend von der in (9.42) beschriebenen Situation sei zu einem vorgegebenen Ansatzraum S ⊂ D = {u ∈ C∆1 [ a, b ] : u( a ) = u( b ) = 0} die zugehörige Galerkin Approximation mit s ∈ S bezeichnet. Hier gilt die folgende Fehlerabschätzung, || s − u∗ ||2

≤

κ min ||s − u∗ ||2 s∈S

(9.43)

mit κ = (1 + ||r ||∞ (b − a)2 )1/2 . B EWEIS . Die Aussage folgt unmittelbar aus den Theoremen 9.24, 9.30 und 9.31. Im Folgenden werden für S lineare beziehungsweise kubische Splineräume mit Nullrandbedingungen herangezogen. Für die Abschätzung der rechten Seite von (9.43) lassen sich in dieser Situation die bereits bekannten Schranken für den jeweils bei der Interpolation auftretenden Fehler verwenden. Korollar 9.39 Zu einer gegebenen Zerlegung ∆ = {a = x0 < x1 < . . . < xN = b} bezeichne S den Raum der linearen Splinefunktion mit Nullrandbedingungen, S = {s ∈ S∆,1 : s( a ) = s( b ) = 0}.

(9.44)

Mit den Notationen aus (9.42) gilt für die zugehörige Galerkin Approximation s ∈ S die folgende Abschätzung, || s − u∗ ||2

≤

chmax ||u∗ ||∞

mit einer Konstanten c ≥ 0, wobei u∗ ∈ C 2 [ a, b ] angenommen wird. B EWEIS . Dieses Resultat erhält man als unmittelbare Konsequenz aus Korollar 9.38 unter Berücksichtigung von Aufgabe 2.7. Bemerkung 9.40 In der Situation von Korollar 9.39 ist man auch an Abschätzungen für den Fehler s − u∗ interessiert, die aber mit den in diesem Abschnitt hergeleiteten Techniken nicht

248

Kapitel 9 Randwertprobleme

mit der optimalen Ordnung hergeleitet werden können. Mit einer etwas genaueren Wahl der zugrunde liegenden Räume und mit einer verfeinerten Technik (die als Dualitäts oder Aubin Nitsche Trick bezeichnet wird) lässt sich aber für das Galerkin Verfahren mit dem Ansatzraum aus (9.44) zur Lösung des Sturm Liouvilleschen Randwertproblems mit homogenen Randbedingungen (9.7) (9.8) die Abschätzung || s − u∗ ||2 = O(h2max ) nachweisen. In der vorliegenden Situation (9.42), (9.44) mit den Hutfunktionen s1 , . . . , sN −1 (siehe Beispiel 9.36) als Basis von S soll noch die zugehörige Systemmatrix betrachtet werden. Wegen sk sj = 0 für |k − j | ≥ 2 gilt auch [[sk , sj ]] = 0

für |k − j | ≥ 2,

so dass die zugehörige Systemmatrix eine Tridiagonalmatrix darstellt, deren Einträge folgendes Aussehen besitzen: [[sj , sj−1 ]] = [[sj−1 , sj ]] = − [[sj , sj ]] =

1 hj−1

1 hj−1

− +

1 h2j−1

Z x j xj−1

Z x j

1 h2j−1

xj−1

+

1 h2j

( x − xj−1 ) ( xj − x ) r ( x ) dx, 1 hj

( x − xj−1 )2 r ( x ) dx +

Z x j+1 xj

j = 2, 3, . . . , N − 1,

( xj+1 − x )2 r ( x ) dx,

j = 1, 2, . . . , N − 1,

mit hj = xj+1 − xj für j = 0, 1, . . . , N − 1. Beispiel 9.41 Für die spezielle Situation (9.22)– (9.25) werde zu der Zerlegung ∆ = {a = x0 < x1 < . . . < xN = b} der Raum S der kubischen Splines mit Nullrandbedingungen betrachtet, . S = s ∈ S∆,3 : s( a ) = s( b ) = 0 . Mit der Notation hj = xj+1 − xj für j = 0, 1, . . . , N − 1 sei die Uniformitätsbedingung max

j=0,...,N −1

hj ≤ K

min

j=0,...,N −1

hj

erfüllt mit einer Konstanten K ≥ 0 von moderater Größe. Dann gilt für die zugehörige Galerkin Approximation s ∈ S die folgende Abschätzung, || s − u∗ ||2

≤

ch3max ||u(∗4) ||∞

(hmax :=

max

j=0,...,N −1

hj ),

mit der Konstanten c = (1 + ||r ||∞ (b − a))1/2 2K, wobei u∗ ∈ C 4 [ a, b ] und u ( a ) = u ( b ) = 0 vorausgesetzt wird. Dieses Resultat ist eine unmittelbare Konsequenz aus Korollar 9.38 und Theorem 2.16, wobei man in (9.43) den die Funktion u∗ interpolierenden kubischen Spline s mit natürlichen Randbedingungen betrachtet. Bemerkung 9.42 Auch in der Situation von Beispiel 9.41 ist man an Abschätzungen für den Fehler s − u∗ interessiert. Unter leicht modifizierten Bedingungen lässt sich auch hier mit dem bereits angesprochenen Aubin Nitsche Trick die Abschätzung || s − u∗ ||2 = O(h4max ) nachweisen.

Abschnitt 9.3

249

Galerkin– Verfahren

9.3.7 Das Energiefunktional Als Ergänzung zu der in der Voraussetzung 9.25 beschriebenen allgemeinen Situation wird im Folgenden das Energiefunktional vorgestellt, mit dem sich einerseits die Lösung der Gleichung Lu = ϕ und andererseits die zugehörige Galerkin Approximation charakterisieren lassen. Definition 9.43 In der Situation von Voraussetzung 9.25 ist das zugehörige Energiefunktional J : D → R folgendermaßen erklärt, J (u)

=

1 [[u, u]] − u, ϕ 2

für u ∈ D.

Das folgende Theorem zeigt, dass sich der Wert des Energiefunktionals nur um eine Konstante von dem Fehler in der Energienorm unterscheidet. Theorem 9.44 Es seien die in Voraussetzung 9.25 genannten Bedingungen erfüllt mit einer symmetrischen Bilinearform [[·, ·]]. Dann gilt J (u)

=

1 [[u − u∗ , u − u∗ ]] − [[u∗ , u∗ ]] 2

für u ∈ D,

wobei wieder u∗ ∈ DL die Lösung der Gleichung Lu = ϕ bezeichnet. B EWEIS . Man erhält die Aussage des Theorems durch folgende Rechnung, 2J ( u ) = [[u, u]] − 2 u, ϕ = [ u, u]] − 2 u, Lu∗ = = [[u, u]] − 2[[u, u∗ ]] + [[u∗ , u∗ ]] − [[u∗ , u∗ ]] u ∈ D. = u − u∗ , u − u∗ − [[u∗ , u∗ ]],

[ u, u]] − 2[[u, u∗ ]]

Als unmittelbare Konsequenz der Theoreme 9.30 und 9.44 erhält man die folgende Minimaleigenschaft. Korollar 9.45 In der Situation von Theorem 9.44 gilt J ( u∗ ) = min J ( u ) u∈D

=

1 2

− [[u∗ , u∗ ]],

J ( s) = min J ( s ), s∈S

wobei s ∈ S die Galerkin Approximation zu einem gegebenem Ansatzraum S bezeichnet. Bemerkung 9.46 Die Ergebnisse in Theorem 9.44 und Korollar 9.45 behalten ihre Gültigkeit für den Fall, dass die Gleichung Lu = ϕ entgegen der Annahme 9.25 nicht in DL lösbar ist, jedoch eine verallgemeinerte Lösung u∗ ∈ D existiert. Demnach ist ein Element u ∈ D genau dann verallgemeinerte Lösung der Gleichung Lu = ϕ, wenn es das Energiefunktional minimiert.

250

Kapitel 9 Randwertprobleme

9.4 Einfachschießverfahren Eine weitere Möglichkeit zur Lösung von Randwertproblemen bei gewöhnlichen Differenzialgleichungen bietet das im Folgenden vorgestellte Einfachschießverfahren, das anhand des allgemeinen Randwertproblems u = f ( x, u, u ), u( a ) = α, u( b ) = β betrachtet wird6 . Im Folgenden wird ohne weitere Spezifikation an die Funktion f beziehungsweise an die Randbedingungen angenommen, dass für das vorliegende Randwertproblem eine eindeutig bestimmte Lösung u : [ a, b ] → R existiert. Ausgangspunkt des Einfachschießverfahrens ist die Betrachtung korrespondierender Anfangswertprobleme für die vorliegende gewöhnliche Differenzialgleichung 2. Ordnung, u = f ( x, u, u ), u( a ) = α,

x ∈ [ a, b ],

(9.45)

u ( a ) = s,

(9.46)

deren Lösung für jede Zahl s ∈ R existiere und mit u( ·, s ) : [ a, b ] → R

(9.47)

bezeichnet wird. Dabei ist s = s∗ ∈ R so zu bestimmen, dass u( b, s∗ ) = β gilt und damit die Funktion u( ·, s∗ ) : [ a, b ] → R die Lösung des vorgegebenen Randwertproblems u = f ( x, u, u ), u( a ) = α, u( b ) = β darstellt, also u( ·, s∗ ) = u( · ) auf dem Intervall [ a, b ] erfüllt ist. Diese Bestimmung von s∗ erfolgt typischerweise iterativ, was die Bezeichnung Einfachschießverfahren begründet und in Bild 9.3 veranschaulicht ist. u ..... ......... ...

α β

u( ·, 1 )

............................ ...... ..... .... ..... ...................................... ... ................. ... ... ........... .......................... ... . . .......... . . ... ............. ........ . ............... . . ... ... ... . .. . ....... . ...... ....... ..................... .. .. . .. . ...... .. .. . .... ...... .. .......... .... . . . . ...... .. ... .... ...... .. ... ..... .. ... . . . .. ..... ... ..... . ... ..... .. ..... .. ..... .. .... .. .... .. . . .. .. ........ .. . .. . .. .. .

u( ·, 0.5 )

u( ·, s∗ ) = u(·) ............................................

a

x

b

Bild 9.3 Veranschaulichung der Situation beim Einfachschießverfahren Die nach dem vorliegenden Ansatz entstandene Problemstellung ist a¨ quivalent zu einer Bestimmung der (eindeutig bestimmten) Nullstelle s∗ ∈ R der nichtlinearen Funktion F ( s ) := u( b, s ) − β,

s ∈ R.

(9.48)

Zur näherungsweisen Lösung dieses Nullstellenproblems lassen sich die in Kapitel 5 vorgestellten Iterationsverfahren einsetzen, von denen im Folgenden zwei Verfahren genauer betrachtet werden. 6

vergleiche (9.1) – (9.2) auf Seite 226

Abschnitt 9.4

251

Einfachschießverfahren

9.4.1 Numerische Realisierung des Einfachschießverfahrens mit dem Newton-Verfahren Eine Möglichkeit zur numerischen Realisierung des Einfachschießverfahrens besteht in der Anwendung des Newton Verfahrens, sn+1 = sn −

F ( sn ) , F ( sn )

n = 0, 1, . . . .

(9.49)

Dabei sind in jedem Schritt des Newton Verfahrens (9.49) zum einen eine Auswertung der Funktion F und damit das Lösen eines Anfangswertproblems der Form (9.45) (9.46) erforderlich, was wiederum numerisch mit einem der in den Kapiteln 7 und 8 vorgestellten Ein beziehungsweise Mehrschrittverfahren geschieht. Des Weiteren fällt in jedem Schritt des Newton Verfahrens (9.49) eine Auswertung der Ableitung ∂u

F ( s ) = ∂s ( b, s ), s ∈ R, an. An jeder Stelle s erhält man eine solche Ableitung F ( s ) als die Lösung eines Anfangswertproblems für eine (von s abhängende) gewöhnliche Differenzialgleichung 2. Ordnung: Lemma 9.47 Bei hinreichend guten Differenzierbarkeitseigenschaften der beteiligten Funktionen stellt für jeden Wert s ∈ R die Funktion ∂u

v := ∂s ( ·, s ) : [ a, b ] → R die Lösung eines Anfangswertproblems für eine spezielle lineare gewöhnliche Differenzialgleichung 2. Ordnung dar, v ( x ) = g1 ( x, s ) v ( x ) + g2 ( x, s ) v ( x ), v ( a ) = 0,

x ∈ [ a, b ], v ( a ) = 1.

(9.50)

Die spezielle Form der Funktionen g1 ( ·, s ), g2 ( ·, s ) : [ a, b ] → R ist im Beweis angegeben. B EWEIS . Die Aussage erhält man unter Anwendung der Kettenregel, ∂3 u d ∂u ( x, s ) = f x, u( x, s ), ∂x ( x, s ) ds ∂s∂x2 ∂f ∂u ∂f ∂u = x, u( x, s ), ( x, s ) v ( x ) + x, u( x, s ), ( x, s ) v ( x ), x ∈ [ a, b ], ∂u ∂x ∂x ∂u

=: g1 ( x, s ) =: g2 ( x, s )

v ( x ) =

beziehungsweise u( a, · ) ≡ α

;

v ( a ) = 0,

∂u ( a, s ) = s ∂x

;

v ( a ) = 1.

Zu beachten ist noch, dass die im Anschluss von (9.49) beschriebene Anwendung spezieller Ein oder Mehrschrittverfahren zur numerischen Berechnung von F ( s ) gleichzeitig Approximationen für die Funktionen u( ·, s ) und ∂∂xu ( ·, s ) auf einem Gitter a = x0 < x1 < . . .
0. In Aufgabe 9.13 sind Bedingungen angegeben, die eine Kontraktionseigenschaft und damit Konvergenz der Fixpunktiteration (9.51) gewährleisten.

Weitere Themen und Literaturhinweise Die Theorie der Randwertprobleme für gewöhnliche Differenzialgleichungssysteme wird beispielsweise in Heuser [51] und in Dallmann/Elster [14] einführend behandelt. Dort findet man auch zahlreiche Beispiele für spezielle Randwertprobleme. Eine Auswahl existierender Lehrbücher mit Abschnitten u¨ ber die numerische Lösung von Randwertproblemen bildet Golub/Ortega [34], Kress [60], Schwarz/Klöckner [90], Stoer/Bulirsch [96] und Weller [106]. Ausführliche Erläuterungen u¨ ber die Finite Elemente Methode in mehreren Raumdimensionen zur Lösung von Randwertproblemen für partielle Differenzialgleichungen findet man beispielsweise in Braess [6], Goering / Roos /Tobiska [30], Großmann/Roos [40], Hanke-Bourgeois [49], Knabner/Angermann [58], Jung/Langer [56] und in Schwetlick/Kretzschmar [92]. Den Aubin Nitsche Trick zur Herleitung von Fehlerabschätzungen für das Galerkin Verfahren findet man in [6] oder Finckenstein [24], Band 2. Die Theorie der nichtnegativen Matrizen wird beispielsweise in Berman/Plemmons [3] und in Horn/Johnson [55] behandelt. Einfachschießverfahren lassen sich problemlos auf allgemeinere Randwertprobleme (etwa mit nichtlinearen Randbedingungen) u¨ bertragen. Gelegentlich stellen sich bei Einfachschießverfahren jedoch Instabilitäten gegenüber Datenstörungen ein (dieser Effekt wird in Aufgabe 9.14 anhand eines Randwertproblems für eine einfache lineare Differenzialgleichung 2. Ordnung demonstriert), weswegen in der Praxis auch Mehrfachschießverfahren eingesetzt werden, die hier jedoch nicht weiter behandelt werden. Eine Einführung hierzu findet man etwa [96], wo auch ein Vergleich der einzelnen zur Lösung von Randwertproblemen bei gewöhnlichen Differenzialgleichungen verwendeten Verfahren angestellt wird.

¨ Ubungsaufgaben

253

¨ Ubungsaufgaben Aufgabe 9.1 Im Folgenden wird das Randwertproblem u ( x ) + p( x )u ( x ) + r ( x )u( x ) = ϕ( x ), u( a ) = α,

x ∈ [ a, b ],

u( b ) = β,

betrachtet mit Zahlen α, β ∈ R und Funktionen p, r, ϕ ∈ C [ a, b ] mit r ( x ) ≤ 0 für x ∈ [ a, b ]. Approximation der Ableitungen u und u durch zentrale Differenzenquotienten erster beziehungsweise zweiter Ordnung auf einem a¨ quidistanten Gitter xj = a + j ( b − a )/N für j = 1, 2, . . . , N − 1 führt mit einer gewissen Matrix A ∈ R (N −1 )×( N −1) und einem gewissen Vektor b ∈ R N −1 auf ein lineares Gleichungssystem Av = b für v = (v1 , v2 , . . . , vN −1 ) ∈ R N −1 , mit den Näherungen vj ≈ u( xj ). Man gebe A und b an und zeige, dass das Gleichungssystem für hinreichend kleine Werte von h eindeutig lösbar ist. Aufgabe 9.2 Für eine Matrix A ∈ R N×N sei eine reguläre Zerlegung gegeben, also eine Zerlegung der Form A = B − P,

B, P ∈ R N×N ,

B regulär,

B −1 ≥ 0,

P ≥ 0.

¨ Dann gilt die folgende Aquivalenz: A regulär,

A−1 ≥ 0

⇐⇒

I − B −1 P regulär,

(I − B −1 P )−1 ≥ 0.

Ist eine dieser beiden Bedingungen erfüllt, so gilt rσ (B −1 P ) < 1. Aufgabe 9.3 Eine Matrix A ∈ R N×N sei regulär mit einer nichtnegativen Inversen, A−1 ≥ 0. Man zeige: für jede reguläre Zerlegung A = B − P der Matrix A gilt rσ ( B −1 P ) =

rσ ( A−1 P ) . 1 + rσ ( A−1 P )

Aufgabe 9.4 Gegeben sei eine reguläre Matrix A ∈ R N×N mit A−1 ≥ 0 und zwei regulären Zerlegungen A = B1 − P1 = B2 − P2 , wobei P1 ≤ P2 gelte. Man weise die Ungleichungen rσ ( B1−1 P1 ) ≤ rσ ( B2−1 P2 ) < 1 nach. Aufgabe 9.5 Für eine Funktion ϕ ∈ C [ 0, 1 ] betrachte man das Randwertproblem u = ϕ( x ),

u( 0 ) = u( 1 ) = 0.

(a) Man zeige, dass sich die Lösung von (9.52) in der Form u( x ) =

Z 1 0

G(x, ξ )ϕ( ξ ) dξ,

x ∈ [ 0, 1 ],

schreiben lässt mit der Greenschen Funktion 1 G( x, ξ ) =

ξ ( x − 1 ),

falls ξ ≤ x,

x(ξ − 1),

sonst.

(9.52)

254

Kapitel 9 Randwertprobleme .

(b) Die Funktionen u beziehungsweise u + .............. u seien Lösungen des Randwertproblems (9.52) beziehungsweise der fehlerbehafteten Version (u + .............. u) = ϕ + .............. ϕ .

.

.

.

.

(u + ............... u)( 0 ) = (u + .............. u)( 1 ) = 0,

auf [ 0, 1 ],

.

.

mit ............... ϕ ∈ C [ 0, 1 ], |.............. ϕ( x ) | ≤ ε für x ∈ [ 0, 1 ]. Man zeige |............... u( x ) | ≤ εx(1 − x)/2 für x ∈ [ 0, 1 ]. (c) Das Differenzenverfahren mit zentralen Differenzenquotienten zweiter Ordnung liefert als Lösung eines lineares Gleichungssystems A0 v = b Näherungswerte vj für u( xj ) mit xj = j/N, j = 1, 2, . . . , N − 1. Für die fehlerbehaftete Variante .

.

A0 ( v + .............. v ) = b + .............. b

mit

.... ..........

b ∈ R N −1 ,

.

||............. b||∞ ≤ ε

weise man Folgendes nach, .

|.............. vj | ≤

ε xj (1 − xj ) 2

für j = 1, 2, . . . , N − 1.

Aufgabe 9.6 Die lineare Abbildung ∆ : R N +1 → R N −1 sei definiert durch (∆v )j := bj vj−1 − aj vj + cj vj+1 ,

j = 1, 2, . . . , N − 1,

mit Koeffizienten bj > 0, cj > 0 und aj ≥ bj + cj für j = 1, 2, . . . , N − 1. (a) Man beweise das folgende diskrete Maximumprinzip: Wenn für den Vektor v = (v0 , . . . , vN ) ∈ R N +1 mit ∆v ≥ 0 die folgende Bedingung erfüllt ist, vj∗ = max vj j=0,...,N

für ein 1 ≤ j∗ ≤ N − 1,

so gilt v0 = v1 = . . . = vN . (b) Man beweise die inverse Monotonie der Abbildung −∆: Wenn für Zahlen uj und vj ∈ R (j = 0, . . . , N ) die Bedingungen −∆u ≤ −∆v,

u0 ≤ v0 ,

uN ≤ vN ,

erfüllt sind, so gilt u ≤ v. Aufgabe 9.7 Gegeben sei eine Zerlegung ∆ = {a = x0 < x1 < . . . < xN = b} des Intervalls [ a, b ], und hmax = maxj=0,...,N −1 {xj+1 − xj } bezeichne den maximalen Knotenabstand. Man zeige: für jede Funktion f ∈ C∆1 [ a, b ] mit f ( x0 ) = f ( x1 ) = . . . = f ( xN ) = 0 gilt die Abschätzung ||f ||2 ≤

hmax ||f ||2 .

Aufgabe 9.8 Gegeben sei der Differenzialoperator L : C [ a, b ] ⊃ DL → C [ a, b ], u → −(pu ) + ru, DL = u ∈ C 2 [ a, b ] : u( a ) = αu( b ) + u ( b ) = 0 , mit p ∈ C 1 [ a, b ], r ∈ C [ a, b ], p( x ) ≥ p0 > 0, r ( x ) ≥ 0 für x ∈ [ a, b ] und mit α ≥ 0. Die Bilinearform [[·, ·]] auf C∆1 [ a, b ] sei durch [[u, v ]] =

Z b a

[pu v + ruv ] dx + α(puv )( b ),

u, v ∈ C∆1 [ a, b ],

definiert, und ·, ·2 sei das L2 Skalarprodukt auf C [ a, b ]. Man zeige Folgendes: (a) Die Bilinearform [[·, ·]] stellt eine Fortsetzung der Abbildung L·, ·2 dar, und bezüglich des Skalarprodukts ·, ·2 ist die Abbildung L symmetrisch.

¨ Ubungsaufgaben

255

(b) Man zeige c1 ||u||2∞ ≤ [[u, u ]] ≤ c2 ||u ||2∞ für u ∈ C∆1 [ a, b ] mit u( a ) = 0, mit geeigneten Konstanten c1 und c2 . Aufgabe 9.9 Gegeben sei der folgende Differenzialoperator vierter Ordnung, L : C [ a, b ] ⊃ DL → C [ a, b ], u → (pu ) + ru, DL = u ∈ C 4 [ a, b ] : u( a ) = u ( a ) = u ( b ) = u ( b ) = 0 , mit p ∈ C 2 [ a, b ], r ∈ C [ a, b ], p( x ) ≥ p0 > 0, r ( x ) ≥ 0 für x ∈ [ a, b ], und ·, ·2 sei das L2 Skalarprodukt auf C [ a, b ]. (a) Man zeige, dass die Abbildung L symmetrisch und positiv definit bezüglich ·, ·2 ist. (b) Auf dem Raum C∆2 [ a, b ] = {u ∈ C 1 [ a, b ] → R : u stückweise stetig differenzierbar } bestimme man eine Bilinearform [[·, ·]], die eine Fortsetzung der Abbildung L·, ·2 darstellt und für die Abschätzungen von der Form c1 ||u||2∞ ≤ [[u, u ]] ≤ c2 ||u ||2∞ gelten für u ∈ C∆2 [ a, b ] mit u( a ) = u ( a ) = 0. Aufgabe 9.10 Man zeige: Für eine positiv definite Bilinearform [[·, ·]] : D × D → R auf einem reellen Vektorraum D gilt die verallgemeinerte Cauchy Schwarzsche Ungleichung, |[[u, v ]] + [[v , u]]|

≤

2[[u, u ]]1/2 [[v , v ]]1/2

für u, v ∈ D.

Daraus leite man die Dreiecksungleichung für die zugehörige Norm D u → [[u, u ]]1/2 her. Aufgabe 9.11 (Fehlerquadratmethode ) Es seien V und W reelle Vektorräume, die Abbildung L : V → W sei injektiv und linear, und ·, · sei ein Skalarprodukt auf W mit der zugehörigen Norm || · ||. ¨ Außerdem seien u∗ ∈ V und ϕ ∈ W. Man weise die Aquivalenz der folgenden drei Aussagen nach: (i) u∗ löst die Minimierungsaufgabe ||Lu − ϕ|| → min für u ∈ V. (ii) Es gilt Lu∗ , Lv = ϕ, Lv für jedes v ∈ V. (iii) Es gilt Lu∗ − ϕ ∈ R( L )⊥ , dem orthogonalen Komplement des Bildraums von L bezüglich ·, ·. Ist weiter der Vektorraum V endlich dimensional mit Basis v1 , . . . , vN und gilt u∗ = N k=1 ck vk mit gewissen Koeffizienten c1 , . . . , cN , so ist jede der Eigenschaften (i), (ii) und (iii) a¨ quivalent zu der Eigenschaft Ac = b mit den Notationen A = ( Lvj , Lvk )N j,k=1 ,

b = ( ϕ, Lvj )N j=1 ,

c = (c1 , . . . , cN ).

Aufgabe 9.12 Gegeben sei das Randwertproblem Lu = −u + xu = −x3 + x2 + 2,

x ∈ [ 0, 1 ],

u(0) = u(1) = 0.

Wie lautet das Ritzsche Gleichungssystem, wenn als Ansatzfunktionen trigonometrische Polynome von √ der Form vk ( x ) = 2 sin kπx, k = 1, 2, . . . , N verwendet werden? Aufgabe 9.13 Man betrachte das Randwertproblem u = f ( x, u, u ), u( a ) = α, u( b ) = β mit einer stetig partiell differenzierbaren Funktion f : [ a, b ] × R 2 → R, die die folgenden Bedingungen erfülle, ∂f ∂f 0 < (x, v1 , v2 ) ≤ K, (x, v1 , v2 ) ∈ [ a, b ] × R 2 , (x, v1 , v2 ) ≤ L, ∂u ∂u

mit gewissen Konstanten K, L ≥ 0. Sei u( ·, s ) Lösung des zugehörigen Anfangswertproblems (9.45) (9.46).

256

Kapitel 9 Randwertprobleme

(a) Für die Ableitung der zum Einfachschießverfahren korrespondierenden Funktion F ( s ) = u( b, s )−β weise man die Ungleichungen 0 < κ1 ≤ F ( s ) ≤ κ2 für s ∈ R nach, mit den Konstanten κ1 := κ2 :=

1 1 − exp(−L(b − a)) , L b−a 2exp(L b−a 2 ) , sinh C C 2

6 mit C := L

1+

4K . L2

(b) Man weise nach, dass das Iterationsverfahren s(n+1) = Φ(s(n) ) := s(n) − γF (s( n) )

für n = 0, 1, . . .,

(0)

für jeden Startwert s und jeden Wert 0 < γ < 2/κ2 gegen die (einzige) Nullstelle s∗ der Funktion F konvergiert. Für γ = 2/(κ1 + κ2 ) weise man die folgende a priori Fehlerabschätzung nach: κ − κ n |F (s( 0) )| 2 1 , n = 0, 1, . . . . |s( n) − s∗ | ≤ κ2 + κ1 κ1 Aufgabe 9.14 Zur Lösung des Randwertproblems u = 100u

u( 0 ) = 1,

auf [ 0, 3 ],

u( 3 ) = e−30 ,

betrachte man die Lösung u( ·, s ) des Anfangswertproblems u = 100u, u( 0 ) = 1, u ( 0 ) = s. Man berechne u( 3, sε ) für sε = s∗ ( 1 + ε ), wobei s∗ die Lösung der Gleichung u( 3, s∗ ) = e−30 bezeichnet und ε > 0 beliebig ist. Ist in diesem Fall das Einfachschießverfahren eine geeignete Methode zur Lösung des vorliegenden Randwertproblems? Aufgabe 9.15 (Numerische Aufgabe) Man löse numerisch das Randwertproblem u ( x ) + 6x( 1 − x )u ( x ) + u( x )2

=

x4 + 10x3 − 17x2 + 6x − 2,

x ∈ [ 0, 1 ],

u( 0 ) = u( 1 ) = 0, mit dem Einfachschießverfahren. Zur Nullstellensuche verwende man das Newton Verfahren einmal mit Startwert s(0) = 1 und einmal mit s(0) = 20. Die jeweiligen Anfangswertprobleme löse man numerisch mit dem expliziten Eulerverfahren mit Schrittweite h = 1/30. Man gebe die Näherungen vj zu den Gitterpunkten xj = jh, j = 0, 1, . . . , 30, tabellarisch an.

257

10 Gesamtschritt-, Einzelschritt- und Relaxationsverfahren zur Lösung linearer Gleichungssysteme 10.1 Iterationsverfahren zur Lösung linearer Gleichungssysteme Zur Lösung linearer Gleichungssysteme Ax = b

A ∈ R N×N regulär,

b ∈ RN

(10.1)

mit der eindeutigen Lösung x∗ = A−1 b ∈ R N werden in den beiden folgenden Kapiteln 10 und 11 einige spezielle Iterationsverfahren vorgestellt. Dabei hat man sich unter einem Iterationsverfahren ganz allgemein ein Verfahren vorzustellen, bei dem – ausgehend von einem beliebigen Startvektor x(0) ∈ R N – sukzessive Vektoren x( 1) , x( 2) , . . . ∈ R N berechnet werden gemäß der zum jeweiligen Verfahren gehörenden Iterationsvorschrift.

10.1.1 Hintergrund zum Einsatz iterativer Verfahren bei linearen Gleichungssystemen Iterative Verfahren werden unter anderem zur schnellen approximativen Lösung linearer Gleichungssysteme (10.1) eingesetzt. Im Vergleich dazu benötigen die in Kapitel 4 vorgestellten direkten Verfahren zur Lösung eines Gleichungssystems von der Form (10.1) im Allgemeinen1 cN 3 + O( N 2 ) arithmetische Operationen mit einer gewissen Konstanten c > 0. Demgegenüber setzt sich bei jedem der vorzustellenden Iterationsverfahren ein einzelner Iterationsschritt typischerweise wie folgt zusammen: •

es treten ein oder zwei Matrix Vektor Multiplikationen auf, die mit jeweils N 2 Multiplikationen zu Buche schlagen,

•

zudem sind mehrere kleine Operationen notwendig wie etwa die Berechnung von Skalarprodukten oder Summen von Vektoren, bei denen insgesamt O( N ) arithmetische Operationen anfallen.

Insgesamt erfordert die Durchführung eines Iterationsschrittes also O( N 2 ) arithmetische Operationen. Liefert nun das Iterationsverfahren nach einer vertretbaren Anzahl von n N Iterationsschritten hinreichend gute Approximationen x( n) ≈ x∗ , so beträgt der Gesamtaufwand insgesamt also deutlich weniger als die oben genannten cN 3 + O( N 2 ) arithmetischen Operationen. 1

das heißt, bei voll besetzter Matrix A ohne spezielle Struktur

258

Kapitel 10

Gesamtschritt-, Einzelschritt- und Relaxationsverfahren

Weitere zu beachtende Aspekte im Zusammenhang mit dem Einsatz iterativer Verfahren sind in der nachfolgenden Bemerkung aufgeführt. Bemerkung 10.1 (a) Bereits bei der numerischen Lösung nichtlinearer Gleichungssysteme in Kapitel 5 sind einige Iterationsverfahren vorgestellt worden, dort vor dem Hintergrund fehlender direkter Methoden. Natürlich lassen sich einige der dort vorgestellten Resultate – so zum Beispiel der Banachsche Fixpunktsatz (Theorem 5.7) – zur approximativen Lösung linearer Gleichungssysteme verwenden. In den beiden folgenden Kapiteln 10 11 wird sich jedoch Folgendes herausstellen: •

•

Für gewisse Fixpunktiterationen lassen sich auch bei fehlender Kontraktionseigenschaft noch Konvergenzresultate nachweisen, und dies größtenteils bei beliebiger Wahl des Startwerts x( 0) ∈ R N . Für Gleichungssysteme Ax = b mit speziellen Eigenschaften – etwa Monotonie oder Symmetrie von A – lassen sich besonders effiziente Methoden einsetzen.

(b) In den Anwendungen treten häufig Fragestellungen auf, deren Modellierung und anschließende Diskretisierung auf große lineare Gleichungssysteme Ax = b mit schwach besetzten (ein Großteil der N 2 Einträge ist also identisch null) Matrizen A ∈ R N×N führen. Ein Modellbeispiel hierzu ist in Abschnitt 10.2.1 angegeben. Die bereits getroffenen Aussagen u¨ ber direkte und iterative Löser lassen sich mit entsprechenden Modifikationen bezüglich des Aufwands u¨ bertragen.

10.2 Lineare Fixpunktiteration Eine Klasse von Iterationsverfahren zur approximativen Bestimmung der Lösung x∗ der Gleichung (10.1) gewinnt man durch Umformulierung von Ax = b in eine Fixpunktgleichung der Form x = Hx + z,

(10.2)

mit einer geeigneten zunächst nicht näher spezifizierten Iterationsmatrix H ∈ R N×N sowie einem geeigneten Vektor z ∈ R N . Es sei nur angenommen, dass die Lösung x∗ ∈ R N der Gleichung (10.1) zugleich einziger Fixpunkt von (10.2) ist. Die zur Fixpunktgleichung (10.2) gehörende lineare Fixpunktiteration lautet dann x(n+1) = Hx( n) + z,

n = 0, 1, . . .,

(10.3)

wobei x( 0) ∈ R N ein frei wählbarer Startvektor ist. Im Folgenden werden für lineare Fixpunktiterationen der Form (10.3) Resultate für (globale) Konvergenz im Sinne der folgenden Definition geliefert. Definition 10.2 Das Verfahren (10.3) zur Bestimmung von x∗ ∈ R N heißt konvergent, wenn für jeden Startwert x(0) ∈ R N Folgendes gilt, ||x( n) − x∗ || → 0

für n → ∞.

(10.4)

Abschnitt 10.2

259

Lineare Fixpunktiteration

Hier bezeichnet || · || : R N → R eine nicht näher spezifizierte Vektornorm. Ein nicht konvergentes Verfahren (10.3) nennt man divergent. Theorem 10.3 Das stationäre Iterationsverfahren (10.3) ist konvergent genau dann, wenn die Ungleichung rσ ( H ) < 1 erfüllt ist. B EWEIS . Nach Voraussetzung gilt x∗ = Hx∗ + z, und somit gelten die Fehlerdarstellungen x( n+1) − x∗ = H ( x( n) − x∗ ) beziehungsweise x( n) − x∗

=

H n ( x( 0) − x∗ ),

n = 0, 1, . . . .

(10.5)

Konvergenz ist demnach gleichbedeutend mit H n → 0 für n → ∞. Dies wiederum ist nach Theorem 9.13 a¨ quivalent zur Eigenschaft rσ ( H ) < 1. Bemerkung 10.4 Ebenfalls nach Theorem 9.13 ist das stationäre Iterationsverfahren (10.3) konvergent genau dann, wenn eine Vektornorm || · || : R N → R existiert, so dass für die zugehörige Matrixnorm die Ungleichung ||H || < 1 erfüllt ist. Für spezielle Matrizen A und spezielle Verfahren (10.3) ist es jedoch häufig so, dass dieses Kriterium für gängige und leicht zu berechnende Normen nicht erfüllt ist, obwohl die (oft auch nachweisbare) Ungleichung rσ ( H ) < 1 erfüllt ist und somit Konvergenz vorliegt. Die Konvergenz der linearen Fixpunktiteration (10.3) ist umso besser, je kleiner der Spektralradius rσ ( H ) ausfällt: Theorem 10.5 Zu einer beliebigen Matrix H ∈ R N×N und jeder Zahl ε > 0 existiert eine Vektornorm || · || : R N → R, mit der für das stationäre Iterationsverfahren (10.3) die folgende Abschätzung gilt, (n) x − x∗ ≤ (rσ ( H ) + ε)n x( 0) − x∗ , n = 0, 1, . . . .

B EWEIS . Die Aussage ist eine unmittelbare Konsequenz aus der Darstellung (10.5) und dem folgenden Lemma. Lemma 10.6 Zu jeder Matrix H ∈ R N×N und jeder Zahl ε > 0 existiert eine Vektornorm || · || : R N → R, so dass für die zugehörige Matrixnorm die folgende Ungleichung gilt: ||H || ≤ rσ ( H ) + ε.

B EWEIS . Mit der Notation a := 1/(rσ ( H ) + ε) erhält man rσ ( aH ) = arσ ( H ) < 1, und Theorem 9.13 liefert dann die Existenz einer Vektornorm || · || : R N → R, so dass für die zugehörige Matrixnorm die Ungleichung ||aH || < 1 erfüllt ist. Daraus erhält man unmittelbar die Aussage des Lemmas. Als unmittelbare Konsequenz aus Lemma 10.6 erhält man Folgendes:

260

Kapitel 10

Gesamtschritt-, Einzelschritt- und Relaxationsverfahren

Korollar 10.7 Für jede Matrix H ∈ R N×N gilt rσ ( H ) = inf ||H || : die Matrixnorm ist durch eine reelle Vektornorm induziert . (10.6) In Aufgabe 10.1 wird ein Kriterium dafür angegeben, wann in (10.6) das Minimum angenommen wird.

10.2.1 Ein Modellbeispiel Problemstellung Im Folgenden wird ein Beispiel vorgestellt, bei dem die noch vorzustellenden iterativen Verfahren sinnvoll angewendet werden können2 . Es handelt sich hierbei um ein Dirichletsches Randwertproblem für die Poisson Gleichung,

−

∂2 u ∂2 u 2 − ∂x ∂y 2

= f

u = 0

auf Ω := ( 0, 1 )2 ,

(10.7)

auf Γ := Rand von [ 0, 1 ]2 ,

(10.8)

wobei f : [ 0, 1 ]2 → R eine gegebene stetige Funktion ist, und die Funktion u : [ 0, 1 ]2 → R ist zu bestimmen. Im Folgenden wird vorausgesetzt, dass das Randwertproblem (10.7) (10.8) eine eindeutig bestimmte stetige und im Inneren von [ 0, 1 ]2 zweimal stetig differenzierbare Lösung u : [ 0, 1 ]2 → R besitzt.3 Der Ansatz fur ¨ Differenzenverfahren Zur numerischen Lösung des Randwertproblems (10.7) (10.8) mittels Differenzenverfahren wird das zugrunde liegende Intervall [ 0, 1 ]2 mit Gitterpunkten versehen, die hier a¨ quidistant gewählt seien, xj = jh,

yk = kh,

j, k = 0, 1, . . . , M

(h =

1 M

).

(10.9)

Die inneren Gitterpunkte sind in Bild 10.1 dargestellt. Bezüglich dieses Gitters (10.9) wird das Randwertproblem (10.7) (10.8) in zweierlei Hinsicht diskretisiert: die Poisson Gleichung (10.7) wird nur an den inneren Gitterpunkten ( xj , yk ), 1 ≤ j, k ≤ M − 1 betrachtet, und die partiellen Ableitungen werden dort jeweils durch zentrale Differenzenquotienten 2. Ordnung approximiert, ⎫ −u( xj−1 , yk ) + 2u( xj , yk ) − u( xj+1 , yk ) ∂2 u ⎪ ( h2 ), ⎪ + O − 2 ( xj , yk ) = ⎪ ⎪ ∂x h2 ⎪ ⎬ 2 −u( xj , yk−1 ) + 2u( xj , yk ) − u( xj , yk+1 ) ∂ u ( h2 ), ⎪ (10.10) − 2 ( xj , yk ) = + O ⎪ ∂y h2 ⎪ ⎪ ⎪ j, k = 1, 2, . . . , M − 1, ⎭ 2 3

vergleiche Bemerkung 10.1 Unter zusätzlichen Voraussetzungen an f ist diese Annahme erfüllt ( Hackbusch [43], Kapitel 3 ).

Abschnitt 10.2

261

Lineare Fixpunktiteration

1 (M − 1)h (M − 2)h .. . .. . 2h h 0

.................................................................................................................................................................................... ... .... ... ... ... ... ... ... .... ... .... .... .... .... .... .... .... .... .... ... ... ... .. .... .... .... .. ... ... ... .... .

0 h 2h

... ...

(M − 1)h

Bild 10.1 Darstellung des gegebenen Gitters

wobei hier u ∈ C 4 ([ 0, 1 ]2 ) angenommen wird. Vernachlässigung des Restglieds in (10.10) führt auf das folgende gekoppelte System von N = ( M − 1 )2 linearen Gleichungen,

−Uj−1,k − Uj,k−1 + 4Uj,k − Uj,k+1 − Uj+1,k h2

=

j, k = 1, . . . , M − 1, (10.11)

fj,k ,

für die Approximationen

≈

Uj,k

j, k = 1, 2, . . . , M − 1,

u( xj , yk ),

wobei in (10.11) noch

Uj,0

= fj,k

U0,k =

=

0,

f ( xj , yk ),

j, k = 1, 2, . . . , M − 1, ......

gesetzt ist. Zu jedem Gitterpunkt ( xj , yk ) korrespondiert in natürlicher Weise sowohl die Unbekannte Uj,k als auch eine Gleichung aus (10.11). Ordnet man in Bild 10.1 diese Gitterpunkte beziehungsweise die entsprechenden Unbekannten und Gleichungen zeilenweise (von links nach rechts) und dann aufwärts an, so erhält man die folgende Matrixdarstellung für die Gleichungen (10.11),

262 ⎛

Kapitel 10

⎞⎛

−1

4 −1

⎜ ⎜ −1 ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ −1 ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ 1 ⎜ ⎜ ⎜ h2 ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

pp

p

pp

p

pp

p

pp

p −1

pp

p pp

p

−1 4

−1 pp

4 −1 pp

Gesamtschritt-, Einzelschritt- und Relaxationsverfahren

−1

p pp

pp pp

p

p

p

pp

p −1

−1

p pp

p

pp

p pp

p pp

−1 4 pp

pp

p pp

−1

p pp

p pp

pp

p pp

p pp

p

pp

p pp

p

p

p

−1

4 −1 pp

p p −1 p p p p

p pp

=:A

p

pp

p

−1

p

pp

p

U1,1

⎟⎜ pp ⎟⎜ p ⎟⎜ ⎟⎜ pp ⎟⎜ p ⎟⎜ ⎟⎜ ⎟⎜ ⎟ ⎜ UM −1,1 ⎟⎜ ⎟⎜ ⎟ ⎜ U1,2 ⎟⎜ ⎟⎜ pp ⎟⎜ p ⎟⎜ ⎟⎜ ppp ⎟⎜ ⎟⎜ ⎟⎜ ⎟ ⎜ UM −1,2 ⎟⎜ ⎟⎜ pp ⎟⎜ p ⎟⎜ ⎟⎜ pp ⎟⎜ p ⎟⎜ ⎟⎜ pp ⎟⎜ p ⎟⎜ ⎟⎜ pp ⎟⎜ p −1 ⎟ ⎜ ⎟⎜ ⎟⎜ ⎟ ⎜ U1,M −1 ⎟⎜ ⎟⎜ pp ⎟⎜ p ⎟⎜ ⎟⎜ pp ⎟ ⎜ p −1 ⎠ ⎝

−1 4

UM −1,M −1

⎞

⎛

f1,1

⎟ ⎜ pp ⎟ ⎜ p ⎟ ⎜ ⎟ ⎜ pp ⎟ ⎜ p ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ fM −1,1 ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ f1,2 ⎟ ⎜ ⎟ ⎜ pp ⎟ ⎜ p ⎟ ⎜ ⎟ ⎜ ppp ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ fM −1,2 ⎟ ⎜ ⎟ = ⎜ pp ⎟ ⎜ p ⎟ ⎜ ⎟ ⎜ pp ⎟ ⎜ p ⎟ ⎜ ⎟ ⎜ pp ⎟ ⎜ p ⎟ ⎜ ⎟ ⎜ pp ⎟ ⎜ ⎟ ⎜ p ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ f1,M −1 ⎟ ⎜ ⎟ ⎜ pp ⎟ ⎜ p ⎟ ⎜ ⎟ ⎜ pp ⎟ ⎜ p ⎠ ⎝

⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠

fM −1,M −1

Die zugrunde liegende Matrix A ∈ R N×N mit N = ( M − 1 )2 ist schwach besetzt und dient im Folgenden als ein Referenzbeispiel für die vorzustellenden speziellen Klassen von Matrizen. Bemerkung 10.8 In dem Differenzenschema (10.11) treten auf der linken Seite der Gleichung für jeden Index ( j, k ) die Näherungen zum Gitterpunkt ( xj , yk ) und seinen vier Nachbarn auf, weshalb man hier von einer Funfpunkteformel ¨ oder auch von einem Funfpunktestern ¨ spricht. Die zur Gewinnung der Matrixdarstellung angegebene Reihung der Gitterpunkte wird als lexikografische Anordnung bezeichnet.

10.3 Einige spezielle Klassen von Matrizen und ihre Eigenschaften In Vorbereitung auf die nachfolgenden Abschnitte 10.4 und 10.5 u¨ ber das Gesamt und das Einzelschrittverfahren sollen zunächst einige spezielle Klassen von Matrizen betrachtet werden.

10.3.1 Irreduzible Matrizen Auch im Folgenden liegt das Hauptaugenmerk auf reellen Matrizen. Aus technischen Gründen wie etwa anstehenden Spektralbetrachtungen werden nun jedoch auch komplexe Matrizen und Normen zugelassen.

Abschnitt 10.3

263

Einige spezielle Klassen von Matrizen

Definition 10.9 Eine Matrix B = (bjk ) ∈ CN×N heißt reduzibel, falls Mengen J , K ⊂ {1, 2, . . . , N } mit folgenden Eigenschaften existieren: J = ∅,

K = ∅,

bjk = 0

J ∩ K = ∅,

∀ j ∈ J,

J ∪K

=

{1, 2, . . . , N }, (10.12)

k ∈ K.

Andernfalls heißt die Matrix irreduzibel. Beispiel 10.10 Die Matrix

⎛

1 2 0

⎞

⎜ ⎟ ⎜ –1 1 0 ⎟ ⎝ ⎠ 3 0 1 ist reduzibel: man betrachte J = {1, 2} und K = {3}.

Die Bezeichnung “reduzibel“ begründet sich in der folgenden Eigenschaft: Bemerkung 10.11 Die Lösung eines gegebenen nichtsingulären Gleichungssystems Ax = b mit einer reduziblen Matrix A = ( ajk ) ∈ CN×N lässt sich in zwei kleinere Teilaufgaben zerlegen (die Notation sei entsprechend Definition 10.9 gewählt): (i) man bestimmt zunächst die Unbekannten xj , j ∈ J , des linearen Gleichungssystems N

ajk xk

=

k=1

ajk xk

!

=

bj ,

j ∈ J.

k∈J

(ii) Anschließend bestimmt man die Unbekannten xj , j ∈ K, des linearen Gleichungssystems k∈K

ajk xk

!

=

bj −

k∈J

ajk xk ,

j ∈ K.

Beispiel 10.12 Eine Tridiagonalmatrix ist irreduzibel genau dann, wenn jeder ihrer Nebendiagonaleinträge von null verschieden ist. B EWEIS . Die Tridiagonalmatrix sei mit B = ( bjk ) ∈ CN×N bezeichnet. “=⇒“: Für einen beliebigen Index j∗ ∈ {1, . . . , N − 1} sind die Mengen J = {1, . . . , j∗ } und K = {j∗ + 1, . . . , N } nichtleer und disjunkt mit J ∪ K = {1, . . . , N }. Da für beliebige Indizes j ∈ J und k ∈ K mit |j − k | ≥ 2 ohnehin bjk = 0 gilt, ist aufgrund der Irreduzibilität der Matrix B notwendigerweise bj∗ ,j∗ +1 = 0. Die Eigenschaft bj∗ +1,j∗ = 0 erschließt man nach Vertauschen von J und K genauso. “⇐=“: Für beliebige Mengen J , K ⊂ {1, 2, . . . , N } von der Form (10.12) existieren notwendigerweise Indizes j ∈ J , k ∈ K, die benachbart sind, es gilt also k = j + 1 oder k = j − 1. Für solche Indizes gilt aufgrund der Annahme bjk = 0, und infolgedessen ist die Matrix B irreduzibel.

264

Kapitel 10

Gesamtschritt-, Einzelschritt- und Relaxationsverfahren

Beispiel 10.13 Die zu dem vorgestellten Modellbeispiel aus Abschnitt 10.2.1 gehörende Matrix ist irreduzibel diagonaldominant (Aufgabe 10.5). Die folgenden elementaren Eigenschaften werden ebenfalls noch benötigt. Lemma 10.14 Die Matrix B ∈ CN×N sei irreduzibel. (a) Für jede Diagonalmatrix D ∈ CN×N ist mit B auch die Matrix B + D irreduzibel. (b) Für Zahlen cjk ∈ R mit cjk = 0 für j = k ist mit B = ( bjk ) auch die Matrix (cjk bjk ) ∈ CN×N irreduzibel. B EWEIS . Ist eine Matrix irreduzibel, so a¨ ndert sich diese Eigenschaft aufgrund der Definition offenkundig nicht, wenn man die Diagonaleinträge beliebig abändert. Entsprechendes gilt, wenn die nichtverschwindenden Nichtdiagonaleinträge beliebig zu nichtverschwindenden Einträgen abgeändert werden. Definition 10.15 Eine Matrix B = (bjk ) ∈ CN×N heißt irreduzibel diagonaldominant, falls B irreduzibel ist und weiter Folgendes gilt, N

|bjk | ≤ |bjj |,

j = 1, 2, . . . , N,

⎫ ⎪ ⎪ ⎬

für mindestens ein j ∈ {1, 2, . . . , N }.

⎪ ⎪ ⎭

k=1 k=j ......

1 von Uberrelaxation. In dem vorliegenden Abschnitt werden für zwei Klassen von Matrizen allgemeine Konvergenzresultate zum Relaxationsverfahren hergeleitet. Eine optimale Wahl des Relaxationsparameters ω wird dabei nicht weiter diskutiert. Die erzielten Resultate sind aber bereits für den Fall ω = 1 (Einzelschrittverfahren) von Interesse. Bemerkung 10.28 Eine besondere Bedeutung erlangt das Relaxationsverfahren für die spezielle Klasse der konsistent geordneten Matrizen A, die im nächsten Abschnitt 10.7 behandelt werden. Für solche Matrizen A lässt sich der Spektralradius der Iterationsmatrix H( ω ) als Funktion des Relaxationsparameters ω genau ermitteln beziehungsweise die Wahl von ω optimieren. Für allgemeine Matrizen A ∈ R N×N mit nichtverschwindenden Diagonalelementen gilt das folgende Resultat, mit dem sich die Wahl vernünftiger Relaxationsparameter schnell einschränken lässt. Theorem 10.29 (Kahan) Für die Iterationsmatrix des Relaxationsverfahrens gilt rσ ( H( ω ))

≥

|ω − 1|,

ω ∈ R.

B EWEIS . Mit der Bezeichnung λ1 , . . . , λN ∈ C für die entsprechend ihrer Vielfachheit gezählten Eigenwerte von H( ω ) gilt aufgrund der Darstellung (10.19) Folgendes, λj = det H( ω ) = det(I − ωD−1L)−1 det ( 1 − ω )I − ωD−1R = ( 1 − ω )N ,

j=1 = 1 N

so dass notwendigerweise |λj | ≥ |1 − ω | für mindestens einen Index 1 ≤ j ≤ N gilt. Korollar 10.30 Das Relaxationsverfahren ist höchstens für 0 < ω < 2 konvergent. B EWEIS . Für ω ∈ ( 0, 2 ) gilt nach Theorem 10.29 die Ungleichung rσ ( H( ω )) ≥ 1, so dass nach Theorem 10.3 keine Konvergenz vorliegen kann. Ein erstes hinreichendes Kriterium für die Konvergenz des Relaxationsverfahrens liefert das folgende Theorem.

272

Kapitel 10

Gesamtschritt-, Einzelschritt- und Relaxationsverfahren

Theorem 10.31 (Ostrowski, Reich) Für eine symmetrische, positiv definite Matrix A ∈ R N×N ist das zugehörige Relaxationsverfahren für jeden Wert 0 < ω < 2 durchführbar und konvergent, rσ ( H( ω )) < 1

für 0 < ω < 2.

B EWEIS . Aufgrund der Definitheit der Matrix A gilt ajj = e ur alle j, was insbej Aej > 0 f¨ sondere die Durchführbarkeit des Relaxationsverfahrens nach sich zieht. Für den Nachweis der Konvergenz berechnet man zunächst −1 H( ω ) = I − ω ( D + ωL )−1 A = I − ω1 D + L A −1 = I − 2( Q + I )−1 = (Q − I )( Q + I )−1 , = I − 2 2A−1 ω1 D + L mit Q := 2A−1 ω1 D + L − I. Im Folgenden wird σ ( Q ) ⊂ {λ ∈ C : Re λ > 0}

(10.20)

nachgewiesen. Wegen σ(H( ω ) )

=

λ−1 λ+1

: λ ∈ σ(Q)

und λ − 1 2 λ+1

=

(Re λ − 1)2 + (Im λ)2 (Re λ + 1)2 + (Im λ)2

0

erhält man dann die Aussage des Theorems. Für den Nachweis von (10.20) betrachtet man λ ∈ C und 0 = x ∈ CN mit Qx = λx und erhält zunächst λAx = 2 ω1 D + L x − Ax. Skalare Multiplikation mit dem Vektor x liefert (Re λ) xH Ax = 2Re xH ω1 D + L x − xH Ax > 0 = xH ω2 D + L + LH x − xH (D + L + R)x

> 0, da ajj >0 ∀ j

=

2

ω

− 1 xH Dx,

=R

und daraus folgt Re λ > 0.

10.6.1 M– Matrizen Im Folgenden wird eine weitere Klasse von Matrizen vorgestellt, bei denen das Relaxationsverfahren einsetzbar ist. Definition 10.32 Eine Matrix A = (ajk ) ∈ R N×N heißt M Matrix, falls Folgendes gilt,

Abschnitt 10.6

273

Das Relaxationsverfahren und erste Konvergenzresultate

(a) Die Matrix A ist regulär und besitzt eine Inverse mit ausschließlich nichtnegativen Einträgen, A−1 ≥ 0. (b) Alle Einträge der Matrix A außer denen auf der Diagonalen sind nichtpositiv, ajk ≤ 0 für alle Indizes j, k mit j = k. M Matrizen lassen sich folgendermaßen charakterisieren: ¨ Theorem 10.33 Für eine Matrix A = ( ajk ) ∈ R N×N gilt die folgende Aquivalenz, ⎧ ⎫ ⎪ ⎪ a > 0 f¨ u r j = 1, . . . , N, ⎪ ⎪ jj ⎪ ⎪ ⎨ ⎬ A ist M Matrix ⇐⇒ ajk ≤ 0 für alle j, k mit j = k, ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ ⎭ rσ ( D −1 ( L + R )) < 1,

(10.21)

mit der Zerlegung A = D+L+R in Diagonal , unteren und oberen Anteil entsprechend (10.15). Die Inverse jeder M Matrix A besitzt die nichtnegative Neumannsche Reihenentwicklung A−1

=

∞

ν − D −1 (L + R) D −1

ν=0

≥

0.

(10.22)

≥0

≥0

B EWEIS . “⇐=“ Mit der Identität I − D−1 A = −D −1 ( L + R ) und den Voraussetzungen D regulär,

D −1 ≥ 0,

−( L + R ) ≥ 0,

rσ ( –D −1 ( L + R )) < 1,

erhält man unter Anwendung von Theorem 9.13 die Regularität der Matrix A sowie die nichtnegative Neumannsche Reihenentwicklung (10.22) für die Inverse A−1 , womit die Richtung “⇐=“ nachgewiesen ist. Für den Nachweis der anderen Implikation “=⇒“ sei nun A eine M Matrix. Wenn akk ≤ 0 für ein k ∈ {1, . . . , N } gilt, so erhält man für den Vektor a( k ) = (ajk )j ∈ R N die Ungleichung a( k ) ≤ 0 und daraus den Widerspruch k ter Einheitsvektor ek = A−1 a( k ) ≤ 0. Für den Nachweis der Ungleichung rσ ( B ) < 1 mit B := −D −1 ( L + R ) stellt man Folgendes fest, B ≥ 0,

I − B = D−1 A regulär,

( I − B )−1 = A−1 D ≥ 0,

und Theorem 9.17 liefert die behauptete Ungleichung rσ ( B ) < 1. Beispiel 10.34 Die Matrix zu dem in Abschnitt 10.2.1 vorgestellten Modellbeispiel ist eine M Matrix, denn als irreduzibel diagonaldominante Matrix gilt für sie nach Theorem 10.19 die Ungleichung rσ ( D −1 ( L + R )) < 1. Theorem 10.35 Für eine M Matrix A ∈ R N×N ist das Relaxationsverfahren durchführbar und für jeden Parameter 0 < ω ≤ 1 konvergent, rσ ( H( ω )) < 1

für 0 < ω ≤ 1.

274

Kapitel 10

Gesamtschritt-, Einzelschritt- und Relaxationsverfahren

B EWEIS . Die Durchführbarkeit ist aufgrund des Nichtverschwindens der Diagonaleinträge der Matrix A (siehe Theorem 10.33) gewährleistet. Im Folgenden wird H( ω ) ≥ 0,

I − H( ω )

regulär,

(I − H( ω ) )−1 ≥ 0,

(10.23)

nachgewiesen. Die Aussage des Theorems erhält man dann unmittelbar mit Theorem 9.17. Nach Voraussetzung gilt (mit der Zerlegung D + L + R = A aus (10.15)) D regulär,

D ≥ 0,

D−1 ≥ 0,

R ≤ 0,

L ≤ 0.

Damit ist insbesondere die Matrix D + ωL regulär, und die Eigenschaft H( ω ) ≥ 0 resultiert dann aus ( D + ωL )−1 ≥ 0, was man wie folgt einsieht, σ(−ωD−1 L) = {0}, −ωD−1 L ≥ 0, −1 (∗) ; I − ( –ωD−1 L ) = (I + ωD−1L)−1 ≥ 0, wobei man die Schlussfolgerung (∗) mit Theorem 9.17 erhält. Die beiden anderen Aussagen in (10.23) ergeben sich folgendermaßen, = ω ( D + ωL )−1 A, I − H( ω ) = ( D + ωL )−1 D + ωL − ( 1 − ω )D + ωR

regulär −1 −1 −1 1 1 = ω A ( D + ωL ) = ω A A − ( 1 − ω )L − R (I − H( ω ) ) = ω1 I + ω1 A−1 − ( 1 − ω )L − R ≥ 0.

≥0

≥0

Dies komplettiert den Beweis von Theorem 10.35. Bemerkung 10.36 Beim Relaxationsverfahren für M Matrizen gilt spezieller rσ ( H( ω2 )) ≤ rσ ( H( ω1 )) < 1 für 0 < ω1 ≤ ω2 ≤ 1 (Aufgabe 10.10), so dass innerhalb des Parameterintervalls 0 < ω ≤ 1 die Wahl ω = 1 optimal ist.

10.7 Das Relaxationsverfahren fur ¨ konsistent geordnete Matrizen Es soll nun noch eine Klasse von Matrizen behandelt werden, bei denen sich der Spektralradius der zugehörigen Iterationsmatrix H( ω ) als Funktion des Relaxationsparameters ω genau ermitteln beziehungsweise die Wahl von ω optimieren lässt. Definition 10.37 Eine Matrix A = (ajk ) ∈ R N×N mit ajj = 0 für alle j heißt konsistent geordnet, falls die Eigenwerte der Matrix J ( α ) := αD−1 L + α−1 D −1 R

∈

CN×N ,

0 = α ∈ C,

(10.24)

unabhängig von α sind, wenn also die Identität σ ( J ( α )) = σ ( J ( 1 )) gilt für 0 = α ∈ C. Hierbei bezeichnet A = D +L+R die Zerlegung in Diagonal , unteren und oberen Anteil entsprechend (10.15).

Abschnitt 10.7

275

Relaxationsverfahren für konsistent geordnete Matrizen

Beispiel 10.38 Eine Block Tridiagonalmatrix

⎞

⎛ D1 C 1

⎜ ⎜ ⎜ p ⎜ B1 p p ⎜ ⎜ pp ⎜ p ⎜ ⎝

=

A

⎟ ⎟ ⎟ p ⎟ ⎟ ∈ R N×N ⎟ pp p CM −1 ⎟ ⎟ ⎠ BM −1 DM pp

mit regulären Diagonalmatrizen Dk ∈ R Nk×Nk , k = 1, 2, . . . , M (mit M k=1 Nk = N ) ist konsistent geordnet. (Die Nebendiagonalmatrizen seien hierbei von entsprechender Dimension, es gilt also Bk ∈ R Nk+1×Nk und Ck ∈ R Nk×Nk+1 für k = 1, 2, . . . , M − 1.)

B EWEIS . Hier gilt

⎛

−1

D L

=

⎛

⎞ 0

⎜ ⎜ ⎜ ⎜ D −1 B ⎜ 2 1 ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

pp pp

p p

pp

p

−1 DM BM −1 0

⎟ ⎟ ⎟ ⎟ ⎟ ⎟, ⎟ ⎟ ⎟ ⎟ ⎠

D −1 R

=

⎞

−1 ⎜ 0 D1 C 1 ⎜ ⎜ pp pp ⎜ p p ⎜ ⎜ ⎜ ⎜ pp −1 p DM ⎜ −1 CM −1 ⎜ ⎝ 0

und somit ⎛

J (α)

=

⎞

⎟ ⎜ 0 α−1 D1−1 C1 ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ pp pp ⎜ αD−1 B1 ⎟ p p ⎜ 2 ⎟ ⎜ ⎟ ∈ R N×N . ⎜ ⎟ ⎜ ⎟ pp pp ⎜ −1 −1 p p α DM −1 CM −1 ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎝ ⎠ −1 αDM BM −1 0

⎟ ⎟ ⎟ ⎟ ⎟ ⎟, ⎟ ⎟ ⎟ ⎟ ⎠

276

Kapitel 10

Gesamtschritt-, Einzelschritt- und Relaxationsverfahren

Mit einer geeigneten Transformationsmatrix Sα von Diagonalgestalt erhält man schließlich die ¨ Ahnlichkeit der Matrizen J ( 1 ) und J ( α ): ⎞

⎛

Sα

⎜ ⎜ ⎜ ⎜ := ⎜ ⎜ ⎜ ⎜ ⎝

α0 IN1 α1 IN2 pp

p

⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠

⎛

⎞

⎜ ⎜ 0 α0 D1−1 C1 ⎜ ⎜ ⎜ ⎜ ⎜ pp ⎜ αD2−1 B1 p p p p ⎜ ⎜ ( ) Sα J 1 = ⎜ ⎜ ⎜ pp pp −1 ⎜ αM −2DM p p −1 CM −1 ⎜ ⎜ ⎜ ⎜ ⎝ −1 αM −1DM BM −1 0

αM −1 INM

;

⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠

beziehungsweise Sα J ( 1 ) Sα−1 = J ( α ). Beispiel 10.39 Die Matrix aus dem Modellbeispiel in Abschnitt 10.2.1 ist konsistent geordnet (Aufgabe 10.14). Das folgende Theorem 10.41 stellt eine Beziehung her zwischen den Eigenwerten von HGes = −D−1 ( L + R ) und denen von H( ω ). Zuvor wird die folgende Eigenschaft konsistent geordneter Matrizen festgehalten: Lemma 10.40 Bei konsistent geordneten Matrizen A ∈ R N×N liegt die Menge der Eigenwerte σ ( HGes ) ⊂ C der zum Gesamtschrittverfahren gehörenden Iterationsmatrix HGes symmetrisch zum Ursprung, es gilt also σ ( HGes ) = σ ( –HGes ). B EWEIS . Mit der Notation (10.24) gilt J ( 1 ) = −HGes und J ( –1 ) = HGes , woraus die Aussage unmittelbar folgt. Theorem 10.41 Die Matrix A ∈ R N×N sei konsistent geordnet, und sei 0 = ω ∈ R. Weiter √ sei 0 = λ ∈ C eine beliebige Zahl und λ ∈ C eine der beiden Wurzeln von λ. Dann gilt die ¨ folgende Aquivalenz: λ ∈ σ(H( ω ) )

⇐⇒

λ+ω−1 √ ∈ σ(HGes ). ω λ

(10.25)

Abschnitt 10.7

Relaxationsverfahren für konsistent geordnete Matrizen

B EWEIS . Sei 0 = λ ∈ C und λI − H( ω ) = = = =

277

√

λ ∈ C eine der beiden Wurzeln von λ. Es gilt dann ( D + ωL )−1 λ( D + ωL ) − ( 1 − ω )D + ωR ( D + ωL )−1 ( λ + ω − 1 )D + ω ( λL + R ) (I + ωD−1L)−1 ( λ + ω − 1 )I + ωλ1/2 λ1/2 D −1 L + λ−1/2 D −1 R λ+ω −1 ωλ1/2 (I + ωD−1 L)−1 I + λ1/2 D −1 L + λ−1/2 D −1 R 1/2 ωλ

regulär

beziehungsweise λ ∈ σ ( H( ω )) ⇐⇒ λ+ω−1 ∈ σ − λ1/2 D −1 L − λ−1/2 D −1 R = σ − D −1 L − D −1 R ,

ωλ1/2 = J (–1) = HGes = J (–λ1/2 ) ¨ was mit der im Theorem angegebenen Aquivalenz u¨ bereinstimmt. Korollar 10.42 (Der Fall ω = 1) Für jede konsistent geordnete Matrix A ∈ R N×N gilt rσ ( HEin )

=

rσ ( HGes )2 .

Für eine konsistent geordnete Matrix A ∈ R N×N sind demnach Gesamt und Einzelschrittverfahren entweder beide konvergent oder divergent, und im Fall der Konvergenz ist das Einzelschrittverfahren doppelt so schnell wie das Gesamtschrittverfahren. Mit dem folgenden Theorem wird das Verhalten von rσ ( H( ω )) in Abhängigkeit von ω beschrieben. Eine entsprechende Veranschaulichung liefert Bild 10.2 auf Seite 279. Theorem 10.43 Die Matrix A ∈ R N×N sei konsistent geordnet, und die Eigenwerte der Matrix HGes = −D −1 ( L + R ) seien allesamt reell und betragsmäßig kleiner als eins, es sei also σ ( D −1 ( L + R )) ⊂ ( –1, 1 ) erfüllt. Dann gilt ⎧ 2 / ⎨ 1 ωGes + ω 22 − 4( ω − 1 ) , 0 < ω ≤ ω∗ , Ges 4 rσ ( H( ω )) = ⎩ ω − 1, ω∗ ≤ ω ≤ 2, mit Ges := rσ ( D −1 ( L + R )) und ω∗ :=

1+

/

2 1 − 2Ges

.

B EWEIS . Sei 0 < ω ≤ 2 mit ω = 1 fest gewählt.6 (a) In einem ersten Schritt werden (vergleiche Theorem 10.41) für jede Zahl µ ∈ R die Lösungen λ ∈ C der Gleichung √ (10.26) λ − ωµ λ + ω − 1 = 0, 6

Die Situation ω = 1 ist bereits mit Korollar 10.42 abgeklärt.

278

Kapitel 10

Gesamtschritt-, Einzelschritt- und Relaxationsverfahren

bestimmt. In der Tat besitzt die Gleichung (10.26) zwei Lösungen λ1/2 = λ1/2 ( µ ) ∈ C, für die entsprechend der Annahme ω = 1 notwendigerweise λ1/2 = 0 gilt. Explizite Darstellungen sind

λ1/2

1 := 4 ωµ

/ 1 λ1/2 := 2

±

⎫ ⎪ ⎪ ⎬

2 / ω 2 µ 2 − 4( ω − 1 ) , ........ ,

(10.27)

⎪ ⎪ ⎭

und daraus erhält man |λ1/2 |

⎧ 2 / ⎨ 1 ωµ ± ω 2 µ 2 − 4( ω − 1 ) , 4

=

⎩

4( ω − 1 ) , ω2 ....... , µ2
2, scheidet aus

⇐⇒ ω

≤

=

......

2 / = ω∗ ∈ [ 1, 2 ]. 1 + 1 − 2Ges

Dies komplettiert den Beweis des Theorems. Der Verlauf des Spektralradius rσ ( H( ω )) in Abhängigkeit des Relaxationsparameters ω ist in Bild 10.2 dargestellt. 1

.... ........ .. ... ........................................................................ . ................. ... ............ .... ......... ... ........ .... ....... ... ...... . . . ..... .... .... ... .... .... ... ... ... .... ... ... . ... . . . ... ... .. ...... .. ... .. ... . . . . . . . . . . . . . . . . . . . . . . . .... .. . . . . . . . . . . . ............................. . .

rσ ( H( ω ))

ω∗ − 1 0

0

1

ω∗

ω

2

Bild 10.2 Darstellung des Verlaufs der Funktion ω → rσ (H( ω ) ) Bemerkung 10.44 Typischerweise ist der Spektralradius Ges und somit der optimale Relaxationsparameter ω∗ nicht genau bekannt. Wegen lim

ω→ω∗−

drσ ( H( ω )) dω

=

−∞,

lim

ω→ω∗+

drσ ( H( ω )) dω

=

1,

wählt man den Relaxationsparameter ω besser etwas zu groß als etwas zu klein.

Weitere Themen und Literaturhinweise Die hier vorgestellten Iterationsverfahren und Klassen von Matrizen werden in zahlreichen Lehrbüchern behandelt, so beispielsweise in Berman/Plemmons [3], Finckenstein [24], Golub/Ortega [34], Hämmerlin/Hoffmann [45], Hackbusch [44], Hanke-Bourgeois [49], Kress [60], Meister [67], Oevel [75], Schaback/Wendland [88], Schwarz/Klöckner [90], Stoer/Bulirsch [96] und Windisch [108]. Insbesondere in [44] finden Sie auch Ausführungen u¨ ber die hier außer in Aufgabe 10.15 nicht weiter betrachteten Block Relaxationsverfahren. Informationen u¨ ber die hier nicht behandelte Zweigitteriteration beziehungsweise die allgemeineren Mehrgitterverfahren findet man beispielsweise in [44] und in [60].

280

Kapitel 10

Gesamtschritt-, Einzelschritt- und Relaxationsverfahren

¨ Ubungsaufgaben Aufgabe 10.1 Für jede Matrix H ∈ R N×N sind die folgenden Aussagen a¨ quivalent: (i) es existiert eine Vektornorm || · || : CN → R, so dass für die induzierte Matrixnorm gilt ||H || = rσ ( H ); (ii) jedem Eigenwert λ ∈ C von H mit |λ| = rσ ( H ) entsprechen nur lineare Elementarteiler. Aufgabe 10.2 (a) Welche der drei Matrizen ⎛ ⎞ ⎛ ⎞ 2 0 1 2 0 1 ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜1 2 0⎟ , ⎜1 1 0⎟ , ⎝ ⎠ ⎝ ⎠ 0 1 2 0 1 1

⎛

⎞ 1 0 1

⎜ ⎟ ⎜ ⎟ ⎜1 1 0⎟ ⎝ ⎠ 0 1 1

ist strikt diagonaldominant? Soweit dies möglich ist, ziehe man daraus jeweils Schlussfolgerungen u¨ ber die Konvergenz des Gesamtschrittverfahrens. (b) Zu Testzwecken soll für jede der genannten Matrizen sowie jeweils der rechten Seite b = ( 0, 0, 0 ) das dazugehörige lineare Gleichungssystem näherungsweise mit dem Gesamtschrittverfahren gelöst werden. Als Startvektor verwende man jeweils x( 0) = ( 1, 1, 1 ). Man gebe jeweils eine allgemeine Darstellung der n ten Iterierten x(n) ∈ R 3 an und diskutiere die Ergebnisse im Hinblick auf Konvergenz. Aufgabe 10.3 Gegeben seien die Matrizen ⎛

A

=

0 ⎜ ⎜ ⎜0 ⎜ ⎜ ⎜1 ⎝ 1

⎛

⎞ 1 0 1

⎟ ⎟ 0 1 0⎟ ⎟, ⎟ 0 0 1⎟ ⎠ 0 1 0

⎞ 0 1 0 0 1

B

=

⎜ ⎟ ⎜ ⎟ ⎜1 0 0 0 1⎟ ⎜ ⎟ ⎜ ⎟ ⎜0 0 0 1 0⎟ . ⎜ ⎟ ⎜ ⎟ ⎜0 0 2 0 0⎟ ⎝ ⎠ 2 2 0 0 1

Man zeige, dass A irreduzibel beziehungsweise B reduzibel ist. Aufgabe 10.4 Zu gegebener Matrix A = (ajk ) ∈ R N×N und beliebigen Indizes j, k ∈ {1, . . . , N } mit j = k heißt eine Familie von Indizes j0 , j1 , . . . , jM ∈ {1, 2, . . . , N } mit j0 = j, jM = k eine j und k verbindende Kette, falls ajr−1 ,jr = 0 gilt für r = 1, 2, . . . , M . Man zeige Folgendes: Eine Matrix A ∈ R N×N ist irreduzibel genau dann, wenn für alle Indizes j, k ∈ {1, . . . , N } mit j = k eine j und k verbindende Kette existiert. Aufgabe 10.5 Man zeige, dass die zu dem vorgestellten Modellbeispiel aus Abschnitt 10.2.1 gehörende Matrix irreduzibel diagonaldominant ist. Aufgabe 10.6 Sei A = (ajk ) ∈ R N×N eine irreduzibel diagonaldominante Matrix mit ajj > 0 für j = 1, 2, . . . , N . Man zeige: (a) Für alle Eigenwerte λ ∈ C von A gilt Re λ > 0. (b) Ist die Matrix A symmetrisch, so ist sie auch positiv definit. ∈ R N×N betrachte man Zerlegungen A = D + L + R bezieAufgabe 10.7 Für zwei Matrizen A, A =D +L +R jeweils in Diagonal sowie unteren und oberen Anteil. Man zeige: wenn A hungsweise A

¨ Ubungsaufgaben

281

sowie L + R ≤ L +R ≤ 0 erfüllt sind, so ist eine M Matrix ist und die Ungleichungen 0 ≤ D ≤ D −1 −1 auch A eine M Matrix und es gilt 0 ≤ A ≤ A . ¨ der folgenden vier Aufgabe 10.8 Für eine Matrix A = (ajk ) ∈ R N×N beweise man die Aquivalenz Aussagen: (i) A ist M Matrix; (ii) A + sI ist M Matrix für alle s ≥ 0; (iii) es gibt eine Matrix B ∈ R N×N mit B ≥ 0 und eine Zahl s > rσ ( B ), so dass die Identität A = sI−B gilt; (iv) die Nichtdiagonaleinträge ajk , j = k, der Matrix A sind nichtpositiv, und alle Eigenwerte von A besitzen einen positiven Realteil, σ ( A ) ⊂ {λ ∈ C : Re λ > 0}. Aufgabe 10.9 Gegeben sei das lineare Randwertproblem −u ( x ) +

1 u ( x ) = ϕ( x ), 1+x

u( 0 ) = 0,

0 < x < 1,

u( 1 ) = 0. (10.33)

Diskretisierung von (10.33) mit zentralen Differenzenquotienten zweiter beziehungsweise erster Ordnung bei konstanter Gitterweite h = 1/N führt auf ein lineares Gleichungssystem Av = b. Man zeige Folgendes: (a) Für h < 2 ist A ∈ R (N −1 )×( N −1) eine M Matrix. (b) Für die Hilfsfunktion θ(x) = −

( 1 + x )2

ln ( 1 + x ) + 23 x(x + 2)ln2 2 und mit den Notationen vj = θ ( xj ), xj = jh für j = 1, 2, . . . , N −1 und e = (1, . . . , 1) ∈ R N −1 gilt die Abschätzung ||Av − e||∞ ≤

1 2 4h

(und damit ( Av )j ≥ 1 − h2 /4 für j = 1, 2, . . . , N − 1). (c) Für eine von h unabhängige Konstante M gilt ||A−1 ||∞ ≤ M . (d) Für die Lösung u von (10.33) und die Lösung v∗ des Gleichungssystems Av = b gilt mit der Notation −1 z = (u( xj ) )N angigen Konstanten K die Abschätzung ||v∗ −z ||∞ ≤ Kh2 . j=1 und einer von h unabh¨ Aufgabe 10.10 Für eine gegebene M Matrix A ∈ R N×N weise man die folgenden Abschätzungen nach: rσ ( H( ω2 ))

≤

rσ ( H( ω1 )) < 1

für 0 < ω1 ≤ ω2 ≤ 1.

Aufgabe 10.11 Im Folgenden wird das Randwertproblem u ( x ) + p( x )u ( x ) + r ( x )u( x ) = ϕ( x ),

x ∈ [ a, b ],

u( a ) = u( b ) = 0,

betrachtet mit Funktionen p, r, ϕ ∈ C [ a, b ] mit r ( x ) ≤ 0 für x ∈ [ a, b ]. Eine Diskretisierung der Ableitungen mittels zentraler Differenzenquotienten bei konstanter Schrittweite h = ( b − a )/N führt mit den Notationen xj = a + jh, pj = p( xj ) und rj = r ( xj ), ϕj = ϕ( xj ) für j = 1, 2, . . . , N − 1 sowie

282

Kapitel 10

Gesamtschritt-, Einzelschritt- und Relaxationsverfahren

⎛

⎞ h 2 p1 )

2 −(1 − ⎜ ⎜ ⎜ ⎜ ⎜ −(1 + h p ) 2 −(1 − h2 p2 ) ⎜ 2 2 ⎜ 1 ⎜ ⎜ pp pp A = 2⎜ p p −(1 + h2 p3 ) h ⎜ ⎜ ⎜ ⎜ pp ⎜ 2 −(1 − h2 pN −2 ) p ⎜ ⎜ ⎝ −(1 + h2 pN −1 ) 2

⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠

−1 und D = diag (r1 , r2 , . . . , rN −1 ), c = (ϕj )N j=1 , auf das Gleichungssystem (A + D )v = c.

(a) Man zeige, dass A + D eine M Matrix ist, falls Folgendes erfüllt ist, . inf Re λ : λ ∈ σ ( A ) + h max |p(x)| ≤ 2, inf

x ∈ [ a, b ]

x ∈ [ a, b ]

r ( x ) > 0.

(b) Im Fall p( x ) ≡ 0 und h ≤ ( b − a )/2 ist A + D eine M Matrix, wenn Folgendes erfüllt ist, π 4 π 2 h2 inf r ( x ) > − + . 12 b−a b−a x ∈ [ a, b ] Aufgabe 10.12 Ist die Matrix ⎛

2 −1 pp pp p p −1 1 ⎜ ⎜ A = 2⎜ pp pp h ⎝ p p −1 −1 2

⎞ ⎟ ⎟ × ⎟ ∈ R (N −1) (N −1) ⎠

mit h = 1/N positiv definit beziehungsweise eine M Matrix beziehungsweise konsistent geordnet? Man bestimme als Funktion von h die Eigenwerte von I − D −1 A und den zugehörigen Spektralradius rσ ( I − D−1 A ), den optimalen Parameter ω∗ für das Relaxationsverfahren sowie den Spektralradius rσ ( H( ω∗ )) der entsprechenden Iterationsmatrix H( ω∗ ). Aufgabe 10.13 Man zeige, dass reguläre Dreiecksmatrizen konsistent geordnet sind. Aufgabe 10.14 Gegeben sei eine Block Tridiagonalmatrix von der speziellen Form ⎛ ⎞

A

⎜ B b1 D ⎜ ⎜ ⎜ ⎜ a1 D p p p ⎜ ⎜ ⎜ ⎜ 0 ppp ⎜ ⎜ ⎝

=

⎟ ⎟ ⎟ ⎟ pp ⎟ p ⎟ × ⎟ ∈ RN N ⎟ pp bM −1 D ⎟ p ⎟ ⎟ ⎠ aM −1 D B

mit der Diagonalmatrix D = diag (b11 , . . . , bKK ) wobei 0 = bjj die Diagonaleinträge von B ∈ R K×K bezeichne. Mit der Zerlegung B = D + L + R entsprechend (10.15) und mit J (α)

=

αD−1 L + α−1 D −1 R,

0 = α ∈ C

¨ Ubungsaufgaben

283

gelte J ( α ) = Sα J ( 1 )Sα−1 für 0 = α ∈ C mit einer geeigneten Transformationsmatrix Sα ∈ R N×N . Man zeige, dass die Matrix A konsistent geordnet ist. Aufgabe 10.15 Es sei ⎛

⎞ p p p A1M A 11 ⎜ ⎟ ⎜ ⎟ ⎜ p ⎟ p ⎟ pp p p A=⎜ p p ⎟ ⎜ p ⎜ ⎟ ⎝ ⎠ AM 1 p p p AM M eine quadratische Matrix mit quadratischen Diagonalblöcken Ajj , j = 1, 2, . . . , M , und die Block Diagonalmatrix D = diag (A11 , . . . , AN N ) sei nichtsingulär. Weiter bezeichne ⎛ ⎞ ⎞ ⎛ A12 p p p A1M ⎜ ⎟ ⎟ ⎜ p pp ⎜ A ⎟ ⎟ ⎜ p pp ⎜ 21 ⎟ ⎟ ⎜ L = ⎜ p p R = ⎜ ⎟, ⎟, ⎜ pp ⎟ ⎟ ⎜ pp A M −1,M ⎝ ⎠ ⎠ ⎝ AM 1 p p p AM,M −1 und H( ω )

( D + ωL )−1 ( ( 1 − ω )D − ωR )

=

( ω = 0 ).

In den folgenden Teilaufgaben (a) und (b) seien für eine Zahl p > 1 die Eigenwerte von J (α)

=

αD−1 L + α−(p−1) D−1 R,

0 = α ∈ C,

(10.34)

unabhängig von α, es gelte also σ ( J ( α )) = σ ( J ( 1 )) für α = 0. Man weise Folgendes nach: (a) Ist µ ∈ σ(D−1 (L + R )) erfüllt und die Zahl λ ∈ C eine Lösung der Gleichung =

(λ + ω − 1)p

λp−1 ω p µp ,

(10.35)

so gilt λ ∈ σ ( H( ω )). Ist umgekehrt 0 = λ ∈ σ ( H( ω )) und erfüllt µ die Gleichung (10.35), dann ist µ ∈ σ(D−1 (L + R )). (b) Für µ = 0 gilt µ ∈ σ(D−1 (L + R ))

⇐⇒

µp ∈ σ ( H( 1 )),

und rσ ( D−1 ( L + R ))p = rσ ( H( 1 )). (c) Sei nun A von der speziellen Gestalt ⎛

A

=

A11 0 · · ·

⎜ ⎜ ⎜ ⎜ A21 ⎜ ⎜ ⎜ 0 ⎜ ⎜ ⎜ p ⎜ pp ⎜ ⎝ 0

pp

⎞ A1M

0

p

pp

p

pp

p

pp

p

pp

p

p pp

pp

p

pp

p

pp

p

0

0

⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟. ⎟ ⎟ ⎟ ⎟ ⎟ ⎠

· · · 0 AM,M −1 AM M

Man zeige, dass mit p = M ≥ 2 die Eigenwerte der Matrix J ( α ) aus (10.34) unabhängig von α sind.

284

Kapitel 10

Gesamtschritt-, Einzelschritt- und Relaxationsverfahren

Aufgabe 10.16 (Numerische Aufgabe) Zur numerischen Lösung des Randwertproblems u ( x ) + u( x ) = ex ,

x ∈ [ 0, π/2 ],

betrachte man auf einem a¨ quidistanten Gitter der Weite h = vj+1 − ( 2 − h2 )vj + vj−1 = h2 ezj ,

u( 0 ) = u( π/2 ) = 0, π 2N

das zugehörige Differenzenschema j = 1, 2, . . . , N − 1,

(10.36)

mit zj = jh. Für N = 30 beziehungsweise N = 200 bestimme man eine approximative Lösung von (10.36) mithilfe des Relaxationsverfahrens mit den folgenden Relaxationsparametern, ω = 0.1, 0.2, 0.3, . . . , 2.0, 2.1, wobei die Iteration jeweils abgebrochen werden soll, wenn mehr als 1000 Iterationen (für N = 200 mehr als 2000 Iterationen) benötigt werden oder falls ||x( n) − x(n−1) ||∞ ≤ 10−5 ausfällt. Als Startwert wähle man jeweils x(0) = 0. Für jede Wahl von ω gebe man die Anzahl der benötigten Iterationsschritte n, ||x( n) − x(n−1) ||∞ und den Fehler maxj=1,...,N −1 |x(jn) − u(zj )| tabellarisch an.

285

11 Verfahren der konjugierten Gradienten und GMRES–Verfahren 11.1 Vorbetrachtungen Ziel der nachfolgenden Betrachtungen ist erneut die approximative Lösung eines regulären linearen Gleichungssystems Ax = b

(A ∈ R N×N regulär,

b ∈ RN )

(mit der eindeutigen Lösung x∗ = A−1 b ∈ R N ), und hierzu seien {0}

⊂

D1

⊂

D2

⊂

...

⊂

RN

(11.1)

zunächst nicht weiter spezifizierte (endlich oder unendlich viele) lineare Unterräume. Im Folgenden werden zwei Ansätze zur Bestimmung von (unterschiedlichen) Vektorfolgen xn ∈ Dn , n = 1, 2, . . . , vorgestellt.1 Definition 11.1 (a) Für gegebene Ansatzräume (11.1) hat der Ansatz des orthogonalen Residuums zur Bestimmung von Vektoren x1 , x2 , . . . ∈ R N die folgende Form, xn ∈ Dn , n = 1, 2, . . . . (11.2) Axn − b ∈ Dn⊥ (b) Der Ansatz des minimalen Residuums zur Bestimmung von Vektoren x1 , x2 , . . . ∈ R N hat für gegebene Ansatzräume (11.1) die folgende Form, xn

∈

||Axn − b||2

=

Dn , min ||Ax − b||2

n = 1, 2, . . . .

(11.3)

x∈Dn

Hierbei bezeichnet wie u¨ blich M⊥ := y ∈ R N : yx = 0

für jedes x ∈ M ,

M ⊂ R N beliebig,

das orthogonale Komplement einer Menge M, und || · ||2 bezeichnet wieder die euklidische Vektornorm. Schließlich bezeichnet im Folgenden zu jedem x ∈ R N der Vektor Ax − b das zugehörige Residuum2 , was die Bezeichnungen für die beiden in Definition 11.1 vorgestellten Ansätze erklärt. 1

Im Unterschied zum vorigen Kapitel 10 wird nun wieder die etwas knappere Tiefstellung für den Laufindex n gewählt. Dies ist hier ohne weiteres möglich, da die einzelnen Einträge in den vektorwertigen Iterierten im Folgenden keine spezielle Rolle spielen. 2 In der Literatur findet man die Bezeichnung “Residuum“ oft auch für den Vektor b − Ax anstelle Ax − b.

286

Kapitel 11

CG – und GMRES – Verfahren

Bemerkung 11.2 Natürliche Fragestellungen im Zusammenhang mit den beiden vorgestellten Ansätzen sind jeweils Existenz und Eindeutigkeit der Vektoren xn . Zudem gilt es, Algorithmen zur Bestimmung dieser Vektoren anzugeben sowie Abschätzungen für den Fehler ||xn − x∗ || herzuleiten bezüglich gängiger Normen. Schließlich sind spezielle Ansatzräume für D1 , D2 , . . . auszuwählen. Bei der Wahl spezieller Ansatzräume in (11.1) werden die im Folgenden definierten Krylovräume eine hervorgehobene Rolle spielen: Definition 11.3 Zu gegebener Matrix A ∈ R N×N und einem Vektor b ∈ R N ist die Folge der Krylovräume wie folgt erklärt, . n = 0, 1, . . . . Kn ( A, b ) = span b, Ab, . . . , An−1 b ⊂ R N , Offensichtlich sind die Krylovräume aufsteigend, es gilt {0} = K0 ( A, b ) ⊂ K1 ( A, b ) ⊂ . . . . Weitere Eigenschaften von eher technischer Natur werden zu einem späteren Zeitpunkt vorgestellt3.

11.1.1 Ausblick In dem vorliegenden Kapitel werden nun die beiden in Definition 11.1 angegebenen Ansätze mit den speziellen Räumen Dn = Kn ( A, b ) behandelt.4 (a) Der Ansatz des orthogonalen Residuums mit den Räumen Dn = Kn ( A, b ) wird für symmetrische, positiv definite Matrizen A ∈ R N×N betrachtet. Dies führt auf das klassische Verfahren der konjugierten Gradienten. Einzelheiten hierzu werden in den Abschnitten 11.2 11.4 vorgestellt. Für allgemeine (also indefinite oder nichtsymmetrische) reguläre Matrizen A ∈ R N×N kann man zu den Normalgleichungen AAx = Ab u¨ bergehen und hierfür das angesprochene Verfahren der konjugierten Gradienten betrachten. Einige Details zu diesem Ansatz finden sich in Abschnitt 11.5. (b) Schließlich wird für die Räume Dn = Kn ( A, b ) der Ansatz des minimalen Residuums betrachtet. Dies führt auf das (in Abschnitt 11.6 behandelte) GMRES Verfahren, welches universell einsetzbar ist, weitere Voraussetzungen an die Matrix A wie etwa Symmetrie entfallen hier.

11.2 Der Ansatz des orthogonalen Residuums fur ¨ positiv definite Matrizen In dem vorliegenden Abschnitt 11.2 wird der Ansatz des orthogonalen Residuums für allgemeine Ansatzräume der Form (11.1) betrachtet unter der zusätzlichen Annahme, dass A ∈ R N×N eine 3 4

siehe Lemma 11.31 auf Seite 307 Diese Verfahren werden allgemein als Krylovraummethoden bezeichnet.

Abschnitt 11.2

287

Der Ansatz des orthogonalen Residuums

symmetrische, positiv definite Matrix ist.

11.2.1 Existenz, Eindeutigkeit und Minimaleigenschaft Im Folgenden wird für eine gegebene symmetrische, positiv definite Matrix A ∈ R N×N die Existenz und Eindeutigkeit der zum Ansatz des orthogonalen Residuums (11.2) gehörenden Vektoren xn diskutiert. Hierzu werden die folgenden Notationen eingeführt: x, y 2

= xy,

x , y A

= xAy,

x, y ∈ R N , ||x||A

,

........

=

( xAx )1/2 ,

x ∈ RN .

Bemerkung 11.4 ( 1 ) Die neue Notation ·, · 2 für das klassische skalare Produkt wird wegen der gelegentlich einfacheren Lesbarkeit eingeführt. ( 2 ) Wie man leicht nachrechnet, bildet im Falle einer symmetrischen, positiv definiten Matrix A ∈ R N×N die Abbildung · , · A ein Skalarprodukt auf R N , und || · ||A stellt offensichtlich die zugehörige Norm dar; diese bezeichnet man als A Norm. ( 3 ) Aufgrund der Natur des Ansatzes des orthogonalen Residuums erhält man Fehlerabschät-

zungen zunächst nur bezüglich der A Norm. Fehlerabschätzungen bezüglich der natürlicheren ¨ von Normen hergeleitet. euklidischen Norm || · ||2 werden dann noch u¨ ber die Aquivalenz Das folgende Resultat liefert für den Ansatz des orthogonalen Residuums neben Existenz und Eindeutigkeit auch eine Minimaleigenschaft, mit der zu einem späteren Zeitpunkt5 noch konkrete Fehlerabschätzungen hergeleitet werden. Theorem 11.5 Zu gegebener symmetrischer, positiv definiter Matrix A ∈ R N×N sind für n = 1, 2, . . . die Vektoren xn aus dem Ansatz des orthogonalen Residuums (11.2) – mit allgemeinen Ansatzräumen Dn entsprechend (11.1) – eindeutig bestimmt, und es gilt ||xn − x∗ ||A

=

min ||x − x∗ ||A ,

n = 1, 2, . . . .

x∈Dn

(11.4)

B EWEIS . Bei fest gewähltem Index n betrachtet man für den Nachweis der Eindeutigkeit zwei Vektoren xn , x n mit der Eigenschaft (11.2). Hier gilt A( xn − x n ) , xn − x n 2 ⊥ ∈ Dn

=

0

;

xn = x n .

∈ Dn

Für den Nachweis der Existenz setzt man mit einer beliebigen Basis d0 , d1 , . . . , dm−1 von Dn (mit m := dimDn ) wie folgt an, xn =

m−1 k=0

5

siehe Abschnitt 11.4

αk dk

(11.5)

288

Kapitel 11

CG – und GMRES – Verfahren

und erhält damit xn genügt (11.2) ⇐⇒ ⇐⇒

⇐⇒

Axn − b ∈ Dn⊥

(11.6)

Axn − b, dj 2 = 0 m−1

für j = 0, 1, . . . , m − 1,

Adk , dj 2 αk = b, dj 2

......

,

(11.7)

k=0

was ein lineares System von m Gleichungen für die m Koeffizienten α0 , . . . , αm−1 darstellt. Infolgedessen und aufgrund der Eindeutigkeit der Lösung – diese wurde im ersten Teil dieses Beweises bereits nachgewiesen – ist dieses Gleichungssystem also lösbar. Schließlich ist noch die Minimaleigenschaft (11.4) nachzuweisen. Hierzu berechnet man für einen beliebigen Vektor x ∈ Dn Folgendes, ||x − x∗ ||2A = ||xn − x∗ + x − xn ||2A =0

2 = ||xn − x∗ ||A + 2 A(xn − x∗ ) , x − xn 2 + ||x − xn ||2A

≥ ||xn − x∗ ||2A .

⊥ ∈ Dn

∈ Dn

Dies komplettiert den Beweis des Theorems.

11.2.2 Der Ansatz des orthogonalen Residuums (11.2) fur ¨ gegebene A– konjugierte Basen Mit dem Beweis von Theorem 11.5 ist bereits eine Möglichkeit zur Durchführung des Ansatzes des orthogonalen Residuums vorgestellt worden; ausgehend von einer Basis d0 , . . . , dm−1 für Dn hat man nur das durch den Ansatz (11.5) entstehende Gleichungssystem (11.7) zu lösen. Im Folgenden soll ein Spezialfall behandelt werden, bei dem dieses Gleichungssystem (11.7) von Diagonalgestalt ist. Definition 11.6 Es sei A ∈ R N×N eine symmetrische, positiv definite Matrix. Gegebene Vektoren d0 , d1 , . . . , dn∗ −1 ∈ R N \{0} mit n∗ ≤ N heißen A konjugiert, falls Folgendes gilt, Adk , dj 2 = 0

für k = j.

Bemerkung 11.7 A-Konjugiertheit ist also gleichbedeutend mit paarweiser Orthogonalität be züglich des Skalarprodukts · , · A . Unter Fortführung des Ansatzes (11.5) (11.7) lässt sich im Falle symmetrischer positiv definiter Matrizen A ∈ R N×N der Ansatz des orthogonalen Residuums (11.2) besonders einfach verwirklichen, falls eine A konjugierte Basis von Dn gegeben ist. Genauer gilt Folgendes: Theorem 11.8 Für eine gegebene symmetrische, positiv definite Matrix A ∈ R N×N und A konjugierte Vektoren d0 , d1 , . . . , dn∗ −1 ∈ R N \{0} mit n∗ ≤ N gelte . n = 0, 1, . . . , n∗ . Dn = span d0 , d1 , . . . , dn−1 ,

Abschnitt 11.2

289

Der Ansatz des orthogonalen Residuums

Dann erhält man für den Ansatz des orthogonalen Residuums (11.2) die folgenden Darstellungen für n = 1, 2, . . . , n∗ : xn =

n−1

αk dk ,

mit αk = −

k=0

rk , d k 2 , Adk , dk 2

rk := Axk − b,

(11.8) k ≥ 1,

r0 := −b. (11.9)

B EWEIS . Aus der Vorgehensweise des Ansatzes (11.5) (11.7) (mit m = n) im Beweis von Theorem 11.5 erhält man im Fall der nun vorliegenden A Konjugiertheit zunächst Folgendes, xn =

n−1

mit αk :=

αk dk ,

k=0

b, dk 2 Adk , dk 2

( n = 1, 2, . . . , n∗ ), (11.10)

und die Zahl αk in (11.10) stimmt mit der aus (11.8) u¨ berein, was für k = 0 klar ist und für k ≥ 1 so folgt: b − Axn , dn 2 = b, dn 2 − = −rn

n−1 k=0

αk Adk , dn 2 = b, dn 2 ,

= 0

n = 0, 1, . . . , n∗ .

Dies komplettiert den Beweis. Bemerkung 11.9 (a) Der Darstellung (11.8) entnimmt man, dass die Zahl αk unabhängig von n ist und somit Folgendes gilt, xn+1 = xn + αn dn ,

rn+1 = rn + αn Adn

(n = 0, . . . , n∗ − 1;

x0 := 0), (11.11)

womit sich die Durchführung des Verfahrens (11.8) weiter vereinfacht. Man beachte, dass die Berechnung des Matrix Vektor Produkts Adn für die Bestimmung von αn sowieso erforderlich ist, und mittels (11.11) erhält man dann das Residuum rn+1 auf einfache Weise, also ohne Berechnung eines weiteren Matrix Vektor Produkts. (Die meisten Abbruchkriterien basieren auf den Werten des Residuums, weshalb dieses von Bedeutung ist.) (b) Aufgrund der ersten Identität in (11.11) bezeichnet man den Vektor dn als Suchrichtung, und die Zahl αn wird als Schrittweite bezeichnet. Diese Bezeichnungsweise verwendet man im ¨ Ubrigen auch bei anderen Verfahren der Form (11.11). (c) Ebenfalls mit der ersten Identität in (11.11) wird klar, das im Prinzip eine simultane Berechnung der Suchrichtungen und Approximationen in der Reihenfolge d0 , x1 , d1 , x2 , . . . möglich ist. In der Praxis wird im Fall Dn = Kn ( A, b ) auch so vorgegangen. Einzelheiten werden im nachfolgenden Abschnitt 11.3 behandelt. (d) Für vorgegebene Suchrichtungen in der Vorschrift (11.11) sind die Schrittweiten aus (11.8) optimal in dem folgenden Sinne, ||xn+1 − x∗ ||A

=

min ||xn + tdn − x∗ ||A . t∈R

Der Nachweis dafür ist elementar und wird hier nicht geführt.

290

Kapitel 11

CG – und GMRES – Verfahren

11.3 Das CG–Verfahren fur ¨ positiv definite Matrizen 11.3.1 Einleitende Bemerkungen Für den Ansatz des orthogonalen Residuums sollen im Folgenden nun speziell Krylovräume als Ansatzräume herangezogen werden. Definition 11.10 Zu gegebener symmetrischer, positiv definiter Matrix A ∈ R N×N ist das Verfahren der konjugierten Gradienten gegeben durch Ansatz (11.2) mit der speziellen Wahl Dn = Kn ( A, b ),

n = 0, 1, . . . .

(11.12)

Dieses Verfahren bezeichnet man auch kurz als CG Verfahren, wobei die Notation “CG“ von der englischen Bezeichnung “method of conjugate gradients“ herrührt. Der Grund für die Bezeichnungsweise “konjugierte Gradienten“ wird später geliefert6 . Für die praktische Durchführung des CG Verfahrens liefert Theorem 11.8 einen ersten Ansatz. Die noch ausstehende Konstruktion A konjugierter Suchrichtungen in dem Raum Kn ( A, b ) ist das Thema des folgenden Abschnitts 11.3.2.

11.3.2 Die Berechnung A– konjugierter Suchrichtungen in Kn ( A, b ) Das folgende Lemma behandelt die Berechnung A konjugierter Suchrichtungen in Kn ( A, b ) für n = 0, 1, . . . . Ausgehend von den Notationen aus Theorem 11.8 wird für jetzt fixierten Index n dabei so vorgegangen, dass – ausgehend von einer bereits konstruierten A konjugierten Basis d0 , . . . , dn−1 für Kn ( A, b ) – eine A konjugierte Basis für Kn+1 ( A, b ) gewonnen wird durch eine Gram Schmidt Orthogonalisierung der Vektoren d0 , . . . , dn−1, −rn ∈ R N bezüglich des Skalarprodukts · , · A . Wie sich im Beweis von Lemma 11.11 herausstellt, genügt hierfür eine Gram Schmidt Orthogonalisierung der beiden Vektoren dn−1, −rn ∈ R N . Lemma 11.11 Zu gegebener symmetrischer, positiv definiter Matrix A ∈ R N×N und mit den Notationen aus Theorem 11.8 seien die Suchrichtungen speziell wie folgt gewählt: d0 := b sowie dn := −rn + βn−1 dn−1,

βn−1 :=

Arn , dn−1 2 , Adn−1 , dn−1 2

n = 1, 2, . . . , n∗ − 1, (11.13)

wobei n∗ den ersten Index mit rn∗ = 0 bezeichnet. Mit dieser Wahl sind die Vektoren d0 , d1 , . . . , dn∗ −1 ∈ R N A konjugiert und es gilt . . span d0 , . . . , dn−1 = span b, r1 , r2 , . . . , rn−1 = Kn ( A, b ),

6

siehe Bemerkung 11.15

n = 1, 2, . . . , n∗ . (11.14)

Abschnitt 11.3

291

Das CG – Verfahren für positiv definite Matrizen

B EWEIS . Mittels vollständiger Induktion u¨ ber n = 1, 2, . . . , n∗ werden sowohl die A Konjugiertheit der Vektoren d0 , d1 , . . . , dn−1 ∈ R N als auch die beiden Identitäten in (11.14) nachgewiesen. Wegen span {d0 }

=

span {b}

=

K1 ( A, b )

ist der Induktionsanfang klar, und im Folgenden sei angenommen, dass die Vorschrift (11.13) ein System d0 = b, d1 , d2 , . . . , dn−1 von A konjugierten Vektoren mit der Eigenschaft (11.14) liefert mit einem fixierten Index 1 ≤ n ≤ n∗ − 1. Gemäß (11.2) gilt rn ∈ Kn ( A, b )⊥ , und im Fall rn = 0 sind demnach die Vektoren d0 , . . . , dn−1, −rn linear unabhängig. Eine Gram Schmidt Orthogonalisierung dieser Vektoren bezüglich des Skalarprodukts · , · A liefert den Vektor dn := −rn +

n−1 k=0

Arn , dk 2 d Adk , dk 2 k

(∗)

=

−rn + βn−1 dn−1 ,

(11.15)

wobei man die Identität (∗) aus den Eigenschaften A(Kn−1 ( A, b ) ) ⊂ Kn ( A, b ) sowie rn ∈ Kn ( A, b )⊥ erschließt: Arn , dk 2

=

rn , Adk 2

=

0,

k = 0, 1, . . . , n − 2.

Nach Konstruktion sind die Vektoren d0 , . . . , dn−1, dn A konjugiert und es gilt span {d0 , . . . , dn−1 , dn } = span {b, r1 , r2 , . . . , rn }. Aufgrund der zweiten Identität in (11.11) gilt zudem span {b, r1 , r2 , . . . , rn } ⊂ Kn+1 ( A, b ), so dass aus Dimensionsgründen auch hier notwendigerweise Gleichheit vorliegt. Dies komplettiert den Beweis des Lemmas. Bemerkung 11.12 Mit dem durch Lemma 11.11 beschriebenen Abbruch wird gleichzeitig die Lösung des Gleichungssystems Ax = b geliefert, es gilt also xn∗ = x∗ . Dabei gilt notwendigerweise n∗ ≤ N, denn aufgrund der linearen Unabhängigkeit der beiden Vektorsysteme in (11.14) erhält man dim Kn ( A, b ) = n für n = 0, 1, . . . , n∗ . Als unmittelbare Konsequenz aus dem Beweis von Lemma 11.11 erhält man für die Schrittweiten noch die folgende Darstellung, wie man sie u¨ blicherweise auch in numerischen Implementierungen verwendet: Lemma 11.13 In der Situation von Lemma 11.11 gelten die Darstellungen αn = βn−1 =

||rn ||22 , Adn , dn 2 ||rn ||22 , ||rn−1 ||22

n = 0, 1, . . . , n∗ − 1, n = 1, 2, . . . , n∗ − 1

( r0 := −b ).

(11.16) (11.17)

292

Kapitel 11

CG – und GMRES – Verfahren

B EWEIS . Mit rn ∈ Kn ( A, b )⊥ sowie der Setzung (11.13) für die Suchrichtung dn erhält man − rn , dn 2 = ||rn ||22, und zusammen mit (11.8) liefert dies (11.16). Diese Darstellung (11.16) für αn zusammen mit der Identität7 rn = rn−1 + αn−1 Adn−1 liefert schließlich Folgendes, ||rn ||22

=

rn , rn−1 2 + αn−1 rn , Adn−1 2

= 0

=

βn−1 ||rn−1 ||22 ,

und daher gilt auch die angegebene Darstellung (11.17) für βn−1 . Dies komplettiert den Beweis des Lemmas.

11.3.3 Der Algorithmus zum CG– Verfahren Trägt man die Resultate aus Theorem 11.8, Darstellung (11.11), Lemma 11.11 sowie Lemma 11.13 zusammen, so ergibt sich der folgende Algorithmus für das Verfahren der konjugierten Gradienten. Algorithmus 11.14 Schritt 0: Setze r0 = −b. Für n = 0, 1, . . . : (a) Wenn rn = 0, so Abbruch, n = n∗ . (b) Wenn andererseits rn = 0, so verfahre man in Schritt n + 1 wie folgt, 1 dn =

−rn + βn−1 dn−1,

βn−1

=

−r0 ,

xn+1 = xn + αn dn ,

αn

|| rn ||22 , || rn−1 ||22

=

|| rn ||22

wenn

n≥1

wenn

n = 0

Adn , dn 2

rn+1 = rn + αn Adn .

,

Bemerkung 11.15 Die in Definition 11.10 eingeführte Bezeichnung “Verfahren der konjugierten Gradienten“ hat ihre Ursache in den beiden folgenden Eigenschaften: •

Für jeden Index n ist das Residuum rn identisch mit dem Gradienten des Energiefunktionals J ( x ) = 12 Ax, x 2 − x, b 2 an der Stelle xn , es gilt also rn = ∇J ( xn ); siehe hierzu Aufgabe 11.2.

•

Es gilt rn , rk 2 = 0

für n = k.

Dies folgt unmittelbar aus den Eigenschaften (11.2) sowie (11.14). 7

vergleiche (11.11)

Abschnitt 11.4

293

Die Konvergenzgeschwindigkeit des CG – Verfahrens

11.4 Die Konvergenzgeschwindigkeit des CG–Verfahrens Mit Bemerkung 11.12 wird klar, dass das CG Verfahren als direktes Verfahren interpretiert werden kann, das nach endlich vielen Schritten die exakte Lösung von Ax = b liefert, xn∗ = x∗ . Aufgrund der eingangs von Abschnitt 10 angestellten Bemerkungen sind jedoch auch die Approximationseigenschaften der Iterierten x1 , x2 , . . . von Interesse. Aus diesem Grund werden in dem vorliegenden Abschnitt ausgehend von der Optimalitätseigenschaft (11.4) konkrete Fehlerabschätzungen für das Verfahren der konjugierten Gradienten hergeleitet. Hierbei ist das folgende Lemma nützlich. Lemma 11.16 Zu einer gegebenen symmetrischen, positiv definiten Matrix A ∈ R N×N sei ( λk , vk )k=1,...,N ein vollständiges System von (positiven) Eigenwerten λk > 0 und zugehörigen orthonormalen Eigenvektoren vk ∈ R N , es liegt also folgende Situation vor: vjvk = δjk ,

Avk = λk vk , Mit der Entwicklung x = lungen: p( A ) x =

N

N

k=1 ck vk

∈ R N gelten für jedes Polynom p die folgenden Darstel-

ck p( λk )vk ,

k=1

||p( A )x||2 =

j, k = 1, 2, . . . , N.

N

c2k p( λk )2

1/2

||p( A )x||A

,

=

N

k=1

c2k λk p( λk )2

1/2 .

k=1

Insbesondere gilt also m1/2 ||x||2 ≤ ||x||A ≤ M 1/2 ||x||2 ,

⎛

x ∈ RN

⎝

m := min λk , k=1,...,N

M := max λk

⎞ . (11.18) ⎠

k=1,...,N

B EWEIS . Mit der angegebenen Entwicklung für x ∈ R N bezüglich der vorgegebenen Basis erhält man unmittelbar Folgendes, Aν x =

N

ck λνk vk ,

ν = 0, 1, . . .,

k=1

und daraus folgt die erste Identität des Lemmas. Weiter berechnet man ||p( A )x||2 =

4 4 N j=1

=

N

cj p( λj ) vj ,

N

ck p( λk ) vk

5 51/2

k=1

cj ck p( λj ) p( λk ) vj , vk 2 j,k=1 = δjk

2

1/2

=

N k=1

c2k p( λk )2

1/2 ,

294

Kapitel 11

CG – und GMRES – Verfahren

und analog erhält man ||p( A )x||A =

5 51/2 4 4 N N A cj p( λj )vj , ck p( λk ) vk j=1

=

4 4 N

cj λj p( λj ) vj ,

j=1

=

2

k=1 N

ck p( λk ) vk

5 51/2

k=1

N

cj ck λj p( λj ) p( λk ) vj , vk 2 j,k=1

2

1/2

=

N

c2k λk p( λk )2

1/2 .

k=1

= δjk

Den ersten Schritt auf dem Weg zur Herleitung spezieller Abschätzungen für ||xn − x∗ ||A liefert das folgende Theorem. Theorem 11.17 Zu einer gegebenen symmetrischen, positiv definiten Matrix A ∈ R N×N gelten für das CG Verfahren die folgenden Fehlerabschätzungen: ||xn − x∗ ||A ≤ inf sup |p( λ ) | ||x∗ ||A für n = 0, 1, . . . , n∗ . p∈Πn , p( 0)=1

λ∈σ( A )

B EWEIS . Für jedes Polynom p ∈ Πn mit p( 0 ) = 1 ist q ( t ) := (1 − p( t ) )/t ein Polynom vom Grad höchstens n − 1, und somit gilt mit der Setzung x := q ( A )b Folgendes, x ∈ Kn ( A, b ),

x − x∗ = −p( A )x∗ . N Mit Lemma 11.16 und der Entwicklung x∗ = N alt man k=1 ck vk ∈ R erh¨

||xn − x∗ ||A

≤ ||x − x∗ ||A = = ||p( A )x∗ ||A

N

c2k λk p( λk )2

1/2

k=1

≤

= ||x∗ ||A

1/2 N sup |p( λ ) | c2k λk .

λ∈σ( A )

k=1

Zur Herleitung spezieller Abschätzungen des Fehlers xn − x∗ mittels Theorem 11.17 werden im Folgenden Tschebyscheff Polynome der ersten Art herangezogen8 , die auf dem Intervall [ –1, 1 ] die Darstellung Tn ( t ) = cos (n arccos t) besitzen. Das folgende Lemma wird für die Herleitung der genannten speziellen Fehlerabschätzungen benötigt: Lemma 11.18 Für die Tschebyscheff Polynome der ersten Art T0 , T1 , . . . gilt

/ / 1 (t + t2 − 1)n + (t − t2 − 1)n für t ∈ R, Tn ( t ) = 2

κ+1 Tn κ − 1 ≥ 8

√ 1 κ + 1 n √ 2 κ−1

vergleiche Definition 1.22

für κ ∈ R,

κ > 1.

|t| ≥ 1, (11.19)

Abschnitt 11.4

295

Die Konvergenzgeschwindigkeit des CG – Verfahrens

B EWEIS . Auf dem Intervall [ –1, 1 ] besitzt Tn die folgende Darstellung, t=: cos θ

=

Tn ( t )

cos nθ

=

1 inθ e + e−inθ 2

=

1 ( cos θ + isin θ )n + ( cos θ − isin θ )n 2

=

1 (t + i 2

/

/ n

1 − t2 )n + t − i 1 − t2

=: p( t )

mit t ∈ [ –1, 1 ].

(11.20)

Die nachfolgende Darstellung zeigt, dass die in (11.20) definierte Funktion p( t ) ein Polynom (vom Höchstgrad n) darstellt, p( t )

=

n 1 n n−j j i j t 2 j=0

(

/

= 0 für j/2 ∈ N0

1 − t2 )j (1 + ( –1 )j ) ,

t ∈ R.

∈ Πj für j/2 ∈ N0

Zusammenfassend lässt sich feststellen, dass Tn und p zwei Polynome darstellen, die auf dem Intervall [ –1, 1 ] u¨ bereinstimmen, daher gilt notwendigerweise auch Tn ( t ) = p( t )

für t ∈ R.

Die im Lemma angegebene Darstellung von Tn ( t ) für |t| ≥ 1 folgt dann unmittelbar aus der √ √ Identität i 1 − t2 = t2 − 1. Für den Nachweis der Ungleichung (11.19) berechnet man für κ ≥ 1 / 6 κ+1 κ + 1 ± ( κ + 1 )2 − ( κ − 1 )2 κ + 1 2 −1 = ± κ−1 κ−1 κ−1 √ √ 2 ( κ ± 1) κ ± 1 = , = √ κ−1 κ ∓ 1 und daraus resultiert die Behauptung, √κ − 1 n

√κ + 1 n κ+1 1 Tn κ − 1 + √ = 2 √ κ−1 κ+1

≥

=

1 2

√ κ+1 ± 2 κ κ−1

√κ + 1 n √ . κ−1

Es werden nun die Resultate für die Konvergenzgeschwindigkeit des Verfahrens der konjugierten Gradienten vorgestellt. Theorem 11.19 Zu einer gegebenen symmetrischen, positiv definiten Matrix A ∈ R N×N gelten für das CG Verfahren die folgenden Fehlerabschätzungen: ||xn − x∗ ||A ≤ 2γ n ||x∗ ||A ,

n = 0, 1, . . . ,

√ ||xn − x∗ ||2 ≤ 2 κA γ n ||x∗ ||2 , mit den Notationen κA := cond2 ( A ) und γ :=

√ κ −1 √ A . κA +1

.......

296

Kapitel 11

CG – und GMRES – Verfahren

B EWEIS . Für den Nachweis der ersten Abschätzung wird im Normalfall κA > 1 Theorem 11.17 angewandt mit dem folgenden Polynom, p( λ ) :=

Tn (M + m − 2λ)/(M − m) , Tn (M + m) (M − m)

λ ∈ R,

wobei die Zahlen m und M wie schon in (11.18) den kleinsten beziehungsweise größten Eigenwert der Matrix A bezeichnen. Offensichtlich gilt p ∈ Πn und p( 0 ) = 1, wegen σ ( A ) ⊂ [ m, M ] und max |p( λ ) |

m≤λ≤M

=

M + m −1 Tn M −m

=

κA + 1 −1 Tn κA − 1

(11.19)

≤

2γ n

erhält man die erste Abschätzung des Theorems für die Situation κA > 1. (Der degenerierte Fall κA = 1 ist gleichbedeutend mit A = λI für ein λ > 0 und führt auf x1 = x∗ .) Die zweite Abschätzung des Theorems ist eine unmittelbare Konsequenz aus der ersten Abschätzung und der Normäquivalenz (11.18).

11.5 Das CG–Verfahren fur ¨ die Normalgleichungen Ist das reguläre lineare Gleichungssystem Ax = b symmetrisch indefinit oder aber nichtsymmetrisch, so kann man zu den Normalgleichungen AAx = Ab u¨ bergehen und hierauf das klassische CG Verfahren anwenden. Diesen Ansatz bezeichnet man als CGNR Verfahren. Bemerkung 11.20 (a) Als unmittelbare Konsequenz aus Theorem 11.5 ergibt sich für die Iterierten des CGNR Verfahrens die Minimaleigenschaft ||Axn − b||2

=

min

x∈K n (AA,Ab)

||Ax − b||2 .

(11.21)

Diese Eigenschaft (11.21) begründet den Buchstaben “R“ in der Notation CGNR, da in dieser Variante das Residuum minimiert wird, und der Buchstabe “N“ steht für “Normalgleichungen“. Aufgrund der Eigenschaft (11.21) ist auch unmittelbar klar, dass das CGNR Verfahren für die spezielle Wahl Dn = K n ( AA, Ab ), n = 0, 1, . . ., mit dem Ansatz des minimalen Residuums (11.3) u¨ bereinstimmt. (b) Einen Algorithmus zur Bestimmung der Iterierten des CGNR Verfahrens erhält man durch ¨ Ubertragung des Algorithmus 11.14 angewandt auf die Normalgleichungen AAx = Ab. Dabei sind in jedem Iterationsschritt zwei Matrix Vektor Multiplikationen erforderlich (zur Berechnung von Adn und AAdn ). Man beachte, dass die numerisch kostspielige Berechnung der Matrix AA dafür nicht erforderlich ist.

Abschnitt 11.6

297

Arnoldi– Prozess

(c) Als Konsequenz aus Theorem 11.19 erhält man für das CGNR Verfahren die folgenden Fehlerabschätzungen: ||Axn − b||2 ≤ 2γ n ||b||2 ,

n = 0, 1, . . . ,

||xn − x∗ ||2 ≤ 2κA γ n ||x∗ ||,

......

κ −1

mit den Notationen κA := cond2 ( A ) und γ := A . Man beachte, dass die in Theorem κA + 1 √ 11.19 auftretenden Größen κA hier durch κA ersetzt werden mussten, was sich bei schlecht konditionierten Problemen (κA 1) als ungünstig erweist.

11.6 Arnoldi–Prozess 11.6.1 Vorbetrachtungen zum GMRES– Verfahren Eine weitere Möglichkeit zur Lösung eines regulären linearen Gleichungssystems Ax = b mit symmetrisch indefiniter oder aber nichtsymmetrischer Matrix A ∈ R N×N liefert das GMRES Verfahren: Definition 11.21 Das GMRES Verfahren ist definiert durch den Ansatz des minimalen Residuums (11.3) mit der speziellen Wahl Dn = Kn ( A, b ), es gilt also xn ∈

Kn ( A, b ),

||Axn − b||2 =

min

x∈K n (A,b)

||Ax − b||2 ,

n = 1, 2, . . . .

(11.22)

Die Abkürzung “GMRES“ hat ihren Ursprung in der englischen Bezeichnung “generalized minimal residual method“. Ursprünglich wurde dieses Verfahren für symmetrische Matrizen A betrachtet und dabei mit MINRES bezeichnet. Für n = 1, 2, . . . ist die grundsätzliche Vorgehensweise zur Realisierung des GMRES Verfahrens folgendermaßen: (a) Mittels des gleich zu beschreibenden Arnoldi Prozesses wird bezüglich des euklidischen Skalarprodukts eine Orthogonalbasis von Kn ( A, b ) erzeugt. (b) Mittels dieser Orthogonalbasis lässt sich das Minimierungsproblem (11.22) als ein einfacheres Minimierungsproblem formulieren, das schnell gelöst werden kann. Details hierzu werden in Abschnitt 11.7 vorgestellt. Der vorliegende Abschnitt 11.6 befasst sich mit dem in (a) angesprochenen Arnoldi Prozess.

11.6.2 Arnoldi– Prozess Die Vorgehensweise beim Arnoldi Prozess ist schnell beschrieben: ausgehend von einem gegebenen normierten Vektor q1 ∈ R N wird bezüglich des klassischen Skalarprodukts ·, · 2

298

Kapitel 11

CG – und GMRES – Verfahren

eine Folge paarweise orthonormaler Vektoren q1 , q2 , . . . generiert durch Gram Schmidt Orthogonalisierung der Vektoren q1 , Aq1 , Aq2 , . . .9 . Der folgende Algorithmus beschreibt die genaue Vorgehensweise. Algorithmus 11.22 (Arnoldi Prozess) Ausgehend von einem gegebenem Vektor 0 = b ∈ R N setzt man q1 = b/||b||2 ∈ R N und geht folgendermaßen vor für n = 1, 2, . . . : (a) (Orthogonalisierung) Man setzt hjn := ( Aqn )qj ∈ R, qn+1 := Aqn −

n

j = 1, 2, . . . , n,

(11.23)

hjn qj ∈ R N .

(11.24)

j=1

(b) (Normierung) Im Fall qn+1 = 0 bricht der Prozess ab; der Abbruchindex wird mit n∗ = n bezeichnet. Wenn andererseits qn+1 = 0 gilt, so setzt man hn+1,n := || qn+1 ||2 ∈ R,

qn+1 :=

1 q ∈ RN . || qn+1 ||2 n+1

(11.25)

Bemerkung 11.23 (a) Der Arnoldi Prozess hat eine eigenständige Bedeutung und kann beispielsweise auch zur numerischen Behandlung von Eigenwertproblemen eingesetzt werden; mehr Details hierzu später10 . (b) Den Setzungen (11.23) (11.24) entnimmt man, dass der Arnoldi Prozess genau dann abbricht, wenn erstmalig Aqn ∈ span {q1 , . . . , qn } gilt. Das folgende Lemma stellt die wichtigsten Eigenschaften im Zusammenhang mit dem Arnoldi Prozess zusammen. Lemma 11.24 Die durch den Arnoldi Prozess erzeugten Vektoren q1 , q2 , . . . , qn∗ ∈ R N sind paarweise orthonormal, und es gilt . span q1 , q2 , . . . , qn

=

. span q1 , . . . , qn−1 , Aqn−1

=

Kn ( A, b )

(11.26)

für n = 1, 2, . . . , n∗ . Ist die Matrix A regulär, so gilt für die eindeutige Lösung x∗ ∈ R N des Gleichungssystems Ax = b Folgendes, x∗ ∈ Kn∗ ( A, b ).

9 10

(11.27)

Die zu orthogonalisierenden Vektoren werden also erst im Verlauf des Prozesses generiert und sind nicht von vornherein gegeben. siehe Bemerkung 11.27

Abschnitt 11.6

299

Arnoldi– Prozess

B EWEIS . Die paarweise Orthogonalität erhält man mittels vollständiger Induktion u¨ ber n (unter Verwendung von (11.23)): qj qn+1

=

1 ( Aqn )qj − hjn hn+1,n

=

0,

j = 1, 2, . . . , n, n = 1, 2, . . . , n∗ − 1.

Schließlich gewährleistet die Setzung (11.25) die Eigenschaft ||qn+1 ||2 = 1. Die beiden Identitäten in (11.26) sollen nun mit vollständiger Induktion u¨ ber n nachgewiesen werden. Wegen q1 = b/||b||2 ist die Behauptung richtig für n = 1, und es wird nun der Induktionsschritt 1 ≤ n−1 → n ≤ n∗ geführt. Aufgrund von n ≤ n∗ sind die Vektoren q1 , . . . , qn−1 , Aqn−1 ∈ R N linear unabhängig, so dass nach Konstruktion die erste Identität in (11.26) richtig ist. Die zweite Identität in (11.26) erhält man so: die Relation “⊂“ folgt aus Aqn−1 ∈ A(Kn−1 ( A, b ) ) ⊂ Kn ( A, b ); die Identität “=“ ergibt sich dann aus Dimensionsgründen: n = dim span {q1 , . . . , qn−1 , Aqn−1 }

≤

dim Kn ( A, b ) ≤ n.

Die Aussage in (11.27) erhält man so: nach Definition von n∗ in Algorithmus 11.22 gilt Aqn∗ ∈ span {q1 , . . . , qn∗ } = Kn∗ ( A, b ), und per Konstruktion gilt Aqj ∈ Kj+1( A, b ) ⊂ Kn∗ ( A, b ),

j = 1, 2, . . . , n∗ − 1,

so dass insgesamt A(Kn∗ ( A, b ) ) ⊂ Kn∗ ( A, b ) gilt beziehungsweise aus Dimensionsgründen die Abbildung A : Kn∗ ( A, b ) → Kn∗ ( A, b ) bijektiv ist, und wegen b ∈ Kn∗ ( A, b ) gilt dann – wie in (11.27) angegeben – notwendigerweise auch x∗ ∈ Kn∗ ( A, b ). Dies komplettiert den Beweis. Bemerkung 11.25 (a) Mit der Aussage (11.26) wird klar, dass dim Kn ( A, b ) = n für n = 1, 2, . . . , n∗ gilt. Einige weitere Eigenschaften von Krylovräumen werden zu einem späteren Zeitpunkt vorgestellt11 . Der Arnoldi Prozess bricht also notwendigerweise nach höchstens N Schritten ab, n∗ ≤ N. (b) In Schritt n des Arnoldi Prozesses sind 2N ( N − 1 ) arithmetische Operationen zur Berechnung von Aqn erforderlich. Zudem fallen noch ( 3 + 2n )N arithmetische Operationen zur Bestimmung von hjn ∈ R, j = 1, . . . , n + 1 und qn+1 ∈ R N an. Im Fall n∗ = N ergeben sich insgesamt 3N 3 + O(N 2 ) arithmetische Operationen. (c) Ist die Matrix A symmetrisch, A = A, so gilt für j ≤ n − 2 die Identität hjn = qnAqj = 0 aufgrund der Eigenschaften Aqj ∈ Kj+1 ( A, b ) ⊂ Kn−1 ( A, b ) und qn ∈ Kn ( A, b )⊥ . Die Gram Schmidt Orthogonalisierung (11.23) (11.24) geht hier also u¨ ber in eine Drei Term Rekursion (das heißt, für die Berechnung von qn+1 werden nur qn und qn−1 benötigt): qn+1 := Aqn − hnn qn − hn−1,n qn−1 ,

n = 1, 2, . . . , n∗ .

Diesen Spezialfall für den Arnoldi Prozess bezeichnet man als Lanczos Prozess. 11

siehe Lemma 11.31

300

Kapitel 11

CG – und GMRES – Verfahren

Matrixversion des Arnoldi– Prozesses Für die weiteren Anwendungen ist die folgende Matrixversion des Arnoldi Prozesses von Bedeutung. Theorem 11.26 Für eine gegebene Matrix A ∈ R N×N und einen Vektor 0 = b ∈ R N gelten mit den Notationen aus dem Arnoldi Prozess die folgenden Identitäten: ⎛

⎞

⎞

⎛

⎟ ⎟ ⎜ ⎜ ⎜ ⎟ ⎟ ⎜ ⎜ ⎟ ⎟ ⎜ ⎜ ⎟ ⎟ ⎜ ⎜ ⎟ ⎟ ⎜ A ⎜q . . . q ⎟ = ⎜q . . . q ⎟ n⎟ n+1 ⎟ ⎜ 1 ⎜ 1 ⎟ ⎟ ⎜ ⎜ ⎟ ⎟ ⎜ ⎜ ⎠ ⎠ ⎝ ⎝

=: Qn ∈ R N×n

⎛

⎞ h11 p p p

⎜ ⎜ ⎜ h21 p p p ⎜ ⎜ pp ⎜ p ⎝

h1n p pp

hnn

⎟ ⎟ ⎟ ⎟, ⎟ ⎟ ⎠

n = 1, . . . , n∗ − 1, (11.28)

hn+1,n

=: Hn ∈ R (n+1)×n

beziehungsweise im letzten Schritt ⎛

⎛

⎞

⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ A ⎜q . . . q ⎟ n∗ ⎟ ⎜ 1 ⎜ ⎟ ⎜ ⎟ ⎠ ⎝

=

=: Qn∗ ∈ R N×n∗

⎞

⎛ ⎞ ⎜ ⎟ h11 p p p ppp h1n∗ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎜ ⎟ ⎜h p p p ppp ⎟ ⎟ 21 ⎜ ⎟ ⎟. ⎜ q1 . . . qn ⎟ ⎜ ⎜ p p p ∗ ⎜ ⎟ ⎜ pp ⎟ pp pp ⎟ ⎜ ⎟ ⎝ ⎠ ⎜ ⎟ ⎝ ⎠ hn∗ ,n∗ −1 hn∗ n∗

=: Hn∗ ∈ R n∗×n∗

(11.29)

B EWEIS . Es genügt der Nachweis von (11.29), da die Matrixprodukte in (11.28) für n = 1, . . . , n∗ − 1 jeweils gerade die ersten n Spalten der beiden Matrixprodukte von (11.29) darstel len. Ein Vergleich der n∗ Spalten der Matrixprodukte in (11.29) führt auf Aqn = n+1 j=1 hjn qj beziehungsweise hn+1,n qn+1

=

Aqn −

n

hjn qj ,

n = 1, 2, . . . , n∗ − 1,

j=1

sowie auf Aqn∗ = noldi Prozesses.

n∗

j=1 hjn∗ qj .

Dies entspricht genau den Setzungen (11.23) (11.25) des Ar-

Bemerkung 11.27 (a) In Kurzform bedeuten die Darstellungen (11.28) (11.29) Folgendes, AQn = Qn+1 Hn

(n = 1, 2, . . . , n∗ − 1),

AQn∗ = Qn∗ Hn∗ .

(11.30)

Abschnitt 11.7

301

GMRES auf der Basis des Arnoldi– Prozesses

(b) Bricht der Arnoldi Prozess nicht vorzeitig ab, gilt also n∗ = N, so erhält man eine Faktorisierung der Form ⎛

⎞ h11

Q N AQN

=

⎜ ⎜ ⎜ ⎜ h21 ⎜ ⎜ ⎜ ⎜ ⎝

ppp pp pp

ppp

h1N

⎟ ⎟ ⎟ ⎟ ⎟ ∈ R N×N , pp ⎟ p ⎟ ⎟ ⎠

p pp

p pp

p

p

hN,N −1

−1 N ×N Q , N = QN ∈ R

hN N

¨ so dass die Matrix A durch orthogonale Ahnlichkeitstransformationen auf obere Hessenbergform gebracht worden ist, das heißt, die resultierende Matrix unterscheidet sich von einer oberen Dreiecksmatrix lediglich durch die nichtverschwindenden Einträge auf der unteren Nebendiagonalen; eine solche Matrix bezeichnet man als Hessenbergmatrix. Eine Hessenbergform ist bei der numerischen Behandlung von Eigenwertproblemen von Vorteil, siehe Kapitel 13; dort ¨ werden auch andere orthogonale Ahnlichkeitstransformationen (Householder Transformatio nen, Givens Rotationen) zur Gewinnung einer Hessenbergform vorgestellt.

11.7 Realisierung von GMRES auf der Basis des Arnoldi– Prozesses 11.7.1 Einfuhrende ¨ Bemerkungen Im Folgenden wird eine Methode zur Umsetzung des GMRES Verfahrens vorgestellt, die die durch den Arnoldi Prozess generierten Orthogonalbasen der Krylovräume K1 ( A, b ), K2 ( A, b ), . . . verwendet. Theorem 11.28 Mit den Notationen aus dem Arnoldi Prozess gelten für die Vektoren x1 , x2 , . . . ∈ R N aus dem GMRES Verfahren genau dann die Darstellungen xn = Qn zn ,

n = 1, 2, . . . , n∗ ,

(11.31)

wenn für n = 1, 2, . . . , n∗ der Vektor zn ∈ R n das folgende Minimierungsproblem löst, ⎞ ||b||2 ⎜ 0 ⎟ := ⎝ pp ⎠ ∈ R min{n+1,n∗ } . p ⎛

||Hn z − cn ||2 → min

für z ∈ R n ,

mit cn

(11.32)

0 B EWEIS . Für jeden Index n ≤ n∗ − 1 und jeden Vektor z ∈ R n gilt ||AQn z − b||2

=

Qn+1 Hn z − Qn+1 cn 2

=

||Hn z − cn ||2 ,

(11.33)

302

Kapitel 11

CG – und GMRES – Verfahren

wobei die Norm || · ||2 in (11.33) die ersten beiden Male auf R N und und im dritten Fall auf R n+1 operiert; die letzte Identität in (11.33) resultiert aus der Isometrieeigenschaft ||Qn y ||2 = ||y ||2. Für den Index n = n∗ verhält sich die Situation nicht viel anders; man hat nur in dem mittleren Ausdruck von (11.33) die beiden auftretenden Indizes n + 1 jeweils durch n zu ersetzen.

11.7.2 Allgemeine Vorgehensweise zur Lösung des Minimierungsproblems (11.32) Im vorigen Abschnitt 11.7.1 ist auf der Basis des Arnoldi Prozesses das Problem der Bestimmung der Approximationen x1 , x2 , . . . ∈ R N des GMRES Verfahrens reduziert worden auf die Lösung des linearen Ausgleichsproblems (11.32). Im Folgenden wird dargestellt, wie man die dabei auftretende Matrix Hn mit oberer Hessenbergstruktur schnell in eine orthogonale Matrix und eine verallgemeinerte obere Dreiecksmatrix von der folgenden Form faktorisiert: •

Für n = 1, 2, . . . , n∗ − 1 bestimmt man sukzessive Faktorisierungen der Form ⎛

⎜ ⎜ Hn = Tn ⎜ ⎜ ⎝

⎞ Rn

⎛

⎟ ⎟ ⎟, ⎟ ⎠

Tn ∈ R (n+1)×( n+1) ,

0

⎜ Rn = ⎜ ⎝

∗ ppp ∗

⎞

p⎟ n×n p pp ⎟ ⎠ ∈ R ,

pp

0 ∈ Rn .

∗

Tn−1 = Tn,

(11.34)

Nach der Bestimmung solcher Faktorisierungen kann das jeweilige Ausgleichsproblem (11.32) unmittelbar gelöst werden durch die Auflösung des folgenden gestaffelten Gleichungssystems:12 ⎛ ⎞ Rn z = y ∈ R n ,

mit

⎛

⎞ ||b||2 ⎜y ⎟ ⎜ 0 ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ := Tn ⎜ pp ⎟ ∈ R n+1 ⎝ ⎠ ⎝ p ⎠ 0 ∗

(n = 1, 2, . . . , n∗ − 1).

Für den Index n = n∗ verhält sich die Situation nur geringfügig anders. Hier bestimmt man eine Faktorisierung der Form •

⎛ Hn∗ = Tn∗ Rn∗ ,

Tn∗ ∈ R n∗×n∗ , Tn−1 = Tn∗ , ∗

⎜ Rn∗ = ⎜ ⎝

∗ ppp ∗ pp

p

p pp

⎞ ⎟ ⎟ ∈ R n∗×n∗ , ⎠

(11.35)

∗

und die Lösung des linearen Ausgleichsproblems (11.32) (die in dieser Situation gleichzeitig die Lösung von Ax = b darstellt) kann dann leicht u¨ ber das folgende gestaffelte Gleichungssystem bestimmt werden, 12

Eine einführende Behandlung dieser Vorgehensweise finden Sie in Abschnitt 4.8.5.

Abschnitt 11.7

303

GMRES auf der Basis des Arnoldi– Prozesses

⎛

⎞ ||b||2 ⎜ 0 ⎟ ⎜ ⎟ Rn∗ z = Tn∗ ⎜ pp ⎟ ∈ R n∗ . ⎝ p ⎠ 0 Im folgenden Abschnitt 11.7.3 wird beschrieben, wie man auf effiziente Art Faktorisierungen der Form (11.34) (11.35) gewinnt.

11.7.3 Detaillierte Beschreibung der Vorgehensweise zur Lösung des Minimierungsproblems (11.32) Im Folgenden wird beschrieben, wie man für fixierten Index n ≤ n∗ ausgehend von einer Faktorisierung der Form ⎛ ⎞ Hn−1

=

⎜ ⎜ Tn−1 ⎜ ⎜ ⎝

Rn−1

⎟ ⎟ ⎟ ∈ R n×(n−1) , ⎟ ⎠

0 ∈ R n−1 ,

0 verfährt, um im Fall n ≤ n∗ − 1 eine Faktorisierung der Form (11.34) und im Fall n = n∗ eine Faktorisierung von der Gestalt (11.35) zu erhalten. Wie bisher auch soll zunächst die Situation n ≤ n∗ − 1 behandelt werden. Da die Hessenbergmatrix Hn eine einfache Erweiterung von Hn−1 darstellt, ist die folgende orthogonale Transformation von Hn naheliegend, ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ h 1n h1n ⎟ ⎜ ⎜ ⎟ ⎜ ⎟ ⎟ ⎜ ⎜ ⎟ ⎜ pp ⎟ ⎝ pp ⎠ ⎟ ⎜ ⎜ ⎟ T p Tn−1 0 ⎟ ⎜ Hn−1 p ⎟ n−1 ⎟ ⎜ ⎜ Tn−1 Hn−1 ⎟ ⎜ ⎜ ⎟ ⎜ ⎟ = ⎜ hnn ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ hnn ⎠ ⎜ ⎟ ⎜ ⎟ ⎝ ⎝ ⎝ ⎠ ⎠ 0 hn+1,n 0 1 0 hn+1,n

= Hn ⎞ ⎛ ⎛ ⎞ r1n ⎛ ⎞ r1n ⎟ ⎜ pp h1n ⎟ ⎜ p ⎟ ⎜ Rn−1 p ⎟ ⎜ ⎜ pp ⎟ ⎜ ⎟ ⎟ ⎜ ⎜ ⎟ ⎜ pp ⎟ (11.36) = ⎜ mit ⎜ ⎟ := Tn−1 ⎜ p ⎟ . rn−1,n ⎟ , ⎟ ⎜ ⎜ rn−1,n ⎟ ⎝ ⎠ ⎟ ⎜ ⎠ ⎝ 0 ∗ ⎠ ⎝ hnn ∗ 0 ∗

•

Die untere der beiden mit “ ∗“ bezeichneten Zahlen stimmt mit hn+1,n u¨ berein, was im Folgenden aber keine Rolle mehr spielt. Man beachte, dass bei dieser Transformation tatsächlich nur x) zur Berechnung des letzten Spaleine Matrix Vektor Multiplikation (von der Gestalt Tn−1 tenvektors anfällt, da die Dreiecksmatrix Rn−1 als bekannt angenommen ist. Nun ist noch der

304

Kapitel 11

CG – und GMRES – Verfahren

Vektor ( ∗, ∗ ) ∈ R 2 orthogonal in ein Vielfaches des ersten Einheitsvektors zu transformieren, ohne dabei den Rest der in (11.36) auftretenden Matrix zu verändern. Hierzu wird der Vektor w [n] ∈ R 2 , ||w [n] ||2 = 1, gemäß Lemma 4.62 auf Seite 87 so bestimmt, dass für die Householdermatrix W [ n ] = I2 − 2w [n](w [n] ) ∈ R 2×2 Folgendes gilt, ⎛ * + W [n]

∗

* =

∗

rnn 0

⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

+ bzw. a¨ quivalent

In−1

W [n]

⎛ ⎞ ⎞ ⎞⎛ r1n r1n ⎜ pp ⎟ pp ⎟ ⎟⎜ ⎜ p ⎟ p ⎟ ⎟⎜ ⎜ ⎟ ⎟ ⎟⎜ ⎜ ⎟ ⎟ ⎟ ⎜ rn−1,n ⎟ = ⎜ ⎜ rn−1,n ⎟ , ⎟⎜ ⎟ ⎜ ⎟ ⎟⎜ ⎜ ⎟ ⎠⎝ ∗ ⎟ ⎠ ⎝ rnn ⎠ 0

∗

wobei wieder Is ∈ R s×s die Einheitsmatrix bezeichnet. So hat man bereits die gewünschte Faktorisierung gewonnen, ⎛

⎞⎛

⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎝ ⎠

In−1

0

0

W [n]

⎞

⎛

⎟ ⎟ 0⎟ ⎟ ⎟ Hn ⎟ ⎟ ⎠ 1

Tn−1

0

=: Tn

⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

=

∗

⎞

ppp

∗

pp

pp p

p

∗

⎟ ⎟ ⎟ ⎟ ∈ R (n+1)×n . ⎟ ⎟ ⎠

0

Nun soll noch die Situation n = n∗ behandelt werden, die sich geringfügig von dem Fall n ≤ n∗ − 1 unterscheidet. Hier führt man die folgende Transformation aus,

•

⎛ Tn∗ −1

⎜ ⎜ ⎜ ⎝

⎞ h1n∗ Hn∗ −1

pp p

⎜ ⎜ ⎟ ⎜ ⎟ ⎟ = ⎜ ⎜ ⎠ ⎝

hn∗ n∗

= Hn∗

⎞

⎛ r1n∗ Rn∗ −1

pp p

rn∗ −1,n∗ 0

mit

⎟ ⎟ ⎟ ⎟ ⎟ ⎠

=:

Rn∗ ,

rn ∗ n ∗ ⎛ ⎛ ⎞ h1n∗ r1n∗ ⎜ ⎜ p ⎟ ⎜ pp ⎜ pp ⎟ := T p n∗ −1 ⎜ ⎝ ⎠ ⎝ rn ∗ n ∗ hn n

⎞ ⎟ ⎟ ⎟, ⎠

∗ ∗

bei der lediglich eine Matrix Vektor Multiplikation von der Art Tn∗ −1 x anfällt. Die gewünschte Faktorisierung liegt nun schon vor; eine anschließende Elimination ist hier nicht erforderlich, so dass die Wahl Tn∗ = Tn∗ −1 zum Ziel führt. Bemerkung 11.29 (a) Eine unmittelbare Folgerung aus der vorgestellten Vorgehensweise sind

Abschnitt 11.7

305

GMRES auf der Basis des Arnoldi– Prozesses

die folgenden Darstellungen, ⎛ ⎜ ⎜ Rn = ⎜ ⎝

r11

⎞

ppp

r1n

pp

p pp

p

⎟ ⎟ × ⎟ ∈ Rn n , ⎠

n = 1, 2, . . . , n∗ ,

rnn ⎞

⎛ Tn = Sn[ n ] Sn−1 · · · S1 , [n]

[n]

[n]

mit Sj

⎜ ⎜ := ⎜ ⎜ ⎝

Ij−1 W [j ]

j = 1, 2, . . . , n,

In−j

⎟ ⎟ ⎟ ∈ R (n+1)×( n+1) , ⎟ ⎠

n = 1, 2, . . . , n∗ − 1,

beziehungsweise Tn∗ = Tn∗ −1 . Naheliegenderweise verwendet man diese Faktorisierungen von Tn für die numerischen Berechnungen, die Berechnung eines Matrix Vektor Produkts von der Form Tn−1 x wird also u¨ ber n zweidimensionale Matrix Vektor Multiplikationen realisiert. (b) Man beachte, dass bei der Lösung des Minimierungsproblems (11.32) in jedem Schritt n lediglich O( N ) arithmetische Operationen erforderlich sind, so dass die numerische Hauptlast auf dem Arnoldi Prozess ruht. Insgesamt lässt sich festhalten, dass für jeden Schritt des GMRES Verfahrens lediglich eine Matrix Vektor Multiplikation sowie Operationen niedrigen Aufwands benötigt werden, es fallen also 2N 2 +O( N ) arithmetische Operationen pro Iterationsschritt an. Dies ist ein Gewinn gegenüber dem CGNR Verfahren, bei dem zwei Matrix Vektor Multiplikationen pro Iterationsschritt erforderlich sind. Auf der anderen Seite ist anzumerken, dass GMRES sich nicht wie das CGNR Verfahren als einfache Zweitermrekursion realisieren lässt und der Speicherplatzbedarf wegen der benötigten Matrizen Rn und orthogonalen Vektoren qn , n = 1, 2, . . . höher ausfällt. Schließlich gestaltet sich die Gewinnung von Fehlerabschätzungen für das GMRES Verfahren schwieriger, wie sich im nachfolgenden Abschnitt herausstellen wird.

11.7.4 MATLAB– Programm fur ¨ GMRES Im Folgenden wird ein MATLAB Programm (das auch unter Octave läuft) für das GMRES Verfahren auf der Basis des Arnoldi Prozesses angegeben. Die Matrix A ∈ R N×N sowie der Vektor b ∈ R N sind dabei als gegeben angenommen. Der Algorithmus bricht in dieser Variante mit dem Schritt n = n∗ ab, er fungiert hier also als direkter Löser.

306

Kapitel 11

CG – und GMRES – Verfahren

% ................... gmres.m ...................... x = zeros(N,1); d = zeros(2,1); w = zeros(2,N);

res = zeros(N,1); u = zeros(2,1); Q = zeros(N,N); R = zeros(N,N); y = zeros(N,1); y(1) = norm(b);

h = zeros(N,1);

goahead = 1;

n = 1; %(*** Ende der Initialisierungen ***) Q(:,1) = b/norm(b); myeps = 0.000001; %(*** Start der Iteration; n = Iterationsschritt ***) while (goahead == 1) v = A*Q(:,n); z = v; for j= 1:n h(j) = Q(:,j)’*v; z = z - h(j)*Q(:,j); end qhat = z; normqhat = norm(qhat); if ( (normqhat = 2) R(1:n-1,n) = h(1:n-1); end %(*** Berechnung der neuen orthog. Transformation ***) if (goahead == 0) R(n,n) = h(n); else u = h(n:n+1); if (abs(u(1)) 0 ein δ > 0 mit der folgenden Eigenschaft: Zu jeder Matrix .............. A ∈ R N×N mit ...... ... || ..........A|| ≤ δ gibt es eine Nummerierung µ1 , . . . , µN ∈ C der Eigenwerte von A + .............A mit max |µk − λk |

k=1,...,N

≤

(12.9)

ε.

Hierbei bezeichnet || · || : R N×N → R + eine Matrixnorm. B EWEIS . Siehe Mennicken/Wagenführer [68] oder Werner [107].

12.3 Lokalisierung von Eigenwerten Im Folgenden wird ein wichtiges Einschließungsresultat für Eigenwerte vorgestellt. Theorem 12.9 (a) Für eine Matrix A = (ajk ) ∈ R N×N gilt σ( A ) ⊂

N 7

Gj ,

j=1

mit den Gerschgorin Kreisen Gj :=

z ∈ C : |z − ajj |

N

≤

|ajk | ,

j = 1, 2, . . . , N.

k=1 k=j

(b) Wenn genauer die Vereinigung von q Gerschgorin Kreisen K (1) := Gj1 ∪ . . . ∪ Gjq

(j = jm

für = m)

disjunkt von der Menge der Vereinigung K der restlichen N − q Gerschgorin Kreise ist, so enthält K (1) genau q Eigenwerte von A und K (2) enthält genau N −q Eigenwerte von A (jeweils entsprechend ihrer algebraischen Vielfachheit gezählt). 8 B EWEIS . (a) Für λ ∈ C ist die Bedingung λ ∈ N j=1 Gj gleichbedeutend mit (2)

|λ − ajj | >

N

|ajk |,

j = 1, 2, . . . , N,

k=1 k=j

was wiederum gerade die strikte Diagonaldominanz der Matrix A − λI ∈ CN×N impliziert. Daher ist A − λI ∈ CN×N nichtsingulär2, die Zahl λ also kein Eigenwert von A. Damit ist Teil 2

siehe Lemma 2.13 auf Seite 28

Abschnitt 12.3

317

Lokalisierung von Eigenwerten

(a) nachgewiesen. Für den Nachweis der Aussage in (b) zerlegt man die Matrix A = (ajk ) in die Summe eines diagonalen und eines nichtdiagonalen Anteils, A = D + M mit D = diag (a11 , . . . , aN N ) ∈ R N×N ,

M = A − D,

und betrachtet in R N×N die Strecke von D nach A, ⎛ ⎜ a11 ⎜ ⎜ ⎜ ⎜ ta ⎜ 21 ⎜ ⎜ ⎜ A( t ) = D + tM = ⎜ ppp ⎜ ⎜ ⎜ ⎜ pp ⎜ p ⎜ ⎜ ⎝ taN 1

ta12 a22 pp

p

ppp

ppp

⎞

ppp

ta1N ⎟ ⎟ ⎟ ⎟ ppp ta23 ta2N ⎟ ⎟ ⎟ ⎟ ⎟ × p pp pp ⎟ ∈ RN N , p p pp ⎟ ⎟ ⎟ ⎟ pp pp taN −1,N ⎟ p p ⎟ ⎟ ⎠ p p p taN,N −1 aN N

0 ≤ t ≤ 1,

so dass A( 0 ) = D und A( 1 ) = A gilt. In den folgenden Punkten (i) (iii) werden nun einige Vorbereitungen getroffen für den anschließend in Punkt (iv) beschriebenen entscheidenden Beweisschritt. (i) Als Erstes soll σ ( A( t ))

⊂

K (1) ∪ K (2)

für 0 ≤ t ≤ 1

(12.10)

nachgewiesen werden. Hierzu bezeichne G1 ( t ), . . . , GN ( t ) die zu A( t ) gehörenden GerschgorinKreise, N Gj ( t ) = z ∈ C : |z − ajj | ≤ t |ajk | , j = 1, 2, . . . , N. k=1 k=j

Offensichtlich gilt Gj ( t ) ⊂ Gj ,

j = 1, 2, . . . , N

für 0 ≤ t ≤ 1,

und mit Teil (a) dieses Theorems erhält man (12.10). (ii) Von den insgesamt N Eigenwerten von D = A( 0 ) befinden sich die q Eigenwerte aj1 j1 , . . . , ajq jq in der Menge K (1) und die restlichen N − q Eigenwerte liegen in K (2) , was unmittelbar aus der Eigenschaft ajj ∈ Gj für j = 1, 2, . . . , N folgt. (iii) Weiter beobachtet man vorbereitend noch ε := dist(K (1) , K (2) ) > 0,

(12.11)

= ∅ und der Abgeschlossenheit der Menwas aus der Disjunktheitsvoraussetzung K ∩ K (1) (2) gen K und K folgt. (iv) Die Eigenschaften (12.10) (12.11) und die Schlussfolgerung in (ii) zusammen mit der stetigen Abhängigkeit der Eigenwerte gegenüber Matrixstörungen ergeben nun Teil (b) des Theorems, wie im Folgenden noch detailliert nachgewiesen wird. Hierzu bezeichne t0 := sup t ∈ [ 0, 1 ] : genau q Eigenwerte von A( t ) liegen in K (1) . (12.12) (1)

(2)

318

Kapitel 12

Eigenwertprobleme

Die Menge in (12.12) enthält t = 0 und ist somit nichtleer. Wenn λ1 ( t0 ), . . . , λN ( t0 ) ∈ C die der algebraischen Vielfachheit nach gezählten Eigenwerte von A( t0 ) bezeichnen, so existiert nach Theorem 12.8 zu ε aus (12.11) eine Zahl δ > 0 und eine Nummerierung λ1 ( t ), . . . , λN ( t ) ∈ C der Eigenwerte von A( t ) mit max λk ( t ) − λk ( t0 ) < ε für t ∈ [ 0, 1 ], |t − t0 | < δ. (12.13) k=1,...,N

Aus der Eigenschaft (12.13) folgt zweierlei: zum einen wird das Maximum in (12.12) angenommen, denn gemäß der Definition von t0 gibt es ein t ∈ [ 0, 1 ] mit t0 − δ < t ≤ t0 , so dass die Menge K (1) genau q Eigenwerte von A( t ) enthält, und genau N − q Eigenwerte von A( t ) sind in K (2) enthalten. (Die Situation ist in Bild 12.1 veranschaulicht.) Wegen (12.13), (12.10) und (12.11) enthält die Menge K (1) mithin auch genau q Eigenwerte von A( t0 ). Zum anderen ist noch t0 = 1 nachzuweisen; wegen A( 1 ) = A ergibt sich daraus die Aussage des Theorems. Wäre t0 < 1, so enthielte für jedes t ∈ [ 0, 1 ] mit t0 < t ≤ t0 + δ die Menge K (1) genau q Eigenwerte von A( t ) (wieder aufgrund der Eigenschaften (12.13), (12.10) und (12.11)). Dies stellt einen Widerspruch zur Definition (12.12) dar und komplettiert den Beweis der Aussage des Theorems. ..... ......... .... .. .... ... .................................................... ......................... .............. .............. ........... ........... ......... ......... ........ ........ ....... ....... ...... . . . . . ..... ..... . .... . . . ... .... × ... . . . ... ... ... . . × × .. .... .. . .... .. ... ... ... .. . × × . ... ... ... . . .... .. ..... .... ...... ..... ...... ...... × ....... ...... ........ ....... ......... ........ . . . . . . . ............ . . .......... ................. ..............................................................................

λ5 (t0 )

λ1 (t0 )

Im z

λ1 (t)

λ5 (t)

λ2 (t0 )

.................... ......... ...... ...... ..... ..... ... .... ... ... ... . . . ... ... ... . ... ... . ... ... ... . . ... .... ... ... .... . ... . . ... .. ... ... × ... .... .. ... × .. ... .... ... .... .. ... .. .. .... .. . .... .. ... ... .... ... × . ... .. . . ... . × ... ... ... ... .. ... ... ... ... ... . . ... ... ... ... ... .. ... ... ... ... ... . . ... ... ... ... ... ... ... ... ... .... ... . . . ..... . ..... ...... ......... ...... .....................

←−− ε −−→

λ2 (t)

λ4 (t) λ3 (t)

λ4 (t0 )

λ3 (t0 )

............................................

Re z Bild 12.1 Veranschaulichung zweier Situationen im Beweis von Theorem 12.9 am Beispiel N = 5. Dargestellt ist die Verteilung der Eigenwerte von A(t0 ) und A(t) für t mit |t − t0 | ≤ δ. Die Ellipsen sollen die Mengen K1 beziehungsweise K2 umfassen.

Beispiel 12.10 Für die Matrix ⎛

⎞ 5

⎜ ⎜ ⎜ ⎜ 1/2 A = ⎜ ⎜ ⎜ 1/2 ⎜ ⎝ 1/2

1/2 0 3

0

0

1

0

0

1/2

⎟ ⎟ ⎟ 0 ⎟ ⎟ ∈ R 4×4 ⎟ 1/2 ⎟ ⎟ ⎠ 6

Abschnitt 12.4

319

Variationssätze für symmetrische Eigenwertprobleme

ist die Lage der Gerschgorin Kreise in Bild 12.2 dargestellt. Aus Theorem 12.9 folgert man dann, dass es reelle Eigenwerte 0 ≤ λ3 ≤ 2 und 2.5 ≤ λ2 ≤ 3.5 gibt (komplexe Eigenwerte reeller Matrizen treten automatisch als konjugiert komplexe Paare auf). Die beiden anderen Eigenwerte liegen entweder im Intervall [ 4, 6.5 ] oder sind durch ein komplex konjugiertes Paar in G3 ∪ G4 gegeben. G1 1 0 −1

............................. ........ ...... ...... ..... .... ... ... ... .. ... .... ... .. .... .. .... . ... ... ... .. . . ... .. ... . . ... .. . . .... . .... ...... ...... ........ ..............................

1

C

G3

G2

G4

............................. ........ ...... ...... ..... .... ... ... .. ...... .. ........... ............. .... .... .... ... .... .... ... ... .... ..... .. .. ... ... ... ... ... .. ... .. ... ..... .... ....... ...................... ... ... ... .... .... ..... ...... ....... ...................................

........................ ..... ... ... ... ... .. .... . ... ... ... .. . . ..... ........................

3

5

7

Bild 12.2 Gerschgorin– Kreise für Beispiel 12.10

12.4 Variationsformulierung fur ¨ Eigenwerte von symmetrischen Matrizen Im Folgenden spielen orthogonale Komplemente von Mengen L ⊂ R N eine Rolle, L⊥ := y ∈ R N : yx = 0 für jedes x ∈ L . Es ist L⊥ ⊂ R N ein linearer Unterraum. Falls L ⊂ R N ein linearer Unterraum ist, so gilt L ⊕ L⊥ = R N . Theorem 12.11 (Courant/Fischer) Für eine symmetrische Matrix A ∈ R N×N mit Eigenwerten λ1 ≥ λ2 ≥ . . . ≥ λN gilt Folgendes, λk+1 =

λN −k =

min

max

xAx xx

=

max

min

xAx xx

=

L⊂R N linear 0=x∈L⊥ dim L ≤ k

L⊂R N linear dim L ≤ k

0=x∈L⊥

min

max

xAx , xx

(12.14)

max

min

xAx , xx

(12.15)

y1 ,...,yk ∈R N 0 = x ∈ R N xy =0, =1,...,k

y1 ,...,yk

∈R N

0 = x ∈ R N xy =0, =1,...,k

jeweils für k = 0, 1, . . . , N − 1. B EWEIS . Es wird nur der Nachweis für (12.14) geführt, die Aussage (12.15) ergibt sich ganz entsprechend. Die zweite Identität in (12.14) ist unmittelbar einsichtig, und im Folgenden soll die erste Identität in (12.14) nachgewiesen werden. Dazu sei u1 , . . . , uN ∈ R N ein vollständiges

320

Kapitel 12

Eigenwertprobleme

System von Eigenvektoren (zu den Eigenwerten λ1 , . . . , λN ), die aufgrund der Symmetrie der Matrix A zudem noch als paarweise orthonormal angenommen werden dürfen3 . Zum Beweis der Ungleichung “≤“ in (12.14) sei L ⊂ R N ein beliebiger linearer Unterraum mit dim L ≤ k. Dann gilt dim L⊥ ≥ N − k, und wegen dim span {u1 , . . . , uk+1 } = k + 1 existiert ein Vektor x ∈ span {u1 , . . . , uk+1 } ∩ L⊥ ,

xx = 1.

(12.16)

Für den Vektor x aus (12.16) gilt insbesondere die Darstellung k+1

x =

k+1

α u ,

=1

|α |2 = 1,

=1

mit gewissen Koeffizienten α1 , . . . , αk+1 ∈ R. Weiter gilt Ax = k+1

xAx =

λ |α |2

≥

λk+1

=1

k+1

k+1

|α |2

=1

=

λ α u sowie λk+1 ,

=1

was wegen x ∈ L⊥ gerade die angegebene Abschätzung “≤“ in (12.14) liefert. Für den Beweis der Abschätzung “≥“ in (12.14) sei speziell L := span {u1 , . . . , uk } gewählt. Für jeden Vektor x ∈ L⊥ mit xx = 1 gibt es eine Darstellung N

x =

N

α u ,

=k+1

|α |2 = 1,

=k+1

mit gewissen Koeffizienten αk+1, . . . , αN ∈ R. Daraus erhält man Ax = weiter xAx =

N

λ |α |2

≤

λk+1

=k+1

N

|α |2

=

N

=k+1 λ α u ,

λk+1 ,

=k+1

was gerade die Abschätzung “≥“ in (12.14) liefert. Als unmittelbare Folgerung aus Theorem 12.11 erhält man: Korollar 12.12 (Satz von Rayleigh/Ritz) Unter den Bedingungen von Theorem 12.11 gilt λ1 =

max

0=x∈R N

xAx , xx

λN =

min

0=x∈R N

Bemerkung 12.13 Den Ausdruck R( x ) =

xAx , xx

bezeichnet man als Rayleigh Quotienten. 3

siehe auch (12.18) im Nachtrag zu diesem Kapitel

0 = x ∈ R N ,

xAx . xx

und

Abschnitt 12.5

321

Störungsresultate für Eigenwerte symmetrischer Matrizen

12.5 Störungsresultate fur ¨ Eigenwerte symmetrischer Matrizen Ein Störungsresultat für die Eigenwerte symmetrischer Matrizen ist bereits in Korollar 12.2 vorgestellt werden. Für den Spezialfall symmetrischer Störungen liefert das folgende Theorem eine Verschärfung des genannten Resultats. ..

..

..

Theorem 12.14 Seien A, .............. A ∈ R N×N symmetrische Matrizen, und für B ∈ {A, .............. A, A + .............. A} bezeichne λ1 ( B ) ≥ λ2 ( B ) ≥ . . . ≥ λN ( B ) die monoton fallend angeordneten Eigenwerte der Matrix B. Dann gilt ...

λk ( A ) + λN (.............. A )

≤

...

λk ( A + .............. A )

≤

...

λk ( A ) + λ1 (.............. A ),

k = 1, 2, . . . , N,

und damit insbesondere λk ( A + ................. A ) − λk ( A )

≤

...

k = 1, 2, . . . , N.

||.............. A||2 ,

(12.17)

B EWEIS . Theorem 12.11 und Korollar 12.12 ergeben für k = 0, 1, . . . , N − 1

...

λk+1 (A + .............. A)

=

min

N ⊂R N linear dim N ≤k

≤ ...

λN −k (A + .............. A)

= ≥

max

0=x∈N ⊥

N ⊂R N linear dim N ≤k

......

xx

xx min

0=x∈N ⊥

xAx xx

...

...

+ λ1 (.............. A ) = λk+1( A ) + λ1 (.............. A ), x................Ax xx .

+

xAx xx

x...............Ax xx .

+

xAx

......

max

xAx

...

...

+ λN (.............. A ) = λN −k ( A ) + λN (.............. A ). .

.

Die Abschätzung (12.17) folgt nun unmittelbar aus der Identität rσ (.............. A ) = ||.............. A||2 , siehe (4.35) auf Seite 79.

12.6 Nachtrag: Faktorisierungen von Matrizen Im Folgenden werden einige aus der linearen Algebra bekannte Matrix Faktorisierungen in Erinnerung gerufen. Detaillierte Erläuterungen hierzu findet man zum Beispiel in Fischer [26] oder im Fall der Schur Faktorisierung in Bunse/Bunse Gerstner [10] oder Opfer [76].

322

Kapitel 12

Eigenwertprobleme

12.6.1 Symmetrische Matrizen Eine Matrix A ∈ R N×N heißt symmetrisch, falls A = A gilt. Es existiert dann eine Orthonormalbasis u1 , . . . , uN ∈ R N bestehend aus Eigenvektoren von A. Bezeichnet man die zugehörigen Eigenwerte mit λ1 , . . . , λN ∈ R, so liegt folgende Situation vor: Auk

=

λk u k ,

u k u

=

δk ,

(12.18)

k, = 1, 2, . . . , N.

Theorem 12.15 Die Matrix A ∈ R N×N sei symmetrisch mit Zerlegung (12.18). Dann gilt ⎛

A = UDU mit D := diag (λ1 , . . . , λN ) ∈ R N×N ,

⎞

⎜ ⎟ U = ⎝u1 . . . uN ⎠ ∈ R N×N .

B EWEIS . Jeder Vektor x ∈ R N besitzt die Darstellung x =

N

α u

=1

mit gewissen Koeffizienten α1 , . . . , αN ∈ R, und dann gilt UDU x

=

N

α UDU u

=

=1

N =1

α U De

=

λ e

N

α λ u

=

Ax.

=1

12.6.2 Diagonalisierbare Matrizen Die Matrix A ∈ R N×N heißt diagonalisierbar, falls eine Faktorisierung der Form T −1 AT = diag (λ1 , . . . , λN ) ∈ CN×N ,

(12.19)

existiert mit einer regulären Matrix T ∈ CN×N . Die Zahlen λ1 , . . . , λN ∈ C stellen dann die Eigenwerte der Matrix A dar, und der k te Spaltenvektor uk ∈ R N von T = (u1 | . . . |uN ) ∈ CN×N ist ein Eigenvektor der Matrix A zum Eigenwert λk .

12.6.3 Schur– Faktorisierung Jede Matrix A ∈ R N×N ist a¨ hnlich zu einer Dreiecksmatrix, wobei die Transformationsmatrix Q ∈ CN×N unitär gewählt werden kann, das heißt, Q−1 = QH . Die entsprechende Faktorisierung Q−1 AQ = R

Q ∈ CN×N unitär,

wird als Schur Faktorisierung bezeichnet.

R ∈ CN×N untere Dreiecksmatrix

(12.20)

323

Weitere Themen und Literaturhinweise

Weitere Themen und Literaturhinweise Eine Auswahl existierender Lehrbücher mit Abschnitten u¨ ber Variationsformulierungen sowie Störungsresultate für die Eigenwerte symmetrischer und nichtsymmetrischer Matrizen bildet Deuflhard/Hohmann [21], Golub/Van Loan [32], Hämmerlin/Hoffmann [45], Hanke-Bourgeois [49], Horn/Johnson [55], Kress [60], Mennicken/Wagenführer [68], Oevel [75], Parlett [78], Schaback/Wendland [88], Stoer/Bulirsch [96] und Werner [107]. Variationsformulierungen und Störungsresultate für Singulärwertzerlegungen findet man in [55], [32] und in Baumeister [2].

¨ Ubungsaufgaben Aufgabe 12.1 (a) Gegeben seien die (komplexen) Tridiagonalmatrizen ⎛ a ⎜ 1 ⎜ ⎜ c2 ⎜ A = ⎜ ⎜ ⎜ ⎝ 0

⎞ b2 a2 .. .

0

..

.

..

.

cN

⎟ ⎟ ⎟ ⎟ ⎟, ⎟ bN ⎟ ⎠ aN

⎞

⎛ ⎜ −a1 b2 ⎜ ⎜ ⎜ c2 −a2 . . . ⎜ B = ⎜ ⎜ .. .. ⎜ . . ⎜ ⎝ 0 cN

0 ⎟ ⎟ ⎟ ⎟ ⎟ ⎟. ⎟ bN ⎟ ⎟ ⎠ −aN

Man zeige: Die komplexe Zahl λ ist ein Eigenwert der Matrix A genau dann, wenn −λ ein Eigenwert der Matrix B ist. (b) Für die reelle symmetrische Tridiagonalmatrix ⎛ a b2 ⎜ 1 ⎜ ⎜ b2 a2 . . . ⎜ A = ⎜ .. .. ⎜ . . ⎜ ⎝ 0 bN

⎞ 0

⎟ ⎟ ⎟ ⎟ × ⎟ ∈ RN N ⎟ bN ⎟ ⎠ aN

sei ak = −aN +1−k

für k = 1, 2, . . . , N,

bk = bN +2−k

für k = 2, 3, . . . , N,

erfüllt. Man weise Folgendes nach: eine Zahl λ ∈ C ist Eigenwert der Matrix A genau dann, wenn −λ ein Eigenwert von A ist. (c) Man zeige, dass die Eigenwerte der Tridiagonalmatrix ⎛ ⎞ 0 0 b2 ⎜ ⎟ ⎜ ⎟ ⎜ b2 0 . . . ⎟ ⎜ ⎟ × A = ⎜ ⎟ ∈ CN N . . ⎜ ⎟ . . . . bN ⎟ ⎜ ⎝ ⎠ 0 bN 0 symmetrisch zur Zahl 0 liegen und Folgendes gilt,

324

Kapitel 12 det ( A ) =

( –1 )N/2 |b2 b4 . . . bN |2 ,

0

Eigenwertprobleme

falls N gerade, sonst.

Aufgabe 12.2 Es sei A ∈ R N×N eine Matrix von der Form A = (I − 2vv )D (I − 2vv)

D = diag (λ1 , . . . , λN ) ∈ R N×N ,

mit

vv = 1.

v ∈ RN , Man zeige:

(a) Die Matrix A ist symmetrisch, und für k = 1, 2, . . . , N ist die Zahl λk ein Eigenwert von A mit der k ten Spalte aus der Matrix I − 2vv T als zugehörigem Eigenvektor. √ (b) Ist speziell v = (1, 1, . . . , 1)/ N , so erhält man mit der Notation A = (ajk ) Folgendes, ajk =

1 (N λk δjk − 2λj − 2λk + 2r ), N

mit r =

N 2 λs . N s=1

Aufgabe 12.3 Für eine symmetrische Matrix A ∈ R N×N und einen Vektor x = ( xk ) ∈ R N mit xk = 0 für k = 1, 2, . . . , N bezeichne dk :=

(Ax)k xk

für k = 1, 2, . . . , N.

Man zeige: für jede Zahl µ ∈ R enthält das Intervall [ µ − , µ + ] mit := max1≤k≤N |dk − µ| mindestens einen Eigenwert λ der Matrix A. Aufgabe 12.4 Zu gegebener Jordanmatrix ⎛ ⎜ ⎜ ⎜ A := ⎜ ⎜ ⎝

λ 1 λ

0

0 ..

.

..

.

⎞

⎟ ⎟ ⎟ × ⎟ ∈ CN N 1⎟ ⎠

λ

CN×N

und einer Störungsmatrix B ∈ bezeichne λk ( θ ), k = 1, 2, . . . , N , die Eigenwerte der fehlerbehafteten Matrix A + θB, mit θ ∈ C. Man weise mit dem Satz von Gerschgorin (der auch für komplexe Matrizen richtig ist) Folgendes nach: (a)

max |λk ( θ ) − λ|

1≤k≤N

≤

(||B ||∞ + 1)|θ |1/N

für |θ | ≤ 1.

(b) Die Abschätzung in (a) ist in Bezug auf den Exponenten 1/N von |θ | nicht zu verbessern. 8 Aufgabe 12.5 Sei A = (ajk ) ∈ R N×N eine irreduzible Matrix, und G = N j=1 Gj bezeichne die Vereinigung der Gerschgorin Kreise. Man zeige: für jeden Eigenwert λ der Matrix A mit λ ∈ ∂G gilt auch λ ∈ ∂Gj für j = 1, 2, . . . , N, und alle Komponenten eines zu λ gehörenden Eigenvektors sind betragsmäßig gleich groß. Aufgabe 12.6 Man zeige Folgendes: Für eine symmetrische Matrix A ∈ R N×N enthält jedes Intervall der Form [ µ − ||Ax − µx||2 , µ + ||Ax − µx||2 ] mit einer Zahl µ ∈ R und einem Vektor x ∈ R N mit ||x||2 = 1 mindestens einen Eigenwert der Matrix A.

¨ Ubungsaufgaben

325

Aufgabe 12.7 Für eine symmetrische Matrix A ∈ R N×N mit den Eigenwerten λ1 ≥ λ2 ≥ . . . ≥ λN weise man Folgendes nach: λk

=

λN −k+1

=

max

min

xAx , xx

k = 1, 2, . . . , N,

min

max

xAx , xx

......

M ⊂R N

linear 0=x∈M dim M =k

M ⊂R N linear 0=x∈M dim M =k

...

.

...

...

Aufgabe 12.8 Seien A, ..............A ∈ R N×N symmetrische Matrizen, und für B ∈ {A, ..............A, A+..............A} bezeichne λ1 ( B ) ≥ λ2 ( B ) ≥ . . . ≥ λN ( B ) die angeordneten Eigenwerte der Matrix B. ...

(a) Durch Angabe einer geeigneten Matrix ...............A zeige man, dass die Abschätzungen4 ..

λk ( A ) + λN (.............. A )

..

≤

λk ( A + .............. A )

..

≤

λk ( A ) + λ1 (.............. A )

für k = 1, 2, . . . , N,

nicht zu verbessern sind. ..

(b) Falls die Matrix ...............A positiv definit ist, so gilt λk ( A )

≤

...

λk ( A + .............. A )

für k = 1, 2, . . . , N.

Aufgabe 12.9 Es besitze eine symmetrische Matrix A ∈ R N×N mit monoton fallend angeordneten Eigenwerten λ1 ≥ λ2 ≥ . . . ≥ λN eine rechte untere Dreiecksform, ⎛

0

⎜ p ⎜ pp ⎜ A = ⎜ ⎜ 0 ⎝ aN 1

ppp

0

pp

p

pp

pp

p

aN 2

a1N p

ppp pp p

p p p aN N

⎞ ⎟ ⎟ ⎟ ⎟, ⎟ ⎠

mit ajk = akj

für alle j, k.

Man zeige: es gilt λk ≥ 0 für alle Indizes k ≤ (N/2), und außerdem gilt λk ≤ 0 für alle Indizes k ≥ N/2 + 1. Hierbei bezeichnet (x) die größte ganze Zahl ≤ x, und x ist die kleinste ganze Zahl ≥ x.

4

siehe Theorem 12.14

326

13 Numerische Verfahren fur ¨ Eigenwertprobleme 13.1 Einfuhrende ¨ Bemerkungen Im Folgenden werden verschiedene numerische Verfahren zur approximativen Bestimmung von Eigenwerten quadratischer Matrizen vorgestellt. Dabei basiert eine Klasse von Algorithmen auf ¨ der Anwendung von Ahnlichkeitstransformationen, eine zweite auf Vektoriterationen.

¨ 13.1.1 Ahnlichkeitstransformationen In dem vorliegenden Abschnitt werden Verfahren vorgestellt, von denen jedes auf der Hinterein¨ anderausführung von Ahnlichkeitstransformationen beruht, A A(m+1)

= A(1)

→

−1 (m) = Sm A Sm ,

A(2)

→

A(3)

→

m = 1, 2, . . . ,

...

mit Sm ∈ R N×N regulär

(13.1)

mit der Zielsetzung, für hinreichend große Werte von m auf effiziente Weise gute Approximationen für die Eigenwerte von A(m) zu gewinnen.1 Im weiteren Verlauf werden die folgenden speziellen Verfahren von der Form (13.1) behandelt. •

¨ (siehe Abschnitt 13.2) lässt sich Mittels N − 2 Householder Ahnlichkeitstransformationen (N −1) eine obere Hessenbergmatrix A erzeugen, wobei obere beziehungsweise untere Hessenbergmatrizen allgemein folgende Gestalt besitzen, ⎛ ⎞ ⎞ ⎛ × × × ppp ppp ppp × 0 ppp 0 ⎜ ⎟ ⎟ ⎜ ⎜ ⎟ ⎜ p pp ⎟ p p p p p p p ⎜× × ⎟ ⎜ × p p p p ⎟ ⎜ ⎟ ⎟ ⎜ p ⎜ ⎟ ⎟ ⎜ pp ⎟ pp N ×N pp pp ⎜ 0 × ppp ⎜ . bzw. p ⎟ p p 0⎟ ⎜ ⎜ p ⎟ ∈ R ⎜ ⎜ ⎟ ⎟ pp ⎟ ⎜ pp ⎜ pp ⎟ pp pp pp pp p p p p ⎟ p ×⎟ ⎜ p ⎜ p ⎝ ⎝ ⎠ ⎠ × 0 ppp 0 × × ppp ppp ppp × Eine Matrix B = ( bjk ) ist demnach genau dann eine obere Hessenbergmatrix, falls bjk = 0 gilt für j ≥ k + 2. Entsprechend ist B = ( bjk ) genau dann eine untere Hessenbergmatrix, falls bjk = 0 für j ≤ k − 2 gilt. Die Hessenbergstruktur ist insofern von Vorteil, als sich hier mit dem Newton Verfahren beziehungsweise auch mit dem QR Verfahren effizient die Nullstellen des zugehörigen cha-

1

¨ Diese Eigenwerte stimmen aufgrund der durchgeführten Ahnlichkeitstransformationen mit denen der Matrix A = A(1) u¨ berein.

Abschnitt 13.1

327

Einführende Bemerkungen

rakteristischen Polynoms bestimmen lassen (siehe Abschnitt 13.3 beziehungsweise Abschnitt 13.5). •

Mit Givensrotationen (siehe Abschnitt 13.4 für Einzelheiten) lassen sich Matrizen A(m) erzeugen, deren Nichtdiagonaleinträge für wachsendes m in einem zu spezifizierenden Sinn betragsmäßig immer kleiner werden, so dass dann die Diagonaleinträge von A(m) gute Approximationen an die Eigenwerte von A darstellen.

•

QR Verfahren (siehe Abschnitt 13.5) liefern Matrizen A(m) , deren Einträge im unteren Dreieck für hinreichend große Werte von m betragsmäßig klein ausfallen, und dann approximieren die Diagonaleinträge von A(m) die Eigenwerte der Matrix A, wie sich herausstellen wird.

Mit der folgenden Bemerkung wird deutlich, warum man aus Stabilitätsgründen in (13.1) sinnvollerweise orthogonale Matrizen Sm wählt. Bemerkung 13.1 Im Folgenden sei die Matrix A ∈ R N×N als diagonalisierbar angenommen, T −1 AT = D mit der regulären Matrix T ∈ R N×N und der Diagonalmatrix D ∈ R N×N . Bekanntermaßen2 bildet dann bezüglich einer gegebenen Vektornorm || · ||p die Zahl condp ( T ) eine Fehlerkonstante für den Fehler in den Eigenwerten von A gegenüber kleinen Störungen in der Matrix A, max.....

min |µ − λ|

µ∈σ( A+.......... A ) λ∈σ( A )

≤

..

condp ( T )||.............. A||p .

Dementsprechend bildet also nach dem ( m − 1 ) ten Schritt des Verfahrens (13.1) aufgrund von Tm−1 A(m) Tm = D

−1 mit Tm := S1...m T,

S1...m := Sm · · · S1 ,

die Konditionszahl condp ( Tm ) eine Fehlerkonstante für den Fehler der Eigenwerte λ ∈ σ(A(m) ) = σ ( A ) gegenüber kleinen Störungen in der Matrix A(m) . Wegen der Ungleichung condp ( Tm ) ≤ condp ( S1...m ) condp ( T ) ist demnach bezüglich der Norm || · || = || · ||2 die Verwendung orthogonaler Transformationen empfehlenswert: Sk−1 = Sk

∀k

=⇒

cond2 ( Tm )

=

cond2 ( T ).

Für die einzelnen Verfahren gibt es noch weitere Gründe, die Transformationsmatrizen Sm orthogonal zu wählen. Details hierzu werden später vorgestellt.

13.1.2 Vektoriteration Bei der zweiten Klasse numerischer Verfahren zur Bestimmung der Eigenwerte von Matrizen handelt es sich um Vektoriterationen, die allgemein von der folgenden Form sind, z (m+1) = Cz (m) ,

m = 1, 2, . . .

(z (0) ∈ R N ,

C ∈ R N×N geeignet),

mit der Zielsetzung, aus den Vektoren z (m) ∈ R N Informationen u¨ ber einzelne Eigenwerte oder auch nur den Spektralradius rσ ( A ) einer gegebenen Matrix A ∈ R N×N zu gewinnen. Details hierzu werden in Abschnitt 13.7 vorgestellt. 2

siehe Theorem 12.1

328

Kapitel 13

Numerische Verfahren für Eigenwertprobleme

13.2 Transformation auf Hessenbergform −1 (m) Es sollen zunächst Transformationen der Form A(m+1) = Sm A Sm , m = 1, 2, . . . , N − 2, vorgestellt werden, mit denen sukzessive Matrizen von der Form

⎛

A(m) =

⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

×

ppp

ppp

ppp ppp

ppp

×

pp

p

0

pp

p

pp

pp p pp p pp p

pp

p

×

×

×

ppp

×

0

×

×

ppp

×

pp p

pp p

pp p

0

ppp

0

×

×

N −m

p pp p pp

p

m

×

pp p ppp

×

⎞ ⎫ ⎪ ⎪ ⎪ ⎟ ⎪ ⎪ ⎟ ⎪ ⎟ ⎬ ⎟ ⎟ ⎪m ⎟ ⎪ ⎪ ⎟ ⎪ ⎪ ⎟ ⎪ = ⎟ ⎭ ⎟ ⎫ ⎟ ⎟ ⎪ ⎟ ⎪ ⎬ ⎟ N −m ⎟ ⎠ ⎪ ⎪ ⎭

⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

⎞ (m) A1

0

(m) A2

a(m)

(m)

A3

⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟(13.2) ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠

(m)

erzeugt werden mit der Hessenbergmatrix A1 ∈ R m×m und den im Allgemeinen vollbesetzten (m) (m) Matrizen A2 ∈ R m×(N −m) und A3 ∈ R ( N −m)×(N −m) , sowie mit einem gewissen Vektor a(m) ∈ R N −m . Die Matrix A(N −1) schließlich besitzt Hessenberggestalt. −1 (m) Das Vorgehen ist hier, in dem Schritt A(m) → A(m+1) = Sm A Sm mit einer Householder(m) transformation (Abschnitt 13.2.1) den Vektor a aus (13.2) in ein Vielfaches des Einheitsvektors ( 1, 0, . . . , 0 ) ∈ R N −m zu transformieren und dabei das aus Nulleinträgen bestehende Trapez in der Matrix A(m) zu erhalten.

Die Transformationsmatrizen S1 , . . . , SN −1 sind hier orthogonal, was aus Stabilitätsgründen von Vorteil ist3. Ein weiterer Vorteil besteht darin, dass für symmetrische Matrizen A ∈ R N×N die Matrix A(N −1) ∈ R N×N ebenfalls symmetrisch und somit notwendigerweise (als Hessenbergmatrix) tridiagonal ist, das heißt, A(N −1) ist dünn besetzt, was beispielsweise für die Anwendung des Newton Verfahrens zur Bestimmung der Nullstellen des charakteristischen Polynoms der Matrix A(N −1) von praktischem Vorteil ist.

¨ 13.2.1 Householder– Ahnlichkeitstransformationen zur Gewinnung von Hessenbergmatrizen Eine Möglichkeit zur Transformation auf Hessenbergform u¨ ber ein Schema der Form A(m+1) = −1 (m) Sm A Sm , m = 1, 2, . . . , N − 2, besteht in der Anwendung von Householder Transforma3

siehe hierzu Bemerkung 13.1

Abschnitt 13.2

329

Transformation auf Hessenbergform

tionen, ⎛ Sm

⎜ ⎜ ⎜ = ⎜ ⎜ ⎝

⎞ Im

0

0 Hm

⎟ ⎟ ⎟ ⎟, ⎟ ⎠

Hm

=

IN −m − 2wm w m

wm ∈ R N −m ,

⎫ ⎪ ⎪ ⎪ ⎪ ( N −m )×( N −m ) ⎪ ∈ R , ⎬ ⎪ ⎪ ⎪ ⎪ ⎪ ⎭

w m wm = 1,

(13.3)

wobei Is ∈ R s×s mit s ≥ 1 die Einheitsmatrix bezeichnet und der Vektor wm ∈ R N −m so gewählt wird, dass4 Hm a = σm em

(13.4)

gilt mit einem Koeffizienten σm ∈ R. Nach Lemma 4.60 auf Seite 86 ist die Matrix Sm orthogonal und symmetrisch, und mit (13.2) (13.4) erhält man hier Matrizen A(m) der Gestalt (13.2) beziehungsweise ⎞

⎛

A(m+1)

=

Sm A(m) Sm

=

⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

(m) A1

0

(m) A2 Hm

σm em

(m)

Hm A3 Hm

⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟. ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠

(13.5)

Von Interesse ist der bei dieser Vorgehensweise anfallende Gesamtaufwand zur Berechnung der Matrix A(N −1) : ¨ Theorem 13.2 Die Transformation auf obere Hessenberggestalt mittels Householder Ahnlichkeitstransformationen von der Form (13.5) lässt sich mit 1 10N 3 1 + O N 3 arithmetischen Operationen realisieren. B EWEIS . Zu einem gegebenen Vektor wm ∈ R N −m lässt sich jede Matrix Vektor Multiplika N −m tion von der Form Hm x = (I − 2wm w in 2( N − m ) m )x = x − 2( wm x )wm mit x ∈ R Additionen und ebenso vielen Multiplikationen realisieren, insgesamt also in 4( N − m ) arithmetischen Operationen. Der gleiche Aufwand ist für jede Multiplikation xHm = ( Hm x ) erforderlich. Dem Schema (13.5) entnimmt man, dass bei dem Schritt A(m) → A(m+1) insgesamt 2( N − m ) + m = N − m + N solcher Matrix Vektor Multiplikationen erforderlich sind und 4

Die genaue Form des Vektors wm ∈ R N −m ist in Lemma 4.62 auf Seite 87 angegeben.

330

Kapitel 13

Numerische Verfahren für Eigenwertprobleme

dafür demnach 4( N −m )2 +4( N −m )N arithmetische Operationen anfallen. Bei Durchführung des gesamten Schemas von A = A(1) bis hin zur Berechnung von A(N −1) summiert sich dies zu 4

N −2

( N − m )2 + N(N − m)

= 4

m=1

N −1

m2 +

N −1

4N

m=2

m=2

( N −1 )N ( 2N −1 ) 6

1 10N 3 1 + O 3 N

m =

−1

( N −1 )N 2

−1

arithmetischen Operationen. Die Berechnung der Vektoren w1 , . . . , wN −2 erfordert nochmals die dagegen nicht weiter ins Gewicht fallenden O( N 2 ) Additionen und ebenso viele Multiplikationen sowie O( N ) Divisionen und genauso viele Quadratwurzeln.

13.2.2 Der symmetrische Fall Falls die Matrix A ∈ R N×N symmetrisch ist, so erhält Transformationsmatrizen für A(m) die Form ⎡ ⎤ ⎫ ⎪ × × 0 ppp ppp ppp 0 ⎪ ⎢ ⎥ ⎪ ⎪ ⎪ ⎢ ⎥ p ⎪ p p p p p p p ⎢ × p p p p ⎥ ⎬ ⎢ ⎥ m ⎢ ⎥ ⎢ 0 ppp ppp × 0 p p p 0 ⎥ ⎪ ⎪ ⎪ ⎢ ⎥ ⎪ ⎢ p ⎥ ⎪ ⎪ pp ⎥ ⎭ p = A(m) = ⎢ × × × × p p p p p ⎢ ⎥ ⎢ ⎥ ⎫ ⎢ pp ⎥ 0 × × ppp × ⎥ ⎪ ⎢ p ⎪ ⎢ ⎥ ⎪ ⎬ ⎢ pp pp pp ⎥ pp pp N −m ⎢ p p p ⎥ p p ⎣ ⎦ ⎪ ⎪ ⎪ ⎭ 0 ppp 0 × × ppp ×

m

man aufgrund der Orthogonalität der ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

⎞ (m)

A1

a(m)

a(m)

0

⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠

0

N −m

(m)

A3

(13.6)

(m)

(m)

mit der Tridiagonalmatrix A1 ∈ R m×m und der im Allgemeinen vollbesetzten Matrix A3 ∈ R (N −m)×(N −m) , sowie mit einem gewissen Vektor a(m) ∈ R N −m . Die Matrix A(N −1) schließlich ¨ liefert besitzt Tridiagonalgestalt. Die entsprechende Householder Ahnlichkeitstransformation (m+1) eine Matrix A mit der folgenden Struktur, ⎛ ⎞

A(m+1)

=

Sm A(m) Sm

=

⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

(m) A1

0

σm e m

0

σm em

(m)

Hm A3 Hm

⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ . (13.7) ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠

Abschnitt 13.3

331

Newton– Verfahren zur Berechnung von Eigenwerten

Für zugrunde liegende symmetrische Matrizen A ist der bei dieser Vorgehensweise anfallende Gesamtaufwand zur Berechnung von A(N −1) etwas geringer als für nichtsymmetrische Matrizen aus R N×N : ¨ Theorem 13.3 Bei symmetrischen Matrizen A ∈ R N×N lässt sich durch Householder Ahnlichkeitstransformationen eine Tridiagonalmatrix gewinnen mit einem Aufwand von 1 8N 3 1 + O 3 N arithmetischen Operationen. ¨ B EWEIS . Es sind die gleichen Uberlegungen wie beim Beweis von Theorem 13.2 anzustellen, so dass hier nur die wenigen Modifikationen herausgestellt werden. So entnimmt man dem Schema (13.7), dass bei dem Schritt A(m) → A(m+1) insgesamt 2( N − m ) Matrix-VektorMultiplikationen mit Householdermatrizen ∈ R (N −m)×(N −m) erforderlich sind und dafür demnach 8( N − m )2 arithmetische Operationen anfallen. Bei Durchführung des gesamten Schemas von A = A(1) bis hin zur Berechnung von A(N −1) summiert sich dies zu 8

N −2 m=1

( N − m )2 = 8

N −1 m=2

m2 = 8

(

N − 1 )N ( 2N − 1 ) −1 6

=

1 8N 3 1 + O N 3

arithmetischen Operationen. Die Berechnung der Vektoren w1 , . . . , wN −2 erfordert nochmals die vergleichsweise nicht weiter ins Gewicht fallenden O( N 2 ) arithmetischen Operationen.

13.3 Newton–Verfahren zur Berechnung der Eigenwerte von Hessenbergmatrizen Im vorangegangenen Abschnitt 13.2 sind Methoden vorgestellt worden, mit denen man zu einer gegebenen Matrix A ∈ R N×N eine obere Hessenbergmatrix B ∈ R N×N gewinnt, deren Eigenwerte mit denen von A u¨ bereinstimmen, σ ( B ) = σ ( A ). In dem vorliegenden Abschnitt wird geschildert, wie sich die Eigenwerte von Hessenbergmatrizen effizient näherungsweise bestimmen lassen. Hierzu bedient man sich des Newton Verfahrens µm+1 = µm − p( µm )/p ( µm ), m = 0, 1, . . ., zur iterativen Bestimmung der Nullstellen des zugehörigen charakteristischen Polynoms5 p( µ ) = det ( B − µI ), dessen Nullstellen mit den Eigenwerten der Matrix B ∈ R N×N u¨ bereinstimmen. Bei vollbesetzten Matrizen ist diese Vorgehensweise mit cN 3 + O( N 2 ) arithmetischen Operationen pro Iterationsschritt (mit einer gewissen Konstanten c > 0) recht aufwändig. Bei Hessenbergmatrizen B jedoch lässt sich für jedes µ der Aufwand zur Berechnung der Werte p( µ ) und p ( µ ) auf jeweils O( N 2 ) arithmetische Operationen reduzieren, wie sich im Folgenden herausstellen wird. 5

Entsprechende Konvergenzresultate finden Sie in Abschnitt 5.4.3.

332

Kapitel 13

Numerische Verfahren für Eigenwertprobleme

13.3.1 Der nichtsymmetrische Fall. Die Methode von Hyman Das charakteristische Polynom p( µ ) einer Hessenbergmatrix und die zugehörige Ableitung p ( µ ) lassen sich jeweils u¨ ber die Auflösung spezieller gestaffelter linearer Gleichungssysteme berechnen, wie sich im Folgenden herausstellen wird. Theorem 13.4 Sei B = ( bjk ) ∈ R N×N eine obere Hessenbergmatrix mit bj,j+1 = 0 für j = 1, 2, . . . , N − 1 und charakteristischem Polynom p( µ ) = det ( B − µI ), µ ∈ R. Im Folgenden sei µ ∈ R fest gewählt und kein Eigenwert von B, und es bezeichne x = x( µ ) = (xk ( µ ) ) ∈ R N den eindeutig bestimmten Vektor mit ( B − µI )x = e1 ,

(13.8)

mit e1 = ( 1, 0, . . . , 0 ) ∈ R N . Dann gelten die folgenden Darstellungen, p( µ )

=

( –1 )N −1 b21 b32 · · · bN,N −1

xN ( µ )

,

p( µ ) p ( µ )

=

d 1 . xN ( µ ) dµ xN ( µ )

1

(13.9)

B EWEIS . Anwendung der Cramerschen Regel auf die Gleichung (13.8) liefert die erste Aussage in (13.9), ⎛

xN

b12 ··· b1,N −1 ⎜ b11 − µ ⎜ ⎜ ppp b22 − µ ⎜ b21 ⎜ ⎜ pp pp = det ⎜ b32 p p ⎜ ⎜ ⎜ pp ⎜ bN −1,N −1 − µ p ⎜ ⎝ bN,N −1

⎞

⎛ ⎜ b21 ⎜ ⎜ ⎜ ⎜ ⎜ (∗) = ( –1 )N −1 det ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

⎞ 1⎟ ⎟ ⎟ 0⎟ ⎟? ⎟ pp ⎟ p ⎟ p( µ ) ⎟ pp ⎟ p ⎟ ⎟ ⎠ 0

b22 − µ

ppp

⎟ ⎟ ⎟ ⎟ pp pp ⎟? b32 p p ⎟ ⎟ p( µ ), ⎟ ⎟ pp p bN −1,N −1 − µ ⎟ ⎟ ⎟ ⎠ bN,N −1

= b21 b32 · · · bN,N −1 b2,N −1

wobei man die Identität (∗) durch Entwicklung der auftretenden Determinante nach der letzten Spalte erhält. Dies ergibt die erste Identität in (13.9), und eine anschließende Differenziation liefert die zweite Aussage in (13.9).

Abschnitt 13.3

333

Newton– Verfahren zur Berechnung von Eigenwerten

Bemerkung 13.5 In Theorem 13.4 stellt die Bedingung an das Nichtverschwinden der unteren Nebendiagonaleinträge keine ernsthafte Restriktion dar: im Fall bj,j+1 = 0 für ein j ∈ {1, 2, . . . , N − 1} lässt sich das Problem auf die Bestimmung der Eigenwerte zweier Teilmatrizen von oberer Hessenbergstruktur reduzieren. Die für (13.9) erforderliche N te Komponente der Lösung des Gleichungssystems (13.8) und deren Ableitung erhält man jeweils u¨ ber die Lösung gestaffelter linearer Gleichungssysteme: Theorem 13.6 Mit den Bezeichnungen aus Theorem 13.4 erhält man die Werte 1/xN ( µ ) und d ( 1 ) aus den folgenden (durch Umformung und Differenziation von (13.8) entstandenen) dµ xN ( µ) gestaffelten linearen Gleichungssystemen ⎫

+

···

+

b1,N −1 vN −1

+

b1N

⎪ 1 ⎪ ⎪ ⎪ = ⎪ xN ( µ )⎪ ⎪

b21 v1 +(b22 − µ)v2 +

···

+

b2,N −1 vN −1

+

b2N

=

( b11 − µ )v1 +

b12 v2

pp

pp

p

pp p

p

pp p

bN −1,N −2 vN −2 −(bN −1,N −1 − µ)vN −1 + bN −1,N = bN,N −1 vN −1

+bN N − µ=

⎪ ⎪ ⎪ ⎪ ⎪ 0 ⎪ ⎪ ⎪ ⎪ ⎪ ⎬ (13.10) ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ 0 ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎭ 0 ⎪

beziehungsweise ⎫

( b11 − µ )z1 +

⎪ d 1 ⎪ ⎪ ⎪ = dµ xN ( µ ) ⎪ ⎪ ⎪

+

···

+

b1,N −1 zN −1

− v1

b21 z1 +(b22 − µ)z2 +

···

+

b2,N −1 zN −1

− v2 =

pp p

pp p

b12 z2

pp

p

0

⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎬

bN −1,N −2 zN −2 − bN −1,N −1 − µ zN −1 −vN −1 =

0

− 1 =

0

⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎭

pp

p

bN,N −1 zN −1

(13.11)

die man rekursiv nach den Unbekannten vN −1 , vN −2 , . . . , v1 , 1/xN ( µ ) beziehungsweise zN −1 , d ( xN1(µ) ) auflöst. zN −2 , . . . , z1 , dµ B EWEIS . Die Aussage (13.10) erhält man (für vk = xk ( µ )/xN ( µ ) ), indem die einzelnen Zeilen des Gleichungssystems (13.8) durch xN ( µ ) dividiert werden. Differenziation der Gleichungen k ( ) in (13.10) nach µ liefert für zk = ( dv ) µ unmittelbar (13.11). dµ

334

Kapitel 13

Numerische Verfahren für Eigenwertprobleme

13.3.2 Das Newton– Verfahren zur Berechnung der Eigenwerte tridiagonaler Matrizen Ist die in Abschnitt 13.3.1 behandelte Matrix B ∈ R N×N symmetrisch, so ist sie notwendigerweise tridiagonal. In diesem Fall lassen sich die Werte p( µ ) = det ( B − µI ) und p ( µ ) auf einfache Weise rekursiv berechnen:

Lemma 13.7 Zu gegebenen Zahlen a1 , . . . , aN ∈ R und b2 , . . . , bN ∈ R gelten für die charakteristischen Polynome ⎛

pn ( µ )

=

det ( Jn − µI ),

a1

⎜ ⎜ ⎜ b2 Jn = ⎜ ⎜ ⎜ ⎝

⎞

b2 pp

p

pp

p

pp

p

pp

p

bn

⎟ ⎟ ⎟ ⎟, ⎟ bn ⎟ ⎠ an

n = 1, 2, . . . , N,

die folgenden Rekursionsformeln

p1 ( µ )

= a1 − µ,

pn ( µ )

= ( an − µ )pn−1 ( µ ) − b2n pn−2 ( µ ),

n = 2, 3, . . . , N,

(13.12)

mit der Notation p0 ( µ ) := 1. Für die Ableitungen gelten die Rekursionsformeln p1 ( µ ) = −1, ( µ ) − b2n pn−2 ( µ ), pn ( µ ) = −pn−1 ( µ ) + ( an − µ )pn−1

n = 2, 3, . . . , N.

B EWEIS . Die angegebene Darstellung für p1 ergibt sich unmittelbar, und weiter gilt ⎞ ⎛ a1 − µ b2 ⎠ = ( a1 − µ ) ( a2 − µ ) − b22 , p2 ( µ ) = det ⎝ b2 a2 − µ = p1 ( µ )

Abschnitt 13.4

335

Das Jacobi– Verfahren für symmetrische Matrizen

was die angegebene Darstellung für p2 ist. Für n ≥ 3 erhält man ⎛

⎞

⎜ a1 − µ b2 ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ p p ⎜ b2 ⎟ pp pp ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎟ pp pn ( µ ) = det ⎜ bn−1 p an−2 − µ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎟ ⎜ ⎟ ⎜ b a − µ b n−1 n−1 n ⎟ ⎜ ⎟ ⎜ ⎠ ⎝ bn an − µ ⎛

⎞

⎜ a1 − µ b2 ⎜ ⎜ ⎜ pp ⎜ b2 p ⎜ ⎜ ⎜ pp ( an − µ )pn−1 ( µ ) − bn det ⎜ p ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟, ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠

(∗)

=

pp

p

an−3 − µ bn−2

bn−2 an−2 − µ bn−1 0

bn

(∗∗)

= bn pn−2 ( µ )

wobei sich die Identitäten (∗) beziehungsweise (∗∗) durch Determinantenentwicklung nach der letzten Spalte beziehungsweise der letzten Zeile ergeben. Dies komplettiert den Beweis der Identität (13.12). Die angegebenen Rekursionsformeln für die Ableitungen der Polynome pn erhält man unmittelbar durch Differenziation der Terme in (13.12).

13.4 Jacobi–Verfahren zur Nichtdiagonaleinträge–Reduktion bei symmetrischen Matrizen In dem folgenden Abschnitt 13.4.1 wird spezifiziert, inwieweit bei quadratischen Matrizen B die Diagonaleinträge Approximationen an die Eigenwerte von B darstellen (für den Fall, dass die Nichtdiagonaleinträge von B betragsmäßig klein ausfallen). Anschließend werden in Abschnitt 13.4.2 zu einer gegebenen symmetrischen Matrix A ∈ R N×N spezielle Verfahren von der −1 (m) A Sm , m = 1, 2, . . . behandelt, mit denen man sukzessive solche zu A Form A(m+1) = Sm a¨ hnlichen Matrizen B mit betragsmäßig kleinen Nichtdiagonaleinträgen erzeugt.

336

Kapitel 13

Numerische Verfahren für Eigenwertprobleme

13.4.1 Approximation der Eigenwerte durch Diagonaleinträge Vor der Einführung des Jacobi Verfahrens und den zugehörigen Konvergenzbetrachtungen sind ein paar Ergänzungen zu den in Kapitel 12 vorgestellten allgemeinen Störungsresultaten für Eigenwerte erforderlich. Definition 13.8 Für eine symmetrische Matrix B = ( bjk ) ∈ R N×N ist die Zahl S ( B ) ∈ R + folgendermaßen erklärt, S ( B ) :=

N

b2jk .

(13.13)

j,k=1 j=k

Offensichtlich gilt N

S ( B ) = ||B ||2F −

b2kk = ||B − D ||2F ,

mit D := diag ( b11 , . . . , bN N ),

(13.14)

k=1

wobei || · ||F die Frobeniusnorm bezeichnet. Der Wert S ( B ) wird im Folgenden als Maß dafür verwendet, wie weit die Matrix B von einer Diagonalgestalt entfernt ist. Bei Matrizen mit (gegenüber der Diagonalen) betragsmäßig kleinen Nichtdiagonaleinträgen stellen die Diagonaleinträge Approximationen für die Eigenwerte dar. Genauer gilt Folgendes: Theorem 13.9 Seien λ1 ≥ λ2 ≥ . . . ≥ λN die Eigenwerte der symmetrischen Matrix B = ( bjk ) ∈ R N×N , und seien bj1 j1 ≥ bj2 j2 ≥ . . . ≥ bjN jN die der Größe nach angeordneten Diago-

naleinträge von B. Dann gilt |bjr jr − λr |

≤

/

S ( B ),

r = 1, 2, . . . , N.

B EWEIS . Mit der Notation D := diag ( b11 , . . . , bN N ) erhält man max |bjr jr − λr |

r=1,...,N

(∗)

≤

||B − D ||2

(∗∗)

≤

||B − D ||F

/ S ( B ),

= ...

wobei die Ungleichung (∗) aus Theorem 12.14 angewandt mit A = B, .............. A = D − B folgt. Die Abschätzung (∗∗) resultiert aus der allgemeinen Ungleichung || · ||2 ≤ || · ||F (siehe Theorem 4.45), und die letzte Identität ist eine unmittelbare Konsequenz aus den Definitionen für || · ||F und S ( · ), vergleiche die Darstellung (13.14).

13.4.2 Givensrotationen zur Reduktion der Nichtdiagonaleinträge Im Folgenden wird das Verfahren von Jacobi zur approximativen Bestimmung der Eigenwerte symmetrischer Matrizen A ∈ R N×N u¨ ber die Reduktion der Nichtdiagonaleinträge vorgestellt,

Abschnitt 13.4

337

Das Jacobi– Verfahren für symmetrische Matrizen

−1 (m) S ( A ) > S ( A(2) ) > . . . . Dieses Verfahren ist von der Form A(m+1) = Sm A Sm , m = 1, 2, . . . (1) ¨ mit A = A, wobei die einzelnen Ahnlichkeitstransformationen von der allgemeinen Form ⎛ ⎞ 1 ⎜ ppp ⎟ ⎜ ⎟ 1 ⎜ ⎟ ⎜ ⎟← p c −s ⎜ ⎟ ⎜ ⎟ 1 p ⎜ ⎟ −1 pp := Ω B Ωpq , ∈ R N×N (13.15) B Ωpq = ⎜ ⎟ pq ⎜ ⎟ 1 ⎜ ⎟ s c ⎜ ⎟← q ⎜ ⎟ 1 ⎜ ⎟ p pp ⎠ ⎝ 1 ↑ ↑ p q sind mit einer symmetrischen Matrix B ∈ R N×N und mit speziell zu wählenden Indizes p = q und reellen Zahlen

c, s ∈ R,

c2 + s2 = 1.

(13.16)

) und Im Folgenden soll zunächst ein allgemeiner Zusammenhang zwischen den Zahlen S ( B ( ) S B hergestellt werden. Hierzu beobachtet man, dass wegen der besonderen Struktur der Matrix Ωpq Folgendes gilt, ⎛ ⎞ 0 0 0 ⎟ ⎜ ⎟ ⎜ ⎟←p ⎜ ⎟ ⎜ ⎟ ⎜ 0 0 ⎟ = B + ⎜ 0 ∈ R N×N , B ⎟ ⎜ ⎟ ⎜ ⎟←q ⎜ ⎟ ⎜ ⎝ 0 0 0 ⎠ ↑ ↑ p q = (bjk ) die Einträge mit den Indizes ( p, p ), ( q, q ) und ( p, q ) von besonwobei in der Matrix B derer Bedeutung sind:

bpq

=

bpp = c2 bpp + 2csbpq + s2 bqq ,

(13.17)

bqq = s2 bpp − 2csbpq + c2 bqq ,

(13.18)

bqp = cs(bqq − bpp ) + ( c − s )bpq ,

(13.19)

bjk = bjk ,

(13.20)

2

2

j, k ∈ {p, q },

wobei B = ( bjk ). Weiter gilt noch bjp = bpj = cbjp + sbjq ,

bjq = bqj = −sbjp + cbjq

für j ∈ {p, q }.

) und S ( B ) Im folgenden Theorem 13.11 wird ein Zusammenhang zwischen den Zahlen S ( B hergestellt, für dessen Beweis das folgende Resultat u¨ ber die Invarianz der Frobeniusnorm gegenüber orthogonalen Transformationen benötigt wird.

338

Kapitel 13

Numerische Verfahren für Eigenwertprobleme

Lemma 13.10 Für jede Matrix B ∈ R N×N und jede orthogonale Matrix Q ∈ R N×N gilt die Identität ||Q−1 BQ||F = ||B ||F . B EWEIS . Zunächst sei an die aus der linearen Algebra bekannte Spur einer Matrix A = (ajk ) ∈ R N×N erinnert, spur ( A ) = N k=1 akk . Die Aussage folgt nun unmittelbar aus den beiden folgenden Identitäten, ||A||2F = spur ( AA ),

spur ( S T ) = spur ( T S )

für alle A, S, T ∈ R N×N ,

deren elementaren Nachweise hier nicht geliefert werden. ) und S ( B ) her. Das folgende Theorem stellt einen Zusammenhang zwischen den Zahlen S ( B Theorem 13.11 Für eine symmetrische Matrix B = ( bjk ) ∈ R N×N gilt mit den Bezeichnungen aus (13.15) Folgendes, ) S(B

=

S ( B ) − 2(b2pq − b2pq ).

B EWEIS . Eine Anwendung von Lemma 13.10 und den Identitäten (13.14) und (13.20) liefert ) = || B ||2 − S(B F

N

b2 kk

k=1

=

||B ||2F −

N

b2kk

k=1

S(B )

+ b2pp + b2qq − b2pp − b2qq .

(13.21)

Zur Verarbeitung der letzten vier Summanden in (13.21) verwendet man die Identitäten (13.17) (13.19) in der folgenden Matrixschreibweise, ⎛ ⎞ ⎞⎛ ⎛ ⎞⎛ ⎞ bpp bpq c s bpp bpq c −s ⎠ = ⎝ ⎠⎝ ⎝ ⎠⎝ ⎠. bpq bqq bpq bqq −s c s c

=: b =: b Die entstehenden Matrizen b und b ∈ R 2×2 sind also orthogonal a¨ hnlich zueinander, und daher erhält man unter Anwendung von Lemma 13.10 b2 + b2 + 2b2 pp qq pq

= || b||2F

=

b2pp + b2qq + 2b2pq ,

= ||b||2F

(13.22)

und die Identitäten (13.21) (13.22) ergeben dann die Aussage des Theorems. Mit Lemma 13.11 wird offensichtlich, dass (bei festem Index ( p, q ) ) im Fall bpq = 0 die Zahl ) die größtmögliche Verringerung gegenüber S ( B ) zu verzeichnen hat. S(B

Abschnitt 13.4

339

Das Jacobi– Verfahren für symmetrische Matrizen

Korollar 13.12 Wählt man in (13.15) die Zahlen c und s so, dass bpq = 0 erfüllt ist, dann gilt ) S(B

=

S ( B ) − 2b2pq .

Das folgende Theorem stellt eine Wahl der Zahlen c und s vor, mit der man bpq = 0 erhält. Theorem 13.13 In (13.15) erhält man den Eintrag bpq = 0 durch folgende Wahl der Zahlen c und s (o.B.d.A. sei bpq = 0) 6 6 bpp − bqq 1+C 1−C ( bpq ) c = , s = sgn mit C = 1/2 . (13.23) 2 2 (bpp − bqq )2 + 4b2pq B EWEIS . Mit (13.19) folgt 6 2 bpq = sgn(bpq ) 1 − C (bqq − bpp ) + Cbpq 4 (∗)

=

sgn(bpq )|bpq |(bqq − bpp ) bpp − bqq 1/2 + 1/2 bpq 2 2 (bpp − bqq ) + 4bpq (bpp − bqq )2 + 4b2pq

wobei (∗) aus 6 1 − C2 4

=

1 2

( bpp − bqq )2 + 4b2 − ( bpp − bqq )2 1/2 pq ( bpp − bqq )2 + 4b2pq

=

=

0,

|bpq | ( ( bpp − bqq )2 + 4b2pq )1/2

resultiert. Bemerkung 13.14 1. Offensichtlich gilt in (13.23) |C | < 1, so dass dort die Zahl s wohldefiniert ist. Ebenso offensichtlich gilt dann c2 + s2 = 1, womit die Matrix Ωpq in (13.15) orthogonal ist. 2. Bei einer Wahl von c und s entsprechend (13.23) tritt u¨ blicherweise für gewisse Indizes ( j, k ) ∈ { ( p, q ), ( q, p ) } u ¨ blicherweise auch der Fall ein, dass bjk = 0 gilt, obwohl eventuell bjk = 0 erfüllt ist. Im Folgenden soll noch die spezielle Wahl des Indexes ( p, q ) diskutiert werden. Korollar 13.12 legt nahe, ( p, q ) so zu wählen, dass |bpq | maximal wird. In diesem Fall erhält man die folgende Abschätzung: Theorem 13.15 Für Indizes ( p, q ) mit p = q sei |bpq |

≥

|bjk |

für j, k = 1, 2, . . . , N,

j = k,

(13.24)

erfüllt. Mit den Bezeichnungen aus (13.15) und Einträgen c und s entsprechend Theorem 13.13 gilt dann die Abschätzung ) S(B

≤

( 1 − εN )S ( B ),

2

mit εN := N ( N − 1 ) .

340

Kapitel 13

Numerische Verfahren für Eigenwertprobleme

B EWEIS . Wegen (13.24) gilt die Abschätzung S(B )

=

N

b2jk

≤

N ( N − 1 )b2pq ,

j,k=1 j=k

da die Anzahl der Nichtdiagonaleinträge N ( N − 1 ) beträgt. Die Aussage folgt nun mit Korollar 13.12.

13.4.3 Zwei spezielle Jacobi– Verfahren Im Folgenden werden für das zu Beginn von Abschnitt 13.4 bereits vorgestellte Jacobi Verfahren zwei unterschiedliche Möglichkeiten der Wahl der Indizes ( p1 , q1 ), ( p2 , q2 ), . . . behandelt. Das klassische Jacobi– Verfahren Algorithmus 13.16 (Klassisches Jacobi Verfahren) Für eine gegebene symmetrische Matrix A ∈ R N×N setze man A(1) := A. for m = 1, 2, . . .: ur j, k = 1, . . . , N, j = k; bestimme Indizes p, q mit |a(pqm) | ≥ |a(jkm) | f¨ (m) A(m+1) := Ω−1 Ωpq ; pq A

ur Ωpq aus (13.15) mit c und s wie in (13.23) * ) (* f¨

end Bemerkung 13.17 1. Nach Theorem 13.15 konvergiert für die Matrizen A(m) des klassischen Jacobi-Verfahrens die Messgröße S ( A(m) ) → 0 linear. Genauer gilt 2 für m = 1, 2, . . . εN = ( , A = A(1) . S ( A(m) ) ≤ ( 1 − εN )m S ( A ) ) N N −1

Ist eine absolute Genauigkeit η > 0 vorgegeben, mit der die Eigenwerte der vorgegebenen Matrix A bestimmt werden sollen, so ist gemäß Theorem 13.9 nach m

≥

2

√ log( S ( A )/η ) −log ( 1 − εN )

≈

N 2 log

/

S ( A ) /η

Schritten die gewünschte Genauigkeit erreicht, S ( A(m) ) ≤ η. Für das Erreichen einer vorgegebenen Genauigkeit sind somit cN 2 Iterationsschritte durchzuführen. 2. In jedem Schritt des klassischen Jacobi Verfahrens fallen etwa 4N Multiplikationen und 2N Additionen sowie O( 1 ) Divisionen und Quadratwurzelberechnungen an, insgesamt also 6N(1 + O( 1/N ) ) arithmetische Operationen. Hinzu kommt in jedem Schritt der weitaus höher ins Gewicht fallende Aufwand zur Bestimmung des betragsmäßig größten Elements, wofür N ( N − 1 )/2 Vergleichsoperationen erforderlich sind.

Abschnitt 13.4

341

Das Jacobi– Verfahren für symmetrische Matrizen

Das zyklische Jacobi– Verfahren Mit Bemerkung 13.17 wird klar, dass beim klassischen Jacobi Verfahren cN 4 + O( N 3 ) Operationen für das Erreichen einer vorgegebenen Genauigkeit durchzuführen sind (mit einer Konstanten c > 0), was die Anwendung dieses Verfahrens nur für kleine Matrizen zulässt. Daher ist die folgende Variante des Jacobi Verfahrens in Betracht zu ziehen, die auf die Bestimmung des jeweils betragsmäßig größten Eintrags verzichtet: Algorithmus 13.18 (Zyklisches Jacobi Verfahren) Für eine gegebene symmetrische Matrix A ∈ R N×N setze man A(1) := A. for m = 0, 1, . . .:

B := A(m) ;

for p = 1 : N − 1 for q = p + 1 : N

B := Ω−1 pq BΩpq ; end

(* f¨ ur Ωpq aus (13.15) mit c und s wie in (13.23) *) end A(m+1) := B; end Bemerkung 13.19 1. Das zyklische Jacobi Verfahren ist von der allgemeinen Form A(m+1) = −1 (m) A Sm , m = 1, 2, . . . mit Sm Sm = Ω12 Ω13 · · · Ω1N Ω23 Ω24 · · · Ω2N · · · ΩN −2,N −1 ΩN −2,N ΩN −1,N N −1 N = Ωpq , p=1

q=p+1

wobei die Einträge c = c( p, q, j ) und s = s( p, q, j ) von Ωpq entsprechend Theorem 13.13 gewählt sind. 2. In einem Schritt A(m) → A(m+1) des zyklischen Jacobi Verfahrens werden N ( N − 1 )/2 Jacobi Transformationen (13.15) mit insgesamt 3N 3 (1+O( 1/N ) ) arithmetischen Operationen durchgeführt. Typischerweise ist nach m = O( 1 ) Schritten die Zahl S ( A(m) ) hinreichend klein (man beachte hierzu das nachfolgende Theorem 13.20), so dass man mit einem Gesamtaufwand von O( N 3 ) arithmetischen Operationen auskommt. Das zyklische Jacobi Verfahren konvergiert im Falle einfacher Eigenwerte quadratisch im Sinne des folgenden Theorems. Eine Beweisidee dazu und Hinweise auf die entsprechende Originalliteratur findet man in Parlett [78]. Theorem 13.20 Falls alle Eigenwerte der symmetrischen Matrix A ∈ R N×N einfach auftreten, so gilt für die Matrizen A(m) des zyklischen Jacobi Verfahrens S ( A(m+1) )

≤

S ( A(m) )2 δ

für m = 1, 2, . . .,

mit δ :=

min

λ, µ ∈ σ( A ), λ=µ

|λ − µ|.

342

Kapitel 13

Numerische Verfahren für Eigenwertprobleme

13.5 Das QR–Verfahren 13.5.1 Eindeutigkeit und Stetigkeit der QR– Faktorisierung einer Matrix Für das in den folgenden Abschnitten 13.5.2–13.5.3 behandelte QR Verfahren zur approximativen Bestimmung der Eigenwerte einer Matrix werden die folgenden Aussagen u¨ ber Eindeutigkeit und Stetigkeit der QR Faktorisierung einer Matrix benötigt. Lemma 13.21 (Eindeutigkeit der QR Faktorisierung) Für Orthogonalmatrizen Q1 , Q2 ∈ R N×N und reguläre obere Dreiecksmatrizen R1 , R2 ∈ R N×N sei Q1 R1 = Q2 R2 erfüllt. Dann existiert eine Vorzeichenmatrix S = diag ( σ1 , . . . , σN ) ∈ R N×N mit σk ∈ {−1, 1}, so dass Folgendes gilt, Q2 = Q1 S,

R2 = SR1 .

B EWEIS . Nach Voraussetzung gilt Q−1 1 Q2

=

R1 R2−1

=:

S.

Es sind Produkte und Inverse von orthogonalen Matrizen wieder orthogonal, und entsprechendes gilt für obere Dreiecksmatrizen. Folglich ist S sowohl obere Dreiecksmatrix als auch orthogonal, ⎛ . . . . . . . . .. . . . . . . . ⎞ S

−1

= S ,

S

=

⎜ ⎝

............................................... ........................................... ...................................... .................................. ............................. ......................... .................... ................ ........... ....... ..

⎟ N ×N . ⎠ ∈ R

(13.25)

Damit kann S nur eine Diagonalmatrix sein, S = diag (σ1 , . . . , σN ) ∈ R N×N , und wieder wegen S −1 = S erhält man σk = 1/σk für k = 1, 2, . . . , N, woraus die Aussage des Lemmas folgt. Definition 13.22 Für Matrizen Am = (a(jkm) ) und A = ( ajk ) ∈ R N×N schreibt man Am → A

für m → ∞

:⇐⇒

a(jkm) → ajk

für m → ∞

(j, k = 1, 2, . . . , N ).

Bekanntermaßen gilt Am → A für m → ∞ genau dann, wenn ||Am − A|| → 0 für m → ∞ für irgendeine Matrixnorm || · || : R N×N → R erfüllt ist. Für die Konvergenzbetrachtungen des noch vorzustellenden QR Verfahrens wird das folgende Resultat u¨ ber die lokale Lipschitzstetigkeit der QR Faktorisierung benötigt. Im Folgenden ist O( ∆m ) eine Kurzschreibweise für O(||∆m ||2 ).

Abschnitt 13.5

343

Das QR – Verfahren

Lemma 13.23 (Stetigkeit der QR Faktorisierung) Für Orthogonalmatrizen Qm , Q ∈ R N×N und obere Dreiecksmatrizen Rm , R ∈ R N×N sei =: ∆m

Qm Rm − QR → 0

für m → ∞

(13.26)

erfüllt, und die Matrix QR ∈ R N×N sei regulär. Dann existieren Vorzeichenmatrizen Sm

=

( m) diag (σ1( m) , . . . , σN ) ∈ R N×N

mit σk( m) ∈ {−1, 1},

(13.27)

mit Qm Sm = Q + O( ∆m ),

Sm Rm = R + O( ∆m )

für m → ∞. (13.28)

B EWEIS . Es ist die Matrix R regulär, da Q und QR reguläre Matrizen sind, und somit können wir m := Rm R−1 R betrachten. Als Erstes beobachtet man R R m m

=

I + O( ∆m )

für m → ∞,

(13.29)

was sich wie folgt ergibt, R R m m

=

−1 (R−1 )R m Rm R

(∗)

(R)−1 (QR) + O( ∆m ) QR + O( ∆m ) R−1

= =

=

(R )−1 (Qm Rm )(Qm Rm )R−1

(R)−1 RRR−1 + O( ∆m )

= I

für m → ∞,

wobei in (∗) noch zu beachten ist, dass ||B ||2 = ||B||2 gilt für beliebige Matrizen B ∈ R N×N . Im Folgenden wird mithilfe von (13.29) nachgewiesen, dass für gewisse Vorzeichenmatrizen Sm ∈ R N×N von der Form (13.27) Folgendes gilt, m Sm R

=

I + O( ∆m )

für m → ∞.

(13.30)

Aus (13.30) folgert man dann nämlich die Darstellung (13.28), Sm Rm Qm Sm

=

m R Sm R

(•)

=

( Qm Rm )( Sm Rm )−1

=

Q + O( ∆m )

=

R + O( ∆m ), (••)

=

(QR + O( ∆m ) )(R−1 + O( ∆m ) )

für m → ∞.

2 Hierbei ist in ( • ) zu beachten, dass nach Voraussetzung Sm = I gilt, und für hinreichend große m ist die Matrix Rm regulär, was sich beispielsweise aus (13.26), der Regularität von QR und der Eigenschaft ||Q−1 at ( •• ) ist eine Folgerung aus Korollar 4.50. m ||2 = 1 ergibt. Die Identit¨

344

Kapitel 13

Numerische Verfahren für Eigenwertprobleme

Im Folgenden wird nun die Konvergenzaussage (13.30) nachgewiesen. Inverse und Produkte m von oberen Dreiecksmatrizen bilden wieder obere Dreiecksmatrizen, somit ist insbesondere R eine obere Dreiecksmatrix. Man erhält dann folgende Zerlegung, ⎞ ⎞ ⎛ ⎛ ( m) × ppp × r11 0 × ppp × ⎟ ⎟ ⎜ ⎜ ⎜ ⎜ pp p p p p pp ⎟ pp ⎟ ( m) pp ⎜ ⎜ p p p ⎟ r22 p p p ⎟ ( ) ( ) m m ⎟ . (13.31) m = ⎜ ⎟ =: diag ( r , . . . , r ) + ⎜ R 11 NN ⎟ ⎟ ⎜ ⎜ pp pp pp

× ⎟ ⎜ ⎜ p p p × ⎟ ⎠ ⎝ ⎝ ⎠ =: Dm ( m) rN 0 p p p p p p 0 N

=: Um Mit den Bezeichnungen aus (13.31) wird nun 2 = I + O( ∆m ), Dm

Um = O( ∆m )

für m → ∞

(13.32)

( m) ( m) ), . . . , sgn( r ) N nachgewiesen, woraus dann mit den Vorzeichenmatrizen Sm = diag (sgn( r11 N ) unmittelbar (13.30) folgt. Zum Nachweis von (13.32) beobachtet man als Erstes

m R

=

)−1 + Bm (R m

)−1 ( R R mit Bm := ( R m m m − I ).

Mit (13.29) folgt Bm = O( ∆m ), −1 , . . . nach −1 , R wobei noch zu beachten ist, dass (13.29) die Beschränktheit der Matrixfolge R 0 1 −1 ||1/2 → 1 für m → ∞. R −1 ||2 = ||( R sich zieht, || R m m m) 2 eine untere Dreiecksmatrix, und Inverse von unteren DreiZum Zweiten ist offensichtlich R m )−1 eine untere Dreiecksmatrix ecksmatrizen sind wieder untere Dreiecksmatrizen, so dass ( R m ist. Daher stimmt notwendigerweise das strikte obere Dreieck von Bm mit dem strikten oberen Dreieck von Um u¨ berein. Insgesamt erhält man damit folgende Darstellung, ⎞

⎛ Bm

=

⎜ ⎜ ⎝

......... ................ ........................ ................................ ........................................ . .. . . . . . . . . ................................................................ ............................................................ .................................................................... .....................................

⎟ ⎟ + Um ⎠

=

O( ∆m ).

Es ist nun klar, dass sich daraus die zweite Identität in (13.32) ergibt, und abschließend wird die erste Identität in (13.32) nachgewiesen, 2 Dm = D m Dm

=

R R m m

=I+O ( ∆m )

=

− U )( R m − Um ) (R m m

Um − U R − R m m m + Um Um = I + O ( ∆m ) =O ( ∆m )

=O ( ∆m )

für m → ∞.

O ( ∆m )

Damit ist (13.32) und somit auch (13.30) nachgewiesen, und man erhält die Stetigkeitsaussage (13.28).

Abschnitt 13.5

345

Das QR – Verfahren

13.5.2 Definition des QR– Verfahrens Der folgende Algorithmus beschreibt in Form eines Pseudocodes das QR Verfahren zur approximativen Bestimmung der Eigenwerte einer Matrix A. Algorithmus 13.24 (QR Verfahren) Sei A ∈ R N×N eine beliebige reguläre Matrix. A(1) := A; for m = 1, 2, . . .: bestimme Faktorisierung A(m) = Qm Rm mit Qm ∈ R N×N orthogonal und Rm ∈ R N×N von oberer Dreiecksgestalt; A(m+1) := Rm Qm ∈ R N×N ; end Wie sich gleich herausstellen wird, approximieren die Diagonaleinträge von A(m) unter geeigneten Bedingungen für m → ∞ die Eigenwerte der Matrix A. Hierbei werden die folgenden Darstellungen für die Iterationsmatrizen A(m) und die Potenzen Am benötigt. Lemma 13.25 Mit den Bezeichnungen aus Algorithmus 13.24 sowie der Notation Q1...m := Q1 Q2 · · · Qm ,

Rm...1 := Rm Rm−1 · · · R1 ,

(13.33)

gilt A(m+1) ......

Am

(m) = Q−1 Qm , m A

m = 1, 2, . . .,

= Q−1 1...m AQ1...m ,

......

,

= Q1...m Rm...1 ,

........

.

B EWEIS . Die erste Identität ist unmittelbar einsichtig, und daraus resultiert dann die zweite Identität, A(m+1)

=

(m) −1 (m−1) Q−1 Qm = Q−1 Qm−1 Qm m A m Qm−1 A

= ...

=

−1 Q−1 m · · · Q1 AQ1 · · · Qm .

Die dritte Identität erhält man mittels vollständiger Induktion unter Verwendung des folgenden Arguments, Q1...m Rm...1 = Q1...m−1 Qm Rm Rm−1...1 (∗)

= AQ1...m−1 Rm−1...1

=

Q1...m−1 A(m) Rm−1...1

für m ≥ 1,

346

Kapitel 13

Numerische Verfahren für Eigenwertprobleme

wobei in (∗) die gerade bewiesene zweite Identität eingeht. Damit ist Lemma 13.25 vollständig bewiesen. Wie sich im Verlauf des Beweises für den folgenden zentralen Konvergenzsatz herausstellen wird, hat die QR Faktorisierung Am = Q1...m Rm...1 für die m-te Potenz der Matrix A insofern eine besondere Bedeutung, als dass sich die Matrix Rm...1 bis auf die Vorzeichenwahl als ein Prom dukt von drei Matrizen darstellen lässt, bei der die Diagonalmatrix diag (λm 1 , . . . , λN ) den domi−1 −1 nanten Faktor darstellt. Weiter zeigt sich schließlich, dass die Matrix A(m) = Q1...m−1 Am Rm−1...1 dann eine Normierung von Am darstellt, bei der sich auf der Diagonalen die Werte λ1 , . . . , λN herauskristallisieren.

13.5.3 Konvergenz des QR– Verfahrens fur ¨ betragsmäßig einfache Eigenwerte Unter gewissen Bedingungen konvergieren für m → ∞ die Diagonaleinträge von A(m) gegen die betragsmäßig fallend sortierten Eigenwerte von A, wobei die Konvergenzgeschwindigkeit von der betragsmäßig betrachteten Trennung der Eigenwerte abhängt: Theorem 13.26 Die Matrix A ∈ R N×N sei regulär und diagonalisierbar mit betragsmäßig einfachen Eigenwerten λ1 , . . . , λN ∈ R, die o.B.d.A. betragsmäßig fallend angeordnet seien, |λ1 | > |λ2 | > . . . > |λN | > 0,

(13.34)

und die Inverse der Matrix T = v1 |. . .| vN ∈ R N×N mit Eigenvektoren vk ∈ R N zu λk besitze ohne Zeilenvertauschung eine LR Faktorisierung.6 Dann gilt für das in Algorithmus 13.24 beschriebene QR Verfahren λ k+1 A(m) = Sm USm + O( q m ) für m → ∞, mit q := max , k=1..N −1 λk mit geeigneten Matrizen von der Form ⎛ ⎜ ⎜ ⎜ U = ⎜ ⎜ ⎜ ∈ {−1, 1} , ⎝

( m) Sm = diag (σ1( m) , . . . , σN ) ∈ R N×N ,

σk( m)

λ1

×

ppp

×

pp

pp

p

p pp

pp

p

×

p

⎞ ⎟ ⎟ ⎟ ⎟ ∈ R N×N . (13.35) ⎟ ⎟ ⎠

λN Insbesondere approximieren also die Diagonaleinträge von A(m) = (a(jkm) ) die betragsmäßig fallend sortierten Eigenwerte von A, max |a(kkm) − λk |

k=1..N

6

=

O( q m )

für m → ∞.

Eine detaillierte Formulierung finden Sie in (13.38) im Beweis. Eine Erläuterung dazu liefert die anschließende Bemerkung 13.27.

Abschnitt 13.5

347

Das QR – Verfahren

B EWEIS . Für die Eigenvektormatrix T ∈ R N×N aus der Voraussetzung des Theorems betrachte man eine QR Faktorisierung, ⎛ . . . . . . . . . .. . . . . . . ⎞ T = QR,

Q ∈ RN

×

N

orthogonal,

= ⎜ R ⎝

............................................... ........................................... ...................................... .................................. ............................. ......................... .................... ................ ........... ....... ..

⎟ N ×N . ⎠ ∈ R

(13.36)

Es wird nun Folgendes nachgewiesen, A(m)

R −1 )Sm + O( q m ) Sm ( RD

=

für m → ∞

(13.37–a)

mit Matrizen Sm ∈ R N×N von der Form (13.27) und der Diagonalmatrix D := diag ( λ1 , . . . , λN ) ∈ R N×N .

(13.37–b)

R −1 . Für den Nachweis Die Aussage des Theorems erhält man danach mit der Matrix U := RD von (13.37) benötigt man die vorausgesetzte Faktorisierung der Form ⎞

⎛ 1

T

−1

= LR,

⎜ ⎜ × ⎜ L = ⎜ p ⎜ pp ⎝ ×

pp pp

⎟ ⎟ ⎟ × ⎟ ∈ RN N , ⎟ ⎠

p p

pp

ppp

×

p

⎛ . .. . . . . . . . . .. . . . . ⎞ ⎜ R = ⎝

............................................... ........................................... ...................................... .................................. ............................. ......................... .................... ................ ........... ....... ..

⎟ N ×N , ⎠ ∈ R

1

(13.38)

und beobachtet als Erstes, dass Lm := D m LD −m = I + O( q m )

für m → ∞

(13.39)

gilt, denn mit der Notation L = ( Ljk ) gilt Lm = ( ( λj /λk )m Ljk ), und dann folgt (13.39) aus der Ungleichung |λj /λk | ≤ q für j ≥ k + 1. Im Weiteren wird eine QR Faktorisierung von m ∈ R N×N benötigt, RL ⎛ . . . . .. . . . . . . . . .. . ⎞ m =: Q m , m R RL

m ∈ R Q

N ×N

orthogonal,

m R

=

⎜ ⎝

............................................... ........................................... ...................................... .................................. ............................. ......................... .................... ................ ........... ....... ..

⎟ N ×N . ⎠ ∈ R

m R m = R + O(q m ) = I R + O(q m ) für m → ∞, Man erhält aus (13.39) die Konvergenz Q und Lemma 13.23 u¨ ber die Stetigkeit der QR Faktorisierung liefert dann mit einer entsprechenm m beziehungsweise den Zeilen der Matrix R den Vorzeichenwahl in den Spalten der Matrix Q Folgendes, m = I + O( q m ), Q

m = R + O( q m ) R

für m → ∞.

Diese Konvergenzaussage ist der erste Schritt beim Nachweis von (13.37).

(13.40)

348

Kapitel 13

Numerische Verfahren für Eigenwertprobleme

Im zweiten Schritt ergeben sich für die Potenzen Am , m ≥ 1, die beiden folgenden QR Faktorisierungen, (∗)

Am = T Dm T −1

=

m LR QRD

m D m R , (13.41) m D m R = QQ m R Q RL

(13.39)

=

bm R bm Q

Am = Q1...m Rm...1 ,

orthog.

Dreieck

(13.42)

wobei in der ersten Identität von (13.41) die Faktorisierung A = T DT −1 eingeht, und die Identität (∗) resultiert aus (13.36) und (13.38). Die Identität (13.42) erhält man aus Lemma 13.25. Die Eindeutigkeit der QR Faktorisierung (vergleiche Lemma 13.21) liefert dann m Sm+1 , Q1...m = QQ m D m R, Rm...1 = Sm+1 R

mit

Sm+1

=

( m+1 ) diag (σ1(m+1) , . . . , σN ) ∈ R N×N , ( m+1) σk ∈ {−1, 1} geeignet .

Daraus erhält man = I

Qm =

Q−1 1...m−1 Q1...m

=

Rm =

−1 Rm...1 Rm−1...1

=

−1 Q−1 Q Q m Sm+1 , Sm Q m−1 m D m RR−1 (D −1 )m−1 R −1 Sm , Sm+1 R m−1

= D

und daraus wiederum A(m)

=

Qm Rm

=

2 −1 −1 Q m Sm+1 m+1 D R m R Sm Q Sm , m−1 →I

→I

=I

b →R

b−1 →R

wobei die angegebenen Konvergenzeigenschaften mit der Rate O( q m ) gelten, wie man der Darstellung (13.40) entnimmt. Daraus erhält man schließlich die Identität (13.37), Sm A(m) Sm = R −1 + O( q m ) für m → ∞. Dies komplettiert den Beweis des Theorems. RD Bemerkung 13.27 (a) Die Bedingung der Existenz einer LR Faktorisierung für die Inverse der in Theorem 13.26 beschriebenen Eigenvektormatrix T ist a¨ quivalent zu der Eigenschaft span {e1 , . . . , en } ∩ span {vn+1 , . . . , vN } = {0}

für n = 1, 2, . . . , N − 1,

siehe Aufgabe 13.2. Hier bezeichnet ek ∈ R N den k ten Einheitsvektor. Wegen der fehlenden Kenntnis der Eigenvektoren v1 , . . . , vN ist diese Bedingung praktisch nicht nachprüfbar. (b) Im Falle komplexer Eigenwerte, σ ( A ) ⊂ R, ist die Bedingung (13.34) des Satzes nicht erfüllt und auch die Aussage des zugehörigen Theorems verliert ihre Gültigkeit. Einzelheiten u¨ ber die erforderlichen Modifikationen finden Sie beispielsweise in Oevel [75] und in Stoer/ Bulirsch [96]. (c) Bei vollbesetzten Matrizen erfordert jeder Schritt des QR Verfahrens wegen der notwendigen Berechnung einer QR Faktorisierung cN 3 + O( N 2 ) arithmetische Operationen. Daher ist ¨ es zweckmäßiger, zunächst eine Ahnlichkeitstransformation auf Hessenberggestalt gemäß Abschnitt 13.2 durchzuführen und die entstehende Matrix mit dem QR Verfahren zu bearbeiten. Weitere Einzelheiten hierzu werden im folgenden Abschnitt 13.5.4 vorgestellt.

349

Das QR – Verfahren

Abschnitt 13.5

(d) Eine alternative Präsentation des QR Verfahrens findet man in Kress [60] (siehe auch Watkins [105]).

13.5.4 Praktische Durchfuhrung ¨ des QR– Verfahrens fur ¨ Hessenbergmatrizen Ausgehend von dem letzten Aspekt der Bemerkung 13.27 wird im Folgenden für den Spezialfall einer Hessenbergmatrix A ∈ R N×N eine effiziente Vorgehensweise zur Berechnung der Iterierten7 A(2) , A(3) , . . . des QR Verfahrens beschrieben. Prinzipielles Vorgehen bei der Durchfuhrung ¨ des Schritts A(m) → A(m+1) Zur Durchführung des Schritts A(m) → A(m+1) hat man nach Definition zunächst eine QR Faktorisierung A(m) = Qm Rm für die Hessenbergmatrix A(m) = (a(jkm) ) zu bestimmen, was sukzessive in der folgenden Form geschieht, A(m)

= A(m,1)

→

A(m,k+1)

= Smk A(m,k) ,

A(m,2)

→

→

...

A(m,N ) =: Rm ,

k = 1, 2, . . . , N − 1,

(13.43)

mit dem Ziel der schrittweisen Elimination der unteren Nebendiagonaleinträge, ⎛

(m,k)

A

=

( m,k ) ⎜ a11 ⎜ ⎜ ⎜ 0 ⎜ ⎜ p ⎜ pp ⎜ ⎜ ⎜ p ⎜ pp ⎜ ⎜ ⎜ ⎜ pp ⎜ p ⎜ ⎜ p ⎜ pp ⎜ ⎜ ⎜ p ⎜ pp ⎜ ⎝ 0

ppp pp pp

ppp

ppp

ppp

ppp

ppp

ppp

ppp

ppp

ppp

ppp

ppp

ppp

ppp

ppp

p ( m,k )

p ak−1,k−1

(

)

0

akkm,k

0

m) m) a(k+1,k a(k+1,k+1

0

m) m) a(k+2,k+1 a(k+2,k+2

pp ppp

ppp

ppp

p

pp

ppp

0

p

pp

p

m) a(N,N −1

⎞ m,k ) a(1N ⎟ ⎟ pp ⎟ ⎟ p ⎟ ⎟ ( m,k ) ⎟ ak−1,N ⎟ ⎟ ⎟ ( m,k ) ⎟ akN ⎟←− Zeile k ⎟ (13.44) ⎟ ⎟ ( m) ak+1,N ⎟←− Zeile k + 1 ⎟ ⎟ ( m) ak+2,N ⎟ ⎟ ⎟ ⎟ pp ⎟ p ⎟ ⎠ ( m) aN N

↑ Spalte k wobei die verwendete Notation für die Einträge der Matrix A(m,k) dadurch gerechtfertigt ist, dass die Matrizen A(m,k) und A(m) in den Zeilen k + 1, k + 2, . . . , N u¨ bereinstimmen. Das 7

¨ die allesamt von Hessenbergform sind, siehe Ubungsaufgabe 13.3

350

Kapitel 13

Numerische Verfahren für Eigenwertprobleme

angesprochene Ziel wird erreicht, wenn man im Zuge der Transformation (13.43) spezielle Givensrotationen Smk ∈ R N×N von der Form ⎛

Smk

⎜ ⎜ ⎜ ⎜ ⎜ ⎜ = ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝

1

⎞ pp

⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ←− Zeile k ⎟ ⎟ ←− Zeile k + 1 ⎟ ⎟ ⎟ ⎟ ⎠

p

1 c −s s c 1

pp

p

1 ↑ Spalte k verwendet mit den folgenden Setzungen für die Zahlen c, s ∈ R, ca + sb −sa + cb

=

1 √ a2 + b 2

a a2 + b 2 b s = √ 2 2 a +b

c = √ bzw.

= 0

(

mit

)

a := akkm,k , m) , b := a(k+1,k

wobei noch b = 0 angenommen wird. Gilt andernfalls b = 0, so ist keine Transformation erforderlich und man kann c = 1, s = 0 setzen. In jedem Fall gilt c2 + s2 = 1 und Smk ist somit eine Orthogonalmatrix. A(m,k) Bei diesen Notationen a¨ ndert sich bei einer Transformation von der Form A(m,k) → Smk p p p p p p × ( ) 2 N −k+1 lediglich die in (13.44) gekennzeichnete Teilmatrix ∗∗ p p p p p p ∗∗ ∈ R zu

(

c s −s c

) ∗ ∗

ppp ppp ppp ppp

∗ ∗

=

∗

0

ppp ppp ∗ ppp

∗ ∗

∈ R 2×(N −k+1) .

Nach der Gewinnung einer QR Faktorisierung A(m) = Qm Rm für die Hessenbergmatrix A(m) besteht der zweite Teil bei der Durchführung des Schritts A(m) → A(m+1) des QR Verfahrens in der Berechnung des Matrixprodukts A(m+1) = Rm Qm mit Qm := Sm1 Sm2 · · · Sm,N −1 . Die Durchfuhrung ¨ des Schritts A(m) → A(m+1) in der Praxis Zur Speicherplatzersparnis führt man in der Praxis die beiden genannten Teile des Schritts A(m) → A(m+1) simultan in der folgenden Form durch, A(m) = B (m,1)

→

B (m,2)

B (m,k) Smk , B (m,k+1) = Smk

wobei im Detail so vorgegangen wird:

→

...

→

B (m,N ) =: A(m+1) ,

k = 1, 2, . . . , N − 1,

(13.45)

Abschnitt 13.5

351

Das QR – Verfahren

Algorithmus 13.28 (QR Verfahren für Hessenbergmatrizen) Man berechnet

B (m,k)

(k,1)

→

Smk B (m,k)

(k,2)

→

Smk B (m,k) Smk =: B (m,k+1) , k = 1, . . . , N − 1, (13.46)

B (m,k) die Einträge mit den Indizes k + 1, k + 1 wobei nach dem Schritt ( k, 1 ) in der Matrix Smk ( m,k+1 ) m) u¨ bereinstimmen beziehungsweise k +2, k +1 mit den Werten ak+1,k+1 beziehungsweise a(k+2,k+1 und diese für die Berechnung der Givensrotation Sm,k+1 zwischenzuspeichern sind.

Die in dem Algorithmus 13.28 gewählte Reihenfolge bei der Durchführung der Matrizenmultiplikationen führt aufgrund der Assoziativität des Matrixprodukts dennoch tatsächlich auf die Matrix (m) B (m,N ) = Sm,N Sm1 Sm2 · · · Sm,N −1 −1 Sm,N −2 · · · Sm1 A

=

A(m+1) .

m,k+1) m) beziehungsweise a(k+2,k+1 Mit dem folgenden Lemma wird klar, dass sich die Werte a(k+1,k+1 nach dem Schritt ( k, 1 ) tatsächlich an den genannten Positionen stehen. (Bei dem darauf folgenden Schritt ( k, 2 ) aus (13.46) werden diese u¨ berschrieben.)

B (m,k) ist von Lemma 13.29 Die in (13.46) nach dem Schritt ( k, 1 ) entstehende Matrix Smk Hessenbergform. Deren Einträge stimmen in den Spalten k + 1, k + 2, . . . , N mit denen der Matrix A(m,k+1) aus (13.43) u¨ berein,

⎛ ∗

Smk B (m,k)

=

⎜ ⎜∗ ⎜ ⎜ ⎜0 ⎜ ⎜ pp ⎜p ⎜ ⎜p ⎜ pp ⎜ ⎜p ⎜ pp ⎝ 0

ppp

∗

pp

p

ppp

pp

p

∗

ppp pp p

pp

p

∗

m,k+1 ak+1,k+1

pp

m,k+1) a(1,k+1

(

ppp

)

( m)

ppp

m,k+1) a(1N

ppp pp p

(

m,k+1 ak+1,N ( m)

p ak+2,k+1 ak+2,k+2 pp pp p p

ppp ppp

ppp

0

pp

m) a(k+2,N

p

m) a(N,N −1

pp p

)

⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟. ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠

a(NmN)

Sm,k−1 · · · Sm1 A(m) = A(m,k+1) und somit auch Smk B (m,k) = B EWEIS . Es gilt offensichtlich Smk (m,k+1) A Sm,1 · · · Sm,k−1 . Im Folgenden wird mittels vollständiger Induktion u¨ ber = 1, 2, . . . ,

352

Kapitel 13

Numerische Verfahren für Eigenwertprobleme

k die Darstellung

A(m,k+1) Sm1 · · · Sm,−1 ⎛ ∗

=

⎜ ⎜∗ ⎜ ⎜ ⎜0 ⎜ ⎜ pp ⎜p ⎜p ⎜ pp ⎜ ⎜ pp ⎜p ⎜p ⎜ pp ⎜ ⎜ pp ⎜p ⎜p ⎜ pp ⎜ ⎜p ⎜ pp ⎜ ⎜ ⎜ pp ⎜p ⎝ 0

ppp pp pp pp

∗

∗

pp p pp p

p p pp p p

∗

pp p pp p pp p pp p

∗

p

pp p pp p pp p

ppp

ppp

m,k+1) a(1,k+1

∗

ppp

pp pp p p pp pp p p pp pp ∗ p p pp pp p 0 ∗ p p p pp p p p 0 ∗ p p pp p p p p p p pp p p p p p pp pp pp p p p ∗ ( m,k+1 ) pp p 0 ak+1,k+1

∗

pp

∗

pp

( m)

pp ppp ppp ppp ppp ppp ppp ppp

↑ Spalte

( m)

p ak+2,k+1 ak+2,k+2 p

pp

ppp

0

pp

p

p

m) a(N,N −1

⎞ m,k+1) a(1,N ⎟ pp ⎟ p ⎟ ⎟ pp ⎟ p ⎟ pp ⎟ p ⎟←− Zeile ⎟ pp ⎟←− Zeile + 1 p ⎟ ⎟ ppp ⎟ ⎟ pp (13.47) ⎟ p ⎟ ⎟ pp ⎟ p ⎟ ( m,k+1 ) ⎟ ak+1,N ⎟←− Zeile k + 1 ⎟ m) ⎟ a(k+2,N ⎟ ⎟ ⎟ ppp ⎟ ⎠ a(NmN)

↑ Spalte k + 1

nachgewiesen, so dass die Einträge in den Spalten k + 1, k + 2, . . . , N mit denen der Matrix A(m,k+1) u¨ bereinstimmen. Die Aussage des Lemmas folgt dann aus (13.47) mit = k. Die Identität (13.47) ist offensichtlich richtig für = 1. Ausgehend von der Darstellung (13.47) mit einem ≤ k − 1 bedeutet die Multiplikation (A(m,k+1) Sm,1 · · · Sm,−1 )Sm, eine Transformation der in (13.47) gekennzeichneten Teilmatrix, ∗ ∗

pp pp p p p ∗ pp

0

∗

∗ ∗

→

pp pp p p p ∗ pp

0

(

c −s

∗ ∗

)

s c

∗

=

pp p ppp

pp p ppp

∈ R (+1)×2 ,

∗ ∗

so dass auch der Induktionsschritt abgeschlossen ist.

Bemerkung 13.30 Mit dem Beweis wird auch deutlich, dass für k = 1, 2, . . . , N − 1 nach dem ersten Teilschritt ( k, 1 ) aus (13.46) die entstehende Matrix Smk B (m,k) von Hessenberggestalt ist.

Abschnitt 13.5

353

Das QR – Verfahren

Für die Matrizen B (m,2) , . . . , B (m,N −1) gelten die folgenden Darstellungen, ⎛ ⎞ ∗

B

(m,k)

=

⎜ ⎜∗ ⎜ ⎜ ⎜0 ⎜p ⎜ pp ⎜ ⎜ pp ⎜p ⎜ ⎜ pp ⎜p ⎜p ⎜ pp ⎜ ⎜ pp ⎝p

ppp ppp ppp ppp ppp ppp ppp pp

p

pp pp p p pp pp p p

0

pp pp ∗

p p

pp

p

pp pp p p 0 ppp pp p

∗

pp p pp p pp p pp p pp p p pp p pp p p p p pp p p p

0 ppp ppp ppp ppp ppp 0

∗

⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ←− Zeile k ⎟ ⎟ ←− Zeile k + 1 ⎟ ⎟ ⎟ ⎟ ⎟ ⎠

(k = 2, 3, . . . , N − 1),

∗

↑ ↑ Spalte k Spalte k + 1 so dass die Matrizen B (m,2) , . . . , B (m,N −1) jeweils an der Position ( k+1, k−1 ) von einer Hessenpp pp pp ¨ berggestalt abweichen. Beim Ubergang B (m,k) → B (m,k+1) wird zunächst der durch ∗∗ p p p p p p ∗∗ ∈ R 2×(N −k+2) gekennzeichnete Block durch die Transformation c s ∗ p p pp p p∗ 2×( N −k+2) ∗ p p pp p p∗ → ∗ p p pp p p∗ −s c ∗ p p p p p p ∗ ∈ R

(13.48)

u¨ berschrieben, und in der daraus entstehenden Matrix Smk B (m,k) wird anschließend mit der ( k+2 )×2 gekennzeichneten Teilmatrix ∈ R die Transformation ∗p ∗p

ppp pp

ppp pp

→

∗ ∗

∗p ∗p

ppp pp

ppp c −s pp s c

(13.49)

∗ ∗

durchgeführt.

Mit der vorangegangenen Bemerkung lässt sich leicht der bei der Durchführung des Schritts A(m) → A(m+1) anfallende Gesamtaufwand ermitteln. Theorem 13.31 Für Hessenbergmatrizen A lässt sich das Schema (13.45) zur Durchführung des Schritts A(m) → A(m+1) des QR Verfahrens mit 1 6N 2 1 + O N

arithmetischen Operationen realisieren. B EWEIS . Eine Transformation der Form (13.48) erfordert ( N − k + 2 ) × 2 × 2 = 4( N − k + 2 ) Multiplikationen und 2( N − k + 2 ) Additionen, insgesamt fallen dabei also 6( N − k + 2 ) arithmetische Operationen an. Entsprechend erfordert eine Transformation der Form (13.49) 6( k + 2 ) arithmetische Operationen, und der Schritt k aus (13.46) – bestehend aus den beiden Transformationen (13.48)–(13.49) – benötigt also 6( N + 2 ) arithmetische Operationen. Für die N − 1 Schritte aus (13.46) sind demnach 6N 2 (1 + O( 1/N ) ) arithmetische Operationen durchzuführen. Die Berechnung der Givensrotationen erfordert nochmals die dagegen nicht weiter ins Gewicht fallende Berechnung von N Quadratwurzeln und 2N Quotienten.

354

Kapitel 13

Numerische Verfahren für Eigenwertprobleme

13.6 Das LR–Verfahren Alternativ zum QR Verfahren kann man auch folgendermaßen vorgehen: Algorithmus 13.32 (LR Verfahren) Sei A ∈ R N×N eine reguläre Matrix. A(1) := A; for m = 1, 2, . . .: bestimme Faktorisierung A(m) = Lm Rm mit Lm bzw. Rm ∈ R N×N von unterer bzw. oberer Dreiecksgestalt; A(m+1) := Rm Lm ∈ R N×N ; end Für das LR Verfahren lassen sich dem QR Verfahren vergleichbare Resultate erzielen. Einzelheiten finden Sie beispielsweise in Stoer/Bulirsch [96].

13.7 Die Vektoriteration 13.7.1 Definition und Eigenschaften der Vektoriteration Definition 13.33 Für eine gegebene Matrix B ∈ R N×N lautet die Vektoriteration folgendermaßen: z (m+1) = Bz (m) ,

m = 0, 1, . . .

(z (0) ∈ R N ).

(13.50)

Die Vektoriteration ermöglicht unter günstigen Umständen die Bestimmung des betragsmäßig größten Eigenwerts der Matrix B. Das nachfolgende Theorem liefert hierzu ein Konvergenzresultat für diagonalisierbare Matrizen B ∈ R N×N mit Eigenwerten λ1 , λ2 , . . . , λN ∈ C. Hierzu sei noch folgende Sprechweise eingeführt: für einen Index 1 ≤ k∗ ≤ N besitzt ein gegebener N Vektor x ∈ CN einen Anteil in N ( B −λk∗ I ), falls in der eindeutigen Zerlegung8 x = k=1 xk ( ) mit xk ∈ N B − λk I der Vektor xk∗ nicht verschwindet, xk∗ = 0. Theorem 13.34 Für die diagonalisierbare Matrix B ∈ R N×N mit Eigenwerten λ1 , . . . , λN ∈ C gelte λ1 = λ2 = . . . = λr , |λr | > |λr+1 | ≥ . . . ≥ |λN | mit r ≤ N − 1.9 Falls der Startvektor z (0) ∈ R N einen Anteil in N ( B − λ1 I ) besitzt, gilt für die Vektoriteration (13.50) λ ||z (m+1) || r+1 m = |λ | + O(q ) f¨ u r m → ∞, mit q := < 1, 1 ||z (m) || λ1 8 9

( ) bekanntlich gilt in der vorliegenden Situation R N = ⊕N k=1 N B − λk I Im Fall r = N liegt die triviale Situation B = λ1 I vor.

Abschnitt 13.7

355

Die Vektoriteration

mit einer beliebigen Vektornorm || · || : CN → R. B EWEIS . Es gibt eine Darstellung der Form z (0) = x1 + und dann gilt allgemein z (m) = λm 1 x1 +

N

N

k=r+1 xk

N λk m m x1 + λm xk , k xk = λ1

k=r+1

k=r+1

mit xk ∈ N ( B − λk I ),

m = 0, 1, . . . . (13.51)

λ1

Daraus erhält man nacheinander (m) λ−m = x1 + 1 z

N λk m k=r+1

λ1

xk

|λ1 |−m ||z (m) || = ||x1 || + O(q m ) |λ1 |−1

(m+1)

|| z || || z (m) ||

=

O( q m+1 )

|| x1 || + || x1 || + O( q m )

=

x1 + O( q m )

für m → ∞,

für m → ∞, (∗)

=

1 + O( q m )

für m → ∞,

(13.52)

wobei die Identität (∗) wegen x1 = 0 gilt. Die Identität (13.52) liefert dann unmittelbar die Aussage des Theorems. Bemerkung 13.35 In Theorem 13.34 stellt die Bedingung “z (0) ∈ R N besitzt einen Anteil in N ( B − λ1 I )“ keine wesentliche Einschränkung dar. Selbst falls z (0) doch keinen Anteil in N ( B − λ1 I ) besitzt, so wird sich im Verlauf der Iteration aufgrund von Rundungsfehlern die in dem Beweis von Theorem 13.34 benötigte Eigenschaft einstellen, dass die Vektoren z (m) Anteile in N ( B − λ1 I ) besitzen. Das folgende Theorem liefert eine Folge reeller Zahlen, die im Falle symmetrischer Matrizen gegen den betragsmäßig größten Eigenwert konvergiert (und nicht gegen den Betrag davon). Theorem 13.36 Die Matrix B ∈ R N×N sei symmetrisch, und für ihre Eigenwerte λ1 , . . . , λN ∈ R sei λ1 = λ2 = . . . = λr , |λr | > |λr+1 | ≥ . . . ≥ |λN | mit r ≤ N − 1 erfüllt10 . Falls der Startvektor z (0) ∈ R N einen Anteil in N ( B − λ1 I ) besitzt, so konvergiert die zur Vektoriteration gehörende Folge der Rayleigh-Quotienten rm

=

(z ( m) )z ( m+1) , ||z ( m) ||22

m = 1, 2, . . .

gegen den Eigenwert λ1 , rm

=

λ1 + O(q 2m )

für m → ∞,

λ r+1 mit q := < 1. λ1

B EWEIS . Wie im Beweis von Theorem 13.34 erhält man (vergleiche (13.51)) z (m)

=

N λk m x λm + xk , 1 1 k=r+1

10

der Fall r = N ist trivial, B = λ1 I

λ1

m = 0, 1, . . .,

356

Kapitel 13

Numerische Verfahren für Eigenwertprobleme

wobei hier o.B.d.A. angenommen werden darf, dass die Eigenvektoren x1 , xr+1 , xr+2 , . . . , xN ∈ R N paarweise orthogonal sind. Daraus erhält man (z (m) )z (m+1) = λ2m+1 ||x1 ||22 + 1

N λk 2m+1 k=r+1

||x1 ||22 + ||z (m) ||22 = λ2m 1

λ1

N λk 2m k=r+1

λ1

||xk ||22 ,

||xk ||22 ,

und Quotientenbildung ergibt

rm = λ 1

||x1 ||22 +

N

||x1 ||22 +

k=r+1

N

k=r+1

= λ1 + O(q 2m )

λk λ1

2m+1

( λλ ) k 1

2m

||xk ||22,

||xk ||22

=

λ1

||x1 ||22 + O(q 2m+1 ) ||x1 ||22 + O(q 2m )

für m → ∞,

was die Aussage des Theorems liefert.

13.7.2 Spezielle Vektoriterationen Im Folgenden werden zwei spezielle Vektoriterationen vorgestellt. Definition 13.37 Für eine gegebene Matrix A ∈ R N×N ist die von Mises Iteration folgendermaßen definiert, z (m+1) = Az (m) ,

m = 0, 1, . . .

(z (0) ∈ R N ).

Die von Mises Iteration erhält man mit der speziellen Wahl B = A aus der Vektoriteration (13.50), und die Eigenschaften der von Mises-Iteration entnimmt man daher unmittelbar Abschnitt 13.7.1. Definition 13.38 Für eine gegebene Matrix A ∈ R N×N und eine Zahl µ ∈ R\σ ( A ) ist die inverse Iteration von Wielandt folgendermaßen erklärt, ( A − µI )z (m+1)

= z (m) ,

m = 0, 1, . . .

(z (0) ∈ R N ).

Bemerkung 13.39 Die inverse Iteration von Wielandt erhält man mit der speziellen Wahl B =

( A − µI )−1 aus der Vektoriteration (13.50). Abschnitt 13.7.1 liefert daher für eine symmetrische

Matrix A ∈ R N×N mit Eigenwerten λ1 , . . . , λN ∈ R unmittelbar das Folgende: Ist k∗ ein Index, für den für k = 1, 2, . . . , N entweder

λk = λ k ∗

oder |λk∗ − µ| < |λk − µ|

357

Weitere Themen und Literaturhinweise

erfüllt ist, so gilt für die dazugehörende Folge der Rayleigh-Quotienten rm → ( λk∗ − µ )−1 beziehungsweise −1 rm + µ

→

λk ∗

für m → ∞.

Weitere Themen und Literaturhinweise Die in diesem Kapitel vorgestellten und andere Algorithmen zur numerischen Bestimmung der Eigenwerte von Matrizen finden Sie beispielsweise in den in Kapitel 12 genannten Lehrbüchern und in Bunse/Bunse-Gerstner [10] und Trefethen/Bau [100]. Verfahren zur numerischen Berechnung der Singulärwertzerlegung einer Matrix werden in [10], Deuflhard/Hohmann [21], Golub/Van Loan [32], Stoer/Bulirsch [96] und in Werner [107] vorgestellt.

¨ Ubungsaufgaben ¨ Aufgabe 13.1 Man weise nach, dass eine obere Hessenbergmatrix durch eine Ahnlichkeitstransformation mit einer Diagonalmatrix so umgeformt werden kann, dass die unteren Nebendiagonaleinträge nur die Werte 0 oder 1 annehmen. Aufgabe 13.2 Man zeige unter Verwendung von Aufgabe 4.8 auf Seite 93 Folgendes: für eine gegebene reguläre Matrix T = (v1 | . . . |vN ) ∈ R N×N besitzt die Inverse T −1 genau dann eine LR Faktorisierung, wenn Folgendes gilt, span {e1 , . . . , en } ∩ span {vn+1 , . . . , vN } = {0}

für n = 1, 2, . . . , N − 1,

wobei ek ∈ R N den k ten Einheitsvektor bezeichnet. Aufgabe 13.3 Das QR Verfahren erhält eine Hessenberg oder Tridiagonalform: ist die reguläre Matrix A von Hessenberg beziehungsweise Tridiagonalform, so besitzen auch die zu dem QR Verfahren gehörenden Matrizen A(2) , A(3) , . . . eine Hessenberg beziehungsweise Tridiagonalform. Aufgabe 13.4 Es sei A ∈ R N×N eine symmetrische Matrix mit Eigenwerten λ1 = λ2 = . . . = λr , |λr | > |λr+1 | ≥ . . . ≥ |λN |. Mit der Vektorfolge z (m+1) = Az ( m) , m = 0, 1, . . ., werde die Folge der Rayleigh-Quotienten rm =

(z ( m) )z (m+1) , ||z ( m) ||22

m = 0, 1, . . .,

gebildet mit einem Startvektor z ( 0) , der einen Anteil im Eigenraum der Matrix A zum Eigenwert λ1 besitze. Man weise Folgendes nach: für einen Eigenvektor x zum Eigenwert λ1 gilt z ( m) λ m sgn( rm )m ( m) = x + O r+1 für m → ∞. λ 1 ||z ||2

358

Kapitel 13

Numerische Verfahren für Eigenwertprobleme

Aufgabe 13.5 Es sei A ∈ R N×N eine diagonalisierbare Matrix mit Eigenwerten λ1 , λ2 , . . . , λN , für die λ2 = −λ1 < 0 und |λ2 | > |λ3 | ≥ . . . ≥ |λN | gelte. Für die Vektoriteration z (m+1) = Az (m) , m = 0, 1, . . . weise man Folgendes nach (|| · || bezeichne irgendeine Vektornorm ): (a) Falls z (0) einen Anteil im Eigenraum der Matrix A zum Eigenwert λ1 besitzt, so gilt für einen Eigenvektor x1 zum Eigenwert λ1 Folgendes: 2m λ1 z (2m) + z ( 2m+1) λ3 = x für m → ∞. + O λ 1 1 ||λ1 z (2m) + z ( 2m+1) || (b) Falls z (0) einen Anteil im Eigenraum der Matrix A zum Eigenwert λ2 besitzt, so gilt für einen Eigenvektor x2 zum Eigenwert λ2 Folgendes: 2m λ1 z ( 2m) − z ( 2m+1) λ3 = x für m → ∞. + O λ 2 1 ||λ1 z ( 2m) − z ( 2m+1) || Aufgabe 13.6 Es sei λ1 eine einfache dominante Nullstelle des Polynoms p( x ) =

n

mit an = 1.

ak xk

k=0

Zu vorgegebenen hinreichend allgemeinen Startwerten x1−n , x2−n , . . . , x0 ∈ R\{0} betrachte man die Folge xm+n = −

n−1

ak xm+k ,

m = 1, 2, . . . .

k=0

Durch Anwendung der Vektoriteration auf die Transponierte der Frobeniusschen Begleitmatrix zu p( x ) weise man Folgendes nach, m xm+1 λ2 für m → ∞, = λ + O λ 1 x m

1

wobei λ2 ∈ C eine nach λ1 betragsmäßig größte Nullstelle des Polynoms p sei. Aufgabe 13.7 (Numerische Aufgabe) Für die Matrix A = ( ajk ) ∈ R N×N mit N − j + 1, falls k ≤ j, ajk = N − k + 1, sonst, bestimme man für N = 50 und N = 100 mit dem LR-Algorithmus numerisch jeweils sowohl den betragsmäßig kleinsten als auch den betragsmäßig größten Eigenwert. Sei Am = (a(jkm) ), m = 0, 1, . . ., die hierbei erzeugte Matrixfolge. Man breche das Verfahren ab, falls m = 100 oder εm :=

max

k=1,...,N

m−1 ) m) |a(kk − a(kk | m−1 ) |a(kk |

≤

0.05

erfüllt ist. Man gebe außer den gewonnenen Approximationen für die gesuchten Eigenwerte auch die Werte ε1 , ε2 , . . . an.

359

14 Restglieddarstellung nach Peano 14.1 Einfuhrende ¨ Bemerkungen Für ganz unterschiedliche Verfahren (zur Lösung auch ganz unterschiedlicher Problemstellungen wie etwa Interpolation sowie numerische Integration und Differenziation) existiert ein eleganter und einheitlicher Zugang zur Herleitung von Fehlerdarstellungen. Dieser Zugang, der zudem Verallgemeinerungen schon bekannter Fehlerdarstellungen für Funktionen f mit geringeren Differenzierbarkeitseigenschaften ermöglicht, soll in dem vorliegenden Kapitel 14 in Grundzügen vorgestellt werden. Im Folgenden wird das lineare Funktional R : C −1 [ a, b ] → R definiert durch Rf

n

=

αk f ( xk ) + β

k=0

Z b a

f ∈ C −1 [ a, b ],

f ( x ) dx,

(14.1)

betrachtet. Dabei sind x0 , x1 , . . . , xn ∈ [ a, b ] paarweise verschiedene Stützstellen, und αk und β ∈ R sind gegebene Koeffizienten. Weiter bezeichnet C −1 [ a, b ] den Raum der stückweise stetigen Funktionen auf [ a, b ]. Es sei angenommen, dass das Funktional R für ein r ≥ 0 auf dem Raum der Polynome vom Höchstgrad r verschwindet, Rp = 0

∀ p ∈ Πr .

Beispiel 14.1 Zu gegebenen Stützstellen x0 , x1 , . . . , xn ∈ [ a, b ] hat das Restglied bei der Polynominterpolation für einen ausgewählten Punkt x ∈ [ a, b ] die folgende Gestalt, Rf

=

n

f ∈ C −1 [ a, b ],

f ( xk ) Lk ( x ) − f ( x ),

(14.2)

k=0

mit den Lagrangeschen Basispolynomen Lk ( x ) =

n

j=0 j=k

x − xj . Bekanntermaßen gilt hier xk − xj

R |Πn = 0, und für hinreichend glatte Funktionen f gilt die folgende Fehlerdarstellung1: Rf

ω ( x ) f (n+1) ( ξ ) , ( n + 1 )!

=

f ∈ C n+1 [ a, b ],

mit ω ( x ) := ( x − x0 ) · · · ( x − xn ).

Beispiel 14.2 Für eine gegebene interpolatorische Quadraturformel und für hinreichend glatte Funktionen f hat das Restglied die folgende Gestalt, Rf

=

(b − a)

n k=0

1

siehe (1.14)

σk f ( xk ) −

Z b a

f ( x ) dx,

f ∈ C −1 [ a, b ].

360

Kapitel 14

Restglieddarstellung nach Peano

Per Definition ist für Quadraturformeln ein Genauigkeitsgrad von mindestens r gleichbedeutend mit der Eigenschaft R |Πr = 0, und für Funktionen f ∈ C m+1 [ a, b ] mit n ≤ m ≤ r sind bereits Fehlerabschätzungen bekannt2. Auch hier stellt sich die Frage nach Fehlerdarstellungen für weniger glatte Funktionen f .

14.2 Peano–Kerne Im weiteren Verlauf werden die folgenden Notationen verwendet: (a) ( x − t )m + :=

( x − t )m ,

x ≥ t, x < t,

0,

für m ≥ 1,

( x − t )0+ :=

x ≥ t, x < t;

1, 0,

(b) für eine Funktion ψ : [ a, b ] × [ c, d ] → R mit der Eigenschaft ψ ( ·, t ) ∈ C −1 [ a, b ] für jedes t ∈ [ c, d ] bezeichnet R x (ψ ( x, t ) )

=

R(ψ ( ·, t ) ),

t ∈ [ c, d ].

Das Argument von R x ist also jeweils als Funktion von x aufzufassen. Definition 14.3 Gegeben sei ein Funktional R : C −1 [ a, b ] → R der Gestalt (14.1), welches auf dem Raum Πr verschwindet. Dann bezeichnet man die Funktionen 1

Km ( t ) := m! R x ( ( x − t )m + ),

t ∈ [ a, b ]

(m = 0, 1, . . . , r )

als Peano Kerne. Das folgende Theorem liefert die zentrale Aussage des vorliegenden Abschnitts. Der zugehörige Beweis beruht auf einer Approximation der Funktion f durch Polynome vom Grad ≤ r, die mittels Taylorentwicklungen gewonnen werden. Theorem 14.4 Gegeben sei ein Funktional R : C −1 [ a, b ] → R der Gestalt (14.1), welches auf dem Raum Πr verschwindet. Für jedes 0 ≤ m ≤ r gilt Rf =

Z b a

f (m+1) ( t )Km ( t ) dt,

f ∈ C m+1 [ a, b ].

Falls weiterhin R(xr+1 ) = 0 erfüllt ist und der Peano Kern Kr sein Vorzeichen nicht wechselt, so gilt die Darstellung Rf = κf (r+1) ( ξ ),

f ∈ C r+1 [ a, b ],

mit einer geeigneten Zwischenstelle ξ = ξ ( f ) ∈ [ a, b ] und der Konstanten κ = 2

siehe Theorem 6.13

(14.3) R( xr+1 ) . ( r + 1 )!

Abschnitt 14.2

361

Peano– Kerne

B EWEIS . Eine Taylorentwicklung der Funktion f in dem linken Randpunkt a mit Integraldarstellung des Restglieds liefert =: pm ( x ) ∈ Πm

f (m) ( a ) ( x − a )m + rm ( x ), f ( x ) = f ( a ) + f ( a )( x − a ) + . . . + m!

1

mit rm ( x ) := m!

Z x

1

f (m+1) ( t )( x − t )m dt = m!

a

Z b a

x ∈ [ a, b ],

f (m+1) ( t )( x − t )m + dt,

x ∈ [ a, b ].

Somit erschließt man =0

Rf

= R ( pm + rm ) (∗)

=

1 m!

Z b a

=

Rpm + Rrm

=

f (m+1) ( t )R x ( ( x − t )m + ) dt =

Z b a

1 R m! x

Z

b

a

f (m+1) ( t )( x − t )m + dt

f ∈ C m+1 [ a, b ],

f (m+1) ( t )Km ( t ) dt,

wobei sich die Identität (∗) wie folgt berechnet, @ b Rx f (m+1) ( t )( x − t )m + dt a

=

n k=0

=

Z b a

αk

Z b a

Z bZ b

f (m+1) ( t )( xk − t )m + dt + β

f (m+1) ( t )

n

αk ( xk − t )m + + β

k=0

a Z b a

a

(x

f (m+1) ( t )( x − t )m + dt dx

− t )m dx dt. +

R x (( x − t )m +)

Damit ist der erste Teil der Aussage des Theorems bewiesen. Wechselt nun der Peano Kern Kr sein Vorzeichen nicht, so liefert eine Anwendung des Mittelwertsatzes der Integralrechnung Z b Rf = Kr ( t ) dt f (r+1) ( ξ ), f ∈ C r+1 [ a, b ], (14.4) a

=: κ mit einer geeigneten Zwischenstelle ξ = ξ ( f ) ∈ [ a, b ]. Eine Anwendung der Identität (14.4) auf das Monom xr+1 liefert schließlich die behauptete Darstellung für die Konstante κ, R ( xr+1 )

=

κ ( r + 1 )!,

womit auch die Darstellung (14.3) bewiesen ist. Bemerkung 14.5 Auch für allgemeine Fehlerfunktionale der Form Rf =

n0 k=0

α0k f ( x0k ) +

n1 k=0

α1k f ( x1k ) + . . . +

ns k=0

αsk f (s) ( xsk ) + β

Z b a

f ( x ) dx

(14.5)

für f ∈ C m+1 [ a, b ] gelten für m = s, s + 1, . . . , r die Darstellungen aus Theorem 14.4 mit dem Peano Kern aus Definition 14.3 (noch allgemeiner dürften auch Terme mit gewichteten Integralen von Ableitungen der Funktion f auftreten). Man hat sich nur zu u¨ berlegen, dass die Identität (∗) im Beweis von Theorem 14.4 auch in dieser allgemeinen Situation ihre Gültigkeit behält.

362

Kapitel 14

Restglieddarstellung nach Peano

14.3 Anwendungen 14.3.1 Interpolation Theorem 14.6 Zu gegebenen Stützstellen x0 , x1 , . . . , xn ∈ [ a, b ] besitzt bei der Polynominterpolation das Restglied für eine ausgewählte Stelle x ∈ [ a, b ] die folgende Darstellung3 Rf

n Z x k 1 Lk ( x ) x f (m+1) ( t )( xk − t )m dt, m!

=

f ∈ C m+1 [ a, b ]

( 0 ≤ m ≤ n ),

k=0

n x − xj

mit den Lagrangeschen Basispolynomen Lk ( x ) =

j=0 j=k

xk − xj

.

B EWEIS . Nach Definition gilt für den Peano Kern Km die folgende Darstellung, n

1 m ( xk − t )m Km ( t ) = + Lk ( x ) − ( x − t )+ , m!

und daher

k=0

n Z x 1 k Lk ( x ) a f (m+1) ( t )( xk − t )m dt − m! k=0

Rf =

1 m!

=

Z x a

f (m+1) ( t )

n

n 1

a

f (m+1) ( t )(x − t) dt

= 0

Lk ( x )( xk − t )m − (x − t)m dt

k=0

+ m!

Z x

Lk ( x )

Z x k

k=0

x

f (m+1) ( t )( xk − t )m dt ,

was in der behaupteten Darstellung resultiert.

14.3.2 Numerische Integration Beispiel 14.7 (Numerische Integration, Simpson Regel) Das Restglied der Simpson Regel zur numerischen Integration auf dem Intervall [ –1, 1 ] hat die folgende Gestalt, Rf

=

1 ( f –1 ) 3

+

4 ( ) f 0 3

+

1 ( ) f 1 3

−

Z 1 −1

f ∈ C −1 [ –1, 1 ],

f ( x ) dx,

und bekanntermaßen4 ist r = 3 der Genauigkeitsgrad der Simpson Regel. Daher gilt für t ≥ 0 (und m = 3) K3 ( t ) = =

3 4

1 R x( ( x 6

− t )3+ )

1 1 4 1 ( –1 − t )3+ + ( 0 − t )3+ + ( 1 − t )3+ − 6 3 3 3

=

1 1 4 1 ·0 − · 0 + ( 1 − t )3 − 6 3 3 3

=

1 1 1 ( 1 − t )3 − ( 1 − t )4 6 3 4

vergleiche (14.2) siehe Theorem 6.16

=

Z 1 t

Z 1 −1

( x − t )3 dx

( x − t )3+ dx

1 ( 1 − t )3 ( 1 + 3t ) ≥ 0 72

für t ∈ [ 0, 1 ].

363

Weitere Themen und Literaturhinweise

Weiter gilt nach Aufgabe 14.2 die folgende Identität, K3 ( –t ) = K3 ( t ),

t ∈ [ 0, 1 ],

so dass der Peano Kern K3 auf dem Intervall [ –1, 1 ] von einem Vorzeichen ist, K3 ( t ) ≥ 0 für t ∈ [ –1, 1 ]. Also ist (14.3) anwendbar, und wegen R( x4 ) 4!

=

1 1 4 1 + ·0 + − 24 3 3 3

Z 1 −1

x4 dx

=

1 90

erhält man so die schon bekannte Fehlerdarstellung 1 4 1 f ( –1 ) + f ( 0 ) + f ( 1 ) − 3 3 3

Z 1 −1

f ( t ) dt

für f ∈ C 4 [ –1, 1 ],

1 (4) f (ξ ) 90

=

ξ = ξ ( f ) ∈ [ –1, 1 ].

Weitere Themen und Literaturhinweise Weitergehende Betrachtungen zur Peanoschen Restglieddarstellung werden beispielsweise in Hämmerlin/Hoffmann [45] und in Schaback/Wendland [88] angestellt.

¨ Ubungsaufgaben Aufgabe 14.1 Man zeige, dass für allgemeine Fehlerfunktionale der Form (14.5) die Darstellung aus Theorem 14.4 mit dem Peano Kern aus Definition 14.3 für Werte m = s, s + 1, . . . , r ihre Gültigkeit behält. Aufgabe 14.2 Gegeben sei ein Funktional R : C −1 [ a, b ] → R der Gestalt (14.1), welches auf dem Raum Πr verschwindet, und m sei eine ungerade Zahl mit 1 ≤ m ≤ r. Man zeige: falls Rf = R f mit

für f ∈ C m+1 [ a, b ] a+b a+b f + x := f −x , 2

2

x ∈

−

b−a b−a , 2 2

erfüllt ist, so ist der Peano Kern Km symmetrisch bezüglich des Intervallmittelpunkts, das heißt, Km

a+b 2

+ x

=

Km

a+b 2

−x ,

x ∈

0,

b−a . 2

'1 Aufgabe 14.3 Im Folgenden betrachte man die Quadraturformel Qf := −1 P ( x ) dx zur näherungs'1 weisen Berechnung des Integrals –1 f ( x ) dx, wobei für f ∈ C 1 [ –1, 1 ] das Polynom P ∈ Π5 die Lösung der folgenden Hermiteschen Interpolationsaufgabe bezeichnet, P ( xj ) = f ( xj ), mit x0 = −1, x1 = 0 und x2 = 1.

P ( xj ) = f ( xj )

für j = 0, 1, 2,

364

Kapitel 14

Restglieddarstellung nach Peano

(a) Man zeige Qf =

7 1 16 7 1 f ( –1 ) + f ( –1 ) + f (0) + f ( 1 ) − f ( 1 ). 15 15 15 15 15

(b) Zeige: die Quadraturformel Q besitzt den Genauigkeitsgrad 5. (c) Man berechne für n = 5 den Peano Kern K5 zu der Quadraturformel Q und zeige, dass dieser sein Vorzeichen nicht wechselt. (d) Man bestimme unter Verwendung von (c) eine Fehlerdarstellung für die betrachtete Quadraturformel.

365

15 Approximationstheorie 15.1 Einfuhrende ¨ Bemerkungen Eine wichtige Fragestellung der numerischen Mathematik ist es, bezüglich einer festgelegten Norm für eine gegebene Funktion eine Bestapproximation aus einer Menge von Funktionen zu bestimmen sowie den auftretenden Fehler abzuschätzen. Vergleichbare Fragestellungen treten auch für Vektoren anstelle von Funktionen auf. Beispiel 15.1 Die Frage der optimalen Wahl der Stützstellen bei der Polynominterpolation führt auf das Minimaxproblem1 max | ( x − x0 ) . . . ( x − xn ) | → min

für x0 , x1 , . . . , xn ∈ [ a, b ].

x∈[ a, b ]

(15.1)

Die Gesamtheit aller Funktionen von der Form ( x − x0 ) . . . ( x − xn ) stimmt u¨ berein mit dem Raum der Polynome vom Grad n + 1 mit führendem Koeffizienten eins, so dass das Minimierungsproblem (15.1) a¨ quivalent zu dem folgenden Approximationsproblem ist: ||xn+1 − p||∞

=

max |xn+1 − p( x ) |

x ∈ [ a, b ]

→

min

für p ∈ Πn .

Beispiel 15.2 Lineare Ausgleichsprobleme besitzen die Form2 ||Ax − b||2 → min

für x ∈ R N ,

mit gegebener Matrix A ∈ R M×N und gegebenem Vektor b ∈ R M . Diese können ebenfalls als Approximationsprobleme aufgefasst werden, bei dem aus der Menge { Ax : x ∈ R N } eine Bestapproximation an den Vektor b (und anschließend ein Urbild unter A) zu bestimmen ist. In dem vorliegenden Abschnitt wird in Grundzügen eine allgemeine Theorie u¨ ber Bestapproximationen – im Folgenden kurz als Proxima bezeichnet – vorgestellt. Definition 15.3 Für eine Teilmenge ∅ = M ⊂ V eines normierten Raums (V, || · ||) und ein gegebenes Element v ∈ V heißt u∗ ein M Proximum an v, falls u∗ ∈ M,

||u∗ − v ||

=

inf ||u − v || .

=: Ev ( M )

u∈M

Die Zahl Ev ( M ) bezeichnet man als Minimalabstand des Elements v von der Teilmenge M. 1 2

Dieses Problem ist erstmalig in Abschnitt 1.6 behandelt worden unter gleichzeitiger Angabe einer Lösung. siehe hierzu Abschnitt 4.8.5 für eine erstmalige Behandlung, wo zugleich Lösungsvorschläge zu finden sind

366

Kapitel 15

Approximationstheorie

Bemerkung 15.4 (a) Natürliche Fragestellungen in diesem Zusammenhang sind Existenz und Eindeutigkeit eines Proximums u∗ sowie die Angabe von Verfahren zur Bestimmung von u∗ und eventuell noch die Herleitung von Abschätzungen für den Minimalabstand. (b) Das in Definition 15.3 beschriebene Problem ist ein Optimierungsproblem von der Form f ( u ) → min

für u ∈ M ⊂ V,

(15.2)

mit dem speziellen Zielfunktional f ( u ) = ||u − v ||. Allgemeine Probleme von der Form (15.2) sind Gegenstand der nichtlinearen Optimierung, die ein weites Feld darstellt und hier nicht weiter verfolgt wird. Literaturhinweise zu diesem Thema finden Sie auf Seite 383.

15.2 Existenz eines Proximums In dem vorliegenden Abschnitt soll – im Anschluss an die Vorstellung zweier Beispiele – in einem allgemeinen Kontext die Frage der Existenz eines Proximums behandelt werden. Beispiel 15.5 Man betrachte die folgende spezielle Situation:

1

×v

.................. .. ........... . . ........... ... .. ........ . . . ............. ... . . ...... .... . ..... . . . . . . ...... .... .... . . . . . . . .... .... .... . . . . . . ...... ... .... . . ..... . .. .... . . . . . . . ........ ... . . . . . . ..... .... . .... . .. .. . . . . . . .... . . .. ... . . . . . ..... . . ... ... . . . . .... ..... . . . ... . .. .... . . . . . . . . ..... .. . . . . . . . . . .. .. ... . . . . . . . . .... .... . . . . . . . .... ... . . . . . . . . ... . ... .... . . . . . . . ..... ..... . . . . . . .... ...... .. ........ . . . ............ .......... . . ........... ......................

× u∗

0 −1

−1

0

V = R2, ||v || = ||v ||2 = (v12 + v22 )1/2 , M = {x ∈ R 2 : ||x||2 ≤ 1}.

1

√ √ Für den Vektor v = ( 2, 1 ) ist u∗ = (2/ 5, 1/ 5 ) ein M Proximum (das hier zudem eindeutig bestimmt ist) an den Vektor v. Beispiel 15.6 Man betrachte nun die folgende Situation: V = C [ 0, 1 ],

||v || = ||v ||∞ =

max |v ( t ) |,

t ∈ [ 0, 1 ]

M = {eβt : β > 0}, und sei v ≡ 12 . Es ist ||eβt − v ||∞ = eβ − M Proximum an v existiert.

1 2

>

1 2

für β > 0, so dass Ev ( M ) =

1 2

gilt und kein

Die folgende Definition und das nachfolgende Lemma dienen der Herleitung einer ersten Existenzaussage für Proxima.

Abschnitt 15.3

367

Eindeutigkeit eines Proximums

Definition 15.7 Für eine Teilmenge ∅ = M ⊂ V eines normierten Raums (V, || · ||) und ein gegebenes Element v ∈ V heißt (uk )k∈N eine M Minimalfolge an v, wenn ( uk )k∈N ⊂ M,

||uk − v || → Ev ( M )

für k → ∞.

(15.3)

Lemma 15.8 Für eine Teilmenge ∅ = M ⊂ V eines normierten Raums (V, || · ||) und ein gegebenes Element v ∈ V sei (uk )k∈N eine M Minimalfolge an v, die in M einen Häufungspunkt u∗ besitze, u∗ ∈ M,

||uk − u∗ || → 0

für N1 k → ∞

(N1 ⊂ N geeignet). (15.4)

Dann ist u∗ ein M Proximum an v. B EWEIS . Es gilt

→0 für N1 k→∞

||u∗ − v ||

≤

||u∗ − uk || +

→Ev ( M ) für k→∞

||uk − v ||

und infolgedessen notwendigerweise ||u∗ − v || ≤ Ev ( M ). Als unmittelbare Konsequenz aus dem vorangegangenen Lemma erhält man das folgende Resultat. Theorem 15.9 Ist ∅ = M ⊂ V eine kompakte Teilmenge des normierten Raums (V, || · ||), so existiert zu jedem Vektor v ∈ V ein M Proximum an v. Korollar 15.10 Ist U ⊂ V ein endlich dimensionaler linearer Unterraum des normierten Raums (V, || · ||), so existiert zu jedem Vektor v ∈ V ein U Proximum an v. B EWEIS . Die Menge M := {u ∈ U : ||u − v || ≤ Ev ( U ) + 1} ⊂ U ist offensichtlich nichtleer und kompakt, nach Theorem 15.9 existiert also ein M Proximum u∗ an v. Wegen ||u∗ − v || =

inf ||u − v ||

u∈M

≤

sup ||u − v ||

≤

u∈M

Ev ( U ) + 1

≤

inf

u∈ U \M

||u − v ||

gilt dann notwendigerweise ||u∗ − v || = infu∈ U ||u − v || = Ev ( U ). Zusammenfassend kann man festhalten, dass sowohl in kompakten Teilmengen von normierten Räumen als auch in endlich dimensionalen linearen Unterräumen von normierten Räumen die Existenz eines Proximums gewährleistet ist.

15.3 Eindeutigkeit eines Proximums In den beiden folgenden Unterabschnitten 15.3.1 und 15.3.2 werden in einem allgemeinen Rahmen jeweils ein hinreichendes Kriterium für die Eindeutigkeit eines Proximums hergeleitet.

368

Kapitel 15

Approximationstheorie

15.3.1 Einige Notationen; streng konvexe Mengen Definition 15.11 Sei (V, || · ||) ein normierter Raum. (a) Für x ∈ V und r > 0 ist die abgeschlossene Kugel um x mit Radius r gegeben durch B( x; r )

=

{y ∈ V : ||y − x|| ≤ r }.

(b) Für eine Teilmenge M ⊂ V bezeichnet M◦

=

{x ∈ M : es existiert ein ε > 0 mit B( x; ε ) ⊂ M}

den offenen Kern von M. Es heißt M offen, falls M◦ = M gilt. Schließlich heißt M abgeschlossen, falls V\M eine in V offene Menge ist. Beispiel 15.12 In einem normierten Raum (V, || · ||) ist B( x; r ) eine abgeschlossene Teilmenge und es gilt B( x; r )◦ = {y ∈ V : ||y − x|| < r }. Definition 15.13 Eine Teilmenge M ⊂ V des normierten Raums (V, || · ||) heißt konvex, falls für je zwei Elemente x, y ∈ M auch die Verbindungsstrecke von x nach y zu M gehört, das heißt, {x + λ( y − x ) :

0 ≤ λ ≤ 1}

⊂

M,

x, y ∈ M.

Es heißt M streng konvex, falls zu je zwei verschiedenen Punkten deren Verbindungsstrecke ohne die Endpunkte selbst zum offenen Kern von M gehört, das heißt, {x + λ( y − x ) : 0 < λ < 1} ⊂ M◦ , x, y ∈ M, x = y. Offensichtlich ist eine streng konvexe Menge auch konvex. Lemma 15.14 Ist ∅ = M ⊂ V eine konvexe Teilmenge des normierten Raums (V, || · ||), so ist für jedes v ∈ V die Menge der M–Proxima an v konvex. B EWEIS . Für zwei M–Proxima u1 und u2 an v sowie jede Zahl λ ∈ [ 0, 1 ] gilt || ( 1 − λ )u1 + λu2 − v || ≤ ( 1 − λ )||u1 − v || + λ||u2 − v || ≤ ( 1 − λ )Ev ( M ) + λEv ( M ) = Ev ( M ).

Die streng konvexen Mengen liefern die erste Klasse von Mengen, in denen Proxima eindeutig sind: Proposition 15.15 Ist ∅ = M ⊂ V eine streng konvexe Teilmenge des normierten Raums (V, || · ||), so existiert zu jedem Element v ∈ V höchstens ein M Proximum an v.

Abschnitt 15.3

369

Eindeutigkeit eines Proximums

B EWEIS . Seien u∗1 und u∗2 M Proxima an v ∈ V\M (im Fall v ∈ M ist die Situation klar), und nach Lemma 15.14 ist dann auch 12 ( u∗1 + u∗2 ) ein M Proximum. Wenn nun u∗1 = u∗2 gilt, so ist 12 ( u∗1 + u∗2 ) ∈ M◦ , und dann liegt für eine hinreichend klein gewählte Zahl 0 < λ < 1 die folgende Situation vor, u∗2

uλ := ( 1 − λ )

u∗1

+ 2

u∗2

×

×

+ λv

∈

u +u × 2

M,

×

u∗ + u∗ ||uλ − v || = ( 1 − λ ) 1 2 2 − v = ( 1 − λ )Ev ( M )

v

.................................... ......... . . ....... . ...... .. . ............. . . ..... .. .. .... ... ... . .. .∗ . ∗ . . ... . .. .... ... . . ... ............ . . ... . . . . 1 . 2. ... ..... . . . .... ... .. .. . . . .. ... . . ........ . . . . . ... . .... . . . ..... . . ... . ... . . . . . . . ... .. . . . ... . ... .... . ..... . . . . . ... . .. . . . ... ... .... . . ..... . . . . .... . . ........ . . ..... ...... . . ............. ........ . ...............................

0 für jeden Vektor 0 = x ∈ V

•

für beliebige Vektoren x, y ∈ V gilt x, y = y , x

(Bilinea-

(Definitheit); (Symmetrie).

Ein Skalarprodukt bezeichnet man auch als inneres Produkt. Theorem 15.21 Ein Skalarprodukt auf einem reellem Vektorraum V induziert eine Norm mittels ||x|| = x, x1/2 für x ∈ V. B EWEIS . Positive Definitheit und Homogenität der Norm sind jeweils unmittelbare Folgerungen aus der Definitheit und der Bilinearität des Skalarprodukts. Die Dreiecksungleichung für die Norm resultiert aus der Cauchy Schwarzschen Ungleichung | x, y |

≤

||x||||y ||,

x, y ∈ V,

(15.8)

372

Kapitel 15

Approximationstheorie

wobei in (15.8) Gleichheit genau dann vorliegt, wenn x und y linear abhängig sind. Einen Beweis für (15.8) finden Sie etwa in Fischer [26]. Beispiel 15.22 (a) Das klassische euklidische Skalarprodukt auf R N ist gegeben durch x, y 2 = xy für x, y ∈ R N . (b) Für eine symmetrische, positiv definite Matrix A ∈ R N×N ist durch x , y A = xAy für x, y ∈ R N ein Skalarprodukt auf R N definiert, welches im Zusammenhang mit dem Verfahren der konjugierten Gradienten3 von Bedeutung ist. (c) Zu gegebener Gewichtsfunktion : [ a, b ] → ( 0, ∞ ] stellt p, q :=

Z b a

p( x ) q ( x ) ( x ) dx,

p, q ∈ Π,

ein Skalarprodukt auf dem Raum aller reellen Polynome Π dar.4 Wichtige und elementare Identitäten in diesem Zusammenhang sind ||x + y ||2 = ||x||2 + 2 x, y + ||y ||2, ||x + y ||

2

+ ||x − y ||

2

= 2(||x|| + ||y || ), 2

2

x, y ∈ V, ......

(15.9)

, (15.10)

wobei (15.10) als Parallelogrammgleichung bezeichnet wird. Als eine Folgerung aus dieser Identität erhält man die – für die Eindeutigkeit des Proximums in linearen Unterräumen relevante – strikte Normiertheit: Theorem 15.23 Ein Vektorraum mit einer durch ein Skalarprodukt induzierten Norm ist strikt normiert. B EWEIS . Die Aussage folgt unmittelbar aus der Parallelogrammgleichung (15.10) sowie aus der Eigenschaft (15.5) und Bemerkung 15.17.

15.4.2 Proxima in linearen Unterräumen Im Folgenden spielen orthogonale Komplemente von Mengen M ⊂ V eine Rolle, M⊥ :=

-

y ∈ V : x, y = 0

. für jedes x ∈ M .

Mit dem folgenden Theorem wird eine Charakterisierung für Proxima aus linearen Unterräumen vorgestellt. Theorem 15.24 Sei U ⊂ V ein linearer Unterraum U ⊂ V eines Vektorraums V mit innerem Produkt ·, ·. Es ist ein Element u∗ ∈ U genau dann ein U Proximum an einen gegebenes v ∈ V, wenn u∗ − v ∈ U ⊥ gilt. 3 4

siehe Abschnitt 11 Solche Skalarprodukte treten im Abschnitt 6.8 u¨ ber die Gaußquadratur auf.

Abschnitt 15.4

373

Approximationstheorie in Räumen mit Skalarprodukt

B EWEIS . “⇐=“ Im Fall u∗ − v ∈ U ⊥ berechnet man für ein beliebiges Element u ∈ U mithilfe der Identität (15.9) Folgendes, ||u − v ||2 = ||u∗ − v + u − u∗ ||2 ∈ U⊥

= ||u∗ − v ||2

∈ U

+ 2 u∗ − v , u − u∗ + ||u − u∗ ||2

= 0 ≥ 0

≥

||u∗ − v ||2 ,

so dass u∗ ein U Proximum an den Vektor v darstellt. “=⇒“ Im Fall u∗ − v ∈ U ⊥ existiert nach Definition ein Element ψ ∈ U mit u∗ − v , ψ = 0, o.B.d.A. sei u∗ − v , ψ < 0 erfüllt5 . In dieser Situation erhält man für hinreichend kleine Zahlen 0 < t 1 Folgendes, ||u∗ + tψ − v ||2 = ||u∗ − v ||2 + 2t u∗ − v , ψ + t2 ||ψ ||2 < ||u∗ − v ||2 ,

< 0 für 0 < t 1 so dass u∗ kein U Proximum an den Vektor v darstellt. Dies komplettiert den Beweis des Theorems. Für die Situation V = R 3 ist die Aussage von Theorem 15.24 in Bild 15.5 veranschaulicht. v

... .......... . .... ...................................................................................................................................................................................... ... ............. . . . . . . . . . . . . . . . . . . . ............ .... ............. . . . . . . . . . . . . . . . . . ........................ .. ............. ............ . . . . . . . . . . . . . . . . . . . ............. ... ............. . . . . . . . . . . . . . . . . . . . ............. .... ............. . . . . . . . . . . . . . . . . . . ......................... . . . . . . . . . . . . . .... .............. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ........................... . . . . . . . . . . . .......................... . . . . . . . . . . . . . . . . . ...................... ................ . . . . . . . . . . . . . . . . . . .............. ............. ....... . . . . . . . . . . . . . . . . ........................ . ............ ............. . . . ..... .. . . . . . . . . . . . . . . . .............. ............... . . . . . . . . .... ........ . . . . . . . . . . . . . . . . . . . . . . . . ........................... . . . . . . . . . . . ..... ........... ............ ............. . . . . . . . . . . . . . . . . . . . .............. ............... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .......................... . . . . . . . . . . . .... .... .....................................................................................................................................................................................................

U

r

u∗

Bild 15.5 Darstellung der Aussage von Theorem 15.24 für V = R 3 und einen Unterraum U mit dim U = 2 Mit dem folgenden Theorem wird für endlich dimensionale lineare Unterräume mit gegebener Basis eine Methode zur Bestimmung des Proximums geliefert. Theorem 15.25 In einem Vektorraum V mit innerem Produkt ·, · sei U ⊂ V ein endlich dimensionaler linearer Unterraum mit gegebener Basis u1 , . . . , um, und es sei u∗ ∈ U. Mit dem ∗ Ansatz u∗ = m k=1 αk uk ist u genau dann ein U Proximum an ein gegebenes Element v ∈ V, wenn die Koeffizienten α1 , . . . , αm dem folgenden linearen Gleichungssystem genügen, m

uk , uj αk

k=1

5

andernfalls geht man von ψ zu −ψ u¨ ber

=

v , uj 2 ,

j = 1, 2, . . . , m.

(15.11)

374

Kapitel 15

Approximationstheorie

B EWEIS . Man hat nur zu berücksichtigen, dass für einen beliebigen Vektor w ∈ V die folgende ¨ Aquivalenz richtig ist6: w ∈ U⊥

⇐⇒

w , uj = 0

für j = 1, 2, . . . , m.

Bemerkung 15.26 (a) Die im Zusammenhang mit Theorem 15.25 auftretende Matrix ⎛ ⎞ ⎜ u1 , u1 ⎜ ⎜ pp ⎜ p ⎜ ⎜ ⎝ u1 , um

um , u1 ⎟ ⎟ ⎟ pp ⎟ ∈ R m×m pp p p ⎟ ⎟ ⎠ p p p um , um

=: G wird als Gramsche Matrix bezeichnet. Sie ist offensichtlich symmetrisch und wegen der Eindeutigkeit des Proximums auch regulär; schließlich liegt aufgrund der leicht nachzuweisenden Identität αGα = ||

m

ppp

αk uk ||2 für α = ( α1 , . . . , αm ) ∈ R m auch positive Definitheit vor. Das

k=1

zugehörige Gleichungssystem (15.11) nennt man Normalgleichungen (für Proxima). (b) Wenn mit den Bezeichnungen aus Theorem 15.25 die Vektoren u1 , . . . , um eine orthonormale Basis des Unterraums U bilden, so vereinfacht sich die Berechnung des Proximums zu u∗ =

m

v , uk uk .

k=1

Diese Eigenschaft macht man sich beispielsweise beim Verfahren der konjugierten Gradienten zu Nutze.

Abschließend wird als weitere Anwendung von Theorem 15.24 eine Charakterisierung für Lösungen linearer Ausgleichsprobleme geliefert:

Korollar 15.27 Zu gegebener Matrix A ∈ R M×N sowie gegebenem Vektor b ∈ R M ist der Vektor x∗ ∈ R N genau dann eine Lösung des linearen Ausgleichsproblems ||Ax − b||2 → min für x ∈ R N , wenn x∗ zugleich eine Lösung der Normalgleichungen AAx = Ab darstellt. B EWEIS . Die Aussage folgt unmittelbar aus Theorem 15.24 unter Beachtung der Identität R( A )⊥ = N ( A), wobei R( A ) den Bildraum der Matrix A und N ( A) den Nullraum der transponierten Matrix A bezeichnet. 6

¨ siehe Ubungsaufgabe 15.2

Abschnitt 15.5

Πn−1 – Proxima bzgl. Maximumnormen

375

15.5 Gleichmäßige Approximation stetiger Funktionen durch Polynome vom Höchstgrad n − 1 Eine wichtige Rolle auf dem Raum R N sowie auf Funktionenräumen kommt der gleichmäßigen Approximation zu, die mathematisch mittels Maximumnormen beschrieben wird. Solche Normen sind jedoch nicht durch Skalarprodukte induziert und somit die Resultate aus Abschnitt 15.4 nicht anwendbar. Auch strikte Normiertheit liegt in Vektorräumen mit Maximumnormen nicht vor, so dass Theorem 15.19 u¨ ber die Eindeutigkeit von Proxima in linearen Unterräumen ebenfalls nicht anwendbar ist. Dennoch sind in solchen Räumen für spezielle lineare Unterräume Eindeutigkeitsaussagen möglich beziehungsweise existieren Lösungsverfahren. Im Folgenden sollen speziell die Unterräume Πn−1 des Raums C [ a, b ] betrachtet werden, wobei dieser mit einer gewichteten Maximumnorm von der Gestalt ||ψ ||∞,w := sup |ψ ( t ) |w ( t ),

ψ ∈ C [ a, b ],

(15.12)

t∈[ a, b ]

versehen ist mit einer Gewichtsfunktion w : [ a, b ] → R stetig,

w( t ) > 0

für t ∈ [ a, b ].

(15.13)

Das folgende Theorem liefert in der vorliegenden Situation eine Charakterisierung für Πn−1 Proxima an stetige Funktionen. Theorem 15.28 (Alternantensatz) Mit den Bezeichnungen (15.12) und (15.13) seien eine Funktion f ∈ C [ a, b ] sowie ein Polynom p∗ ∈ Πn−1 mit p∗ = f gegeben. Dann sind die folgenden Aussagen (a) und (b) a¨ quivalent: (a) p∗ ist ein Πn−1 Proximum an f , es gilt also ||f − p∗ ||∞,w

=

min ||f − p||∞,w .

p∈Πn−1

(b) Es existiert eine Alternante s0 , s1 , . . . , sn ∈ [ a, b ] für f und p∗ , das heißt, s0 < s1 < . . . < sn , (f ( sk ) − p∗ ( sk ) )w ( sk ) = −(f ( sk−1 ) − p∗ ( sk−1 ) )w ( sk−1 )

für k = 1, 2, . . . , n,

und diese Alternante besitzt die Eigenschaft |f ( sk ) − p∗ ( sk ) |w ( sk )

=

||f − p∗ ||∞,w

für k = 0, 1, . . . , n.

B EWEIS . “(b) =⇒ (a)“: Angenommen, es gibt ein Polynom p ∈ Πn−1 mit der Eigenschaft sup |f ( t ) − p( t ) |w ( t )

t ∈ [ a, b ]

= ||f − p||∞,w

sup |f ( t ) − p∗ ( t ) |w ( t ) .

0 impliziert ψ ( sk ) > 0, und entsprechend impliziert f ( sk ) − p∗ ( sk ) < 0 die Ungleichung ψ ( sk ) < 0. Daher wechselt die Funktion ψ mindestens n mal ihr Vorzeichen auf dem Intervall [ a, b ], und damit hat p − p∗ mindestens n paarweise verschiedene Nullstellen, woraus p = p∗ folgt, was einen Widerspruch zur Ungleichung (15.14) darstellt. “(a) =⇒ (b)“: Angenommen, es existiert keine Alternante für f und p∗ . In diesem Fall kann das Intervall [ a, b ] in 1 ≤ n∗ ≤ n abgeschlossene Teilintervalle Ik = [ tk−1 , tk ],

1 ≤ k ≤ n∗

mit a = t0 < t1 < . . . < tn∗ = b

zerlegt werden, so dass Folgendes gilt: •

(f ( tk ) − p∗ ( tk ) )w ( tk ) = 0

•

für jeden Index k ∈ {1, 2, . . . , n∗ } existiert ein sk ∈ Ik mit

für k = 1, 2, . . . , n∗ − 1;

|f ( sk ) − p∗ ( sk ) |w ( sk ) = ||f − p∗ ||∞,w = 0, ∀ x ∈ Ik : •

−(f ( x ) − p∗ ( x ) )w ( x ) = (f ( sk ) − p∗ ( sk ) )w ( sk ) für k = 1, 2, . . . , n∗ ;

für jeden Index k ∈ {1, 2, . . . , n∗ − 1} gilt (f ( sk ) − p∗ ( sk ) )w ( sk )

=

−(f ( sk+1 ) − p∗ ( sk+1 ) )w ( sk+1 ).

O.B.d.A. darf noch angenommen werden, dass f ( sk ) − p ∗ ( sk )

> 0

für k ungerade,

......

< 0

für k gerade.

Πn−1 – Proxima bzgl. Maximumnormen

Abschnitt 15.5

377

........................ ............................................ .... ....... ...... .... ... ... ... ...... ..... ... .. ... ... ..... ..... ... ... .. .... .... ..... ... ... .. ... .... .... . ... . . . . . . ... ... .. ... ... .... . . . . . . . .. ... .. ... .... ... . .. . . . . . . . ... . ... ... .. ... ... . . . . ... . . . . . . ... ... .. ... ... ..... . . . . . . . . . . ... ... ... . .. .... . . ... ... ... . . ............ ..... . .. ... ... ... ...... ... ... .. . . . . ... ... . ... ... ... . ... ... ..... .... . . . ... ... .. ... ... ... ... . . . . . ... ... ... ... ... ... ... ... . ... ... . . ... .. ... ... ... .... ... ..... ... ... . . .......... ... ........ ... ... ... . . . . ... ... .. ... . ... ... ... . ... .. ... ... . . .. ... ... .. . ... . . . . .. ... ... ... ... ... ... ... ... .... .. .. ... .... ... ... ... .... .... ... ..... . . . ... . . ... .. .......................

a

s1

t1

s2

t2

s3

||f − p∗ ||∞,w ||f − p∗ ||∞,w − ε

b

(f ( x ) − p∗ ( x ) )w ( x ) −||f − p∗ ||∞,w + ε −||f − p∗ ||∞,w

Bild 15.7 (a) =⇒ (b): Beweisveranschaulichung für den Spezialfall n∗ = 3 Dann existiert notwendigerweise eine Zahl ε > 0 mit inf (f ( t ) − p∗ ( t ) )w ( t )

≥ −||f − p∗ ||∞,w + ε

sup

≤

t∈Ik

.......

||f − p∗ ||∞,w − ε

für k ungerade, für k gerade,

t∈Ik

und dann gibt es ein Polynom ∆p ∈ Πn∗ −1 mit den folgenden Eigenschaften: ∆p < 0 auf Ik , falls k ungerade,

∆p > 0 auf Ik , falls k gerade,

||∆p||∞,w ≤ ε/2,

wobei die letztgenannte Eigenschaft durch Multiplikation mit einer kleinen positiven Konstanten folgt. Eine Veranschaulichung der vorliegenden Situation findet sich in Bild 15.7. Für das Polynom p := p∗ − ∆p ∈ Πn−1 gilt dann f − p = f − p∗ + ∆p und daher ( f − p )( t )

inf ( f ( t ) − p( t ))w ( t )

t∈Ik

( f − p )( t )

sup (f ( t ) − p( t ) )w ( t )

( f − p∗ )( t ),

t ∈ ( tk−1 , tk )

......

für k gerade,

≤ ||f − p∗ ||∞,w − ε/2

......

t∈Ik

und infolgedessen ergibt sich der Widerspruch ||f − p||∞,w < ||f − p∗ ||∞,w . Dies komplettiert den Beweis. Bemerkung 15.29 Die Voraussetzungen des Alternantensatzes lassen sich abschwächen. So genügt es, von der Funktion w anstelle Positivität lediglich Nichtnegativität zu fordern, das heißt, w ( t ) ≥ 0 für t ∈ [ a, b ] 7 , und außerdem kann die Bedingung “p∗ = f “ zu “||f − p∗ ||∞,w > 0“ abgeschwächt werden. Weiter können – anstelle stetiger f – solche Funktionen f : [ a, b ] → R = R ∪ {−∞, ∞} zugelassen werden, für die das Produkt f w eine auf dem Intervall [ a, b ] stetige Funktion ergibt. Der Beweis lässt sich ohne weiteres auf diese allgemeinere Situation 7

Dann stellt || · ||∞,w im Allgemeinen keine Norm mehr dar, was aber hier keine Rolle spielt.

378

Kapitel 15

Approximationstheorie

u¨ bertragen, für die ebenfalls Anwendungen existieren (siehe Nemirovski˘ı /Polyak [73]). Beispiele hierzu werden in den Aufgaben 15.3 und 15.4 vorgestellt.

15.6 Anwendungen des Alternantensatzes 15.6.1 Ein Beispiel Beispiel 15.30 Zu einer gegebenen konvexen Funktion f ∈ C 2 [ a, b ] ist das Π1 Proximum gesucht. Aus dem Mittelwertsatz der Differenzialrechnung erhält man eine Zwischenstelle ξ ∈ ( a, b ) mit der Eigenschaft f ( ξ )

f (b) − f (a) , b−a

=

und das Π1 Proximum p∗ ist dann gegeben durch 1 f (b) − f (a) f (b) − f (a) (t − ξ ) + f (ξ ) + (t − a) + f (a) p∗ ( t ) := b−a

2

=

b−a

f (b) − f (a) a+ξ f (a) + f (ξ ) , t − + b−a 2 2

t ∈ R,

denn die Punkte s0 = a, s1 = ξ und s2 = b bilden eine Alternante, −( p∗ − f )( a )

=

( p∗ − f )( ξ )

=

−( p∗ − f )( b )

=

||p∗ − f ||∞ .

Die vorliegende Situation ist in Bild 15.8 dargestellt.

.. .... .... .. .. .... .... .... .... .. .. .... ................ .... .... .. ... .. .... .. .... .... . . . . . . . . . . . .. . .. .... .... .. .. .. .... .... ... .... .... .. .. .. .... .... .. .... .... .. ... ........ ......... .. ................ .. .... .... . . . . . . . . . . . ................................ . .. .. .... . ... ................... .... .... .. .................. .. .... .... . . . . . . . . . . . . . . . . . . . . . . . . . .. .... . ............... ...... .... .... .................... ................ ... ... ..... ................ .. .... .... .... .. ................ .... .... .. ..... ... ................ ..... .... ................ ........... ..... ... ................ . . . . . . . . .. .... ...... . . . . . . . . . . . . . .... .... .. ...... . ............ ... .. .... .... ...... ............................... .. ..... .... .... .. . .. ...... ......... .. .... .... ...... ............................. .... .... .. .................................... ....... ........ . . . . . . . . . . . . . . . . . ......... . ..... .... ... ...... .......... ................ ......... ......... . .... .... ............. ................ .... ...................... ... ..................... ................ ..................................................... .. .... .... .... .. . . . . . . . . . ... .. .... .... .... .... .. .. .... .... .... .... .. .. .... .... .... .... .. . . . . . . . . .... ....

f

p∗

= ||p∗ − f ||∞ = Ef ( Π1 )

a

ξ

b

Bild 15.8 Veranschaulichung der in Beispiel 15.30 vorliegenden Situation

15.6.2 Eine erste Anwendung des Alternantensatzes Theorem 15.31 Für n ≥ 1 ist das Polynom p∗ ( t )

=

tn −

1 T ( t ), 2n−1 n

t ∈ R,

bezüglich der Maximumnorm ein Πn−1 Proximum an die Funktion f ( t ) = tn , t ∈ [ –1, 1 ], mit ||p∗ − tn ||∞

=

min ||p − tn ||∞

p ∈ Πn−1

=

1 . 2n−1

Hierbei bezeichnet Tn ∈ Πn das n te Tschebyscheff Polynom der ersten Art, es gilt also Tn ( t ) = cos ( n arccos t ), t ∈ [ –1, 1 ].

Abschnitt 15.6

379

Anwendungen des Alternantensatzes

B EWEIS . Der führende Koeffizient von Tn ist 2n−1 (siehe Theorem 1.23 auf Seite 13), und 1 somit gilt p∗ ∈ Πn−1 . Weiter gilt offensichtlich ||p∗ − tn ||∞ = n−1 , und das System sk = 2 cos (n−k)π , k = 0, 1, . . . , n, bildet aufgrund von n snk − p∗ ( sk )

=

1 2

n−1

Tn ( sk )

=

(−1)n−k 2n−1

für k = 0, 1, . . . , n,

eine Alternante, so dass aus Theorem 15.28 die Aussage des Theorems folgt. Als unmittelbare Konsequenz ergibt sich das folgende Resultat (vergleiche Theorem 1.24): Korollar 15.32 Für die Zahlen t(kn) = cos folgende Optimalitätseigenschaft:

(2k−1)π 2n

max ( t − y1 ) . . . ( t − yn )

min

, k = 1, 2, . . . , n (mit n ∈ N) gilt die

(∗)

=

y1 ,... ,yn ∈ [ −1, 1 ] t∈[ −1, 1 ]

(∗∗)

=

max ( t − t(1n) ) . . . ( t − t(nn) )

t ∈ [ −1, 1 ]

1 . 2n−1

B EWEIS . Bei den Werten t(1n) , . . . , t(nn) handelt es sich um die Nullstellen des Tschebyscheff Polynoms Tn , und der führende Koeffizient von Tn lautet 2n−1 ; daraus resultiert die Identität (∗∗). Die Ungleichung “≤“ in (∗) ist offensichtlich richtig, und “≥“ schließlich erh¨ alt man wie folgt: 1 (•) = min || p − tn ||∞ ≤ min max ( t − y1 ) . . . ( t − yn ) , p∈Πn−1 y1 ,...,yn ∈ [ −1, 1 ] t ∈ [ −1, 1 ] 2n−1

∈ Πn ∈ Πn wobei die Identität (•) eine Konsequenz aus Theorem 15.31 ist.

15.6.3 Eine zweite Anwendung des Alternantensatzes Als eine weitere Anwendung des Alternantensatzes erhält man das folgende Resultat. Es liefert nachträglich die Optimalität der im Beweis von Theorem 11.19 u¨ ber die Konvergenzraten beim Verfahren der konjugierten Gradienten verwendeten Polynome (bezogen auf das Intervall [ m, M ] ). Theorem 15.33 Ausgehend von Zahlen 0 < m ≤ M gilt für das Polynom p∗ ( λ ) := cTn

M + m −1 c := Tn M − m

M + m − 2λ , M −m

(λ ∈ R ),

Folgendes: p∗ ∈ Πn ,

p∗ ( 0 ) = 1,

max |p∗ ( λ ) |

m≤λ≤M

=

min

max

p∈Πn m≤λ≤M p( 0)=1

|p( λ ) |

=

Tn

M +m M −m

−1

(15.15) .

(15.16)

380

Kapitel 15

Approximationstheorie

B EWEIS . Die Eigenschaft (15.15) ist offensichtlich richtig, und für den Nachweis von (15.16) betrachtet man die folgenden Darstellungen, 1 1 − p∗ ( λ ) mit q ∗ ( λ ) := max λ λ − q ∗ ( λ ) = c ∈ Πn−1 , λ 1 |p( λ ) | = min max λ λ − q ( λ ) ,

max |p∗ ( λ ) | =

m≤λ≤M

min

max

p∈Πn m≤λ≤M p(0)=1

m≤λ≤M

q∈Πn−1 m≤λ≤M

und erhält die Aussage des Theorems mittels Theorem 15.28 angewandt mit q ∗ anstelle p∗ sowie [ a, b ] = [ m, M ],

w ( λ ) = λ,

f (λ) =

1 , λ

unter Berücksichtigung der Tatsache, dass λk := −

M −m M +m sk + 2 2

eine Alternante darstellt, 1 λk λ − q ∗ ( λ k ) = k

kπ mit sk := cos n ,

p∗ ( λk ) = Tn ( sk ) = c( –1 )k

k = 0, 1, . . . , n,

für k = 0, 1, . . . , n.

Bemerkung 15.34 Zur Bestimmung eines solchen Πn−1 Proximums lässt sich – auf der Grundlage des Alternantensatzes – ein Algorithmus angeben, das Austauschverfahren von Remez. Einzelheiten hierzu finden Sie beispielsweise in Hämmerlin/Hoffmann [45] und in Schaback/ Wendland [88].

15.7 Haarsche Räume, Tschebyscheff–Systeme Die Aussage des Alternantensatzes behält ihre Gültigkeit, wenn man anstelle des Raums Πn−1 der Polynome vom Grad ≤ n − 1 Haarsche Räume mit der Dimension n betrachtet. Die entsprechende Theorie wird im Folgenden vorgestellt. Von grundlegender Bedeutung sind dabei die folgenden Begriffe. Definition 15.35 (a) Ein endlich dimensionaler linearer Raum U ⊂ C [ a, b ] heißt Haarscher Raum, falls jede Funktion 0 ≡ u ∈ U höchstens n − 1 paarweise verschiedene Nullstellen besitzt, wobei n := dim U . (b) Ein linear unabhängiges Funktionensystem u1 , . . . , un ∈ C [ a, b ] heißt Tschebyscheff System, falls U = span {u1 , . . . , un } ⊂ C [ a, b ] einen Haarschen Raum bildet. Beispiel 15.36 (a) Die Monome 1, x, x2 , . . . , xn−1 ∈ C [ a, b ] bilden offensichtlich ein Tschebyscheff System. (b) Die Exponentialmonome 1, ex , e2x , . . . , e( n−1)x ∈ C [ a, b ] bilden ein Tschebyscheff System.

Abschnitt 15.7

381

Haarsche Räume, Tschebyscheff– Systeme

B EWEIS . Hier betrachtet man . U := span 1, ex , e2x , . . . , e( n−1)x

=

-

p ◦ ex : p ∈ Πn−1

.

⊂ C [ a, b ].

Falls dann u = p ◦ ex ∈ U mindestens n paarweise verschiedene Nullstellen a ≤ x1 < . . . < xn ≤ b hat, so besitzt das Polynom p ∈ Πn−1 die n paarweise verschiedenen Nullstellen ex1 < . . . < exn , und somit gilt notwendigerweise p ≡ 0 beziehungsweise u ≡ 0. (c) Für 0 ≤ a < b < 2π bilden die trigonometrischen Monome 1, sin x, cos x, . . . , sin mx, cos mx ∈ C [ a, b ] ein Tschebyscheff System. B EWEIS . Hierzu betrachtet man U

:= span {1, sin x, cos x, . . . , sin mx, cos mx} m αk sin kx + βk cos kx : αk , βk ∈ R = k=0

=

m

γk eikx : γk ∈ C,

Re γk = Re γ−k ,

Im γk = −Im γ−k

k=−m

⊂ {e−imx q ◦ eix : q ∈ Π2m }

⊂

C [ a, b ].

Falls dann u = e−imx ( q ◦ eix ) ∈ U mindestens ( 2m + 1 ) paarweise verschiedene Nullstellen 0 ≤ x0 < . . . < x2m < 2π besitzt, so hat (aufgrund der Injektivität der Funktion eix auf dem Intervall [ 0, 2π ) ) das Polynom q ∈ Π2m mindestens ( 2m + 1 ) paarweise verschiedene Nullstellen und somit gilt notwendigerweise q ≡ 0 beziehungsweise u ≡ 0.

15.7.1 Alternantensatz fur ¨ Haarsche Räume Der Alternantensatz lässt sich auf Haarsche Räume u¨ bertragen: Theorem 15.37 Für einen Haarschen Raum U ⊂ C [ a, b ] der Dimension dim U = n behält der Alternantensatz seine Gültigkeit, wenn dort “Πn−1 “ durch “ U “ ersetzt wird.8 B EWEIS . Der Beweis verläuft a¨ hnlich dem des Alternantensatzes für Polynome, unter Verwendung des nachfolgenden Resultats u¨ ber die eindeutige Lösbarkeit des Interpolationsproblems in Haarschen Räumen. Theorem 15.38 Zu einem Haarschen Raum U ⊂ C [ a, b ] der Dimension dim U = n und n Stützpunkten ( x1 , f1 ), . . . , ( xn , fn ), mit paarweise verschiedenen Stützstellen x1 , x2 , . . . , xn ∈ [ a, b ] gibt es genau ein Element u ∈ U mit der Interpolationseigenschaft u( xj ) = fj

für j = 1, 2, . . . , n.

B EWEIS . Wird hier nicht geführt (Aufgabe 15.6). 8

Etwas genauer ist dort noch das Wort “Polynom“ zu streichen, und sinnvollerweise wird man die Notation “p∗ “ durch “u∗ “ ersetzen.

382

Kapitel 15

Approximationstheorie

15.7.2 Eindeutigkeit des Proximums Für Haarsche Räume U ⊂ C [ a, b ] ist die Existenz von U Proxima an Funktionen f ∈ C [ a, b ] aufgrund von Korollar 15.10 gewährleistet. Im Folgenden werden nun Eindeutigkeitsbetrachtungen geführt, der Einfachheit halber nur für die spezielle Gewichtsfunktion w ≡ 1. Theorem 15.39 Bezüglich der Maximumnorm || · ||∞ auf dem Intervall [ a, b ] ist in einem Haarschen Raum U ⊂ C [ a, b ] zu jedem f ∈ C [ a, b ] das U Proximum an die Funktion f eindeutig bestimmt. B EWEIS . Für zwei U Proxima u1 , u2 ∈ U an die Funktion f ist auch9 die Funktion 12 ( u1 + u2 ) ein U Proximum an f , für die dann eine Alternante a ≤ s0 < s1 < . . . < sn ≤ b, n := dim U , existiert, das heißt, 1 1 1 ( u − f )( sk ) + ( u2 − f )( sk ) = ( u1 + u2 ) − f ( sk ) = τ ( –1 )k Ef ( U ), 2 1 2 2

| | ≤ Ef ( U ) | | ≤ Ef ( U ) k = 0, 1, . . . , n, τ ∈ {−1, 1}, und daher ( u1 − f )( sk )

=

( u2 − f )( sk )

bzw. (u1 − u2 )( sk ) = 0 ∈ U

für k = 0, 1, . . . , n,

so dass notwendigerweise u1 ≡ u2 gilt. Bemerkung 15.40 Man beachte, dass der Vektorraum C [ a, b ] zusammen mit der Maximumnorm || · ||∞ nicht strikt normiert ist, so dass Theorem 15.39 nicht unmittelbar aus Theorem 15.19 resultiert.

15.7.3 Untere Schranken fur ¨ den Minimalabstand Ist für eine Approximation u ∈ U an eine Funktion f eine Alternante gegeben, an dessen Punkten jedoch der Abstand von u zur Funktion f nicht maximal und der Alternantensatz daher nicht anwendbar ist, so gewinnt man doch zumindest eine untere Schranke für den Minimalabstand Ef ( U ): Theorem 15.41 (de la Valleé Poussin) Seien U ⊂ C [ a, b ] ein Haarscher Raum sowie f ∈ C [ a, b ] und u ∈ U . Wenn a ≤ s0 < s1 < . . . < sn ≤ b mit n := dim U eine Alternante bezüglich der Funktionen f und u darstellt, das heißt, ( u − f )( sk ) = τ δ ( –1 )k

für k = 0, 1, . . . , n,

erfüllt ist mit geeigneten Zahlen τ ∈ {−1, 1} und 0 < δ ≤ ||u − f ||∞ , so gilt die folgende Abschätzung, δ ≤ Ef ( U ). 9

siehe Lemma 15.14

383

Weitere Themen und Literaturhinweise

B EWEIS . Im Fall Ef ( U ) < δ würde man für das U Proximum u∗ an f die Identität u − u∗

u − f − (u∗ − f )

=

|| ||∞ = Ef ( U )

erhalten, mit der Konsequenz

sgn( u − u∗ )( sk ) = sgn( u − f )( sk ) = τ ( –1 )k für k = 0, 1, . . . , n, ∈ U so dass die Funktion u − u∗ dann n Nullstellen besitzen würde und infolgedessen sich der Widerspruch u ≡ u∗ ergäbe. Bemerkung 15.42 In Ergänzung zu Theorem 15.41 kann man für den Minimalabstand noch die triviale obere Schranke Ef ( U ) ≤ ||u − f ||∞ angeben.

Weitere Themen und Literaturhinweise Ausführliche Behandlungen des Themas Approximationstheorie finden Sie beispielsweise in Hämmerlin/Hofmann [45], Opfer [76] und in Schaback/Wendland [88]. Die in Abschnitt 15.3.2 vorgestellte Theorie der strikt normierten Räume lässt sich erweitern um die Theorie der gleichmäßig konvexen, vollständig normierten Räume V, in denen für konvexe abgeschlossene Teilmengen ∅ = M ⊂ V die Existenz von M Proxima gewährleistet ist. Einzelheiten hierzu werden beispielsweise in Hirzebruch/Scharlau [53] vorgestellt. Dort werden auch (für mit einem Skalarprodukt versehene Räume) Orthonormalsysteme behandelt, die zur Bestimmung von Proxima in Unterräumen verwendet werden. Einführungen zu dem in Bemerkung 15.4 angesprochenen Thema “nichtlineare Optimierung“ finden Sie beispielsweise in Dennis/Schnabel [16], Grossmann/Terno [41], Geiger/Kanzow [29], Nash/Sofer [72], Schaback/Wendland [88], Schwarz/Klöckner [90], Schwetlick [91], Troeltzsch [101] oder Werner [107].

¨ Ubungsaufgaben Aufgabe 15.1 Man weise nach, dass der Vektorraum C [ a, b ] zusammen mit der Maximumnorm || · ||∞ nicht strikt normiert ist. ¨ Aufgabe 15.2 Man weise die Aquivalenz (15.11) nach. Aufgabe 15.3 Man weise für die Folge von Funktionen √ (−1)n T2n+1 ( t) ( ) √ = , t>0 pn t 2n + 1 t Folgendes nach: (∗)

pn ∈ Πn , √ max |pn ( t ) | t

=

√ max |pn ( t ) | t

=

0≤t≤1 0≤t≤1

(n = 0, 1, . . . )

pn ( 0 ) = 1, 1 2n + 1

min

für n = 0, 1, . . ., √ max |p( t ) | t,

p∈Πn 0≤t≤1 p( 0)=1

384

Kapitel 15

Approximationstheorie

wobei (∗) so zu verstehen ist, dass zu der Funktion pn eine Fortsetzung nach 0 und darüber hinaus auf die negative Halbachse existiert, welche ein Polynom von Höchstgrad n darstellt. Aufgabe 15.4 Man u¨ berlege sich, dass für die Folge von Funktionen pn ( t )

=

1 − Tn+1 ( 1 − 2t ) 2( n + 1 )2 t

0 = t ∈ R

,

(n = 0, 1, . . . )

Folgendes gilt: pn ∈ Πn ,

pn ( 0 ) = 1,

max |pn ( t ) |t

=

max |pn ( t ) |t

=

0≤t≤1 0≤t≤1

1 ( n + 1 )2

min

für n = 0, 1, . . .,

max |p( t ) |t.

p∈Πn 0≤t≤1 p(0)=1

Aufgabe 15.5 Es ist p ≡ 0 bezüglich der Maximumnorm ein Πn−1 Proximum an die Funktion f ( t ) = sin 3t, t ∈ [ 0, 2π ] genau dann, wenn n − 1 ≤ 2 gilt. Aufgabe 15.6 Man beweise Theorem 15.38.

385

16 Rechnerarithmetik In dem vorliegenden Kapitel werden zunächst einige Grundlagen u¨ ber die in Hard- und Software verwendeten reellen Zahlensysteme vorgestellt. Anschließend wird die Approximation reeller Zahlen durch Elemente solcher Zahlensysteme behandelt. Ein weiteres Thema bilden die arithmetischen Grundoperationen in diesen Zahlensystemen. Bemerkung 16.1 Solche Umwandlungs- und Arithmetikfehler verursachen bei jedem numerischen Verfahren Fehler sowohl in den Eingangsdaten als auch bei der Durchführung des jeweiligen Verfahrens. Für verschiedene Situationen sind die Auswirkungen solcher Fehler in einem allgemeinen Kontext bereits diskutiert worden: •

der Einfluss fehlerbehafteter Matrizen und rechter Seiten auf die Lösung eines zugrunde liegenden linearen Gleichungssystems (Abschnitt 4.7.5),

•

und bei Einschrittverfahren zur Lösung von Anfangswertproblemen für gewöhnliche Differenzialgleichungen die Auswirkungen der in jedem Integrationsschritt auftretenden eventuellen Fehler auf die Güte der Approximation an die Lösung der Differenzialgleichung (Abschnitt 7.4),

•

und der Einfluss fehlerbehafteter Matrizen auf die Lösung von Eigenwertproblemen (Abschnitt 12.2).

16.1 Zahlendarstellungen Von grundlegender Bedeutung für die Realisierung von Zahlendarstellungen auf Rechnern ist die folgende aus der Analysis bekannte Darstellung. Theorem 16.2 Zu gegebener Basis b ≥ 2 lässt sich jede Zahl 0 = x ∈ R in der Form x = σ

∞

ak+e b−k = σ

∞

k=−e+1

k=1

ak b−k be ,

a1 , a2 , . . . ∈ {0, 1, . . . , b − 1}, (16.1) e ∈ Z,

σ ∈ {+, −}

darstellen mit einer nichtverschwindenden führenden Ziffer, a1 = 0. Zwecks Eindeutigkeit der Ziffern sei angenommen, dass es eine unendliche Teilmenge N1 ⊂ N gibt mit ak = b − 1 für k ∈ N1 . B EWEIS . Siehe etwa Forster [27]. Bemerkung 16.3 (a) Die zweite Darstellung für x in (16.1) bezeichnet man als Gleitpunktdarstellung.

386

Kapitel 16

Rechnerarithmetik

(b) Durch die abschließende Bedingung in Theorem 16.2 ist die Eindeutigkeit der Ziffern in den Darstellungen (16.1) gewährleistet. So wird zum Beispiel für die Zahl 0.9999 . . . = 1.0 die letztere Darstellung gewählt. (c) Praxisrelevante Zahlensysteme und ihre Ziffern sind in Tabelle 16.1 dargestellt.

Zahlensystem

Basis b

Dezimalsystem

10

0, 1, 2, 3, 4, 5, 6, 7, 8, 9

Binärsystem

2

0, 1

Oktalsystem

8

0, 1, 2, 3, 4, 5, 6, 7

Hexadezimalsystem

16

0, 1, 2, 3, 4, 5, 6, 7, 8, 9, A, B, C, D, E, F

mögliche Ziffern

Tabelle 16.1 Praxisrelevante Zahlensysteme und ihre Ziffern

16.2 Allgemeine Gleitpunkt–Zahlensysteme 16.2.1 Grundlegende Begriffe In jedem Prozessor beziehungsweise bei jeder Programmiersprache werden jeweils nur einige Systeme reeller Zahlen verarbeitet. Solche Systeme werden im Folgenden vorgestellt. Definition 16.4 Zu gegebener Basis b ≥ 2 und Mantissenlänge t ∈ N sowie für Exponentenschranken emin < 0 < emax ist die Menge F = F(b, t, emin , emax ) ⊂ R wie folgt erklärt, ⎫ ⎧ ⎪ ⎪ ⎪ ⎪ ⎬ ⎨ t −k e ∪ {0}. (16.2) b : a1 , . . . , at ∈ {0, 1, . . . , b − 1}, a1 = 0 F := σ ak b ⎪ ⎪ ⎪ ⎪ ⎩ k=1 ⎭ ≤ e ≤ e , σ ∈ {+, −} e ∈ Z, e min

max

ist definiert als diejenige Obermenge von F, bei der in der Liste von Parametern Die Menge F in (16.2) zusätzlich noch die Kombination “e = emin , a1 = 0“ zugelassen ist. (und damit insbesondere auch die Elemente von F ⊂ F ) werden im FolDie Elemente von F genden kurz als Gleitpunktzahlen bezeichnet. Zu jeder solchen Gleitpunktzahl x = σ abe ∈ F

mit a =

t

ak b−k

(16.3)

k=1

bezeichnet σ das Vorzeichen, es ist a die Mantisse mit den Ziffern a1 , . . . , at , und e ist der Exponent. Gleitpunktzahlen mit der Darstellung (16.3) bezeichnet man im Fall a1 ≥ 1 als normalisiert, andernfalls als denormalisiert. Bemerkung 16.5 Die Menge F ⊂ R stellt folglich ein System normalisierter Gleitpunktzahlen dar. Diese Normalisierung garantiert die Eindeutigkeit in der Darstellung (16.3). Im Spezialfall

Abschnitt 16.2

387

Allgemeine Gleitpunkt– Zahlensysteme

des kleinsten zugelassenen Exponenten e = emin bleibt diese Eindeutigkeit (mit Ausnahme der Zahl 0) jedoch erhalten, wenn auf die Normalisierung verzichtet wird, so dass bis auf die Zahl eindeutig in der Form (16.3) darstellbar sind. 0 auch alle Gleitpunktzahlen aus F festIm weiteren Verlauf werden zunächst grundlegende Eigenschaften der Mengen F und F gehalten (Abschnitte 16.2.2 und 16.2.3) und anschließend einige spezielle Systeme von Gleitpunktzahlen vorgestellt (Abschnitt 16.3).

16.2.2 Struktur des normalisierten Gleitpunkt– Zahlensystems F Im Folgenden werden für die Gleitpunktzahlen aus dem System F ⊂ R zunächst Schranken angegeben und anschließend deren Verteilung auf der reellen Achse beschrieben. Wegen der Symmetrie von F um den Nullpunkt genügt es dabei, deren positive Elemente zu betrachten. Theorem 16.6 In dem System F = F(b, t, emin , emax ) normalisierter Gleitpunktzahlen stellen xmin := bemin −1 ,

xmax := bemax ( 1 − b−t ),

das kleinste positive beziehungsweise das größte Element dar, es gilt also xmin , xmax ∈ F und xmin = min{x ∈ F : x > 0},

xmax = max{x ∈ F }.

B EWEIS . Für die Mantisse a einer beliebigen Gleitpunktzahl aus F gilt notwendigerweise b−1

≤

a

≤

t

(∗)

b−k ( b − 1 ) = 1 − b−t ,

k=1

wobei die erste Ungleichung aus der Normalisierungseigenschaft a1 ≥ 1 und die zweite Ungleichung aus der Eigenschaft ak ≤ b − 1 resultiert. Die Summe schließlich stellt eine Teleskopsumme dar, woraus die Identität (∗) folgt und der Beweis komplettiert ist. Bemerkung 16.7 Der durch das normalisierte Gleitpunkt Zahlensystem F u¨ berdeckte Bereich sieht demnach wie folgt aus, F ⊂ [ –xmax , −xmin ] ∪ {0} ∪ [ xmin , xmax ], was in Bild 16.1 veranschaulicht ist. [ −xmax

] [ −xmin0 xmin

] xmax

Bild 16.1 Darstellung des durch das normalisierte Gleitpunkt– Zahlensystem F u¨ berdeckten Bereiches

Detaillierte Aussagen u¨ ber die Verteilung der Gleitpunktzahlen aus den System F liefern das folgende Theorem und die anschließende Bemerkung.

388

Kapitel 16

Rechnerarithmetik

Theorem 16.8 In jedem der Intervalle [ be−1 , be ], emin ≤ e ≤ emax , befinden sich gleich viele Gleitpunktzahlen aus dem System F, bei einer jeweils a¨ quidistanten Verteilung mit den konstanten Abständen be−t : (b−1 + jb−t )be : j = 0, 1, . . . , M , M := bt − bt−1 . F ∩ [ be−1 , be ] =

be−1 + jbe−t B EWEIS . Im Folgenden werden die im Beweis von Theorem 16.6 zum Thema Mantissen ange¨ stellten Uberlegungen fortgeführt. Die Mantissengesamtzahl beträgt bt−1 ( b − 1 ) = bt − bt−1 , und diese sind a¨ quidistant u¨ ber das gesamte abgeschlossene Intervall [ b−1 , 1 − b−t ] verteilt mit jeweiligem Abstand b−t , eine aufsteigende Anordnung der Mantissen sieht also wie folgt aus: a = b−1 + jb−t ,

j = 0, 1, . . . , M − 1.

Hieraus resultiert die Aussage des Theorems. Bemerkung 16.9 Durch Theorem 16.8 wird die ungleichmäßige Verteilung der Gleitpunktzahlen auf der Zahlengeraden verdeutlicht. So tritt in dem System der normalisierten Gleitpunktzahlen F zwischen der größten negativen Zahl −xmin und der kleinsten positiven Zahl xmin eine (relativ betrachtet) große Lücke auf, und ferner werden die Abstände zwischen den Gleitpunktzahlen mit wachsender absoluter Größe zunehmend größer. Die beschriebene Situation für F ist in Bild 16.2 veranschaulicht. −xmin

... .. .

... .. .

.. . . . . . . . .. . . . . . . . .. ... .. .. .. .. .. .. .. ... .. .. .. .. .. .. .. ... .. ... ... ... ... ... ... ... .. ... ... ... ... ... ... ... .. .. .. ..

−bemin +1

xmin

.. . . . . . . .. . . . . . . . .. ... .. .. ... .. .. .. .. ... .. .. .. .. .. .. .. ... .. .... .... .. .. ... .. .. .. .. .... ... ... ... ... ... ... .. ....

.. ... .. ..

−bemin −bemin −1 0

bemin −1 bemin

bemin +1

... .. .

... .. .

... .. .

. .... .

... .. .

... .. .

... .. .

.. ... .. ..

... .. .

... .. .

bemin +2

Bild 16.2 Verteilung der betragsmäßig kleinen normalisierten Gleitpunktzahlen des Systems F

Eine wichtige Kenngröße des Gleitpunkt Zahlensystems F ist der maximale relative Abstand der Zahlen aus dem Bereich {x ∈ R : xmin ≤ |x| ≤ xmax } zum jeweils nächstgelegenen Element aus F. Hier gilt Folgendes: Theorem 16.10 min z∈F

|z − x| |x|

≤

1 −t+1 b 2 =: eps

für x ∈ R

mit xmin ≤ |x| ≤ xmax .

(16.4)

B EWEIS . Aus Symmetriegründen genügt es, die Betrachtungen auf positive Zahlen x zu beschränken, und im Folgenden werden die Betrachtungen auf eines der infrage kommenden Intervalle [ be−1 , be ] konzentriert. Nach Theorem 16.8 sind die Gleitpunktzahlen aus dem System F u¨ ber das gesamte Intervall [ be−1 , be ] a¨ quidistant verteilt mit den konstanten Abständen be−t , und

Abschnitt 16.2

Allgemeine Gleitpunkt– Zahlensysteme

389

somit beträgt für eine beliebige reelle Zahl x aus diesem Intervall der Abstand zum nächstgelegenen Element aus F höchstens 12 be−t . Die Eigenschaft be−1 ≤ x liefert schließlich die Aussage des Theorems. Bemerkung 16.11 Aus der Abschätzung (16.4) wird unmittelbar einsichtig, dass bei festgelegter Basis b die Genauigkeit des Gleitpunkt Zahlensystems F ausschließlich von der Anzahl der Ziffern der Mantisse abhängt, während die Wahl der Exponentenschranken emin und emax die Größe des von dem Gleitpunkt Zahlensystem F u¨ berdeckten Bereichs beeinflussen. Für die eindeutig bestimmte Zahl n ∈ N mit 0.5 × 10−n ≤ eps < 5 × 10−n spricht man im Zusammenhang mit dem System F von einer n stelligen Dezimalstellenarithmetik.

16.2.3 Struktur des denormalisierten Gleitpunkt– Zahlensystems F ⊃ F die gegenüber dem System der normalisierten Im Folgenden werden für das Obersystem F Gleitpunkt Zahlensystems F zusätzlichen Eigenschaften beschrieben. Theorem 16.12 Auf dem Bereich ( −∞, −xmin ] ∪ [ xmin , ∞ ) stimmen die Gleitpunkt Zahlen u¨ berein, und auf dem Intervall [ –bemin , bemin ] = [ –bxmin , bxmin ] sind die Gleitsysteme F und F a¨ quidistant verteilt mit konstanten Abständen bemin −t : punktzahlen aus dem System F ∩ [ − bemin , bemin ] F

=

{j bemin −t : j = −bt , . . . , bt }.

(16.5)

Insbesondere stellt x min := bemin −t dar. das kleinste positive Element in F gilt a1 = 0, B EWEIS . Für die Mantisse a einer beliebigen denormalisierten Gleitpunktzahl aus F und die Eigenschaft ak ≤ b − 1 liefert a

≤

t

b−k ( b − 1 ) = b−1 − b−t ,

k=2

beziehungsweise F\F ⊂ {x ∈ R : 0 < |x| < xmin }, was identisch mit der ersten Aussage des Theorems ist. Im denormalisierten Fall sind die Mantissen u¨ ber das gesamte abgeschlossene Intervall [ 0, 1 −b−t ] a¨ quidistant verteilt mit Mantissenabstand b−t , eine aufsteigende Anordnung sieht hier wie folgt aus: a = jb−t ,

j = 0, 1, . . . , bt − 1.

Daraus erhält man die Aussage (16.5). ist in Bild 16.3 veranschaulicht. Die beschriebene Situation für F Bemerkung 16.13 Die in dem System der normalisierten Gleitpunktzahlen F (relativ gesehen) auftretenden großen Lücken zwischen der größten negativen Zahl −xmin und der Zahl 0 so wie zwischen 0 und der kleinsten positiven Zahl xmin sind in dem Gleitpunkt Zahlensystem F

390

Kapitel 16

... ...

... ...

−bemin −t be

−t

min .... .. ... . . . . . . . ... . . . . . . . ... . . . . ............. ... ......... . . . . . ... . . . . . . . ... . . . . . . . ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .. .. .. .. .. .. .. ... .. .. .. .. .. .. .. ... .. .. .. .. .. .. .. ... .. .. .. .. .. .. .. ... .. .. .. .. .. .. .. ... .. .. .. .. .. .. .. .. .

−bemin +1

−bemin −bemin −1 0

Rechnerarithmetik

bemin −1 bemin

... ...

... ...

... ...

... ...

. .... .

... ...

bemin +1

... ...

... ... ...

... ...

... ...

bemin +2

Bild 16.3 Verteilung der betragsmäßig kleinen Gleitpunktzahlen aus dem System F aufgefüllt worden mit a¨ quidistant verteilten denormalisierten Gleitpunktzahlen. Man beachte je zur Zahl 0 doch, dass auf der anderen Seite die relativen Abstände der Gleitpunktzahlen aus F hin anwachsen bis hin zu |z − x min | = 1. min b z = x x min z∈F, bmin

16.3 Gleitpunkt–Zahlensysteme in der Praxis 16.3.1

Die Gleitpunktzahlen des Standards IEEE 754

Zwei weitverbreitete Gleitpunkt Zahlensysteme sind •

24, −125, 128) F(2,

(einfaches Grundformat),

•

53, −1021, 1024) F(2,

(doppeltes Grundformat),

die beide Bestandteil des IEEE1 Standards 754 aus dem Jahr 1985 sind, in dem zugleich die Art der Repräsentation festgelegt ist. Einzelheiten hierzu werden im Folgenden erläutert, wobei mit dem gängigeren doppelten Grundformat begonnen wird. Neben den genannten Grundformaten existieren noch erweiterte Gleitpunkt Zahlensysteme – im Folgenden kurz als Weitformate bezeichnet – die ebenfalls in einer einfachen und einer doppelten Version existieren und im Anschluss an die einfachen und doppelten Grundformate vorgestellt werden. Beispiel 16.14 (IEEE, doppeltes Grundformat) Die Gleitpunktzahlen aus dem System F(2, 53, −1021, 1024) lassen sich in 64 Bit Worten realisieren, wobei jeweils ein Bit zur Darstellung des Vorzeichens σ verwendet wird und 52 Bits die Mantisse sowie 11 Bits den Exponenten ausmachen, 64 Bit-Wort

σ

a2

a3

... ...

52 Bits für Mantisse a

a53

e1

e2

...

e11

11 Bits für Exponenten e

Man beachte, dass bei normalisierten Gleitpunktzahlen für die führende Ziffer der Mantisse notwendigerweise a1 = 1 gilt, so dass hier auf eine explizite Darstellung verzichtet werden kann. Mit den 11 Exponentenbits lassen sich wegen 211 = 2048 die 2046 Exponenten von emin = −1021 bis emax = 1024 kodieren. Dies geschieht in Bias Notation (verschobene 1

IEEE ist eine Abkürzung für “Institute of Electrical and Electronics Engineers“.

Abschnitt 16.3

391

Gleitpunkt– Zahlensysteme in der Praxis

Notation), bei der der Exponent e durch die Dualzahldarstellung der Zahl e − emin + 1 ∈ {1, . . . , emax −emin + 1} = {1, . . . , 2046} repräsentiert wird. Von den beiden verbleibenden Bitkombinationen aus dem Exponentenbereich wird die Nullbitfolge 00 · · · 0 zur Umschaltung der Mantisse auf denormalisierte Gleitpunktzahlen (e = emin , a1 = 0) verwendet. Das verbleibende freie Bitmuster 11 · · · 1 verwendet man zur Umschaltung der Mantissenbits für die Darstellung symbolischer Ausdrücke wie +∞, −∞ oder NaN Ausdrucken, ¨ wobei NaN eine Abkürzung für “Not a Number“ ist und bestimmte arithmetische Gleitpunktoperationen wie “0/0“, “0 × ∞“ oder “∞ − ∞“ symbolisiert. (Natürlich bleiben bei der Umschaltung zur Darstellung solcher symbolischen Ausdrücke die meisten Bitmuster der Mantisse unbelegt.) Die kleinste positive normalisierte sowie die größte Gleitpunktzahl sind hier xmin = 2−1022 ≈ 2.23 × 10−308 ,

xmax ≈ 21024 ≈ 1.80 × 10308 ,

während x min = 2−1074 ≈ 4.94 × 10−324 die kleinste positive denormalisierte Gleitpunktzahl ist. Der relative Abstand einer beliebigen Zahl aus dem Bereich {x ∈ R : xmin ≤ |x| ≤ xmax } zum 53, −1021, 1024) beträgt höchstens nächstgelegenen Element aus F(2, eps = 2−53 ≈ 1.11 × 10−16 .

Beispiel 16.15 (IEEE, einfaches Grundformat) Die Gleitpunktzahlen aus dem System F(2, 24, −125, 128) werden in 32 Bit Worten kodiert, wovon jeweils 23 Bits für die Mantisse und 8 Bits für den Exponenten sowie ein Vorzeichenbit vergeben werden. 32 Bit-Wort

σ

a2

a3

...

a24

23 Bits für Mantisse a

e1

...

e8

8 Bits für Exponent e

Aufgrund der Identität 28 = 256 lassen sich mit den 8 Exponentenbits die 254 Exponenten von emin = −125 bis emax = 128 in Bias Notation kodieren, und die beiden verbleibenden Bitkombinationen aus dem Exponentenbereich werden wie bei dem doppelten Grundformat verwendet. Die kleinste positive normalisierte sowie die größte Gleitpunktzahl sehen hier wie folgt aus, xmin = 2−126 ≈ 1.10 × 10−38 ,

xmax ≈ 2128 ≈ 3.40 × 1038 ,

und x min = 2−149 ≈ 1.40 × 10−45 ist die kleinste positive denormalisierte Gleitpunktzahl. Der relative Abstand einer beliebigen Zahl aus dem Bereich {x ∈ R : xmin ≤ |x| ≤ xmax } zum nächst 24, −125, 128) beträgt höchstens eps = 2−24 ≈ 0.60 × 10−7 . gelegenen Element aus F(2, Beispiel 16.16 (IEEE, einfaches und doppeltes Weitformat) Neben dem genannten einfachen und doppelten Grundformat legt der IEEE Standard 754 Gleitpunkt Zahlensysteme im Weitformat fest – wiederum in einer einfachen und einer doppelten Fassung. Hierbei sind im Unterschied zu den Grundformaten lediglich Unterschranken für die verwendete Bitanzahl und die Mantissenlänge sowie Ober und Unterschranken für den Exponenten vorgeschrieben. Ein

392

Kapitel 16

Rechnerarithmetik

typisches erweitertes Gleitpunkt Zahlensystem aus der Klasse der doppelten Formate ist 64, −16381, 16384), F(2, deren Elemente u¨ ber 80 Bit Worte dargestellt werden mit einem Vorzeichenbit, 64 Bits für die Mantisse sowie 15 Bits für den Exponenten. Die kleinste positive normalisierte sowie die größte Gleitpunktzahl lauten hier xmin = 2−16382 ≈ 10−4932 ,

xmax ≈ 216384 ≈ 104932 ,

und der maximale relative Abstand einer beliebigen reellen Zahl aus dem Bereich {x ∈ R : 64, −16381, 16384) liegt bei xmin ≤ |x| ≤ xmax } zum nächstgelegenen Element aus F(2, −64 −20 eps = 2 ≈ 5.42 × 10 . Die einfachen und doppelten Grundformate des IEEE-Standards 754 waren beziehungsweise sind in vielen gängigen Hardware- und Softwareprodukten implementiert, so zum Beispiel in den Prozessoren von Intel (486DX, Pentium), DEC (Alpha), IBM (RS/6000), Motorola (680x0) und Sun (SPARCstation) oder den Programmiersprachen C++ und Java und den Programmpaketen MATLAB und Scilab.

16.3.2 Weitere Gleitpunkt– Zahlensysteme in der Praxis Im Folgenden werden weitere in der Praxis verwendete Gleitpunkt Zahlensysteme vorgestellt. Beispiel 16.17 (Taschenrechner) Bei wissenschaftlichen Taschenrechnern werden zumeist dezimale Gleitpunkt Zahlensysteme verwendet. Weitverbreitet ist das System F(10, 10, −98, 100), wobei intern mit einer längeren Mantisse (in einigen Fällen mit 12 Ziffern) gearbeitet wird. Beispiel 16.18 (Cray) Zwei gängige Gleitpunkt Zahlensysteme auf Cray-Rechnern sind die Systeme F(2, 48, −16384, 8191) und F(2, 96, −16384, 8191). Beispiel 16.19 (IBM System/390) Auf Großrechnern von IBM existieren drei hexadezimale Gleitpunkt Zahlensysteme: F(16, 6, −64, 63) (einfaches Format) sowie F(16, 14, −64, 63) (doppeltes Format) und F(16, 28, −64, 63) (erweitertes Format). Man beachte, dass bei allen drei Systemen lediglich die Mantissenlänge und somit die Genauigkeit variiert, der u¨ berdeckte Zahlenbereich hingegen bleibt unverändert. Die charakteristischen Größen der vorgestellten sowie einiger anderer praxisrelevanter Systeme von Gleitpunktzahlen sind in Tabelle 16.2 zusammengestellt.

16.4 Runden, Abschneiden Ein erster Schritt bei der Durchführung von Algorithmen besteht in der Approximation reeller Zahlen durch Elemente aus dem Gleitpunkt Zahlensystem F. In den folgenden Abschnitten 16.4.1 und 16.4.2 werden hierzu zwei Möglichkeiten vorgestellt.

Abschnitt 16.4

Rechner

393

Runden, Abschneiden

Format

Basis Ziffern Exponentgrenzen denormal

o. Norm

b

t

emin

emax

-125

xmax

xmin

x min

eps

IEEE

einfach

2 24

128

ja

3 × 1038 1 × 10−38 1 × 10−45

.......

doppelt

2 53 -1021 1024

ja

2 × 10308 2 × 10−308 5 × 10−324 1 × 10−16

........

erweit. doppelt

2 64 -16381 16384

ja

1 × 104932 1 × 10−4932 4 × 10−4951 5 × 10−20

IBM 390 .......

6

-64

63

nein 7 × 1075 5 × 10−79

doppelt 16 14

-64

63

nein

10 10

-98

100

einfach 16

Taschenrechner (Bsp.)

......

.......

nein 1 × 1099 1 × 10−99

6 × 10−8

–

5 × 10−7

–

1 × 10−16

–

1 × 10−10

¨ Tabelle 16.2 Ubersicht praxisrelevanter Gleitpunkt– Zahlensysteme

16.4.1 Runden ¨ Die erste Variante zur Approximation reeller Zahlen aus dem Uberdeckungsbereich eines gegebenen Gleitpunkt Zahlensystems F liefert die folgende Definition: Definition 16.20 Zu einem gegebenen Gleitpunkt Zahlensystem F = F(b, t, emin , emax ) mit b gerade ist die Funktion rd : {x ∈ R : xmin ≤ |x| ≤ xmax } → R folgendermaßen erklärt, ⎫ ⎧ t e ⎪ ⎪ ⎪ −k ⎪ ⎪ ak b falls at+1 ≤ b2 − 1 ⎪ b, ⎨σ ⎬ ∞ k=1 rd( x ) = für x = σ ak b−k be ⎪ ⎪ ⎪ ⎪ k=1 ⎪ ⎪ ⎩σ ⎭ ....... + b−t be , falls at+1 ≥ b2 (16.6) mit einer normalisierten Darstellung für x entsprechend Theorem 16.2. Man bezeichnet rd( x ) als den auf t Stellen gerundeten Wert von x. Beispiel 16.21 Bezüglich der Basis b = 10 und der Mantissenlänge t = 3 gilt rd( 0.9996 ) = 1.0 = 0.1 × 101 . Dies verdeutlicht noch, dass sich beim Runden alle Ziffern a¨ ndern können. Der Rundungsprozess liefert das nächstliegende Element aus dem System F: Theorem 16.22 Zu einem gegebenen Gleitpunkt Zahlensystem F = F(b, t, emin , emax ) gilt für jede Zahl x ∈ R mit xmin ≤ |x| ≤ xmax die Eigenschaft rd( x ) ∈ F, mit der Minimaleigenschaft |rd( x ) − x| = minz∈F |z − x|. −k B EWEIS . Ausgehend von der Notation x = σ( ∞ )be erhält man durch elementare k=1 ak b −k Abschätzungen die folgenden unteren und oberen Schranken für ∞ k=1 ak b : t k=1

ak b

−k

≤

∞ k=1

ak b

−k

≤

t k=1

ak b

−k

+

∞

k=t+1

= b−t ( b − 1 )b

−k

b−k+1 − b−k

394

Kapitel 16

Rechnerarithmetik

und daraus folgt ak b−k be

t

≤

|x|

t

≤

k=1

ak b−k + b−t be .

k=1

≤ b−1

≤ 1

Daher liegen die Schranken in dem Intervall [ be−1 , be ], so dass die beiden für rd( x ) infrat t ge kommenden Werte σ ak b−k be und σ ak b−k + b−t be nach Theorem 16.8 die k=1

k=1

Nachbarn von x aus dem Gleitpunkt Zahlensystem F darstellen. Daraus resultiert insbesondere rd( x ) ∈ F, und im Folgenden wird die Ungleichung |rd( x ) − x| ≤ b−t+e /2

(16.7)

nachgewiesen, wobei die obere Schranke in der Abschätzung (16.7) die Hälfte des Abstands der beiden Nachbarn zueinander darstellt, so dass (16.7) die behauptete Optimalität nach sich zieht. Zum Beweis von (16.7) unterscheidet man zwei Situationen. Im Fall “at+1 ≤ b/2 − 1“ berechnet man |rd( x ) − x|

=

∞

ak b−k be

=

at+1 b−(t+1) +

k=t+1

≤

2

ak b−k be

k=t+2 −k+1

b

∞

−(t+1)

−1 b

+

∞

−k

b −b

( b − 1 )b−k be

k=t+2

=

+

........

b−(t+1) be

und in der Situation “at+1 ≥ b/2“ erhält man |rd( x ) − x| =

b−t

∞ − ak b−k be

=

b−t

=

1 −t+e b , 2

≥ 0 ≥ b−t /2 ∞ − at+1 b−(t+1) − ak b−k be

k=t+1

≤

k=t+2

1 −t+e b . 2

Aus diesen Abschätzungen schließlich erhält man die Ungleichung (16.7). Die Situation beim Runden ist in Bild 16.4 veranschaulicht. Als leichte Folgerung aus Theorem 16.22 erhält man das folgende Resultat. Korollar 16.23 In einem gegebenen Gleitpunkt Zahlensystem F = F(b, t, emin , emax ) gilt für jede Zahl x ∈ R mit xmin ≤ |x| ≤ xmax die folgende Abschätzung für den relativen Rundungsfehler, |rd( x ) − x| |x|

≤

= b−t+1 /2 eps

für x ∈ R

mit xmin ≤ |x| ≤ xmax .

(16.8)

Abschnitt 16.4

395

Runden, Abschneiden ... .................................................................................................. .................................................................................................. .. .. ... ............................................................................................ .............................................................................................. ... ... .... .. .. .. ... . . .. .. ... ... ..

◦

◦

x0

x1

x2

Bild 16.4 Es stellen x0 , x1 und x2 benachbarte Zahlen aus dem System F dar. Die Pfeile kennzeichnen jeweils Bereiche, aus denen nach x0 , x1 beziehungsweise nach x2 gerundet wird. Eine alternative Fehlerdarstellung ist rd( x ) = x + ................ x

für ein ................ x ∈ R

.

mit

|...............x| ≤ eps. |x|

(16.9)

B EWEIS . Die Abschätzung (16.8) folgt aus dem Beweis von Theorem 16.22 oder direkt aus Theorem 16.10. Die Darstellung (16.9) ergibt sich mit der Setzung ............... x := rd( x ) − x unmittelbar aus der Abschätzung (16.8). Bemerkung 16.24 Auch auf dem Intervall ( –xmin , xmin ) stellt (16.6) eine sinnvolle (und dem IEEE-Standard 754 entsprechende) Definition für die Funktion rd dar, wenn man in (16.6) die −k )bemin mit a1 = 0. Tatsächlich normalisierte Darstellung für x ersetzt durch x = σ( ∞ k=1 ak b gilt rd( x ) ∈ F und |rd( x ) − x| = minz∈Fb |z − x| für x ∈ ( –xmin , xmin ), jedoch verliert die Aussage von Korollar 16.23 u¨ ber den relativen Rundungsfehler für solche Werte von x ihre Gültigkeit, was unmittelbar aus Bemerkung 16.13 folgt. Der Fall |x| > xmax führt im IEEEStandard 754 zu einem Overflow, genauer zu rd( x ) = ∞ beziehungsweise rd( x ) = −∞.

16.4.2 Abschneiden Ein einfache Alternative zum Runden stellt das Abschneiden (english: truncate) dar: Definition 16.25 Zu einem gegebenen Gleitpunkt Zahlensystem F = F(b, t, emin , emax ) ist die Funktion tc : {x ∈ R : xmin ≤ |x| ≤ xmax } → R folgendermaßen erklärt, tc( x )

=

σ

t

ak b−k be

für x = σ

k=1

∞

ak b−k be .

k=1

Es wird tc( x ) als die auf t Stellen abgeschnittene Zahl x bezeichnet. Die Situation beim Abschneiden ist in Bild 16.5 veranschaulicht. .................................................................................................................................................................................. .................................................................................................................................................................................. ... ... ... .. .. .. ... .. ..

◦

x0

x1

◦

x2

Bild 16.5 Es stellen x0 , x1 und x2 benachbarte Zahlen aus dem System F dar. Die Pfeile kennzeichnen jeweils Bereiche, aus denen nach x0 beziehungsweise nach x1 abgeschnitten wird.

396

Kapitel 16

Rechnerarithmetik

Beispiel 16.26 Für die Basis b = 10 und die Mantissenlänge t = 3 gilt die Identität tc( 0.9996 ) = 0.999 × 100 . Theorem 16.27 Zu einem gegebenen Gleitpunkt Zahlensystem F = F(b, t, emin , emax ) gelten für jede Zahl x ∈ R mit xmin ≤ |x| ≤ xmax die Eigenschaft tc( x ) ∈ F und die folgende Fehlerabschätzung, |tc( x ) − x| |x|

≤

für x ∈ R

2eps b−t+1

mit xmin ≤ |x| ≤ xmax .

(16.10)

Eine alternative Fehlerdarstellung ist tc( x ) = x + ............... x

für ein ............... x ∈ R

.

mit

|.............. x| ≤ 2eps. |x|

(16.11)

B EWEIS . Für eine beliebige Zahl x ∈ R mit xmin ≤ |x| ≤ xmax weist man die Eigenschaft tc( x ) ∈ F entsprechend der Vorgehensweise im Beweis von Theorem 16.22 nach, und mit der −k Darstellung x = σ( ∞ )be erhält man die Abschätzung (16.10) leicht durch k=1 ak b

|tc( x ) − x| =

∞

ak b−k be

≤

k=t+1

b−k+1 − b−k ∞ ( b − 1 )b−k be = b−t+e k=t+1

sowie der Eigenschaft |x| ≥ bb−1 . Die Darstellung (16.11) resultiert mit der Setzung .............. x := tc( x ) − x unmittelbar aus der Abschätzung (16.10). Bemerkung 16.28 Die Aussagen aus Bemerkung 16.24 lassen sich für die Abschneidefunktion tc u¨ bertragen.

16.5 Arithmetik in Gleitpunkt–Zahlensystemen In den folgenden Abschnitten werden arithmetische Grundoperationen in Gleitpunkt Zahlensystemen vorgestellt und Abschätzungen für den bei der Hintereinanderausführung solcher Operationen entstehenden Gesamtfehler hergeleitet.

16.5.1 Arithmetische Grundoperationen in Gleitpunkt– Zahlensystemen In einem gegebenen Gleitpunkt Zahlensystem F = F(b, t, emin , emax ) sehen naheliegende Realisierungen von Grundoperationen ◦ ∈ {+, −, ×, /} zum Beispiel so aus, x ◦∗ y = rd( x ◦ y )

für x, y ∈ F

oder x ◦∗ y = tc( x ◦ y ) wobei im Fall der Division y = 0 angenommen ist.

mit xmin ≤ |x ◦∗ y | ≤ xmax , (16.12) ......

(16.13)

Abschnitt 16.5

397

Arithmetik in Gleitpunkt– Zahlensystemen

Bemerkung 16.29 (a) Man beachte, dass für Operationen von der Gestalt (16.12) oder (16.13) sowohl Assoziativ als auch Distributivgesetze keine Gültigkeit besitzen. (b) Praktisch lassen sich (16.12) beziehungsweise (16.13) so realisieren, dass man zu gegebenen Zahlen x, y ∈ F anstelle des exakten Wertes x ◦ y eine Approximation z ≈ x ◦ y ∈ R mit rd( z ) = rd( x ◦ y ) beziehungsweise tc( z ) = tc( x ◦ y ) bestimmt. Für die folgenden Betrachtungen wird lediglich die Annahme getroffen, dass der bei arithmetischen Grundoperationen in Gleitpunkt Zahlensystemen auftretende relative Fehler dieselbe Größenordnung wie der relative Rundungsfehler besitzt, eine weitere Spezifikation ist nicht erforderlich. Definition 16.30 Zu einem gegebenen Gleitpunkt Zahlensystem F = F(b, t, emin , emax ) bezeichnen im Folgenden +∗ , −∗ , ×∗ , /∗ Operationen mit den Eigenschaften x ◦∗ y ∈ F,

x ◦∗ y

=

x, y ∈ F

x ◦ y + η

für ein η ∈ R,

mit xmin ≤ |x ◦ y | ≤ xmax ,

|η | ≤ K eps |x ◦ y |

(16.14) ◦ ∈ {+, −, ×, /} ,

wobei im Fall der Division y = 0 angenommen ist, und K ≥ 0 ist eine Konstante. In den Fällen (16.12) beziehungsweise (16.13) gilt (16.14) mit K = 1 beziehungsweise K = 2. In den beiden nächsten Abschnitten werden Abschätzungen für den akkumulierten Fehler bei der Hintereinanderausführung von Grundoperationen in Gleitpunkt Zahlensystemen hergeleitet.

16.5.2 Fehlerakkumulation bei der Hintereinanderausfuhrung ¨ von Multiplikationen und Divisionen in Gleitpunkt– Zahlensystemen Das folgende Lemma wird benötigt beim Beweis des darauf folgenden Theorems u¨ ber die Fehlerausbreitung bei der Hintereinanderausführung von Multiplikationen und Divisionen in Gleitpunkt Zahlensystemen. Lemma 16.31 Für Zahlen τ1 , . . . , τn ∈ R mit |τk | ≤ ε für k = 1, 2, . . . , n, und für Exponenten σ1 , σ2 , . . . , σn ∈ {−1, 1} gilt in der Situation nε < 1 Folgendes, n

( 1 + τk )σk

=

1 + βn

mit |βn | ≤

k=1

nε . 1 − nε

(16.15)

B EWEIS . Es wird ein Induktionsbeweis u¨ ber n geführt, und hierzu seien vorbereitend die folgenden elementaren Abschätzungen angegeben, | ( 1 + τk )σk |

≤

1 + ε , 1−ε

|(1 + τk )σk − 1|

≤

ε 1−ε

für k = 1, 2, . . . , n. (16.16)

398

Kapitel 16

Rechnerarithmetik

Die zweite Abschätzung in (16.16) liefert den Induktionsanfang n = 1 für (16.15), und im Folgenden wird der Induktionsschritt “n → n + 1“ geführt. Hierzu schreibt man n+1

( 1 + τk )σk − 1 = ( 1 + τn+1 )σn+1

k=1

n

( 1 + τk )σk − 1

+ ( 1 + τn+1 )σn+1 − 1

k=1

und schätzt dann mit (16.15) und der Induktionsannahme folgendermaßen ab, n+1 ( 1 + τk )σk − 1

≤

k=1

= =

1 + ε nε ε + 1 − ε 1 − nε 1−ε

1 ( n + 1 )ε 1 nε + nε2 + ε − nε2 = 1− 1 − nε 1 − 1 − nε ( n + 1 )ε ( n + 1 )ε , ≤ 1 − ( n + 1 )ε + nε2 1 − ( n + 1 )ε

so dass die Darstellung für den Fall n + 1 bewiesen und der Induktionsschritt damit abgeschlossen ist. Theorem 16.32 Zu einem gegebenen Gleitpunkt Zahlensystem F = F(b, t, emin , emax ) seien Zahlen x1 , x2 , . . . , xn ∈ R und ............... x1 , ............... x2 , . . . , ............... xn ∈ R gegeben mit .

|............... xk | |xk |

xk + ............ xk ∈ F,

≤

für k = 1, 2, . . . , n,

K eps

(16.17)

mit ( n − 1 )K eps < 1/4. Weiter sei für Grundoperationen ◦1 , . . . , ◦n−1 ∈ {×, /} die Eigenschaft (16.14) sowie xmin ≤ |x1 ◦1 . . . ◦j xj | ≤ xmax für j = 2, . . . , n − 1 erfüllt, wobei jeweils noch ein gewisser Abstand zu den Intervallrändern xmin und xmax gegeben sei2 . Dann gilt die Fehlerdarstellung (x1 + ............... x1 ) ◦∗1 (x2 + .............. x2 ) ◦∗2 . . . ◦∗n−1 (xn + .............. xn ) =

x1 ◦1 x2 ◦2 . . . ◦n−1 xn + η, mit

|η | |x1 ◦1 . . . ◦n−1 xn |

≤

( 2n − 1 )K eps . 1 − ( 2n − 1 )K eps

B EWEIS . Ausgehend von der Fehlerdarstellung xk + ............... xk = xk ( 1 + τk )

mit |τk | ≤ K eps,

für k = 1, 2, . . . , n,

berechnet man unter Anwendung von (16.14) (x1 + ............ x1 ) ◦∗1 (x2 + ............. x2 ) = (x1 ( 1 + τ1 ) ) ◦∗1 (x2 ( 1 + τ2 ) ) = (x1 ◦1 x2 ) ( 1 + τ1 ) ◦1 ( 1 + τ2 ) ( 1 + α1 ) mit |α1 | ≤ K eps, 2

Diese Bedingung wird in (16.19) im Beweis präzisiert.

Abschnitt 16.5

399

Arithmetik in Gleitpunkt– Zahlensystemen

und mit einer entsprechenden Vorgehensweise erhält man sukzessive die Darstellungen ⎫ ⎪ ⎪ ⎪ ⎪ ⎬

(x1 + .............. x1 ) ◦∗1 (x2 + .............. x2 ) ◦∗2 · · · ◦∗j−1 (xj + ............... xj ) =

(x1 ◦1 x2 ◦2 . . . ◦j−1 xj )( 1 + β2j−1 )

mit 1 + β2j−1 = ( 1 + τ1 ) ◦1 ( 1 + τ2 ) ◦2 · · · ◦j−1 ( 1 + τj )

j−1

⎪ ⎪ ⎪ ( 1 + αk ),⎪ ⎭

(16.18)

k=1

für j = 2, 3, . . . , n, mit |αk | ≤ K eps für alle k. Die Anwendbarkeit der Eigenschaft (16.14) wird zum Beispiel durch die Bedingung 1 − ( 2n − 2 )K eps x 1 − ( 4n − 4 )K eps min

≤

|x1 ◦1 . . . ◦j−1 xj |

≤

1 − ( 2n − 2 )K eps xmax , (16.19)

gewährleistet, denn sie zusammen mit Lemma 16.31 impliziert, dass die Resultate der Multiplikationen und Divisionen in dem Gleitpunkt Zahlensystem allesamt in dem relevanten Bereich {x ∈ R : xmin ≤ |x| ≤ xmax } enthalten sind. Aus der Darstellung (16.18) folgt unter nochmaliger Anwendung von Lemma 16.31 die Aussage des Theorems. Bemerkung 16.33 (a) Theorem 16.32 impliziert die Gutartigkeit von Multiplikationen und Divisionen in Gleitpunkt Zahlensystemen, relative Eingangsfehler werden nicht u¨ bermäßig verstärkt. (b) Falls in der Situation von Theorem 16.32 etwa die Ungleichung ( 2n − 1 )K eps < 0.1 ≤ 1 erfüllt ist, so gilt |η | x1 ◦1 . . . ◦n−1 xn

≤

( 2n − 1 )K eps

0.9

≤

(1.12K eps)( 2n − 1 ).

Mit jeder zusätzlichen maschinenarithmetischen Multiplikation oder Division kann sich also eine 12–prozentige Fehlerverstärkung einstellen.

16.5.3 Fehlerverstärkung bei der Hintereinanderausfuhrung ¨ von Additionen in einem gegebenen Gleitpunkt– Zahlensystem F Das folgende Theorem befasst sich mit der möglichen Fehlerverstärkung bei der Hintereinanderausführung von Additionen und Subtraktionen in einem gegebenen Gleitpunkt Zahlensystem F = F(b, t, emin , emax ). Dabei werden beliebige Vorzeichen zugelassen, so dass man sich auf die Betrachtung von Additionen beschränken kann. Erläuterungen zur Abschätzung (16.20) finden Sie in der darauf folgenden Bemerkung 16.35. Theorem 16.34 Zu einem gegebenen Gleitpunkt Zahlensystem F = F(b, t, emin , emax ) seien x1 , x2 , . . . , xn ∈ R und .............. x1 , ............... x2 , . . . , ............... xn ∈ R Zahlen mit der Eigenschaft (16.17), und es bezeichne Sk∗ :=

k ∗ j=1

(xj + .............. xj ),

Sk :=

k j=1

xj

für k = 1, 2, . . . , n,

400 wobei

Kapitel 16 ∗

Rechnerarithmetik

für eine Hintereinanderausführung von Additionen in F von links nach rechts steht.

Dann gilt die folgende Fehlerabschätzung, | Sk∗ − Sk | ≤

k

( 1 + eps )k−j 2|xj | + |Sj |

j=1

=: Mk

für k = 1, 2, . . . , n, (16.20)

eps

falls noch (mit der Notation M0 = 0) die Partialsummen innerhalb gewisser Schranken liegen: xmin + (Mk−1 + |xk |)eps ≤ |Sk | ≤ xmax − (Mk−1 + |xk |)eps, k = 1, 2, . . . , n. (16.21)

B EWEIS . Es wird die Abschätzung (16.20) per Induktion u¨ ber k bewiesen. Die Aussage in (16.20) ist sicher richtig für k = 1, und im Folgenden sei angenommen, dass sie für ein k ≥ 1 richtig ist. Mit der Notation Sj := Sj∗ − Sj

. ..... ..........

für j ≥ 1,

. ..... ..........

S0 = 0,

berechnet man mit einer gewissen Zahl τk ∈ R, |τk | ≤ eps, Folgendes, . ...... ..........

Sk =

Sk∗ − Sk

=

∗ Sk−1 +∗ ( xk + ................ xk ) − Sk

= (Sk−1 + .............. Sk−1 ) +∗ ( xk + .............. xk ) − Sk ...

(∗)

.

= (Sk + ...............Sk−1 + ............... xk )( 1 + τk ) − Sk .

.. = ( 1 + τk ).............. Sk−1 + τk Sk + ( 1 + τk )................ xk

und daher ...

|.............. Sk |

≤

...

( 1 + eps )|.............. Sk−1 | + eps(|Sk | + 2|xk |).

(16.22)

Die Identität (∗) folgt hierbei aus der Eigenschaft (16.14), wobei die Resultate der Additionen in dem Gleitpunkt Zahlensystem aufgrund der Annahme (16.21) allesamt in dem relevanten Bereich {x ∈ R : xmin ≤ |x| ≤ xmax } enthalten sind. Die Aussage dieses Theorems ist nun eine unmittelbare Konsequenz aus der Abschätzung (16.22) und der Induktionsannahme. Bemerkung 16.35 (a) Der Faktor ( 1 + eps )k−j in der Abschätzung (16.20) ist umso größer, je kleiner k ist. Daher wird man vernünftigerweise beim Aufsummieren mit den betragsmäßig kleinen Zahlen beginnen. Dies gewährleistet zudem, dass die Partialsummen Sk betragsmäßig nicht unnötig anwachsen. (b) Theorem 16.34 liefert lediglich eine Abschätzung für den absoluten Fehler. Der relative Fehler | Sn∗ − Sn |/|Sn | jedoch kann groß ausfallen, falls |Sn | klein gegenüber n−1 j=1 (|xj | + |Sj |) + |xn | ist.

Weitere Themen und Literaturhinweise

401

Weitere Themen und Literaturhinweise Eine ausführliche Behandlung von Gleitpunkt Zahlensystemen und der Grundarithmetiken fin¨ den Sie etwa in Uberhuber [102] (Band 1), Goldberg [31] oder in Higham [52]. Insbesondere in [102] werden viele weitere interessante Themen wie beispielsweise spezielle Summationsalgorithmen für Gleitpunktzahlen, numerische Softwarepakete, die Anzahl der benötigten Taktzyklen zur Durchführung der vier Grundoperationen +, −, ×, /, die asymptotische Komplexität von Algorithmen und die konkrete Implementierung von arithmetischen Operationen behandelt. Dass letztere nicht immer einwandfrei verläuft, zeigt sich am Beispiel der fehlerhaften PentiumChips im Jahr 1994 (Moler [69]).

402

Literaturverzeichnis [1] A SHBY, S. F., T. A. M ANTEUFFEL und P. S AYLOR: A taxomony for conjugate gradient methods. SIAM J. Numer. Anal., 27(6):1542–1568, 1990. [2] BAUMEISTER , J.: Stable Solution of Inverse Problems. Vieweg, Braunschweig/Wiesbaden, 1987. [3] B ERMAN , A. und R. P LEMMONS: Nonnegative Matrices in the Mathematical Sciences. SIAM, Philadelphia, 1. Auflage, Reprint, 1994. [4] B OOR , C. DE: A Practical Guide to Splines. Springer, Heidelberg, Berlin, 1978. ¨ [5] B OLLH OFER , M. und V. M EHRMANN: Numerische Mathematik. Eine projektorientierte Einführung für Ingenieure, Mathematiker und Naturwissenschaftler. Vieweg, Wiesbaden, 2004. [6] B RAESS , D.: Finite Elemente. Springer, Berlin, Heidelberg, New York, 3. Auflage, 2003. [7] B RENAN , K. E., S. L. C AMBELL und L. R. P ETZOLD: Numerical Solution of Initial-Value Problems in Differential-Algebraic Equations. SIAM, Philadelphia, 1. Auflage, Reprint, 1996. [8] B ULIRSCH , R.: Bemerkungen zur Romberg-Iteration. Numer. Math., 6:6–16, 1964. [9] B ULIRSCH , R. und J. S TOER: Numerical treatment of ordinary differential equations by extrapolation methods. Numer. Math., 8:1–13, 1966. [10] B UNSE , W. und A. B UNSE -G ERSTNER: Numerische Mathematik. Teubner, Stuttgart, 1985. [11] C OOLEY, J. W. und J. W. T UKEY: An algorithm for the machine calculation of complex Fourier series. Math. of Computations, 19:297–301, 1965. ¨ ¨ , M. P OHST, K. ROEGNER, M. S CH ORNIG und [12] DABERKOW, M., C. F IEKER, J. K L UNERS K. W ILDANGER: KANT V4. J. Symbolic Computation, 24:267–283, 1997. [13] DAHLQUIST, G.: Stability and error bounds in the numerical integration of ordinary differential equations. Transactions of the Royal Institute of Technology, Stockholm, 130, 1959. [14] DALLMANN , H. und K.-H. E LSTER: Einführung in die höhere Mathematik III. Gustav Fischer Verlag, Jena, 2. Auflage, 1992. [15] D EKKER , K. und J. G. V ERWER: Stability of Runge-Kutta methods for stiff nonlinear differential equations. North-Holland, Amsterdam, 1984. [16] D ENNIS , J. E. und R. B. S CHNABEL: Numerical Methods for Unconstrained Optimization and Nonlinear Equations. SIAM, Philadelphia, 1. Auflage, Reprint, 1996. [17] D EUFLHARD , P.: Order and step-size control in extrapolation methods. Numer. Math., 41:399– 422, 1983. [18] D EUFLHARD , P.: Recent progess in extrapolation methods for ordinary differential equations. SIAM Review, 27:505–535, 1985. [19] D EUFLHARD , P.: Newton Methods for Nonlinear Problems. Springer, Heidelberg, Berlin, 2004. [20] D EUFLHARD , P. und F. B ORNEMANN: Numerische Mathematik 2. de Gruyter, Berlin, 2. Auflage, 2002.

Literaturverzeichnis

403

[21] D EUFLHARD , P. und A. H OHMANN: Numerische Mathematik 1. de Gruyter, Berlin, 3. Auflage, 2002. [22] E LMAN , H.: Iterative methods for linear systems. In: J. G ILBERT UND ANDERE (Herausgeber): Advances in Numerical Analysis, Vol. III., Proceedings of the fifth summer school in numerical analysis, Lancaster University, UK, 1992, pp. 69–118, Oxford, 1994. Clarendon Press. [23] E NGL , H. W., M. H ANKE und A. N EUBAUER: Regularization of Inverse Problems. Kluwer, Dordrecht, 2. Auflage, 2000. [24] F INCKENSTEIN , K. G RAF F INCK VON: Einführung in die Numerische Mathematik, Band 1 und 2. Carl Hanser Verlag, München, 1977 & 78. [25] F ISCHER , B.: Polynomial Based Iteration Methods for Symmetric Linear Systems. Wiley-Teubner, Chichester, Stuttgart, 1996. [26] F ISCHER , G.: Lineare Algebra. Vieweg, Braunschweig/Wiesbaden, 15. Auflage, 2005. [27] F ORSTER , O.: Analysis 1. Vieweg, Braunschweig/Wiesbaden, 8. Auflage, 2006. [28] F REUND , R. W., G. H. G OLUB und N. M. NACHTIGAL: Iterative solution of linear systems. In: Acta Numerica, pp. 1–44, Cambridge, 1991. Cambridge Univ. Press. [29] G EIGER , C. und C. K ANZOW: Numerische Verfahren zur Lösung unrestringierter Optimierungsaufgaben. Springer, Heidelberg, Berlin, 1999. [30] G OERING , H., H. G. ROOS und L. T OBISKA: Finite-Element-Methode. Akademie-Verlag, Berlin, 3. Auflage, 1993. [31] G OLDBERG , D.: What every computer scientist should know about floating-point arithmetic. ACM Computer Surveys, 23:5–48, 1991. [32] G OLUB , G. und C. F. VAN L OAN: Matrix Computations. The Johns Hopkins University Press, Baltimore, London, 2. Auflage, 1993. [33] G OLUB , G. und J. M. O RTEGA: Wissenschaftliches Rechnen und Differentialgleichungen. Eine Einführung in die Numerische Mathematik. Heldermann Verlag, Berlin, 1995. [34] G OLUB , G. und J. M. O RTEGA: Scientific Computing. Teubner, Stuttgart, 1996. [35] G RAGG , W. B.: On extrapolation algorithms for ordinary initial value problems. SIAM J. Numer. Anal., 2:384–403, 1965. [36] G RAMLICH , G. und W. W ERNER: Numerische Mathematik mit Matlab. dpunkt.verlag, Heidelberg, 2000. ´ und Z. S TRAKO S˘ : Any nonincreasing convergence curve is possible [37] G REENBAUM , A., V. P T AK for GMRES. SIAM J. Matrix Anal. Appl., 17(3):465–465, 1996. [38] G RIGORIEFF , R. D.: Numerik gewöhnlicher Differentialgleichungen, Band 1 und 2. Teubner, Stuttgart, 1972/77. [39] G ROETSCH , C. W.: Inverse Problems in the Mathematical Sciences. Vieweg, Braunschweig/ Wiesbaden, 1993. [40] G ROSSMANN , C H . und H.-G. ROOS: Numerische Behandlung partieller Differentialgleichungen. Teubner, Stuttgart, 3. Auflage, 2005.

404

Literaturverzeichnis

[41] G ROSSMANN , C H . und J. T ERNO: Numerik der Optimierung. Teubner, Stuttgart, 1993. ¨ ¨ [42] G UNTHER , M. und A. J UNGEL : Finanzderivate mit MATLAB. Vieweg, Wiesbaden, 2003. [43] H ACKBUSCH , W.: Theorie und Numerik elliptischer Differentialgleichungen. Teubner, Stuttgart, 1986. [44] H ACKBUSCH , W.: Iterative Lösung großer schwach besetzter Gleichungssysteme. Teubner, Stuttgart, 1991. ¨ , G. und K.-H. H OFFMANN: Numerische Mathematik. Springer, Berlin, 4. Auflage, [45] H AMMERLIN 1994. [46] H AIRER , E. und C. L UBICH: Asymptotic expansion of the global error of fixed-stepsize methods. Numer. Math., 45:345–360, 1984. [47] H AIRER , E., S. P. N ØRSETT und G. WANNER: Solving Ordinary Differential Equations I, Nonstiff Problems. Springer, Berlin, 2. Auflage, 1993. [48] H AIRER , E. und G. WANNER: Solving Ordinary Differential Equations II, Stiff Problems. Springer, Berlin, 2. Auflage, 1996. [49] H ANKE -B OURGEOIS , M.: Grundlagen der Numerischen Mathematik. Teubner, Stuttgart, 2. Auflage, 2006. [50] H ESTENES , M.R. und E. S TIEFEL: Method of conjugate gradients for solving linear systems. J. Res. Nat. Bur. Standards, Sec. B 49:409–432, 1952. [51] H EUSER , H.: Gewöhnliche Differentialgleichungen. Teubner, Stuttgart, 4. Auflage, 2004. [52] H IGHAM , N.: Accuracy and Stability of Numerical Algorithms. SIAM, Philadelphia, 2. Auflage, 2002. [53] H IRZEBRUCH , F. und W. S CHARLAU: Einführung in die Funktionalanalysis. B. I. Wissenschaftsverlag, Mannheim/Wien/Zürich, 1971. [54] H OFMANN , B.: Mathematik Inverser Probleme. Teubner, Stuttgart, Leipzig, 1999. [55] H ORN , R. A. und C. R. J OHNSON: Matrix Analysis. Cambridge University Press, Cambridge, 1. Auflage, Reprint, 1994. [56] J UNG , M. und U. L ANGER: Methode der finiten Elemente für Ingenieure. Teubner, Stuttgart, 2001. [57] K ELLEY, C. T.: Iterative Methods for Linear and Nonlinear Equations. SIAM, Philadelphia, 1995. [58] K NABNER , P. und L. A NGERMANN: Numerik partieller Differentialgleichungen. Springer, Berlin, Heidelberg, 2000. [59] KOSMOL , P.: Methoden zur numerischen Behandlung nichtlinearer Gleichungen und Optimierungsaufgaben. Teubner, Stuttgart, 1989. [60] K RESS , R.: Numerical Analysis. Springer, Berlin, Heidelberg, New York, 1998. ¨ BERHUBER: Computational Integration. SIAM, Philadelphia, 1998. [61] K ROMMER , A. und C. U [62] L IESEN , J.: Computable convergence bounds for GMRES. SIAM J. Matrix Analysis, 21(3):882– 903, 2000.

Literaturverzeichnis

405

[63] L OUIS , A. K.: Inverse und schlecht gestellte Probleme. Teubner, Stuttgart, 1989. [64] L OZINSKI˘I , S. M.: Error estimate for numerical integration of ordinary differential equations. Izv. Vysˇs. Uˇcebn. Zaved. Matematika, 6(6):52–90, 1958. ¨ , R.: Numerical methods for differential algebraic equations. In: I SERLES , A. (Herausge[65] M ARZ ber): Acta Numerica Vol. 1, pp. 141–198, Cambridge, 1992. Cambridge Univ. Press. [66] M AESS , G.: Vorlesungen u¨ ber numerische Mathematik, Band 1 und 2. Birkhäuser, Basel, 1985/88. [67] M EISTER , A.: Numerik linearer Gleichungssysteme. Vieweg, Braunschweig/Wiesbaden, 2. Auflage, 2005. ¨ : Numerische Mathematik, Band 1 und 2. Vieweg, [68] M ENNICKEN , R. und E. WAGENF UHRER Braunschweig/Wiesbaden, 1977. [69] M OLER , C.: A Tale of Two Numbers. SIAM News, 28(1):p. 1 and p. 16, 1995. [70] M ORET, I.: A note on the superlinear convergence of GMRES. SIAM J. Numer. Analysis, 34(2):513–516, 1997. [71] NACHTIGAL , N. M., S. C. R EDDY und L. N. R EDDY: How fast are nonsymmetric matrix iterations? SIAM J. Matrix Anal. Appl., 13(3):778–795, 1992. [72] NASH , S. G. und A. S OFER: Linear and Nonlinear Programming. McGraw-Hill, New York, 1996. [73] N EMIROVSKI˘I , A.S. und B.T. P OLYAK: Iterative methods for solving linear ill-posed problems under precise information I. Moscow Univ. Comput. Math. Cybern., 22(3):1–11, 1984. [74] N EVANLINNA , O.: Convergence of Iterations for Linear Equations. Birkhäuser, Basel, 1993. [75] O EVEL , W.: Einführung in die Numerische Mathematik. Spektrum, Heidelberg, 1996. [76] O PFER , G.: Numerische Mathematik für Anfänger. Vieweg, Braunschweig/Wiesbaden, 4. Auflage, 2002. [77] PAN , V.: Complexity of computations with matrices and polynomials. SIAM Review, 34:225–262, 1992. [78] PARLETT, B. N.: The Symmetric Eigenvalue Problem. SIAM, Philadelphia, 1. Auflage, Reprint, 1988. ¨ [79] P LATO , R.: Ubungsbuch zur Numerischen Mathematik. Vieweg, Wiesbaden, 2004. [80] P LATO , R. und G. VAINIKKO: The fast solution of periodic integral and pseudo-differential equations by GMRES. Computational Methods in Applied Mathematics, 1(4):383–397, 2001. [81] P OTTS , D., G. S TEIDL und M. TASCHE: Fast Fourier transforms for nonequispaced data: A tutorial. In: B ENEDETTO , J. J. und P. F ERREIRA (Herausgeber): Modern Sampling Theory: Mathematics and Applications, pp. 253–274, Basel, 2001. Birkhäuser. [82] R IEDER , A.: Keine Probleme mit Inversen Problemen. Vieweg, Wiesbaden, 2003. [83] ROMBERG , W.: Vereinfachte numerische Integration. Det. Kong. Norske Videnskabers Selskab Forhandlinger, 28(7), Trondheim 1955. [84] ROOS , H.-G. und H. S CHWETLICK: Numerische Mathematik. Teubner, Stuttgart, Leipzig, 1999.

406

Literaturverzeichnis

[85] S AAD , Y. und M. H. S CHULTZ: Conjugate gradient-like algorithms for solving nonsymmetric linear systems. Math. of Comput., 44(170):417–424, 1985. [86] S AAD , Y. und M. H. S CHULTZ: GMRES: A generalized minimal residual algorithm for solving nonsymmetric linear systems. SIAM J. Sci. Stat. Comput., 7(3):856–869, 1986. [87] S ARANEN , J. und G. VAINIKKO: Periodic Integral and Pseudodifferential Equations with Numerical Approximation. Springer, Berlin Heidelberg New York, 2001. [88] S CHABACK , R. und H. W ENDLAND: Numerische Mathematik. Springer, Berlin, Heidelberg, New York, 5. Auflage, 2004. [89] S CHWANDT, H.: Parallele Numerik. Teubner, Stuttgart, 2003. ¨ : Numerische Mathematik. Teubner, Stuttgart, 5. Auflage, 2004. [90] S CHWARZ , H. und N. K OCKLER [91] S CHWETLICK , H.: Numerische Lösung nichtlinearer Gleichungen. Oldenbourg, München, 1979. [92] S CHWETLICK , H. und H. K RETZSCHMAR: Numerische Verfahren für Naturwissenschaftler und Ingenieure. Fachbuchverlag Leipzig, 1991. [93] S ONNEVELD , P.: CGS, a fast Lanczos-type solver for nonsymmetric linear systems. J. Sci. Stat. Comput., 10(1):36–52, 1989.

SIAM

[94] S TOER , J.: Solution of large systems of equations by conjugate gradient type methods. In: BA ¨ CHEM , A., M. G R OTSCHEL und B. KORTE (Herausgeber): Mathematical Programming. The State of the Art. Bonn 1982, pp. 540–565, Berlin, New York, 1983. Springer. [95] S TOER , J.: Numerische Mathematik 1. Springer, Berlin, 9. Auflage, 2005. [96] S TOER , J. und R. B ULIRSCH: Numerische Mathematik 2. Springer, Berlin, 5. Auflage, 2005. [97] S TRASSEN , V.: Gaussian elimination is not optimal. Numer. Math., 13:354–356, 1969. [98] S TREHMEL , K. und R. W EINER: Numerik gewöhnlicher Differentialgleichungen. Teubner, Stuttgart, 1995. [99] S TUMMEL , F. und K. H AINER: Praktische Mathematik. Teubner, Stuttgart, 1982. [100] T REFETHEN , L. N. und D. BAU: Numerical Linear Algebra. SIAM, Philadelphia, 1997. ¨ , F.: Optimale Steuerung partieller Differentialgleichungen. Vieweg, Wiesbaden, [101] T R OLTZSCH 2005. ¨ BERHUBER , C. W.: Numerical Computation, Band 1 und 2. Springer, Berlin, Heidelberg, 1997. [102] U [103] VORST, H. A. VAN DER und C. V UIK: The superlinear convergence behaviour of GMRES. Journal of Computational and Applied Mathematics, 48:327–341, 1993. [104] V UIK , C. und H. A. VAN DER VORST: A comparison of some GMRES-like methods. Linear Algebra and its Applications, 160:131–162, 1992. [105] WATKINS , D. S.: Understanding the QR algorithm. SIAM Review, 24:427–440, 1982. [106] W ELLER , F.: Numerische Mathematik für Ingenieure und Naturwissenschaftler. Vieweg, Braunschweig/Wiesbaden, 1996. [107] W ERNER , J.: Numerische Mathematik, Band 1 und 2. Vieweg, Braunschweig/Wiesbaden, 1990. [108] W INDISCH , G.: M-matrices in Numerical Analysis. Teubner, Leipzig, 1989.

407

Index Symbole 1[ C∆ a, b ], Raum der stetigen, stückweise stetig differenzierbaren Funktionen, 34 H A , 36 Ak → A, 342 B( x∗ ; δ ), 97 B( x; r ), abgeschlossene Kugel um x mit Radius r, 368 −1 [ C a, b ], 359 C∆1 [ a, b ], Raum der stückweise stetig differenzierbaren Funktionen u : [ a, b ] → R, 239 χM , charakteristische Funktion bezüglich einer gegebenen Menge M, 180 C [ a, b ], 18 C r [ a, b ], 18 C, Menge der komplexen Zahlen, 36 C s ( D, R N ) für D ⊂ R M , 158 3/8 Regel, 117 e = ( 1, . . . , 1 ), 269 t, emin , emax ), siehe GleitF(b, t, emin , emax ), F(b, punkt Zahlensystem F , diskrete Fouriertransformation, 36 F −1 , diskrete Fourierrücktransformation, 37 HEin , 267 HGes , 265 hmin , 31 hmax , 31, 150 H( ω ), 270 H t , 157 Is ∈ R s×s Einheitsmatrix, 89 I ( f ), 114 In ( f ), 114 L⊥ , orthogonales Komplement von L, 319 'b L2 Skalarprodukt u, v 2 = a u( x ) v ( x ) dx, 238 ∇k gν , Rückwärtsdifferenzen, 184 N0 , Menge der natürlichen Zahlen ≥ 0, 5 n( ∆ ), 11

|| · ||F , Frobeniusnorm, 76, 336, 338 ||u||∞ , Maximumnorm einer stetigen Funktion u, 21 ||∆||, 11 || · ||p , 1 ≤ p ≤ ∞, siehe Norm ||u||2 , für eine stetige Funktion u : [ a, b ] → R, 22 N ( L ), Nullraum von L, 203 O, 2 O, 2 ω := ei2π/N , N te Einheitswurzel, 36 ω∗ , 277 Πn , 3 ΠN n , 185 Π⊥ n , orthogonales Komplement von Πn ⊂ Π, 135 ( ) R A , Bildraum einer Matrix A, 374 R, Menge der reellen Zahlen, 1 Ges , 277 s(K ), Raum der Folgen, 203 S ( B ), 336 S∆, , Raum der Splinefunktionen der Ordnung ∈ N zur Zerlegung ∆, 20 σ ( B ), Spektrum der Matrix B, 77 rσ ( B ), Spektralradius der Matrix B, 77 spur ( A ), Spur einer Matrix A, 338 Tn , siehe Tschebyscheff Polynome Un , siehe Tschebyscheff Polynome a, 102 (x), die größte ganze Zahl ≤ x ∈ R, 325 ....... , Unterführungszeichen, 22 xmin , xmax , x min , siehe Gleitpunkt Zahlensystem A a posteriori Fehlerabschätzung, 102, 103, 112 a priori Fehlerabschätzung, 102, 103, 112, 256 A konjugierte Vektoren, 288

408 A Norm, 287 Abschneiden auf t Stellen, 395–396 Adams Verfahren, 186–191 Adams Bashfort Verfahren, 186–189, 197 Adams Moulton Verfahren, 190–191, 197 ¨ Ahnlichkeitstransformation, 326, 357 Algebro Differenzialgleichungssysteme, 170 Algorithmus von Strassen, 91 Alternante, Alternantensatz, 375–380 Anlaufrechnung für Mehrschrittverfahren, 173 Ansatz des minimalen Residuums, 285 Ansatz des orthogonalen Residuums, 285 für positiv definite Matrizen, 286–289 arithmetische Operation, 4 Arnoldi Prozess, 297–301 Aubin Nitsche Trick, 248 Aufdatierung, 89 B B Splines, 245–246 kubisch, 246 linear, 245 Bandmatrix, 73, 92 Cholesky Faktorisierung, 94 Gauß Algorithmus, 92 Basis, 385 BDF Verfahren, 195–197 Bernoulli Polynome, 142–143 Bernoullische Zahlen B2k ( 0 ), 143 Beschränktheit der Potenzen einer Matrix, 177 Betrag einer Matrix, 267 Bias Notation, 391 Bilinearform, 244 Beschränktheit, 244 Koerzivität, 244 Bit Umkehr, 45 Black Scholes Formel, 114 Block Relaxationsverfahren, 279 Block-Tridiagonalmatrix, siehe Tridiagonalmatrix

Index

Bulirsch Folge, 133 C Céa Lemma, 244 Cauchy Schwarzsche Ungleichung, 371 CG Verfahren, 290–297, 310, 374 CGNR Verfahren, 296, 311 charakteristisches Polynom einer Matrix, 109, 331 eines Differenzenverfahrens, 204 Cholesky Faktorisierung, siehe Faktorisierung Crout, 67, 93 D Dahlquistsche Wurzelbedingung, 175 Datenkompression, 38 Deflation, 108 denormalisierte Gleitpunktzahl, 386 diagonaldominante Matrix, 92 diagonalisierbare Matrix, 322 Differenzengleichungen, 202–212, 222 Differenzenquotient rückwärts gerichteter, 229 vorwärts gerichteter, 229 zentraler erster Ordnung, 224, 229, 253, 281 zweiter Ordnung, 224, 229, 253, 254, 281 Differenzenverfahren, 228–231, 260–262, 281 charakteristisches Polynom, 204 digitale Datenübertragung, 38 diskrete Fourierrücktransformation, 37 diskrete Fouriertransformation, 36–50 Anwendungen, 37–43 schnelle Fouriertransformation, 43–50, 52 diskretes Maximumprinzip, 254 dissipative Differenzialgleichung, 212 dividierte Differenzen, 8 Drei Term Rekursion für orthogonale Polynome, 135

Index

Dreiecksmatrizen, siehe Matrix, 54, 93 Dreiecksungleichung, 74 Dualitätstrick, 248 E Eigenwertproblem, 312 einfache Kutta Regel, 172 Einfachschießverfahren, 250–252, 255, 256 Einschrittverfahren, 172 explizit, siehe explizite Einschrittverfahren implizites Eulerverfahren, 191 Trapezregel, 191 Einzelschrittverfahren, 267–271, 274, 277 elementare Permutationsmatrix, 61 Elementarpermutation, 61 Eliminationsmatrix, 61–63 vom Index s, 61 Energiefunktional, 249, 310 Energienorm, 242 eps, Präzision des Gleitpunkt Zahlensystems F, 389 erzeugendes Polynom, 175 euklidische Norm || · ||2 , 75 Euler Verfahren, 152, 171, 256 Euler Maclaurinsche Summenformel, 144 explizite Einschrittverfahren, 149–172 Euler Verfahren, 152, 171, 256 Extrapolationsverfahren, 163–166 globaler Verfahrensfehler, 149 Asymptotik, 158 Konsistenzbedingung, 171 Konsistenzordnung, 150, 171 Konvergenzordnung, 149, 151 lokaler Verfahrensfehler, 150, 171 Asymptotik, 159, 162 modifiziertes Euler Verfahren, 153, 171 Ordnung, 150 Rundungsfehler, 155–156 Runge Kutta Verfahren einfache Kutta Regel, 172

409 klassisch, 155, 171, 172, 224 Schrittweitensteuerung, 166–170, 172 Stabilität, 151 Taylor Verfahren, 171 Verfahren von Heun, 154, 171 Verfahrensfunktion, 149 explizites m Schrittverfahren, 174 Exponentenüber-, unterlauf, 395 Extrapolationsverfahren, 130–133, 163–166 für Einschrittverfahren, 163–166 numerische Integration, 130, 133 F führender Koeffizient, 10 Fünfpunkteformel, Fünfpunktestern, 262 Faktorisierung Cholesky Faktorisierung, 69–71, 94 Quadratwurzelverfahren, 70 LR Faktorisierung, 66–67, 93, 348, 357 für Bandmatrizen, 73, 91 mit Pivotstrategie, 63–66 Parkettierung nach Crout, 67 QR Faktorisierung, 83–91, 95 Anwendungen, 89–91 für Bandmatrizen, 91 mittels Householder Transformationen, 88 Gram Schmidt Orthogonalisierung, 85 Schur Faktorisierung, 314, 322 Fehlerfunktion erf( x ), 114 Fehlerkonstante, 183 Fehlerquadratmethode, 255 FFT, Fast Fourier Transform, 43–50, 52 Finite Elemente Methode, 245 Fixpunkt, 97 Fixpunktiteration, 97–252 genaue Konvergenzordnung, 98 konvergent von mindestens der Ordnung p ≥ 1, 98 linear, 258 Divergenz, 259

410 Konvergenz, 259 lineare Konvergenz, 98 quadratische Konvergenz, 98 Stabilität, 112 Fourierkoeffizienten komplex, 38 reell, 38 Friedrichsche Ungleichung, 240 Frobeniusmatrix, 62 Frobeniusnorm || · ||F , 76, 336, 338 Frobeniussche Begleitmatrix, 109, 358 G s ∈ S, siehe GaGalerkin Approximation lerkin Verfahren Galerkin Verfahren, 242 Ansatzraum, 243 Quasioptimalität, 243 Steifigkeitsmatrix, 245 Systemmatrix, 245 Testraum, 243 Gauß Seidel Verfahren, siehe Einzelschrittverfahren Gauß Transformation, 62 Gaußsche Quadraturformeln, 134, 138–140 Genauigkeitsgrad, 139 Gauß Algorithmus, 55–58, 92 Aufwandsfragen, 56 für Bandmatrizen, 92 für symmetrische Matrizen, 92 mit Pivotsuche, 92 Spaltenpivotsuche, 58 Totalpivotsuche, 93 Genauigkeitsgrad, siehe Quadraturformeln Gerschgorin Kreise, 316 Gesamtschrittverfahren, 265–268, 277, 280 gestaffelte Gleichungssysteme, obere und untere, 53 gewöhnliche Differenzialgleichung 1. Ordnung, 147–149, 170 Anfangswertproblem, 147–149, 170

Index

dissipativ, 212 obere Lipschitzbedingung, 212 steif, 212–220 2. Ordnung, 226–228 Randwertproblem, 226–228, 250–284 Sturm Liouvillesches Randwertproblem, 228, 238–240 Gewichtsfunktion, 134 Gitterfunktion uh ( t ), 157 Givensrotation, 351 Glättung, 38 Gleitpunktdarstellung, 385 Gleitpunktzahlen, 386 denormalisiert, 386 Mantisse, 386 normalisiert, 386 System, siehe Gleitpunkt Zahlensystem Vorzeichen, 386 Ziffern, 386 Gleitpunkt Zahlensystem, 386 F(b, t, emin , emax ), normalisierte Gleitpunktzahlen, 386–389 t, emin , emax ), erweiterte GleitpunktF(b, zahlen, 386, 389–390 xmax , xmin , größtes bzw. kleinstes Element aus dem Gleitpunkt Zahlensystem F, 387 x min , kleinste positive denormalisierte Gleit , 389 punktzahl aus dem System F Arithmetik, 396–400 Beispiele, 390–392 Grundformat, 390 Weitformat, 390 GMRES Verfahren, 297, 301–307, 311 Gram Schmidt Orthogonalisierung, 85 Gramsche Matrix, 374 Gronwall, siehe Lemma von Gronwall H Haarscher Raum, 380–383 Hadamardsche Determinantenabschätzung, 95

411

Index

harmonische Folge, 133 Hauptuntermatrizen, 68 Hermite Interpolation, 17, 164, 363 Hermite Polynome, 137 Hessenbergmatrix, 301, siehe Matrix homogene Differenzengleichung, 203 Horner Schema, 8, 52 ¨ Householder Ahnlichkeitstransformation, 328– 331 Householder Transformation, 87, 96, 328– 331 Hutfunktionen, 245 I IEEE, Institute of Electrical and Electronics Engineers, 390 implizites Eulerverfahren, 191 implizites m Schrittverfahren, 174 induzierte Matrixnorm, 76 inneres Produkt, siehe Skalarprodukt Integrationsschritt bei Ein und Mehrschrittverfahren, 195 interaktive Programmsysteme mit Multifunktionalität, 308 Interpolationspolynom, 3–12, 184–186 dividierte Differenzen, 8, 185 Existenz und Eindeutigkeit, 4 Fehlerdarstellung, 10, 12, 120, 359, 362 gleichmäßige Konvergenz, 11 Hermite Interpolation, 17, 164, 363 Lagrangesche Interpolationsformel, 4 Neville-Schema, 18 Neville Schema, 6, 131, 165 Newton-Darstellung, 18 Newtonsche Interpolationsformel, 9, 185 optimale Wahl der Stützstellen, 12, 365 Stützkoeffizienten, 5 inverse Iteration von Wielandt, 356 inverse Monotonie, 254 involutorische Matrix, 86 irreduzible Matrix, 262–264, 266, 269, 280,

324 isometrisch, 84 Iterationsfunktion, 97 Iterationsmatrix, 258 Iterationsverfahren, 257 J Jacobi Verfahren, siehe Gesamtschrittverfahren Jacobi Verfahren, 336–341 klassisches, 340 zyklisches, 341 Jacobi Polynome, 137 Jordanmatrix, 324 K KANT, 309 Knoten, 20 Konditionszahl einer Matrix, 80–83, 94, 95 konsistent geordnete Matrix, 271, 275–279, 282 Konsistenzbedingung, 171 Kontraktion, 101 konvexe Menge, 104, 368 Krylovräume, 286, 307–308 Krylovraummethoden, 286 kubische Splinefunktion, siehe Splinefunktion, 68 natürliche Randbedingungen, 72 periodische Randbedingungen, 72 vollständige Randbedingungen, 72 L Lagrangesche Basispolynome, 3, 359, 362 Lagrangesche Interpolationsformel, 4, 115, 132, 139 Laguerre Polynome, 137 Lanczos Prozess, 299 Landausche Symbole, 2 Legendre Polynome, 137 Lemma von Gronwall, 179 diskrete Version, 180

412 Variante, 215 lexikografische Anordnung, 262 lineare Splinefunktion, siehe Splinefunktion lineare Ausgleichsprobleme, 89–90, 365, 374 Ausgleichsgerade, 90 Ausgleichspolynom, 90 lineare Elementarteiler, 180, 280 linearer Differenzenoperator, 203 lineares Gleichungssystem fehlerbehaftet, 94 Linienmethode, 220 LL-Faktorisierung, siehe Faktorisierung logarithmische Norm, 221, 224–225 lokaler Verfahrensfehler eines Einschrittverfahrens, 150 eines Mehrschrittverfahrens, 175 LR Faktorisierung, siehe Faktorisierung LR Verfahren, 354, 358 M M Matrix, 273–274, 280–282 m Schrittverfahren, siehe Mehrschrittverfahren MACSYMA, 309 Mantisse, 386 Mantissenlänge, 386 Maple, 309 Mathematica, 309 MATLAB, vii, 306, 309 Matrix ¨ Aquilibrierung, 91 strikt diagonaldominant, 280 Bandstruktur, 73 Betrag, 267 charakteristisches Polynom, 331 Cholesky Faktorisierung, siehe Faktorisierung diagonaldominant, 92 diagonalisierbar, 322 Dreiecksmatrix, 53–54, 282 obere, 53

Index

rechte untere, 325 untere, 54 Eliminationsmatrix, 61–63 Frobeniusmatrix, 62 Gauß Transformation, 62 Hauptuntermatrizen, 68, 93 Hessenbergmatrix, 301, 326, 357 obere Hessenbergmatrix, 326, 357 untere Hessenbergmatrix, 326 involutorisch, 86 irreduzibel, 262–264, 269, 280, 324 Jordanmatrix, 324 Konditionszahl, 80–83, 94, 95 konsistent geordnet, 271, 275–279, 282 logarithmische Norm, 221, 224–225 LR Faktorisierung, siehe Faktorisierung M-Matrix, 273–274, 280–282 nichtnegativ, 231, 235–236 orthogonal, 83–91, 328, 331, 342–353 Permutationsmatrix, 59–61 positiv definit, 68, 93, 271, 282, 286– 297, 310, 325, 374 reduzibel, 262, 280 reguläre Zerlegung A = B − P , 253 schwach besetzt, 258 Singulärwertzerlegung, Singulärwerte, 94 Spektralradius, 77 Spektrum, 77 Spur spur ( · ), 338 strikt diagonaldominant, 28, 57, 268, 269 symmetrisch, 319–322, 336, 338 Systemmatrix, 245 Tridiagonalmatrix, 233, 248, 263, 275, 282, 323, 357 unitär, 313 verbindende Kette, 280 zeilenäquilibriert, 95 zirkulant, 310 Matrixäquilibrierung, 91 Matrixnorm, 74 Maximumnorm || · ||∞ , 75

413

Index

Mehrfachschießverfahren, 252 Mehrgitterverfahren, 279 Mehrschrittverfahren, 173–202 Adams Verfahren, 186–191 Adams Bashfort Verfahren, 186–189, 197 Adams Moulton Verfahren, 190–191, 197 Anlaufrechnung, 173 BDF Verfahren, 195–197 Dahlquistsche Wurzelbedingung, 175 erzeugendes Polynom, 175 explizit, 174 Fehlerkonstante, 183 implizit, 174 Konsistenzordnung, 175, 221, 222 Konvergenzordnung, 174 linear, 174 lokaler Verfahrensfehler, 174, 175 Milne Simpson Verfahren, 193–195, 197 Mittelpunktregel, 174, 193 Nullstabilität, 175 Nyström Verfahren, 192–193, 197 Prädiktor Korrektor Verfahren, 197–202, 223 Störmer-Verfahren, 222 Verfahren von Hamming, 223 Verfahren von Milne, 194, 223 Methode von Hyman, 332 Milne Simpson Verfahren, 193–195, 197 Milne Regel, 118 Minimalabstand, 365 Minimalfolge, 366 MINRES, 297 Mittelpunktregel, 118, 174, 193 modifiziertes Euler Verfahren, 153 Momente einer Splinefunktion, 25 MuPAD, Multi Processing Algebra Data Tool, 309

N n dezimalstellige Arithmetik, 389 NaN, not a number, 391 natürliche Randbedingungen, 25 Neumannsche Reihe, 233 Neville Schema, 6, 18, 131, 165 Newton Cotes Formeln, siehe Quadraturformeln Newton Verfahren, 112, 113 eindimensional, 99–100, 113, 251–252, 256 für Polynome, 107, 331–335 gedämpft, 111 Konvergenzordnung, 112 mehrdimensional, 105–106, 113 Newtonsche Basispolynome, 7 Newtonsche Interpolationsformel, 9, 185 nichtlineare Optimierung, vi, 366 nichtnegative Matrix, 231, 235–236 Norm, 73–83 || · ||p , 1 ≤ p ≤ ∞, 76 euklidische Norm || · ||2 , 75 Frobeniusnorm || · ||F , 76, 336, 338 Matrixnorm, 74 Maximumnorm || · ||∞ , 75 Spaltensummennorm || · ||1 , 76 Spektralnorm || · ||2, 79 Summennorm || · ||1 , 75 Vektornorm, 74 Zeilensummennorm || · ||∞ , 76 Normalgleichungen AAx = Ab, 296, 374 normalisierte Gleitpunktzahl, 386 normierter Raum B( x; r ), abgeschlossene Kugel um x mit Radius r, 368 abgeschlossene Teilmenge, 368 offene Teilmenge, 368 offener Kern einer Teilmenge, 368 streng konvexe Menge, 368 strikt normiert, 369, 372, 383

414 Nullstabilität, 175 Numerik partieller Differenzialgleichungen, vi Nyström Verfahren, 192–193, 197

O obere Lipschitzbedingung, 212 Octave, 306, 309 Online Service zu diesem Buch, vii orthogonale Polynome, 135–138, 140–141 Drei Term Rekursion, 135 orthogonales Komplement einer Menge, 319, 372 Orthogonalisierungsverfahren, 83–91

P Parallel– und Vektorrechner, 91 Parallelogrammgleichung, 372 Parkettierung nach Crout, 67, 93 P(EC)M E Verfahren, 201 P(EC)M Verfahren, 202 Peano-Kern, 360–363 periodische Randbedingungen, 25 Permutation, 59 Permutationsmatrix, 59–61 Pivotelement, 58 Poisson Gleichung, 260 Polynom deflationiert, 108 Nullstellenbestimmung, 107, 331–335 positiv definite Matrix, 68, 93, 271, 280, 286– 297, 310, 325, 374 positive Homogenität, 74 Prädiktor Korrektor Verfahren, 197–202, 223 Programmsystem mit Multifunktionalität, 308 Computeralgebra Funktionalität, 308 Grafik Funktionalität, 309 Numerik Funktionalität, 308 Proximum, 365–369, 371, 372, 375, 378, 382, 384

Index

Q QR Faktorisierung, siehe Faktorisierung QR Verfahren, 342–353, 357 quadratische Splinefunktion, siehe Splinefunktion Quadraturformeln, 114–130, 134, 138–140, 359, 362 Gaußquadratur, siehe Gaußsche Quadraturformeln Genauigkeitsgrad, 114, 135, 145, 363 bei abgeschlossenen Newton Cotes Formeln, 122–126 interpolatorisch, 115–126, 359 Fehler, 119 Newton Cotes Formeln, 116–126 3/8 Regel, 117 abgeschlossen, 118 Milne Regel, 118 Mittelpunktregel, 118 Rechteckregeln, 118 Simpson Regel, 117, 132, 362 Trapezregel, 117 summiert, siehe summierte Quadraturformeln Taylorabgleich, 146 Quadratwurzelverfahren, 70 Quasioptimalität des Galerkin Verfahrens, 243 R rückwärts gerichteter Differenzenquotient, 229 Rückwärtsdifferenzen ∇k gν , 184 rationale Interpolation, 16 Rayleigh-Quotient, 320, 355, 357 Rechteckregeln, 118 REDUCE, 309 reduzible Matrix, 262, 280 reguläre Zerlegung einer Matrix, 253 Regularisierungsverfahren, 91 Relaxationsverfahren, 270–279, 282, 284 ¨ Uberrelaxation, 271 Unterrelaxation, 271

Index

Residuum, 285, 310 Ritz Verfahren, 242, 255 Romberg Folge, 133 Romberg Integration, 130 Runden auf t Stellen, 393–395 Runge Kutta Verfahren, siehe explizite Einschrittverfahren S Satz Bauer/Fike, 312 Courant/Fischer, 319 Faber, 12 Gerschgorin, 316, 324 Kahan, 271 Kusmin, 118 Ostrowski/Reich, 271 Perron, 236 Picard/Lindelöf, 148 Rayleigh/Ritz, 320 Schema von Neville, 18 schlecht konditioniertes Gleichungssystem, 83 Schrittweite, 289 Schrittweitensteuerung, 166–170, 172 Schur Faktorisierung, 314, 322 schwach besetzte Matrix, 258 schwache Lösung, 242 Scilab, 309 Sekantenverfahren, 111 Sherman Morrison Formel, 96 Simpson Regel, 117, 132, 362 Singulärwertzerlegung, Singulärwerte einer Matrix, 94 Skalarprodukt, 371 Cauchy Schwarzsche Ungleichung, 371 Parallelogrammgleichung, 372 Spaltenpivotsuche, 58 Spaltensummennorm || · ||1 , 76 Spektralnorm || · ||2 , 79 Spektralradius einer Matrix, 77

415 Spektrum einer Matrix, 77 Splinefunktion, 20 Approximationseigenschaften, 35 B Splines, siehe B Splines kubisch, 20, 22–34, 68 Fehlerabschätzungen, 29–33 lokaler Ansatz, 24 Momente, 25 natürliche Randbedingungen, 25, 72 periodische Randbedingungen, 25, 72 vollständige Randbedingungen, 25, 72 linear, 20, 34 Fehlerabschätzung, 21 Hutfunktionen, 245 lokaler Ansatz, 21 Ordnung, 20 quadratisch, 20 Splinekurven, kubische, 35 Spur einer Matrix, 338 Stützkoeffizienten, 5 stationäres Iterationsverfahren, siehe Fixpunktiteration steife Differenzialgleichung, 212–220 Steifigkeitsmatrix, 245 Störmer-Verfahren, 222 strikt diagonaldominante Matrix, 28, 57, 268, 269, 280 strikt normierter Raum, 369, 383 stückweise stetig differenzierbare Funktion, 239 Stützpunkte, 3 Stützstellen, 1 Stützwerte, 8 Sturm Liouvillesches Randwertproblem, siehe gewöhnliche Differenzialgleichung Suchrichtung, 289 Summennorm || · ||1 , 75 summierte Quadraturformeln, 126–129 Rechteckregeln, 126 Simpson Regel, 128 Trapezregel, 127, 133

416 Asymptotik, 129 Symbolisches Rechnen, 309 symmetrische Matrix, 319–322, 336, 338 System gewöhnlicher Differenzialgleichungen 1. Ordnung, siehe gewöhnliche Differenzialgleichungen Systemmatrix, 245 T Taylor Verfahren, 171 Totalpivotsuche, 93 Trapezregel, 117, 191 Tridiagonalmatrix, 92, 233, 248, 263, 275, 282, 323 trigonometrische Interpolation, 39–43 komplex, 39–42 reell, 42–43, 52 trigonometrisches Polynom komplex, 39 reell, 42 Tschebyscheff Polynome der ersten Art Tn , 13–15, 19, 52, 137, 294, 378 der zweiten Art Un , 19 Optimalitätseigenschaft, 14 Tschebyscheff System, 380 U ¨ Uberrelaxation, 271 umgekehrte Dreiecksungleichung, 74 unitäre Matrix, 313 Unterrelaxation, 271 V van der Pol’sche Differenzialgleichung, 171 Variationsgleichung, 242 Vektoriteration, 327, 354–358 inverse Iteration von Wielandt, 356 von Mises Iteration, 356 Vektornorm, 74 verallgemeinerte Lösung, 242 verallgemeinerte, schwache Lösung, 249

Index

verbindende Kette, 280 Verfahren der konjugierten Gradienten, siehe CG Verfahren Verfahren von Hamming, 223 Heun, 154, 171 Milne, 194, 223 Remez, 380 Schulz, 113 verträgliche Matrixnorm, 76 volldiskretes Galerkin Verfahren, 245 vollständige Randbedingungen, 25 von einem Vorzeichen, 119 vorwärts gerichteter Differenzenquotient, 229 Vorzeichenmatrix, 342 W Wärmeleitungsgleichung, 219, 224 Weitformat, erweiterte Gleitpunkt Zahlensysteme, 390 Z Zahlensysteme (dezimal, binär, oktal, hexadezimal), 386 zeilenäquilibrierte Matrix, 95 Zeilensummennorm || · ||∞ , 76 zentraler Differenzenquotient, siehe Differenzenquotient zirkulante Matrix, 310 Zweigitteriteration, 279