Numerische Optimierung von Computer-Modellen mittels der Evolutionsstrategie: Mit einer vergleichenden Einführung in die Hill-Climbing- und Zufallsstrategie [1. Aufl.] 978-3-7643-0876-6;978-3-0348-5927-1

692 80 28MB

German Pages IV, 391 [395] Year 1977

Report DMCA / Copyright

DOWNLOAD FILE

Polecaj historie

Probe- und Bruch-Stükk einer deutschen Grammatik für die Rheinlande: Mit Beiträgen zur vergleichenden Sprachkunde und einer Nachlese von lesbarem Ungelesnem [Reprint 2019 ed.] 9783111463285, 9783111096278

174 91 8MB Read more

Das Land und Volk der Bructerer, als Versuch einer vergleichenden Geographie der älteren und mittleren Zeit

225 92 191MB Read more

Numerische Optimierung der Bearbeitungsbedingungen während des Drehvorganges [1. Aufl.] 978-3-663-20039-0;978-3-663-20395-7

378 41 7MB Read more

Taiwans unvergänglicher Antikolonialismus: Jiang Weishui und der Widerstand gegen die japanische Kolonialherrschaft. Mit einer Übersetzung von Schriften Jiang Weishuis aus dem Chinesischen und Japanischen [1. Aufl.] 9783839410189

Der Arzt und Aktivist Jiang Weishui gilt in Taiwan als eine Schlüsselfigur des Antikolonialismus in der Zeit der japanis

192 53 5MB Read more

Numerische Analyse der Zweiphasenströmung und Kühlwirkung in nasslaufenden Elektromotoren [1. Aufl.] 9783658326067, 9783658326074

Nasslaufende, permanenterregte Synchronmaschinen eignen sich aufgrund ihrer Eigenschaften für den Einsatz im Fahrzeug. U

320 51 7MB Read more

Der italienische Krieg von 1848 und 1849; mit einer kurzen Kriegstheorie in kritischen Bemerkungen über die Ereignisse

741 49 21MB Read more

Kognition und soziale Praxis: Der Soziale Konstruktionismus und die Perspektiven einer postkognitivistischen Psychologie [1. Aufl.] 9783839401989

Die Auseinandersetzung mit Konstruktivismus und Sprachpragmatik sowie der cultural turn in den Sozialwissenschaften eröf

273 19 2MB Read more

Die Abhängigkeit der Sozialwissenschaften von ihren Medien: Grundlagen einer kommunikativen Sozialforschung [1. Aufl.] 9783839413180

Die Sozialforschung ist seit ihren Anfängen von technischen Medien geprägt - doch erst seit Kurzem wird die Aufmerksamke

189 97 2MB Read more

Grundzüge der Parametrischen Optimierung [1. Aufl.] 9783662619896, 9783662619902

Dieses Lehrbuch gibt eine verständliche Einführung in die parametrische Optimierung, die mathematische Sachverhalte eine

392 71 5MB Read more

Die lauterkeitsrechtlichen Möglichkeiten und Grenzen der humorvollen und satirischen vergleichenden Werbung [1 ed.] 9783428541027, 9783428141029

Die lauterkeitsrechtlichen Möglichkeiten und Grenzen der humorvollen und satirischen vergleichenden Werbung sind bislang

177 65 3MB Read more

Numerische Optimierung von Computer-Modellen mittels der Evolutionsstrategie: Mit einer vergleichenden Einführung in die Hill-Climbing- und Zufallsstrategie [1. Aufl.]
978-3-7643-0876-6;978-3-0348-5927-1

Author / Uploaded
SCHWEFEL

Table of contents :
Front Matter ....Pages N2-3
Einleitung (Hans-Paul Schwefel)....Pages 5-8
Optimierungsaufgaben und Optimiermethoden (Hans-Paul Schwefel)....Pages 9-28
Hill-climbing Strategien (Hans-Paul Schwefel)....Pages 29-100
Zufallsstrategien (Hans-Paul Schwefel)....Pages 101-122
Evolutionsstrategien für die numerische Optimierung (Hans-Paul Schwefel)....Pages 123-176
Vergleich direkter Suchstrategien der Parameteroptimierung (Hans-Paul Schwefel)....Pages 177-254
Zusammenfassung und Ausblick (Hans-Paul Schwefel)....Pages 255-266
Literatur (Hans-Paul Schwefel)....Pages 267-316
Back Matter ....Pages 317-391

Citation preview

Editor / Herausgeber: Praf Saloman Klaczka-Ryndziun. Frankfurt a. M. Co-Editors / Mitherausgeber: Praf. Ranan Banerji, Temple University, Philadelphia Praf. Jerame A Feldman, University of Rachester, Rachester Praf Mohamed Abdelrahman Mansaur, ETH, Zurtch Praf. Emst 8il/eter, Umversitat Fribourg, Fribourg Praf. Christof Burckhardt, EPF, Lausanne Praf. Ivar Ugi, Technische Universitat Munchen Praf. King-Sun Fu, Purdue University, West Lafayette

Interdiscip/inary Systems Research Ana/ysis - Mode/ing - Simu/ation The system science has been developed from several scientific fields: control and communication theory, model theory and computer science. Nowadays it fulfil/s the requirements which Norbert Wiener formulated originally for cybernetics; and were not feasible at his time, because of insufficient development of computer science in the past. Research and practical application of system science involve works of specialists of system science as well as of those from various fields of application. Up to now, the efficiency of this co-operation has been proved in many theoretical and practical works. The series 'Interdisciplinary Systems Research' is intended to be a source of information for university students and scientists involved in theoretical and applied systems research. The reader shal/ be informed about the most advanced state of the art in research, application lecturing and metatheoretical criticism in this area. It is also intended to enlarge this area by including diverse mathematical modeling procedures developed in many decades for the description and optimization of systems. In contrast to the former tradition, which restricted the theoretical control and computer science to mathematicians, physicists and engineers, the present series emphasizes the interdisciplinarity which system science has reached until now, and which tends to expand. City and regional planners, psycho/ogists, physiologists, economists, eco/ogists, food scientists, sociologists_ political scientists, lawyers, pedagogues, philo/ogists, managers, diplomats, military scientists and other specialists are increasingly confronted or even charged with problems of system science. The ISR series will contain research reports - including PhD-theses -Iecture notes, readers for lectures and proceedings of scientific symposia. The use of less expensive printing methods is provided ta assure that the authors' resuhs may be offered for discussion in the shortest time to a broad, interested community. In order to assure the reproducibility of the published results the coding lists of the used programs should be included in reports about computer simulation. The international character of this series is intended to be accomplished by including reports in German, English and French, both from universities and research centers in the whole world. To assure this goal, the editars' board will be composed of representatives of the different countries and areas of interest.

Interdisziplinăre

Systemforschung

Ana/yse - Forma/Islerung - SlmU/atiOn Die Systemwissenschaft hat sich aus der Verbindung mehrerer Wissenschaftszweige entwickelt: der Regelungs- und Steuerungstheorie, der Kommunikationswissenschaft, der Modelltheorie und der Informatik. Sie eriullt heute das Programm, das Norbert Wiener mit seiner Definition von Kybernetik ursprunglich vorgelegt hat und dessen Durchfiihrung zu seiner Zeit durch die noch ungeniigend entwickelte Computerwissenschaft stark eingeschrankt war. Die Forschung und die praktische Anwendung der Systemwissenschaft bezieht heute sowohl die Fachleute der Systemwissenschaft als auch die Spezialisten der Anwendungsgebiete ein. In vielen Bereichen hat sich diese Zusammenarbeit mittlerweile bewahrt. Die Reihe «Interdisziplinare Systemforschung» setzt sich zum ZieI, dem Studenten, dem Theoretiker und dem Praktiker iiber den neuesten Stand aus Lehre und Forschung, aus der Anwendung und der metatheoretischen Kritik dieser Wissenschaft zu berichten. Dieser Rahmen soli noch insofern erweitert werden, als die Reihe in ihren Publikationen die mathematischen Modellierungsverfahren mit einbezieht, die in verschiedensten Wissenschaften in vielen Jahrzehnten zur Beschreibung und Optimierung von Systemen erarbeitet wurden. Entgegen der fruheren Tradition, in der die theoretische Regelungs- und Computerwissenschaft auf den Kreis der Mathematiker, Physiker und Ingenieure beschrankt war, liegt die Betonung dieser Reihe auf der Interdisziplinaritat, die die Systemwissenschaft mittlerweile erreicht hat und weiter anstrebt. Stadt- und Regionalplaner, Psychologen, Physio/ogen, Betriebswirte, Volkswirtschafter, Okologen, Ernahrungswissenschafter, Soziologen, Politologen, Juristen, Padagogen, Manager, Diplomaten, Militarwissenschafter und andere Fachleute sehen sich zunehmend mit Aufgaben der Systemforschung konfrontiert ader sogar beauftragt. Die ISR-Reihe wird Forschungsberichte - einschliesslich Dissertationen -, Vorlesungsskripten, Readers zu Vorlesungen und Tagungsberichte enthalten. Die Verwendung wenig aufwendiger Herstellungsveriahren soli dazu dienen, die Ergebnisse der Autoren in kiirzester Frist einer mbglichst breiten, interessierten Offentlichkeit zur Diskussion zu stellen. Um auch die Reproduzierbarkeit der Ergebnisse zu gewahrleisten, werden in Berichten iiber Arbeiten mit dem Computer wenn immer mbglich auch die Befehlslisten im Anhang mitgedruckt. Der internationale Charakter der Reihe sol/ durch die Aufnahme van Arbeiten in Deutsch, Englisch und Franzbsisch aus Hochschulen und Forschungszentren aus aller Welt verwirklicht werden. Dafiir sol/ eine entsprechende Zusammensetzung des Herausgebergremiums sorgen.

ISR26 Interdisciplinary Systems Research lnterdiszipliniire Systemforschung

Hans-Paul Schwefel:

Numerische Optimierung von Computer-Modellen mittels der Evolutionsstrategie Mit einer vergleichenden Einfuhrung in die Hill-Climbing- und Zufallsstrategie

Springer Basel AG 1977

Diese Untersuchungen wurden im Rahmen einer Dissertationsarbeit am Fachbereich Verfahrenstechnik der Technischen Universităt Berlin mit teilweiser finanzieller UnterstUtzung durch die Deutsche Forschungsgemeinschaft angefertigt

CIP-Kurztitelaufnahme der Deutschen Bibliothek

Schwefel, Hans-Paul Numerische Optimierung von Computer-Modellen mittels der Evolutionsstrategie. - 1. Aufl. Base\. Stuttgart: Birkhăuser, 1977. (Interdisciplinary systems research; 26) ISBN 978-3-7643-0876-6 ISBN 978-3-0348-5927-1 (eBook) DOI 10.1007/978-3-0348-5927-1 Nachdruck verboten Alle Rechte, insbesondere das der Ubersetzung in fremde Sprachen und der Reproduktion auf photostatischem Wege oder durch Mikrofilm, vorbehalten © Springer Basel AG 1977 UrsprOnglich erschienen bei

Birkhăuser

Verlag Base\. 1977

Inhalt

2

Einleitung

5

Optimierungsaufgaben und Optimiermethoden

9

2.1

Allgemeine Aufgabenstellung

2.2

Spezielle Aufgaben und Losungsmethoden

10

9

2.2.1

Experimentelle Dptimierung - mathematische Optimierung

10

2.2.2

Statische Optimierung - dynamische Optimierung

14

2.2.3

Parameteroptimierung - Funktionenoptimierung

15

2.2.4

Oirekte (numerische) Dptimierung - indirekte (analytische) Optimierung

2.2.5

Optimierung mit Nebenbedingungen - Optimierung ohne Neben-

2.3

Diskrete und stochastische Optimierung sowie weitere

bedingungen

19

22

Spezial fiille

26

Hill-climbing Strategien

29

3.1

Eindimensionale Strategien

31

3.1 .1

Simultane Methoden

32

3.1.2

Sequentielle Methoden

34

3.1.2 .1

Einschachtelung des Minimums

34

3.1.2.2

Eliminationsverfahren

36

3.1.2.2.1

Fibonacci-Teilung

36

3.1.2.2.2

Teilung nach dem Goldenen Schnitt

39

3.1.2.3

Interpolationsverfahren

40

3.1.2.3.1

Regula-falsi Iteration

41

3.1.2.3.2

Newton-Raphson Iteration

43

3.1.2.3.3

Lagrangesche Interpolation

43

3.1.2.3.4

Hermitesche Interpolation

46

3

Mehrdimensionale Strategien

47

3.2.1

Direkte Suchstrategien

50

3.2.1.1

Koordinatenstrategie

50

3.2.1.2

Strategie von Hooke und Jeeves: Muster-Suche

54

3.2.1.3

Strategie von Rosenbrock: rotierende Koordinaten

58

3.2.1.4

Strategie von Davies, Swann und Campey (DSC)

63

3.2.1. 5

Simplex-Strategie von Nelder und Mead

68

3.2.1. 6

Complex-Strategie von Box

72

3.2

3.2.2

Gradienten-Strategien

75

3.2.2.1

Strategie von Powell: konjugierte Richtungen

81

3.2.3

Newton-Strategien

88

3.2.3.1

Strategie von Stewart: ableitungsfreies Verfahren der

3.2.4

variablen Metrik nach Davidon, Fletcher und Powell (DFPJ

93

Neuere Entwicklungen

96

4

Zufallsstrategien

101

5

Evolutionsstrategien fur die numerische Dptimierung

123

5.1

Die zweigliedrige Evolutionsstrategie

123

5.1 .1

Der Grundalgorithmus

124

5.1 .2

Die Schrittweitensteuerung

128

5.1. 3

Das Konvergenzkriterium

132

5.1.4

Die Behandlung von Nebenbedingungen

134

5.1. 5

Weitere Details des Unterprogramms EVDL

135

5.2

Eine mehrgliedrige Evolutionsstrategie

139

5.2.1

Der Grundalgorithmus

139

5.2.2

Die Fortschrittsgeschwindigkeit der (1,A)-Strategie

142

5.2.2.1

Das lineare Modell (geneigte Ebenel

145

5.2.2.2

Das Kugelmodell

150

157

5.2.2.3

Das Korridormodell

5.2.3

Die Schrittweitensteuerung

5.2.4

Das Konvergenzkriterium fur

5.2.5

Die Skalierung der Variablen durch Rekombination

5,2,6

Zur globalen Konvergenz

173

5.2.7

Programmierdetails der Unterprogramme GRUP und REKD

174

6

Vergleich direkter Suchstrategien der Parameteroptimierung

177

6,1

Problematik

177

6.2

Aussagen der Theorie

178

6,2,1

Konvergenzbeweise

179

6,2.2

Konvergenzraten

181

6.2.3

Q-Eigenschaften

183

6.2.4

Rechenaufwand

184

6.3

Numerischer Strategienvergleich

188

6.3.1

Verwendete Rechenanlage

189

6.3,2

Teilnehmende Dptimiermethoden

191

6.3,3

Testergebnisse

196

165 ~>1

Eltern

169 170

6,3.3.1 6.3.3.2 6.3.3,3

Erster Test: Konvergenzraten bei quadratischer Zielfunktion

196

Zweiter Test: Zuverlassigkeit Dritter Test: nicht-quadratische Problems mit vielen

218

Variablen

234

6.4

Kernspeicher-Platzbedarf

252

7

Zusammenfassung und Ausblick

255

8

Literatur

267

A1

Anhang 1: Problemkatalog

319

A1,1

319

A1.2

Testprobleme zum 1. Teil des Strategienvergleichs Testprobleme zum 2. Teil des Strategienvergleichs

A1. 3

Testprobleme zum 3. Teil des Strategienvergleichs

349

A2

Anhang 2! Fortran-Codierungen der Evolutionsstrategien 355

mit Beschreibungen A2.1

(1+1)-Evolutionsstrategie EVDL

A2.2

(~,A)-Evolutionsstrategien

Register

321

GRUP und REKO

355 362 371

- 5 -

Einlaitung In kaum einer Fachzeitschrift von haute, sei sie aus Technik, Wirtschaft oder Varwaltung, aus Mathematik, Physik oder Sozialwissenschaften, fehlt im Sachwortregister der Begriff 'Dptimierung'. Abstrahiart man von allan fachspezifischen Gesichtspunkten, so geht es stets darum, unter mehreren m5glichen Realisationen eine Alternative zugunsten der besseren oder besten - nach Leibniz: optimalen - herbeizufuhren. Wollte man allerdings der von Leibniz (171Dl in seiner Theodicee aufgestellten Hypothese folgen, daB unsere Welt die baste aller meglichen Welten 1st, dann durfte man zu Recht in passiven Fatalismus verfallen. Es gabe ja nichts zu verbessern, zu optimieren. Dem damaligen statischen Weltbild hat die Biologie inzwischen ein dynamisches entgegengestelit, dasder allmahlichen Entwicklung der Artan, deren Hohepunkt das Erscheinen des Menschen 1st. Die Palaontologie liefert ein zunehmend lOckenloser werdendes Bild der biologischen Evolution. Sogenannte 'missing links' stellen sich immer wieder nicht als fehlende, sondern als noch nicht entdeckte Zwischanstationen diesas Prozesses heraus. Sehr vial alter als die Erkenntnis, daB der Mensch das Ergebnis sines Dptimierungsvorgangs 1st, 1st die selten hinterfragte Annahme, daB er ein Spitzenprodukt, die 'Krone der Schopfung' sei. Und wiederum lange bevor der Mensch sich als aktiver Teilnehmer am Entwicklungsgeschehen begriffen hat, hat er unbewuBt diese Evolution beeinfluBt. Ja, seine Fahigkeit und sein Bestreben, die Urnwelt seinen Bedurfnissen anzupassen, hebt ihn aus der Lebewelt hervor und hat es ihm ermoglicht, trotz korperlicher Unterlegenheit seine Position zu finden, zu halten und auszubauen. Schon Voltaire (1759), .der mit den Zustanden seiner Zeit unzufriedene franzosische Aufklarer, zieht gegen Leibniz' philosophischen Dptimismus zu Felde und ruft zu bewuBter Veranderung des Bestehenden auf. So finden wir uns haute als Subjekt und Dbjekt der Entwicklungsgeschichte vor, wenn wir optimieren. Im Wunsch, sin Dbjekt, einen ProzeB oder ein System zu verbessern, sahan Wilde und Beightler (1967) einan Ausdruck des menschlichen Strebans nach Vollkommenheit. Db solch hohes Ziel erreicht warden kann, hangt von vielen Voraussetzungen ab. Nicht optimieren kann man, wann es nur eine Moglichkeit gibt, eine Aufgabe zu erfOllen. Dann hat man keine Alternative, Wenn noch

nicht einmal bekannt

1st, ob sich ein vorliegendes Problem Oberhaupt bewaltigen laBt, erfordert diese Situation zunachst eine Erfindung oder Entdeckung und noch keine Dptimierung. Aber Oberall dort, wo es zwei oder mehr Losungen gibt und man sich

- 6 -

fur eine von ihnen entscheiden muB, sollte man die baste wahlen - also optimieren. Die nicht miteinander in Verbindung stehenden Merkmale, in denen sich die Resultate voneinander unterscheiden, nennt man (unabhangigel Variable oder Parameter des betrachteten Dbjekts oder Systems. Eine rationale Entscheidung zwischen den realen oder gedachten Varianten setzt ein Werturteil voraus. Dazu bedarf es eines BewertungsmaBstabs, eines quantitativen Gutekriteriums, gemaB dem die eine Losung als besser, die andere als schlechter klassifiziert warden kann. Diese abhangige Variable wird meist als Zielfunktion bezeichnet, wail sie von der Bestimmung des Systems, vom Ziel, das mit ihm erreicht warden sell, abhangt und mit den Parametern funktional verbunden ist. Mitunter ist die klare Definition der Zielfunktion der schwierigste Abschnitt bairn Dptimieren. Sellen' zum Beispiel mehrere Teilziele verfolgt warden, muB man die Einzelkriterien relativieren, sie gewichten. Widersprechen sie sich so stark, daB man keine Entscheidung fallen

~ann,

dann ist es auch nicht mog-

lich, zu optimieren. Variabilitat und eindeutige Bewertung sind die unumganglichen Voraussetzungen jeder Dptimierung. Gelegentlich meint man auch, ,das rechte Ziel fur ein Subsystem gefunden zu haben, muB spater aber feststellen, daB man dieses zwar erreicht, dabei jedoch unerwunschte Nebeneffekte herbeigefuhrt hat, die in einem ubergeordneten Zusammenhang den - nicht beachteten Gesamtzielfunktionswert verschlechtert haben. Gerade haute erleben wir, wie engstirnige GutemaBstabe uns in gefahrliche MiBstande hineinmanovrieren konnen. Manchmal ist es eben notwendig, das Gesamtsystem Erda zu betrachten, auch wenn hier die Meinungsverschiedenheiten uber Bewertungskriterien am groBten sind. Die zweite Schwierigkeit bairn Dptimieren, gerade von vielparametrigen Dbjekten/ Prozessen, liegt in der Auswahl oder dem Entwurf einer geeigneten Handlungsstrategie. Selbst dann, wenn das Ziel hinreichend klar definiert, ja sogar wenn der funktionale Zusammenhang mit den unabhangigen Variablen mathematisch formuliert worden ist, bleibt es oft genug beschwerlich, wenn nicht gar unm5glich, das Optimum zu finden. Nichteingeweihte meinen oft, die Losung sines in dar Sprache der Mathematik ausgedruckten Problems muBte dieser exaktesten aller Wissenschaften ein leichtes sein. Wait gefehlt! Das Problem, wie man Problems lost, ist ungelost! Dabei beschaftigen sich Mathematiker schon seit Jahrhunderten damit. Dam Bestreben, mathematisch exakte Antworten auf Fragen nach Extremwerten und Extremorten (oder -zustandenl zu geben, verdanken wir zum Beispiel die Differential- und die Variationsrechnung, deren Entwicklung im 18. Jahrhundert mit so klangvollen Namen wir Newton, Euler, Lagrange und Bernoulli

- 7 -

(Johannes der Altere) verbunden 1st, Sie bilden die Grundlagen der heute klassisch genannten Methoden und der weiter entwickelten Theorie der Optimierung. Von der Theorie, dem Aufstellen der notwendigen (und hinreichendenl Bedingungen fOr die Existenz von Minima und Maxima, bis zur Praxis, dem Auffinden dieser ausgezeichneten Zustande, ist oft noch sin weiter Weg. Praktisch bed~utsame Losungen von Optimierungsaufgaben sind erst m5glich geworden nach dem Aufkommen groBer und schneller programmierbarer Rechenanlagen in der Mitte des 20. Jahrhunderts. Seitdem schwillt die Flut der Veroffentlichungen zum Thema Optimierung bestandig an. Mit Leichtigkeit kann man 1000 Artikel Ober Optimiermethoden zusammentragen. Selbst einem Interessierten fallt es heute schwer, mit der immer breiter und differenzierter werdenden Entwicklung Schritt zu halten. Es scheint, als ob sis noch lange nicht abgeschlossen 1st, denn bisher fehlt sowohl eine alles umfassende Theorie als auch ein universelles Losungsverfahren. Zum Teil rOhrt die Methodenvielfalt von der Unterschiedlichkeit der Problems her. So sell in Kapitel 2 ein grober Oberblick Ober Optimierungsaufgaben und Optimiermethoden gegeben werden. Oabei kommt die besondere Stellung der direkten, stati-· schen, nicht-diskreten und nicht-stochastischen Parameteroptimierung zum Ausdruck, Viele der hier entwickelten Methoden lassen sich namlich auf andere Bereiche Obertragen, umgekehrt ist das seltener der Fall. In Kapitel 3 warden einige dieser Strategien eingehender dargestellt, vornehmlich solche, welchs die von ihnen benotigte Information allein aus Zielfunktionswerten sammeln, also ohne analytische Vorgabe von partiellen Ableitungen auskommen. Ausgelassen werden dabei Verfahren probabilistischer Natur, die den Zufall als Entscheidungshilfe benutzen. Sie werden in Kapitel 4 separat behandelt. Eine der Zufallsstrategien erweist sich als auBerst vielversprechend. Sie ahmt das Mutations-Selektions Spiel der Natur in stark vereinfachter Weise nach. Zu diesam von

Rechenberg (1964, 1973) als zweigliedrig bezeichneten Evolutionsstra-

tegie-Konzept wird in Kapitel 5.1 ein auf die numerische Optimierung zugeschnittener Algorithmus formuliert. GemaB dar von Rechenberg aufgestellten Hypothese, daB die biologische Evolution ein besonders vorteilhaftes - also nachahmenswertes - Optimierverfahren ist oder hat, wird in Kapitel 5.2 ein erweitertes, mehrgliedriges Schema vorgestellt, das dem Populationsprinzip der Evolution abgeguckt 1st. Es gestattet eine sowohl natOrlichere als auch effektivere Adaptation der Schrittweiten als das zweigliedrige Schema und ladt geradezu ein, weitere Evolutionsprinzipien, wie zum Beispiel sexuelle Fortpflanzung und Rekombination, hinzuzunehmen. Auch eine Naherungstheorie fOr die Konvergenzrate

- Bder (1,Al-Evolutionsstrategie, bei der von A Nachkomrnen einer Generation jeweils nur der beste zum Elter der folgenden wird, kann aufgestellt warden. Kapitel 6 bringt dann einen Vergleich der Evolutionsstrategien mit den in Kapitel 3 ausfuhrlicher behandelten direkten Suchmethoden nullter, erster und zweiter Ordnung. Oa die Aussagekraft theoretischer Konvergenzbeweise und Angaben Ober Konvergenzraten auf einfache Problemstrukturen begrenzt ist, umfaBt der Vergleich im wesentlichen numerische Tests anhand verschiedener Modell-Zielfunktionen. Unter zwei Aspekten warden die Ergebnisse ausgewertet: - Schnelligkeit der Zielannaherung, - Zuverlassigkeit bzw.

Genau~gkeit

der Approximation.

Die Robustheitsprufung waist den Evolutionsstrategien einen hervorragenden Platz zu. Entgegen der weit verbreiteten Ansicht, daB die biologische Evolution ein sehr verschwenderisches Optimierverfahren sei,

zeigt der Konver-

genzratentest, daB auch in dieser Hinsicht die Evolutionsmethoden mithalten konnen und teilweise sogar schneller als manches rein deterministische Verfahren sind, Oer Kreis schlieBt sich in Kapitel 7, in dem noch einmal die Analogie zwischen Optimierung und Evolution zur Sprache kommt, mit einem Ausblick auf naheliegende Verbesserungen und Erweiterungen des Evolutionsstrategie-Konzepts. Oer Katalog der verwendeten Testprobleme wurde in den Anhang verbannt und Fortran-'Codierungen der Evolutionsstrategien mit ausfuhrlichen Hinweisen fur Anwender in den Anhang 2.

- 9 -

2 2.1

Optimierungsaufgaben und Optimiermethoden Allgemeine Aufgabenstellung

Je nachdem, ob man den Schwerpunkt auf den theoretischen Aspekt (Existenzbedingungen von Optimallosungen) oder auf den praktischen legt (Verfahren zum Erreichen von Optimal, wird die Optimierung haute als Teilgebiet der angewandten oder numerischen Mathematik bzw. der (technischenl Kybernetik aufgefaBt. In der Tat basieren viele Optimiermethoden auf Grundgedanken, die in der linearen und nichtlinearen Algebra entwickelt wurden. Wahrend es bei Gleichungen oder Gleichungssystemen darum geht, eine GroBe bzw. einen Satz von GroBen so zu bestimmen, daB von ihnen abhangige Funktionen bestimmte Sollwerte erfOllen, wird im Fali einer Optimierungsaufgabe nach einem a priori nicht bekannten Extremwert gefragt. Viele der heute gebrauchlichen Methoden zur Losung von linearen Gleichungssystemen gehen von einer Naherung aus und verbessern diese schrittweise, indem die Abweichung vom Sollwert minimiert wird. Bei nichtlinearen Gleichungen sowie unvollstandigen oder Oberbestimmten Systemen ist diese Vorgehensweise sogar obligatorisch (Ortega und Rheinboldt, 1970). So entpuppen sich manche, zunachst vollig anderslautende und scheinbar nicht miteinander in Verbindung stehende Problema, nachdem sie in geeigneter Weise umformuliert wurden, als Optimierungsaufgaben. Oazu gehoren zum Beispiel das Losen von Oifferentialgleichungen (Rand- und Anfangswertaufgaben) und Eigenwertproblemen sowie Aufgaben der Ausgleichsrechnung und der Approximation (Stiefel (1965), Schwarz, Rutishauser und Stiefel (1968), Collatz und Wetterling (1971)). Im ersten Fall geht es ursprOnglich wieder um das Losen von Gleichungen, im zweiten von vornherein um das Minimieren von Abweichungen im GauBschen (Summa der Residuenquadrate) oder Tschebyscheffschen Sinne (Betragsmaximum der Residuenl. Selbst die

Spieltheorie

(Vogelsang, 1963) und die Zeichen- oder Gestalterkennung als Teilgebiet der Informationstheorie (Andrews (1972), Niemann (1974)) haben Gemeinsamkeiten mit der Theorie der Optimierung. Einmal wird gesucht nach demjenigen Zeichen aus einer Menge gespeicherter Idealtypen, welches mit dem angebotenen maximale ~hnlichkeit

hat, das andere Mal nach optimalen Verhaltensweisen in Konflikt-

situationen. Hier konkurrieren zwei oder mehr Interessen miteinander. Jeder Spieler sucht seine Gewinnchancen zu maximieren unter BerOcksichtigung der vermuteten Spielweise des Gegners. Die meisten Optimierungsaufgaben sind dagegen durch ein Interesse, das Erreichen eines von anderen nicht beeinfluBten Ziels, gekennzeichnet,

- 10 Der kybernetische Aspekt der Dptimierung tritt besonders deutlich zutage beim Entwurf lernender Automaten, die ihre Funktion den jeweiligen Gegebenheiten optimal anpassen sollen (siehe z.B. Feldbaum (1962), Tsypkin (1970al). Die ROckkopplung zwischen der Umwelt und dem Verhalten des Automaten besorgt hier ein Programm, eine Strategie, die sich eventuell sogar selbst verandern kann. Wiener (1963) geht noch waiter, indem er auch sich selbst reproduzierende Maschinen in seine Betrachtungen miteinbezieht und so zu Lebewesen

ahnlichen

Automaten kommt. Rechenmaschinen warden oftmals als die am weitesten entwikkelten Automaten angesehen, und sie verlocken daher zu Vergleichen mit dem menschlichen Gehirn und seinen Nervenschaltungen (von Neumann (1960), Marfeld (1970)), Sie sind haute das wichtigste Hilfsmittel beim Dptimieren, und viele Problems lassen sich ohne sis nicht bewaltigen. 2.2

Spezielle Aufgaben und Losungsmethoden

Das Fehlen einer universellen Optimiermethode hat dazu gefOhrt, daB haute eine Vielzahl von nur beschrankt anwendbaren Verfahren fOr Spezialfalle vorliegt. Sis alle aufzuzahlen, wird hier nicht angestrebt. Ein Oberblick soll einerseits helfen, die spater eingehender behandelten Parameteroptimierungsstrategien von den Obrigen Verfahren abzugrenzen, andererseits aber auch bestehende Zusammenhange aufzeigen. Als Schema wurde das GegenOberstellen von jeweils zwei kontraren Begriffen gewahlt. 2.2.1

Experimentelle Optimierung - mathematische Optimierung

Wenn der funktionale Zusammenhang zwischen den Variablen und der Zielfunktion unbekannt ist, dann 1st man gszwungen, entweder am realen Objekt oder an einem maBstabsgetreuen Modell mit gleichem Verhalten zu experimentieren. Dazu muB man die unabhangigen GraBen moglichst frsi einstellen konnen und Ober geeignete MeBinstrumente verfOgen, mit denen die abhangige Variable, die GOte, gamessen warden kann. Systematisches Untersuchen aller moglichen Systemzustande wird bei vielen Variablen zu aufwendig sein, wahlloses Durchprobieren verschiedener Kombinationen zu unsicher im Hinblick auf das erzielte Ergebnis. Wesentlich wirksamer mOBts ein Handlungsschema sein, das die jeweils vorhandene Information Ober vorangegangene Versuche planmaBig ausnutzt. Saleh einen Plan nennt man auch Strategie. Der Begriff stammt aus der Spieltheorie1 von Neumann (1961) hat ihn gepragt. Mancha der spater noch zu erorternden Suchstrategien der mathematischen Optimisrung wurden auch untsr experimentellen Bedingungen eingesetzt - nicht immer

- 11 mit Erfolg. Ein wichtigss Charakteristikum des Experiments ist der unvermeidliche EinfluB von (stochastischen) Storungen auf die MeBergebnisse. Eine gute experimentelle Optimierungsstrategie muB diesem Umstand Rechnung tragen und mit moglichst geringem Versuchsaufwand das gesuchte Extremum annahern. Besonders zwei Methoden werden in diesem Zusammenhang haufiger genannt: die von Box (1957) vorgeschlagene EVOP-(evolutionary operationJ-Methode, eine Weiterentwicklung des experimentellen Gradientenverfahrens von Box und Wilson (1951); - die von Rechenberg (1964) entworfene Strategie der kUnstlichen Evolution. Oer Algorithmus der Evolutionsstrategie von Rechenberg wird in Kapitel 5 ausfUhrlich behandelt. Im experimentellen Bereich wurde er vielfach mit Erfolg, beispielsweise zur Losung vielparametriger Formgebungsprobleme eingesetzt (Rechenberg, 1973). Alle Variablen werden gleichzeitig um kleine zufallige Betrage geandert. Die

~nderungen

sind normalverteilt. Oer Erwartungswert des

Zufallsvektors ist Null. MiBerfolge lassen den Ausgangspunkt unverandert, nur Erfolge werden Ubernommen. Stochastische Storungen, hervorgerufen durch MeBfehler, beeinflussen nicht die Sicherheit, jedoch - je nach ihrer Starke die Schnelligkeit der Konvergenz. Rechenberg gibt fUr beida Falls, den ungestorten und den gestorten, Regeln zur optimalsn Steuerung der Wahrscheinlichkeitsdichteverteilung der Zufallsanderungen an. Die EVOP-Strategie verandert jeweils nur zwei oder drei, moglichst die einfluBstarksten, Parameter. Um einen Ausgangszustand als Mittelpunkt wird sin Quadrat oder WUrfel konstruiert, an dessen 2 2 bzw. 23 Ecken die Versuchspunkte sines Zyklus liegen. Diese deterministisch festgelegten Zustande warden der Reihe nach getestet, bei Storungen mehrfach. Der Zustand mit dem besten Ergebnis wird zum Mittelpunkt des nachsten Punktmusters. Unter Umstanden andert man auch die Skalierung der Variablen oder tauscht einen oder mehrere Parameter gegsn andere aus. Einzelheiten der insgesamt heuristischsn Vorgehensweise beschreiben z.B. Box und Draper (1969), Angewendet hat man die Methode hauptsachlich zur dynamischen Optimierung chemischer Prozesse. Experimentiert wird am realen Dbjekt, mitunter Uber mehrere Jahre hinweg. Das GegenstUck zur experimentellen ist die mathematische Optimierung. Der funktionale Zusammenhang zwischen GUtekriterium und Variablen ist - zumindest naherungsweise - bekannt; anders ausgedrUckt: es liegt ein mathematisches Modell des Dbjekts, Prozesses oder Systems vor. An die Stelle von Experimsnten

- 12 tri tt das rechnerische Man ipulieren mi t den Variab len und der Zielfunk tion. Mitun ter i st es leicht, ein mathematisches Mode ll aufzustellen, zum Beispiel, wenn die GesetzmaBigkeiten der beteiligten phys ikalischen Vorgange bekannt sind . Sind diese j edoch weitgehend unerforscht , wie es ha ufig bei biologischen oder okonomischen Proze ssen der Fal l ist, kann der Aufwand z ur Modellbildung den der anschlieBenden Optimierung erheblich ubersteigen. Je nachdem , ob man gezielt in den Proze B eingreifen kann oder nicht, muB ma n sich auf das Sammeln von anfallenden Oaten beschranke n oder kann durch sinnvolles Pl a nen und Auswer ten von Versuchen di e Zusammenhange

zwische~

unabhan -

gigen und abhangigen Variablen aufdecken. Entsprechende Methoden (Cochran und Cox (1950), Kempthorne (1952 ) , Davies (1954), Cox (1956), Fis he r (1 966) , Vajda (1967) , Yates (1967 ) und John (1971)) wurden zue r st nur in der Landwirtschaft, spater aber auch im i nd us triellen Bereich angewendet . Oa man bestrebt sein wird , mit m6glichst wenig Versuc hen ein m6glichst gutes Mode ll zu bi lden, stellt solch eine Analyse, ebenso wie die folgende Synthase, selbs t eine Optimierungsaufgabe dar. Wa ld (1966) empfie hlt daher , sequentiel l vorzugehen , d. h. aus ersten Experimenten oder aus gegebener a-priori -Information ein Modeil al s Hypothese aufzubauen und es stufenweise durch weitere

Versuchsserie~

zu verbes-

sern , gagebenenfalls a uch zu verwerfen. Oas Anpassen der Mode llparameter an die MeBdaten kann i nsof ern a ls Optimierpr oblem aufgefaBt warden, als die Fehlarerwartung oder das maxima le Ris i ko minimiert werden sell . Es handalt sich um den Spezialfall de r Ausgleichsrachnung bzw . bei fehlerbehafteten Oa ten um statistische Prufverfahren wie Regressions - und Varianzanalyse, die mi t den Prinzipien der maximum-li kel ihood oder minimum-x 2 a rbeiten (siehe Heinhold und Gaede, 1972). Oer Aufwand z ur Modellbildung kann bei graBen Systamen mit vie l en Vari abl e n oder auch sehr kompliziarten Obje kten so r iesig werden, daB man es vorzieht, den gewunschten optimal e n Zustand durch direkte Veranderung der Proze Bparameter einzustellen, a lso experimental! zu opt imieren . DaB man uberhaupt bestrebt ist , das Verhalten eines Objekts oder Systems zu ana l ysieren , liegt begrundet in der Hoffnung, die Vo rgange so besser varste hen und das Syntheseproblem allgemeiner losen zu konnen, als es im Fal l der e xparimente l lan, an ein.e bestimmte Situation gebundanen , Op timierung mogl ich i s t . Ist as gelungan, ain mathama tisches Modell des betrachtetan Systems aufz ustellen, dann formu liert man die Optimiarungsa ufgabe in dar Schreibweise der

- 13 -

Mathematik etwa so: f(xJ = f(x 1 , x2 , ••• , xnl + Extr. Die runden Klammern symbolisieren den funktionalen Zusammenhang zwischen den n unabhangigen Variablen {x 1 , i = 1(1Jn} und der abhangigen Variablen F, der GOte od.er Zielfunktion. Sie 1st stets eine skalare GroBe. Die Variablen konnen Skalare oder Funktionen eines oder mehrerer Parameter sein. Db ein Maximum oder Minimum gesucht 1st, spielt fOr die Dptimiermethode keine Rolle aufgrund der Beziehung Max {F(xJ}

= -Min

{-F(x)}

Ohne die Allgemeinheit einzuschranken, kann man sich auf sine dar Teilaufgaben ·konzentrieren, meist wird das Minimumproblem betrachtet. Einschrankungen ergeben sich aber insofern, als die Variablen bei vielen praktischen Aufgaben nicht beliebig gewahlt warden kennan. Man nennt sie Nebenbedingungen oder Restriktionen. Die einfachsten unter ihnen sind die Nicht-Negativitats-Bedingungen:

0 fOr 1 = 1(1Jn In allgemeiner Form formuliert man sie ahnlich wie die Zielfunktion: xi~

Gj(xJ = Gj(x 1 , x2 , .... xnl [

~]

fOr

0

j

= 1(1Jm

Die hier gewahlte Schreibweise entspricht der in dar Parameteroptimierung Dblichen. Man unterscheidet zwischen Gleichungen und Ungleichungen. Jede Restriktions-Gleichung reduziert die Zahl dar echten Variablen des Problems urn EinsJ Ungleichungen hingegen verkleinern nur den zulassigen Losungsbereich, ohne seine Dimension zu verandern. Die Richtung des Vorzeichens ist nicht kritisch. Analog zur Umkehrung von Minimum- und Maximumaufgabe kann man auch hier beida Typen durch Vorzeichenumkehr ineinander OberfOhren. Es genOgt, sich auf sine Formulierung zu beschranken, bei Minimumaufgaben ist dies Ob1icherweise der Typ Gj(xJ

~

o.

Punkte am Rand des (geschlossenenJ zulassigen Bereichs sind

dabei erlaubt. Eine andere Situation ergibt sich, wenn die Restriktion durch eine strikte Ungleichung dar Art Gj[xJ > 0 gegeben ist.

1st das zulassige

D~nn

Gebiet offen, und Randwerte sind ausgeschlossen. Liegt fOr Gj(xJ sonst gleichen Bedingungen das Minimum auf dar Grenze Gj(xJ

=

~

0 unter

0, so gibt es

fOr G (x) > 0 kein eigentliches Minimum. Man spricht hier von einem Infimum, j

der groBten unteren Grenze, fOr die gerade Gj(xJ

=

0 wird. In analoger Weise

unterscheidet man zwischen Maxima und Suprema (kleinste obere Grenzen).

- 14 2.2.2

Statische Dptimierung - dynamische Dptimierung

Von statischer Optimierung spricht man, wenn das Optimum zeitinvariant ist, Es genOgt, seine Lage und GroBe einmal zu bestimmen, Die Suche ist mit· dam Auffinden des Extremums beendet, In vielen Fallen kann man nicht alle Variablen, welchs die Zielfunktion beeinflussen, kontrollieren. Dann kommt es vor, daB die nicht steuerbaren GroBen sich mit dar Zeit verandern und das Optimum verlagern, Ziel dar dynamischen Dptimierung ist es daher, einen optimalen Zustand gegenOber zeitlich sich andernden Umweltbedingungen aufrechtzuerhalten, Die Suche nach dam Extremum wird zu einem OauerprozeB, Je nachdem, wie schnell sich das Optimum verlagert, kann es notwendig sein, statt des langsamen NachfOhrens der unabhangigen Variablen von Hand - wie es zum Beispiel bei Verwendung des EVDP-Verfahrens (siehe Kapitel 2,2,1) Oblich 1st - diese Aufgabe einem Automaten zu Obertragen. Zusammen mit dam ProzeB bildet der Automat einen Regelkreis. Im Gegensatz zu konventionellen Regelkreisen soll hier aber nicht ein Sollwert gegenOber Storungen aufrecht erhalten warden, sondern derjenige (unbekannte, zeitabhangige) Sollwert ausfindig gemacht warden, welcher am gOnstigsten ist. Feldbaum (1962), Frankovic,

Petra~.

Skakala und Vykouk (1970) und

Zach (1974) beschaftigen sich eingehend mit derartigen automatischen Dptimierungssystemen, sag, Extremwertreglern oder Optimisatoren. Deren KernstOck ist in jedem Fall der SuchprozeB. FOr nur eine Variable (StellgroBel lassen sich viele Schemata entwerfen. Wesentlich komplizierter wird ein Dptimalwertkreis, wenn es um mehrere Parameter und deren Einstellung geht, Viele der Suchmethoden sind deswegen so aufwendig, wail sie keine a-prioriInformation Ober das Verhalten des zu steuernden Prozesses haben, Oarum ist man haute bestrebt, adaptive Regler zu bauen, die sich aus der im Laufe der Zeit gesammelten Information ein inneres Modell des Systems erstellen, sozusagen lernen, Dldenburger (1966) und eingehender Tsypkin (1970al befassen sich mit

dem Problemkreis lernender und selbstlernender Automaten. Von Adaption

(Adaptation) oder Lernen spricht man, wenn die

~nderung

der Regelcharakteristik

aufgrund von MeBwerten dar unbeeinfluBbaren EingangsgroBen des Prozesses auch StorgroBen genannt - erfolgt, Benutzt man die AusgangsgroBe (hier Zielfunktionl selbst, um den Regler anzupassen, dann handelt es sich um Selbstlernen oder Selbstadaption. Die zuletzt genannte Moglichkeit 1st sicherer, aber - wegen dar Zeitverzogerung - langsamer. Mit Lernvorgangen beschaftigt sich in allgemeinerer Form die technische Kybernetik, wobei durchaus BezOge zu natOrlichen Analoga gesehen oder sogar gesucht warden.

Ein Beispiel fOr

einen sich der Umwelt anpassenden Automaten ist der Homoostat von Ashby (1960),

- 15 -

Heute baut man aber nicht jedesmal einen eigenen Optimisator zur Losung sines bestimmten Problems. Vielmehr bedient man sich sogenannter ProzeBrechner, die fOr einen neuen Auftrag nur noch sin spezielles Programm benotigen. Mit ihnen kann man komplizierte und umfangreiche Aufgaben bewaltigen. Sis sind mit dem ProzeB Ober MeBfOhler und Effektoren gekoppelt in einem geschlossenen Kreislauf (on-line oder closed loop) (Levine und Vilis (1973), McGrew und Haimes (1974)). Der eigentliche Rechner arbeitet meist digital, so daB Analog/Digitalund Digital/Analog-Wandler am Eingang und Ausgang erforderlich sind. ProzeBrechner werden sowohl zur Konstanthaltung von ProzeBgroBen oder zur Aufrechterhaltung von Sollprofilen als auch zur Optimierung herangezogen. Im letzten Fall dient meist ein internes Modell (Rechnerprogramml zur Ermittlung der optimalen ProzeBparameter, wobei die augenblicklichen MeBdaten mit verwertet werden. ~ndert

sich die Lags des Optimums eines dynamischen Prozesses sehr schnell, so

wird es fOr die GesamtgOte immer wichtiger, auf welchem Weg der SuchprozeB dem Extremum folgt. Man wird dann nicht umhin kommen, ein dynamisches Modell aufzustellen und alle Variablen, einschlieBlich der steuerbaren, als Funktionen der Zeit aufzufassen. Die ursprOngliche Parameteroptimierung geht Ober in sine Funktionenoptimierung. 2.2.3

Parameteroptimierung - Funktionenoptimierung

Wenn nicht nur die Zielfunktion, sondern auch die unabhangigen Variablen skalare GraBen sind, spricht man von Parameteroptimierung. Gesucht sind diejenigen Zahlenwerte {x~1 ~

i = 1(1Jn}

der Variablen (Parameter), fOr die der Wert der Zielfunktion sin Optimum F* = F(x*l = Extr {F(xl} annimmt. Die Zahl der Parameter, die einen Zustand des Objekts oder Systems kennzeichnen, ist endlich. Im einfachsten Fall nur einer Variablen (n=1l veranschaulicht man sich den Verlauf der Zielfunktion gern anhand sines Diagramms mit zwei zueinander rechtwinkligen Koordinatenachsen. Auf der Abszisse wird der Parameterwert und auf der Ordinate der Wert der Zielfunktion aufgetragen. Der funktionale Zusammenhang drOckt sich in einem Kurvenzug aus. FOr n=2 wird bereits sin dreidimensionales kartesisches Koordinatensystem benotigt. Der Systemzustand wird als Punkt in der Ebene, der Zielfunktionswert als Hohe senkrecht daruber dargestellt. Man erhalt ein dreidimensionales Gebirge, dessen Oberflache die Zuordnung zwischen unabhangigen und abhangigen Variablen ausdrOckt. Urn die Darstellung weiter zu vereinfachen, projiziert man die Schnitt-

- 16 kurven des Gebirges mit parallelen, senkrecht zur Hohenkoordinate verlaufenden Ebenen in die Zustandsebene und gewinnt so sin Hohenlinienmuster der Zielfunktion. Aus diesem dreidimensionalen Bild und seiner zweidimensionalen Projektion Obertragt man Begriffe wie Gipfel, Plateau, Tal, Grat und Hohenlinien gern auch auf den n-dimensionalen Fall, der sich der Anschaulichkeit und dem Sprachschatz sonst weitgehend entzieht. Bei der Funktionenoptimierung geht es darum, anstelle optimaler Punkte im n-dimensionalen euklidischen Raum optimale Trajektorien in Funktionenraumen (z.B. Banach- oder Hilbertrauml zu bestimmen. Man spricht daher auch von unendlich-dimensionaler Dptimierung im Gegensatz zur endlich-dimensionalen Parameteroptimierung. Oa die gesuchten Variablen selbst Funktionen eines oder mehrerer Parameter sind, wird die Zielfunktion zur Funktionenfunktion, zum Funktional. Die klassische Aufgabenstellung, diejenige ebene Kurve zu bestimmen, langs der sin Massenpunkt unter dem EinfluB der Schwere in kOrzester Zeit reibungsfrei von einem zu einem zweiten Punkt gleitet, (bekannt als Problem der Brachistochrone,) kann mit den Mitteln der einfachen Variationsrechnung behandelt warden (Courant und Hilbert (1968a,b), Denn (1969), Clegg (1970)), Wenn die gesuchten Funktionen von mehreren Parametern abhangen, dann handelt es sich urn mehrdimensionale Variationsaufgaben (Klotzler, 1970). In vielen Fallen fungiert die Zeit t als einziger Parameter. Meist ist die 'Zielfunktion ein Integral, in dessen Integrand nicht nur die unabhangigen Variablen x(t)

=

{xi(t); 1

=

1(1)n}

sondern auch deren partielle Ableitungen x1 (tl und eventuell noch der Parameter t selbst explizit auftauchen: F(x(t J J =

tz

J f{x(t),xt(t),t}dt

~ Extr.

t1 Solche Aufgaben sind typisch fOr die Kontrolltheorie, bei der es darum geht, optimale Steuerfunktionen fOr Regelungsprozesse zu finden (z.B. Chang (1961), Lee (1964), Leitmann (1964), Hestenes (1966), Balakrishnan und Neustadt (1967), Karreman (1968) und Demyanov und Rubinov (1970)). Wahrend die Variationsrechnung und deren Weiterentwicklung die mathematischen Grundlagen der Funktionenoptimierung (in der Sprache der Regelungstechnik: Optimierung mit verteilten Parameternl liefert, basiert die Parameteroptimierung (konzentrierte Parameter) auf der Theorie der Maxima und Minima aus der einfachen Oifferentialrechnung, Daher haben beide Teilgebiete eine unterschied-

- 17 liche Entwicklung durchgemacht und sich zu fast eigenstandigen Disziplinen entfaltet, Eine BrOcke schlagt neuerdings dar funktionalanalytische Ansatz von Dubovitskii und Milyutin (siehe

Girsan~v,

1972), dar beida Aufgabenstellungen

als Spezialfalle eines Grundproblems zu behandeln gestattet und somit zu einer allgemeinen Theorie dar Optimierung fOhren k6nnte. So unterschiedlich

die theo-

retischen Grundlagen auch sein m6gen, in praktisch bedeutsamen Fallen muB zur Losung ein Rechner herhalten, und die iterativen Methoden sind dann weitgehend die gleichen. Eine von ihnen 1st die dynamische Programmierung oder Stufenoptimierung von Bellman (1967). UrsprOnglich war sie gedacht zur Losung wirtschaftlicher Problame, bei denen zeitabhangige Variable zu fixierten Zeitpunkten stufenweise zu verandern sind. Es handelt sich um eine diskrete Form dar Funktionenoptimierung, bei dar die gesuchte Trajektorie als Treppenfunktion auftritt. Auf jeder Stufe ist eine Entscheidung zu treffen, deren Folge auch als Politik bezeichnet wird. Vorausgesetzt, der Zustand auf einer Stufe hangt nur von der Entscheidung auf ihr und dam Zustand vor ihr ab - d.h. es gibt keine ROckwirkung - dann laBt sich die dynamische Programmierung anwenden. Des Bellmansche Optimumprinzip besagt, daB jades TeilstOck dar optimalen Trajektorie, des den Endpunkt mit einschlieBt, ebenfalls optimal 1st. Darum beginnt man mit der Optimierung dar letzten Entscheidung beim Obergang von dar vorletzten zur letzten Stufe. Haute wird die dynamische Programmierung vielfach zur Losung diskreter Problema dar optimalen Steuerung und Regelung eingesetzt (Gessner und Spremann (19721, Lerner und Rosenman (1973)), Ihr Vorteil gegenOber anderen, analytischen Methoden besteht darin, daB man ihren Algorithmus in ein fOr Digitalrechner geeignetes Programm fassen kann und somit auch umfangreiche Aufgaben zu bewaltigen vermag (Gessner und Wacker, 1972). Bellmans Optimumprinzip laBt sich aber auch in differentieller Form darstellen und auf einen Teilbereich dar kontinuierlichen Funktionenoptimierung anwenden (Jacobson und Mayne, 1970), Auf Problema dar Parameteroptimierung kann man des Prinzip dar Stufenoptimierung Obertragen, wenn die Zielfunktion separierbar 1st (Hadley, 1969lJ des heiBt, sie muB sich als Summa von Teilzielfunktionen ausdrOcken lassen, in denen jeweils nur eine oder wenige dar Variablen auftauchen. Die Anzahl der Stufen (kl entspricht dar Zahl dar Teilfunktionen1 entschieden wird jeweils nur Ober die am Teilziel beteiligten (ll Variablen. Man nennt sie auch Kentroll- oder Dezisionsvariable. Nebenbedingungen (Anzahl ml im Form von Un-

- 18 -

glaichungan lassen sich barUcksichtigan, Man l!!Bt die Rastriktionsfunktionan abanso wia die Variablan andlich vials (b) diskrata Warts annahman und be· zaichnat sia als Zustandsvariabla. Auf die Rakursionsformaln fUr die Stufanoptimierung soll hiar nicht aingagangan warden. Nur die Anzahl dar arforderlichan Rachanoparationan (n) sai noch arw!!hnt. Sie ist greBanordnungsmaBig: N "' k • b(m+ll Aus diasam Grund blaibt die Brauchbarkait dar dynamischan Programmiarung im wasantlicha.n auf dan Fall 1=1, k=n und m=1 baschrankt. Dann wird auf jadar dar n Stufan nur aina Kontrollvariabla unter BarUcksichtigung ainar Nabanbadingung fastgalagt. Im anderan Granzfall, daB alla Variablan auf ainar Stufe zu bastimman sind, - dam Normalfall der Paramataroptimiarung - geht das Verfahran Uber in aina Rastarmathoda (vollstandiga Enumeration) mit einam Rechenbadarf von dar Drdnung D(bn+m), Daraus arklart sich ihra Fahigkait, globale Optima auch bai kompliziartan multimodalan Zialfunktionan lokalisiaran zu kennan. Von spaziallam Vortail ist sia abar nur, wann die Struktur dar Zielfunktion es arlaubt, die Enumeration auf ainan klainen Tail des zulassigan Bareichs zu baschrankan. Digitalrachner aignan sich schlacht zur Losung kontinuiarlicher Aufgaban, wail sia nicht mit Funktionan dirakt operiaran konnen. Numerische Intagrationsvarfahran sind zwar megliqh, abar aufwandig. Basser gaaignet sind Analograchnar, weil sie dynamische Vorganga direkt abbildan kennan. Sie haban jadoch ainan geganOber Digitalrechnern kleinan Zahlen- und Ganauigkaitsbereich und sind nicht in so

einfac~ar

Weise programmierbar. Darum koppalt man

haute Digital- und Analograchner fOr bastimmta Aufgaban zu sogananntan Hybridrechnarn. Mit solchan Anlagen lassen sich Diffarantialgleichungssysteme ebenso anpacken wie Aufgaben dar Funktionanoptimiarung {Volz, 1973), Der Digitalrachner Ubarnimmt die Stauerung der Itarationan, und auf dam Analogrechnar warden die Differentiations- und Intagrationsoparationen gemaB den vom Digitalrachnar galiafartan Paramatarn durchgafUhrt. Korn und Korn {1964) sowie Bekey und Karplus {1971) baschraiben die Modalitatan der

Trajaktorianoptimierung und

dar Losung von Diffarentialgleichungan mittals Hybridrechnarn. DaB fOr solche Aufgaban oftmals Zufallsmathodan varwandat werden, hangt mit dar Rechenunganauigkait des Analogtails zusammen, womit daterministischa Varfahran maist nicht fartig warden. Wann sehr hoha Ganauigkeitsforderungen gastallt warden, muB man allardings zum rein digitalan Rachnan Obergahen1 das gaht zu Lasten dar Rachanzeit,

- 19 2.2.4

Direkte (numerische) Dptimierung - indirekte (analytischel Optimierung

Die Einteilung mathematischer Dptimierungsmethoden in direkte und indirekte Verfahren wird Edelbaum (19621 zugeschrieben. Als direkt oder numerisch bezeichnet man Methoden, die die Losung schrittweise (iterativl

ann~hern,

wo-

bei dar Wert dar Zielfunktion von Mal zu Mal verbessert wird. Indirekt oder analytisch heiBt eine Vorgehensweise, die versucht, das Optimum mit einem Schritt, ohne Proben oder Versuche, anzugeben. Sie basiert auf dar Analyse dar besonderen Eigenschaften dar Zielfunktion an dar Stelle des gesuchten Extremums. Im einfachsten Fall, dar Parameteroptimierung ohne Nebenbedingungen, geht man von dar Tatsache aus, daB die Tangentialebene im Optimum horizontal verlauft, d.h. die ersten partiellen Ableitungen dar Zielfunktion verschwinden:

Ll

ax i x=x* =

Mit dam Nabla-Operator

o

fur

i

= 1(1Jn

(2.1 J

sich dieses System von Bedingungsgleichungen in

l~Bt

einer Vektorgleichung zusammenfassen: VF(x*l

=0

•

(2.2)

Voraussetzung fur die Gultigkeit ist, daB alle Ableitungen an dar Stelle x* existieren, die Zielfunktion also stetig differenzierbar ist. Jede Unstetigkeitsstelle kann, ohne daB die genannten Bedingungen fur sie zutreffen, ebenfalls ein Extremum sein. Andererseits muB nicht jeder Punkt im Rn, dar die Bedingungen (2.11 erfullt, sin Minimum sein. Es kann sich auch urn sin Maximum oder einen Sattelpunkt handeln. Man sagt, (2.21 sei sine notwendige Bedingung fur die Existenz eines Minimums. Hinreichende Bedingungen anzugeben, erfordert weitere Differentietionsprozesse. Und zwar muB so lange differenziert werden, bis die Determinants der Matrix der zweiten oder hoheren partiellen Ableitungen an dar Stelle x* sinmal verschieden von Null wird. Bei nur einer Variablen liegen die Dings noch einfach. Hier kommt as darauf an, daB die Ableitung geringster Ordnung, die gerade nicht mehr verschwindet, positiv und ihre Drdnungszahl gerade ist. Dann und nur dann handelt as sich urn ein Minimum. Ist sis negativ, so stellt x* sin Maximum dar. Ein Sattelpunkt liegt vor, wenn die Ordnungszahl ungerade ist. Bei n Variablen mussen mindestens die i(n+1l zweiten partiellen Ableitungen a2FCxl axiaxj

fur

i,j • 1(1Jn

an der Stelle x* ex~st±ereh, Die Determinants dar Hesseschen Matrix v2F(x*l

- 20 muB positiv sein und ebenso weitere (n-1) Hauptabschnittsdeterminanten dieser Matrix, W!!hrend Maclaurin bereits 1742 die hinreichenden Bedingungen fOr die Existenz von Minima und Maxima einparametriger Funktionen vollstandig formulierte, wurde die entsprechende Theorie fOr Funktionen mehrerer Variabler erst fast 150 Jahre spater von Schaeffer (18B6l und Stolz (1693) (siehe auch Hancock, 1960) komplettiert. Hinreichende Konditionen lassen sich nur zur OberprOfung einer Losung verwenden, die aus den notwendigen Bedingungen ermittelt wurde. Dar analytische Wag fOhrt die ursprOngliche Optimierungsaufgabe also stets auf des Problem dar Losung eines Systems von simultanen Gleichungen (2,2) zurOck. Ist die Zielfunktion von zweiter Ordnung, hat man ein lineares System vor sich und kann es mithilfe einer dar in dar linearen Algebra Oblichen Methoden losen. Selbst dann, wenn man nicht-iterative Verfahren wie den GauBschen Eliminationsalgorithmus oder die Matrix-Zerlegungsmethode von Cholesky verwendet, 1st dies nicht mit einem Rechenschritt zu mechen, Die Zahl dar Rechenoperationen wachst vielmehr mit O(n 3J. Mit schnellen Digitalrechnern kann man zwar Gleichungssysteme mit tausend Variablen noch ohne weiteres losen1 die unvermeidlichen Rundungsfehler bringen es aber mit sich, daB keine vollkommene Exaktheit erreicht wird (Brayden, 1973), Meist genOgt eine hinreichend gute Naherung, Hier erweisen sich (iterative) Relaxationsmethoden oft als ebenbOrtig oder sogar Oberlegen. Oas hangt im einzelnen von dar Struktur dar Koeffizientenmatrix ab, Ausgehend von einer Anfangsnaherung wird dar Fehler, gemessen an den Residuen dar Gleichungen, minimiert. Relaxationsverfahren sind also 1m Grunde Optimiermethoden, allerdings solche von spezieller Art, wail dar Wert dar Zielfunktion am Optimum 1m vorhinein bekannt 1st. Diese a-priori-Information kann man sich gewinn- bzw. ersparnisbringend zunutze mechen ebenso wie die Tatsache, daB alle Komponenten des Residuenvektors auch einzeln zu Null warden mOssen (z.B. Traub (1964), Wilkinson und Reinsch (1971), Hestenes (1973), Hestenes und Stein (1973)), Zielfunktionen mit transzendenten Terman oder Gliedern von hoherer als zweiter Ordnung fOhren auf nichtlineare Gleichungen als notwendige Existenzbedingungen fOr Extrema. Hier 1st des schrittweise Approximieren dar Nullstellen unumganglich, z.B. nach dar von Newton konzipierten Interpolationsmethode (Kapitel 3,1,2,3,2), Die Gleichungen warden in dar Umgebung des jeweiligen Naherungspunktes linearisiert, FOr die Korrekturglieder erhalt man dann lineare Beziehungen, Je Iterationsschritt ist demnach ein valles ·system von n linearen Gleichungen zu losen, Besser als diese· umstandliche Prozedur 1st

- 21 mitunter die Suche nach dam Minimum dar Funktion F' [xJ =

I (~) 2

1=1 311 1

mithilfe einer direkten Optimierungsmethode. Abgesehen davon, daB F'(xl nicht nur an dar Stelle des gesuchten Minimums von F(xl, sondern auch an deren Maxima und Sattelpunkten zu Null wird, kann sie zusatzlich von Null verschiedene Minima aufweisen, die fur die Losung des ursprunglichen Problems vollig uninteressant sind. Daher empfiehlt es sich oft, den Umweg uber die Bed_ingungsgleichungen (2.21 nicht zu gehen und F[xJ direkt zu minimieren. Nur in Spezialfallen fOhren indirekte Methoden schneller und eleganter zu L6sungen als direkte Verfahren. Das gilt zum Beispiel, wenn die notwendige Existenzbedingung fur Minima bei einer Variablen auf eine algebraische Gleichung fuhrt und Divisionsalgorithmen wie das Rechenschema von Horner benutzt warden kennan oder wenn Zielfunktionen in Form von sag. Posynomen vorliegen, fur die Duffin, Peterson und Zener (1967] die geometrische Programmierung entwarfen, eine ganz und gar indirekte Losungsmethode. Nebenbedingungen verkomplizieren die Verhaltnisse. Nur selten gelingt es, Restriktionen in Form von Gleichungen nach jeweils einer Variablen aufzuaus dar Zielfunktion zu eliminieren bzw. Restriktionen losen und diese in Form von Ungleichungen durch Substitution oder Transformation dar Variablen gegenstandslos zu machen.

Es

bleiben noch die Methoden dar begrenz-

ten Variation und dar Lagrangeschen Multiplikatoren, wenn man von Straffunktionen und den Verfahren dar mathematischen Programmierung absieht. Ganz ahnlich liegen die Verhaltnisse bei dar Funktionenoptimierung, nur daB hier die indirekten Methoden haute noch uberwiegen. Die Variationsrechnung liefert als Bedingungen fur Optima Differential- statt gewohnlicher Gleichungen, und zwar entweder gewohnliche (Euler-Lagrangeschel oder partielle (Hamilton-Jacobischel Differentialgleichungen. Nur in wenigen Fallen kann man solch ein System ohne weiteres nach den unbekannten Funktionen auflosen. Meist muB man auch hier die Hilfe sines Rechners in Anspruch nehmen. Db es gunstiger 1st, einen digitalen oder analogen Rechner zu verwenden, hangt von dar Aufgabenstellung ab. Hier stehen Geschwindigkeit gegen Genauigkeit. Vielfach erweist sich eine hybrids Anlage als besonders vorteilhaft. Wenn man aber nicht ganz auf analytischem Wage zur Losung gelangen kann, warum sollte man nicht auch bei dar Funktionenoptimierung von vornherein die direkte Vorgehensweise wahlen? In dar Tat kommt mit dar zunehmenden Kompliziertheit dar praktischen Aufg.aben dar numerischen Optimierung auch auf diesem

- 22 Gebiet eine immer grBBere Bedeutung zu, Dies belegen die neueren Arbeiten, wie z.B. die von Daniel (1969), der selbst able1tungsfreie Verfahren aus der Parameteropt1mierung auf die Dpt1m1erung von Funktionalen Obertragt. Wesentlicher Punkt dabe1 1st die D1skret1sierung bzw. Parametris1erung der ursprunglich kontinuierlichen Aufgabenstellung. Dies kann auf wenigstens zwei Weisen erfolgen: - durch Annaherung der gesuchten Funkt1onen mittels e1ner Summa geeigneter bekannter Funktionen oder Polynomen, so daB nur noch deren Koeffizienten zu bestimmen sind (Sirisena, 1973lJ - durch Annaherung der gesuchten Funktionen mittels Treppenfunktionen oder Polygonzugen, so daB nur noch Hohe und Lege der Obergangsstellen zu bestimmen sind. Die Umformung eines Funktionen- in ein Parameteroptimierungsproblem bringt den graBen Vorteil mit sich~ daB man von vornherein Digitalrechner einsetzen kann, urn die Losung numerisch zu ermitteln. Der Nachteil, daB das Ergebnis nur ein Suboptimum darstellt, fallt in der Praxis oft nicht ins Gewicht, weil die getroffenen Annahmen uber die Parameter des Prozesses ebenfalls nicht exakt zutreffen (Dixon, 1972a), Die experimentell gefundenen Zahlenwerte sind fehlerbehaftet oder unterliegen probabilistischen Unsicherheiten.

Komp~izierte

umfangreiche Funktionenoptimierungsaufgaben lassen sich ohnehin

ni~ht

und

durch-

gehend auf dem indirekten Weg losen. Die d1rekte Vorgehensweise kann entweder beim zu minimierenden Funktional ansetzen, wenn die Integration Ober die Ersatzfunktion ausgefuhrt warden kann (Methode von Rayleigh-Ritz), oder erst bei den notwendigen Bedingungen, den Differentialgleichungen, die das Optimum charakterisieren. Im zweiten Fall wird das Integral

e~setzt

durch eine endliche Summa

von ,Terman (Beveridge und

Schechter, 1970), In diesem·Zusammenhang warden gern Gradientenverfahren verwendet (Kelley (1962), Klessig und Polak (1973)), Wie 1m einzelnen vorzugehen 1st, hangt in sehr starkem MaB von den Nebenbedingungen des Problems ab. 2.2.5

Dptimierung mit Nebenbedingungen - Optimierung ohne Nebenbedingungen

Zur Behandlung von Optimierungsaufgaben mit Nebenbedingungen sind spezielle Techniken entworfen worden. Bei der Parameteroptimierung sind dies die Verfahren der Straffunkt1onen und der mathematischen Programmierung. Im ersten Fall wird e1ne modif1z1erte Z1elfunkt1on aufgestellt, - die bei Minimumaufgaben im unzulassigen Bereich den Wert F (x l = +., erh!:ll t, 1m zulassigen Bereich dagegen unverandert bleibt ('barrier'-Methoden, z.B. Evolutionsstrategie, siehe Kap1tel Sl1 - die nur in der N!:lhe der Grenzen im Inneren des zulassigen Bereichs von F(xl

• 23 •

verschiedene Werts ergibt und so fOr ein Fernbleiben der Suche vom Rand sorgt (partial penalty functions, z,B, Rosenbrocks Strategie, sieheKapitel 3.2.1.3lJ - die im ganzen von den Variablen aufgespannten Raum verschieden von F(x] ist (global penalty functions], Am weitesten verbreitet ist die zuletzt genannte Art, Nebenbedingungen in Form von Ungleichungen zu behandeln, Die wesentlichen Ideen hierzu stammen von Carroll (1961] (created response surface technique] und·von Fiacco und McCormick (1964]

(SUMT-sequential unconstrained minimization technique]. FOr das Problem -+ Min ~0

fOr

j

1(1Jm

=0

fOr

k

1 (1]1

lautet die Straffunktion etwa F' (x]

Die Koeffizienten wj und wk sind Gewichtsfaktoren fOr die einzelnen Nebenbedingungen, und r ist sin freier Parameter. Das Optimum von F'(x] wird von der Wahl

fOr r abhangen, und so ist es notwendig, r stufenweise zu verandern.Das

ursprOngliche Extremwertproblem wird somit aufgelost in eine Folge von Dptimierungen mit allmahlich abnehmenden Werts" r -+ 0. So kann man hoffen, zumindest gute Naherungen fOr das gesuchte Minimumproblem innerhalb einer endlichen Optimierungssequenz zu finden, Die Wahl geeigneter Werte fOr r bereitet allerdings Schwierigkeiten. Fiacco und McCormick (1968,1974] geben Hinweise dazu und nennen auch weitere Moglichkeiten fOr Straffunktionsmodelle. Angewendet warden diese Verfahren in der Regel im Rahmen von Gradientenmethoden, Dhne Modi fikation der Zielfunktion, aber mit veranderter Richtungswahl, sobald sine Restriktion verletzt wird, arbeiten das 'hemstitching'-Verfahren und die Methode des 'riding-the-constraints' von Roberts und Lyvers (1961 J, Sie orientieren sich am Gradienten der Zielfunktion und an den Ableitungen der Restriktionsfunktionen (Jacobische Matrix J. Beim 'Hohlsaumsticken' (hemstitching] wird immer wieder ins zulassige Gebiet zurOckgegangen, beim 'Reiten der Restriktionen' (riding the constraints] verlauft die Suche entlang den aktiven Grenzen. In den zulassigen Bereich zurOckgesetzt warden die Variablen bei der Complex-Methode von Box (1965], einer direkten Suchstrategie, wenn explizite Grenzen verletzt warden. Implizite Restriktionen warden dabei als Schranken (barriers] behandelt (siehe Kapitel 3,2,1,6],

- 24 -

Die Methoden der

m~them~tischen

(line~ren

und nichtlineerenl Programmierung

behandeln die Nebenbedingungen els _den wesentlichen Tail der Aufgabenstellung, Sie wurden speziell 1m Rehman der Unternehmensforschung (operations research J entwickelt (MOller-Marbach, 1971) und gehen von der Annahme aus, daB alle Variablen stets positiv sein mOssen.•Solche Nichtnegativitatsbedingungen gestatten es, spezielle Losungsverfahren zu entwerfen. Die

einf~chsten

Madelle

wirtschaftlicher Prozesse sind linear. Oft stehen keine besseren zur VerfOgung. HierfOr entwickelte Dantzig (1966) die Simplexmethode der linearen Programmierung (siehe auch: Krelle und KOnzi (195BJ,Hadley (1962) und Weber (1972)), Die linearen Restriktionen zusammen mit den Vorzeichenbedingungen fOr die Variablen spannen das zulassige Gebiet in Form sines Polygons (fOr n=2l bzw. sines Polyeders auf. Da auch die Zielfunktion linear 1st, muB das gesuchte Extremum- Sonderfalle ausgenommen- in einerEcke des Polyeders liegen. Es genOgt also, diese zu inspizieren. Das Simplexverfahren von Dantzig tut dies in besanders okonomischer Weise, weil jeweils nur noch

diejenigen Ecken in Betracht

gezogen warden, in denen die Zielfunktion einen noch besseren Wert hat. Man kann es sogar als Gradientenverfahren entlang den Polyederkanten auffassen. Es laBt sich_ohne weiteres fOr viele hundert bis tausend Variable und Nebenbedingungen noch anwenden. FOr sehr groBe, eventuell besonders strukturierte, Aufgaben sind auch spezielle Methoden entwickelt worden (KOnzi und Tan (1966), KOnzi (1967 J J. Dazu gehoren die revidierte und die duals Simplexmethode, die Mehrphasen- und die Duoplexmethode sowie Dekompositionsalgorithmen. Eine unangenehme Eigenschaft linearer Programme 1st es, daB die Losung mitunterdurch nur kleine Anderungen der Koeffizienten in der Zielfunktion oder den Restriktionen sehr stark verandert wird. Um solche Abhangigkeiten herauszufinden, sind Methoden der parametrischen linearen Programmierung und die Sensitivitatsanelyse (Dinkelbach, 1969) entwickelt worden. Die meisten Strategien der nichtlinearen Programmierung ahneln dem Simplexverfahren oder verwenden es als Unterprogr11mm (Abadie, 1972). Dies gilt insbesondere fOr die Methoden der quadratischen

Progr~mmierung,

die fOr qul!dratische Zielfunk-

tionen und line11re Restriktionen gedacht sind. Die Theorie der niohtlinearen Programmierung bl!siert 11uf den von Kuhn und Tucker (1951 J entwickel''ten Optim~li tl!tsbedingungen, einer Erweiterung der Theorie der M~xima und Minima auf Problema mit Nebenbedingungen in Form von Ungleichungen. Geometrisch gedeutet lauten sie: 1m Optimum (in einer Ecke des zulassigen Bereichsl J liegt der Gradient der Zielfunktion innerhalb des Kegels, der aus den ·Gradienten der aktiven Restriktionen

- 25 gebildet wird. Dies iat zunMchst nur eine notwendige Bedingung, Hinreichend ist sie unter gewissen Vor!lussetzungen, die die Struktur dar Ziel- und Restriktionsfunktionen betreffen. Bei Minimumllufgllben m11ssen die Zielfunktion und das zulaseige Gebiet konvex, die Nebenbedingungen lllso konkllv sein, Mlln nennt solch eine Aufgabe auch konvexes Programm. Letzten Endes tr!lnsformiert das Kuhn-Tucker Theorem ein konvexes Programm in eine aquivalente Sattelpunktaufgabe (Arrow und Hurwicz, 1956], wie das auch bei dar Lagrangeschen Multiplikatorenmethode f11r Nebenbedingungen in Form von Gleichungen der Fall 1st. Eine vollstandige Theorie fur Gleichungsrestriktionen stammt von Apostol (1957]. Die nichtlineare Programmierung 1st daher nur auf konvexe Dptimierungsaufgaben anwendbar, wobei man- wenn man exakt sein will- sieben Arten dar Konvexitat voneinander unterscheiden muB (Ponstein, 1967], AuBerdem wird meist stetige Differenzierbarkeit aller beteiligten Funktionen verlangt und die analytische Vorgabe ihrer partiellen Ableitungen. Im folgenden sollen die Methoden der mathematischen Programmierung nicht wei tar betrachtet werden. Es gibt zu diesem Theme eine sehr umfangreiche Literatur, von der nur die Bucher von Arrow, Hurwicz und Uzawa ( 1956], Zoutendijk (1960], Vajda(1961], Kunzi, Krelle undDettli (1962], Kunzi, Tzschach und Zehnder (1966, 1970], Kunzi und Krelle (1969], Zangwill (1969], Suchowitzki und Awdejewa (1969], Mangasarian (1969], Stoer und Witzgall (1970], Whittle (1971], Luenberger (1973] und Varga (1974] genannt seien, Kappler (1967] betrachtet einige dar Verfahren vom Standpunkt dar Gradientenmethode aus,, Kunzi und Oettli ( 1969] gab en einen Oberblick uber die in letzter Zeit neu hinzugekommenen oder erweiterten Verfahren nebst einer umfangreichen Bibliographie. FortranProgramme findet man bei McMillan (1970], Kuester und Mize (1973] und Land und Powell (1973], In der Kontrolltheorie sind salcha Optimumaufgaben besonders wichtig, bei welchen dieNebenbedingungen (zum Tail] durch Differentialgleichungen gegeben sind. Man nennt sie auch nicht-holonome Restriktionen. Pontrjagin, Boltjanskij, Gamkrelidze und Mis~enko (1967] haben fOr diese Aufgabenstellung notwendige Bedingungen filr die Exietenz von Optima angegeben. Ihr Trick war die Differenzierung zwischen den gesuchten freien Steuerfunktionen undden gemaB Nebenbedingungen gebundenen Drts- oderZustandsfunktionen. Dbwohl diese Theorie breiten Eingang in die analytische Betrachtung von optimalen Steuerungsprozessen gefunden hat,

muB

man von GlOcksfallen eprechen, wenn praktische Problema auf diese Weise einer exakten Uleung zugef11hrt warden kllnnen. Meistens muB mlln schlieBlich doch zu nume-

- 26 rischen Nl!herungsverfahren greifen, urn die gesuchten Optima zu ermitteln (z,B, Balakrishnan und Neustadt (1964,1967), Rosen (1966), Leitmann (1967), Kopp (1967), Mufti (1970), Tafiak (1970}, Canon, CullumundPolak (19701, Tolle (1971), Unbehauen (1971l,Boltjanski (1972), Luenfierger (1972), Polak (1973)), 2,3

Diskrete und stochastische Optimierung sowie waiters Spezialfalle

GemaB dar Art dar Variablen gibt as notl:h wei tare Spezialgebiete dar mathematischen Dptimierung. So kBnnen bei der Parameteroptimierung die Variablen mitunter beschrankt sa in auf diskrete oder ganzzahlige Warts. Im Extremfall darf sin Parameter nur noch zwei verschiedene Werts, Null und Eins, annehmen, Auch gemischte Variablentypen kennan in einar Aufgabe vorkomman. Man spricht daher von diskreter, ganzzahliger, binl!rer oder Null·Eins- und gemischt·ganzzahliger Optimierung, Die Mehrzahl dar ausgearbeiteten Losungsverfahren betrifft lineare ganzzahlige Aufgaben (z.B. Gomory, Balas, Beale), Eine wichtige GruppevonMethoden, die branch-and-bound Verfahren, beschreibt zum Beispiel Weinberg (1968). Man faBt sis gemeinsam mit dar dynamischen Programmierung unter dam Begriff der Entscheidungsbaum-Strategien zusammen. FOrden allgemeinen nichtlinearen Fall bleibt manchmal das Durchprobieran aller MBglichkeiten als letzter Ausweg. Man nennt diesa Art dar Dptimierung dann vollstandige Enumeration. Da dar Aufwand hierfur salten noch tragbar 1st, greift man auch auf heuristische Verfahren zuruck, mit denan man brauchbare, aber nicht unbedingt optimale, Losungen findet (Weinberg und Zehnder, 1969 l. Wieman in Sonderfallen geschicktar vorgehen kann, indem man zum Beispiel nicht-ganzzahlige Techniken dar linearen und nichtlinearen Programmierung verwendet, wird in den Werken von Korbut und Finkelstein (1971 l, Greenberg (1971 l, Plane und McMillan (1971 l, Burkard (19721, Hu (1972), Garfinkel und Nemhauser (1972,1973) beschrieben. Unter stochastischer Dptimierung versteht man das Losen von Aufgaben mit Zielfunktionen

und gegebenenfalls auch Restriktionen, die probabilistischen StB-

rungen unterworfen sind (Faber, 1970), Am einfachsten 1st es, wenn man salcha Problema auf deterministische zurOckfOhren kann, indem man zum Beispiel mit Erwartungswerten operiert, Es gibt aber auch Fragestellungen, bei denen die Wahrscheinlichkeitsverteilungen die OptimellBsungen wesentlich beeinflussen. Operationalle Methodan existieren bisher nur fOr apezielle Aufaabenstellungen, so zum Beispiel fOr Lagerhaltungsprobleme (Beckmann, 1971).

- 27 -

Eine bekannte Strategie fOr das sukzessive Auffinden der Nullstelle oder des Extremums einer Funktion, wenn gemessene Funktionswerte mit Unsicherheit behaftet sind, ist die stochastische Approximation (Wasan, 1969), Die ursprOngliche Idee stammt von Robbins und Monro (1951). Kiefer und Wolfowitz (1952) haben sie abgewandelt fOr Problema, bei denen nach dem Maximum einer unimodalen Regressionsfunktion gesucht wird, Blum (1954a) hat bewiesen, daB die Methode sicher konvergiert. Sie unterscheidet zwischen Probe- oder Tastschritten einerseits und Arbeitsschritten andererseits. Bei einer Variablen wird vom Punkt x(k) aus der Wert der Zielfunktion an den zwei Stellen x(k) ± c(k) ermittelt. Die daraus berechnete Steigung sei y(k) = F(x(k)+ c(k) J - F(x(k)_ c(k) J 2c (k) Dann wird ein Arbeitsschritt gemaB der Rekursionsformel (fOr Minimumsuche) x(k+1) = x(kJ _ 2a(k)Y(k) ausgefOhrt. Wichtig fOr die Konvergenz des Verfahrens ist die Wahl der (positiven) Zahlenfolgen c(k) und a(k). FOr sis gelten die Beziehungen lim

c(k)

-> 0

K->OD

'f

a

'f

a

k=1 k=1 k!1

(k)

(k)

c

(k)

[::::r

< co

< ..

Man wahlt zum Beispiel die Folgen: a(OJ (k) a

c

-k-

(k)

(0) c kD.25

Das heiBt. die Arbeitsschrittweite geht sehr viel schneller gegen Null als die Tastschrittweite, um den wachsenden EinfluB der Storungen zu kompensieren. Wie man diesen ProzeB auf mehrdimensionale Problema anwendet, beschreiben Blum (1954b) und Dvoretzky (1956). Die Steigung der Zielfunktion, sprich eine Naherung des Gradientenvektors, wird aus n + 1 Beobachtungan ermittelt. Sacks (1958) verwendet 2n Tastschritte. Man kann die stochastische

- 26 -

Approximation also gewisserma6en als spezielle Gradientenmethode auffassen, Es sind aber auch andere Grundstrategien vorgeschlagen worden, die von dar stochastischen Approximation nur die Schrittweitenwahl Dbernehmen, wihrend sie die Richtungen nach anderen Gesichtspunkten steuern. Thomas und Wilde (1964) kombinieren

zum Beispiel die stochastische Approximation mit dar Relaxations-

methode von Southwell (1940,1946), Kushner (1963) und Schmitt (1969) ziehen sogar Zufallsrichtungen in Betracht, Alle Konvergenzbeweise zur stochastischen Approximation setzen unimodale Zielfunktionen voraus. Ein weiterer Nachteil 1st, daB die Sicherheit gegen Storungen mit einem sehr hohen Aufwand erkauft wird, besonders, wenn die Zahl dar Variablen groB 1st. Wie viele Schritte zum Erreichen einer bestimmten Genauigkeit erforderlich sind, laBt sich nur sagen, wenn die

Wahrscheinlichkeitsdichtevert~ilung

dar stochastischen Storungen be-

kannt ist. Viele Autoren haben versucht, Methoden zu ersinnen, mit denen das Grundverfahren beschleunigt warden kann, z.B, Kesten (1958), dar die Schrittweiten nur dann reduziert, wenn ein Richtungswechsel dar Suche erfolgt, oder Odell (1961), dar die Langen dar Arbeitsschritte von gemessenen Werten dar Zielfunktion abhangig macht, Andere Versuche gehen dahin, den EinfluB dar St6rungen zu reduzieren (Venter (1967), Fabian (1967)), zum Beispiel dadurch, daB nur die Richtung, nicht aber die GreBe des Gradienten die Schrittweiten bestimmt. Verschiedene Anwendungsbeispieie beschreibt Bertram (1960), Neuere Arbeiten stammen von Krasulina (19721 und Engelhardt (1973), In dieser EinfDhrung wurden viele, aber langst nicht alle Klassen von denkbaren oder praktisch vorkommenden Optimierungsaufgaben und -methoden kurz gestreift. So wurde die gebrochen rationale Programmierung nicht erwihnt, ebensowenig wie graphische Losungsverfahren, Besonders in dar Unterneh~nsfor schung (Henn und KDnzi, 1968) gibt es viele spezielle Techniken zur Losung von Transport-, Zuordnungs-, Rundreise-, Warteschlangen- und Lagerhaltungsproblemen wie die Netzwerkplanung und andere graphentheoretische Verfahren. Unternornmenwurdedieser Exkurs in die Breite dar Optimierungsprobleme, wail einige dar im folgenden naher betrachteten Algorithmen - besonders unter den Zufallsmethoden von Kapitel 4 - ihren Ursprung und ihra Nomenklatur aus anderen Gebieten antlehnen, AuBerdem sollte geze11t warden, wie wait direkte Parameteroptimierungsmethoden oft in die Dbrigan Gabiata h1ne1nreichen und welchs· Querbeziehungen existteren, Ein Dbars1chtl1chaa Schema, wie alle die verschiedenen Bereiche m1te1nander zusammanhlngan, findat man bet Saaty (1970),

- 29 3

Hill-climbing Strategien

In diesem Kapitel sollen einige dar direkten mathematischen Parameteroptimierverfahren fur statische, nicht-diskrete, nicht-stochastische, im wesentlichen restriktionsfreie Problema eingehender behandelt warden. Man faBt sie auch unter dem Sammelbegriff hill-climbing Strategien (Wilde und Beightler, 1967) zusammen, weil ihre Vorgehensweise bei dar Suche nach einem Maximum weitgehend dar intuitiven Art eines (blinden) Bergsteigers entspricht, der sich von einem Tal aus zum hBchsten Gipfel eines Gebirges emportastet. Fur Minimumaufgaben kehrt sich nur dar Richtungssinn der Bewegungen um1 im ubrigen sind 'uphill'- und 'downhill'-Methoden (Bach, 1969) identisch. W!lhrend in der Unternehmensforschung die Me.thoden dar mathematischen Programmierung, in dar Kontrolltheorie die speziellen Verfahren zur Funktionenoptimierung vorherrschen, sind hill-climbing Strategien hauptsachlich dart verbreitet, wo es urn den Entwurf technischer Systems geht (engineering design), Analytische Methoden erweisen sich in diesem Bereich oft als ungeeignet, - wail die Voraussetzungen, unter denen man notwendige Bedingungen fur Extrema angeben kann, nicht zutreffen (z,B. Stetigkeit dar Zielfunktion und ihrer Ableitungen l 1 - wail die erforderlichen Differentiationsprozesse Schwierigkeiten bereiten1 - weil eine LBsung der Bedingungsgleichungen nicht immer zum gewOnschten Optimum fuhrt (es·kann sich urn ein lokales Minimum oder Maximum oder urn einen Sattelpunkt handelnlJ - wail sich die Bedingungsgleichungen, im allgemeinen ein simultanes System von nichtlinearen Gleichungen, nicht ohne weiteres auflBsen lassen. In welchem MaB hill-climbing Strategien auf diese Besonderheiten Rucksicht nehmen, h!lngt vern einzelnen Verfahren ab. Zum Teil sehr ausfuhrliche Darstellungen findet man bei Wilde (1964), Rosenbrock und Storey (1966), Wilde und Beightler (1967), Kowalik und Osborne (1968), Box, Davies und Swann (1969), Pierre (1969), Pun (1969), Converse (1970), Cooper und Steinberg (1970), Hoffmann und Hofmann (1970), Beveridge und Schechter (1970), Aoki (1971), Zahradnik (1971), Fox (1971), Cl!!a (197.1 l, Denial (1971), Himmelblau (1972bl, Dix.on (1972al, Jacoby, Kowalik und Pizzo (1972), Stark und Nicholls (1972),Brent (1973) und Gottfried und Weisman (1973), Neuere Varianten oder theoretische sowie numerische Untersuchungen !llterer Methoden findet man als EinzelverBffentlichungen in den verschiedensten Fachzeitschriften oder Blakemor& und Davis

in

Sammelb!lnden wie denen von

(1964) ,

Lavi und Vogl

Graves und Wolfe

(1963),

(1966) , Klerer und Kern (1967),

- 30 Abadie (1967 und 1970), Fletcher (1969a), Rosen, Mangasarian und Ritter (1970), Geoffrion (1972), Murray (1972a), Lootsma (1972a) und Szego (1972), Die Aufgabenstellung lautet, als Minimumproblem ohne Nebenbedingungen formuliert: Min {F(x) lx ERn}

(3.1)

X

Gesucht 1st derjenige Spalten-Vektor x* (Extremort)

X1 X2

x*

x*

n

und der zugehorige Wert der Zielfunktion F* = F(x*l (Extremwert), fur den F(x) ein Minimum annifTITlt. Mit xERn wird ausgesagt, daB die Variablen alle reellen Zahlenwerte annehmen dOrfen, x also durch jeden beliebigen Punkt eines n-dimensionalen euklidischen Raums Rn reprasentiert warden kann. Man unterscheidet zwischen verschiedenen Typen von Minima: starken und schwachen, lokalen und globalen, FOr ein lokales Minimum gilt die Beziehung F(x*J fur

~

(3.2)

F(x)

o ~ llx-x*ll

n

/{ L (x i=1

1

-x*J2} ~ i

£

und x ERn das heiBt, in der durch die GroBe

£ definierten Nachbarschaft von x* gibt es keinen Vektor x, fur den F(xJ kleiner als F(x*) ist. Wenn in der Beziehung

(3.2) das Gleichheitszeichen nur fur x=x* zutrifft, nennt man das Minimum stark, andernfalls schwach. Eine Zielfunktion, die nur ein Minimum (oder Maximumlaufweist, bezeichnet man als unimodal. In vielen Fallen hat F(x) jedoch mehrere, eventuell verschieden hohe

lokale Minima (und Maxima). Das kleinste, absolute oder globale, Minimum (minimum minimoruml einer multimo-

dalen Zielfunktion erfilllt die scharfere Bedingung F(x*l ~ F(x) fur alle x ERn

(3.3)

Dies ist stets bevorzugt gesucht. Treten Nebenbedingungen in Form von Ungleichungen furj = H1Jm

(3.4)

- 31 oder Gleichungen fOrk= 1(1)1

(3.5)

hinzu, dann muB Rn in den Beziehungen (3.1) bis (3.3) ersetzt werden durch G als Symbol fOr des durch (3,4) definierte zulassige Gebiet 1m Rn beziehungsweise durch Rn-l, den Unterraum geringerer Oimensionszahl, den die gemaB (3.5) voneinander abhangigen Variablen aufspannen. Werden Losungen im Unendlichen ausgeschlossen, gilt dar Satz von WeierstraB (siehe z.B. Rothe, 1959): "In einem abgeschlossenen Bereich a ~ x ~ b hat jade dart stetige Funktion mindestens ein (absolutes) Minimum und Maximum." Dies kann im Innern oder am Rand liegen. Bei nicht stetigen Funktionen 1st jade Unstetigkeitsstelle ebenfalls potentieller Anwarter fOr ein Extremum. 3.1

Eindimensionale Strategien

Besonders einfach ist die Suche nach einem Minimum, wenn die Zielfunktion nur von einer Variablen abhangt. Oieses Problem ware aber nicht von groBerem Interesse, wenn nicht viele der mehrdimensionalen Strategien eindimensionale Minimierungen in ausgewahlten Richtungen - man spricht von linearen Suchan zu Hilfe nehmenwOrden. Skizze 3.1 zeigt einige denkbare Situationen fOr Minima und andere ausgezeichnete Punkte 1m eindimensionalen Fall. Skizze 3.1 Ausgezeichnete Stellen einer Funktion einer Variablen F(xl

X

a b c d-e f g h

g e f c a d b lokales Maximum am Rand lokales Minimum an einer Unstetigkeltsstelle von F (x) X Sattel- oder Wendepunkt schwaches lokeles Maximum lokeles Minimum globeles Maximum en einer Unstetigkeitsstelle von F(xl globeles Minimum em Rend

h

- 32 3.1.1

Simultane Methoden

Eine Maglichkeit, das Minimum einer Funktion mit einem Parameter ausfindig zu mechen, besteht darin, an mehreren Punkten den Wert der Zielfunktion zu bestimmen und die Stelle mit dem kleinsten Funktionswert zum Minimum zu erklaren. Da bei dieser Art der Optimierung prinzipiell alle Proben gleichzeitig ausgefuhrt warden konnen, bezeichnet men die Vorgehensweise als simultan. Wie nahe man dem tatsachlichen Minimum kommt, hangt von der Wahl der Versuchspunkte - ihrer Anzahl und Plazierung - eb, Je mehr Proben gemecht warden, desto genauer kenn die Losung sein. Men wird eber bestrebt sein, mit geringem Zeit- und Rechen- Coder Meteriel-)Aufwend auszukommen. Die beiden Forderungen - groBe Geneuigkeit und geringer Aufwend - widersprechen sich, und so muB man nech einem (optimelenl KompromiB suchen. Die Effektivitat einer Suchmethode beurteilt menmitHilfe des groBten verbleibenden Unsicherheitsintervells Cungunstigster Fell) bezuglich der Lags des Minimums bei vorgegebener Versuchsanzehl (sogenanntes Minimax-Konzept, siehe Wilde (1964)), Angenommen, die Punkte der Versuchsreihe werden so dicht gelegt, daB jeweils mehrere in

~er

Nahe sines jeden lokalen Minimums liegen,dann 1st die' Lange des UngewiBheitsintervalls so groB wie der Abstand zwischen den beiden zum kleinsten Wert von F(xl gehorenden Nachbarpunkten. Die Zahl der ben5tigten Proben kann demnach sehr groB warden, wenn man nicht wenigstens einen Anhalt hat, wo sich des gesuchte Minimum etwa befindet. In der Praxis muB man sich auf ein endliches Intervall [a,b) beschranken, in dem man die Zielfunktion untersuchen will. Anschaulich klar und theoretisch beweisbar ist, daB unter allen simultanen Suchmethoden diejenige optimal ist, bei dar die Versuchspunkte gleichmaBig 1m Intervall [a,b) verteilt warden (Boas, 1962-1963), Verwendet men N aquidistante Punkte, dann hat des Ungew1Bhe1ts1ntervall die Lange 2

lN = N+1 (b-al bzw. die Effektivitat den Wert T1

2

= N+1

Anders ausgedrOckt: um mit Sicherheit sine Genauigkeit

£

zu erzielen, beno-

tigt die aquidistente Suche, auch Gitter-, Raster- oder Tabelliermethode genannt, 2(b-al _ 1 < N < 2(b-al £

Versuche.

-

£

N ganz

(3,6)

- 33 AuBer dar Forderung, daB das gewahlte Intervall [a,b) das gesuchte absolute Minimum enthalt und N groB genug

in bezug auf die 'Welligkeit' dar Zielfunk-

tion 1st, brauchen keine weiteren Voraussetzungen erfullt zu sein, demit die Restersuche erfolgreich 1st. Noch effektivere Suchschemete kenn men entwerfen, wenn die Zielfunktion im Intervell [e,b) unimodal 1st. Wilde und Beightler (1967} beschreiben sin Verfehren, des gleichmaBig verteilte Punktepaere verwendet und such els simultene dichotome Suche bezeichnet wird. Dar Abstend 6 zwischen zwei Punkten sines Paars muB mindestens so groB gewahlt warden, deB sich ihre Zielfunktionswerte voneinender unterscheiden. Wenn

6~

geht, 1st die dichotome Suche

mit gereder Probenenzahl (even block search) em gunstigsten. Es warden

~- 2 £

>

bis

F(x[k)J

wird,

F(x[DJJ, so wahlt man die entgegengesetzte Richtung:

(2)

(k+1)

X

=

[OJ X

-

(k)

S -

S

fOr k ,::, 2

• 35 -

ebenfalls solange, bis des Minimum uberschritten 1st. Demit hat man des Mini· mum der unimodalen Funktion bis auf ein UngewiBheitsintervall der Lange 2s bestimmt (Beveridge und Schechter, 1970J. Bei numerischen Optimierungsaufgaben durchlaufen die Variablenwerte oftmals mehrere Zehnerpotenzen, bzw. sie sollen auf viele Stellen genau festgelegt warden. Darum erfordert die Einschachtelungsmethode mit sehr kleiner fester Schrittweite zuviel Aufwand. Box, Davies und Swann (1969J schlagen daher vor, von einer Anfangsschrittweite s(OJ auszugehen und sie bei jedem erfolgreichen Schritt zu verdoppeln. Ihre Rekursionsformel lautet: x(k+1J

=

x(OJ + 2 k9 (0J

Sie wird solange angewendet, wie F(x(k+ 1 JJ ~ F(x(kJJ zutrifft. Sebald man (k+1 J (kJ (OJ aber F(x J > F(x J registriert, wird b = x (k+1 J als obere Intervallschranke festgelegt und zum Ausgangspunkt x(OJ zuruckgegangen. Die untere Schranke a(OJ findet man durch einen entsprechenden ProzeB mit negativer Schrittweite in entgegengesetzter Richtung. Auf diese Weise erhalt man ein Startintervall I~(OJ ,b(OJ] fur die 1m folgenden beschriebenen eindimensionalen Suchverfahren. Aufgrund der fur Gleichheit zweier Funktionswerte getroffenen Vereinbarung kann es vorkommen, daB die Suche nach einem Intervallende endlos wird, wenn die Zielfunktion in eine horizontals Ebene auslauft. Daher 1st es zweckmaBig, eine maximale Schrittweite festzulegen, die nicht uberschritten warden darf. Die Einschachtelungsmethode 1st auch mehrfach als eigenstandige eindimensionale Optimierungsstrategie vorgeschlagen worden (Rosenbrock (1960J und Berman (1966JJ. Um bei sehr hoher Genauigkeitsforderung nicht zu viele Proben in gr5Berer Entfernung vom Ziel zu vergeuden, 1st es zweckmaBig, mit relativ langen Schritten zu beginnen. Jedesmal, wenn ein Zyklus mit einem MiBerfolg beendet wird, reduziert man die Schrittweite um einen Faktor < 0.5, z.B. 0.25. Kombiniert man die genannten Regeln zur Vergr5Berung und Verkleinerung dar Schrittweiten miteinander, so erhalt man ein sehr flexibles Verfahren. Dixon (1972al nennt es Erfolg/MiBerfolg-(success/failureJ Routine. Hat man erst einmal ein Startintervall [a(O) ,b(Ol], dann gibt es jedoch wesentlich bessere Strategien der sukzessiven Intervallredi.lktion.

- 36 3.1.2.2

Eliminationsverfahren

Wendet man sine aquidistante Teilungsmethode Wiederholt an, so verkurzt sich das UngewiBheitsintervall auf jeder Stufe um den gleichen Faktor a, bei k Stufen also um ak. Diese exponentielle Progression ist wesentlich starker als die lineare Abhangigkeit des Wertes a von der Zahl der Proben je Stufe. Man wird also moglichst wenige simultane Versuche verwenden. Beim Vergleich zweier Schemata mit zwei bzw. drei gleichzeitigen Proben fallt auf, daB auBer im ersten Zyklus in beiden Fallen stets nur zwei neue Zielfunktionswerte ermittelt warden mOssen. Von drei Versuchspunkten einer Stufe fallt namlich einer mit einem Punkt der vorigen Stufe zusammen. Die erforderliche Anzahl der Versuche insgesamt betragt bei sequentieller Anwendung des aquidistanten 3-Punkte-Plans

~-4

~-4

2 log& 2 nicht typisch. Einen Konvergenzbeweis fOr die direkte Suche von Hooke und Jeeves hat Cea (1971} gefOhrt unter dar Bedingung, daB die Zielfunktion F(xl strikt konvex und stetig differenzierbar ist. Die Rechenoperationen sind sehr einfach und fOhren auch in

unvorhergesehenen

F~llen

nicht zu unerlaubten arithme-

tischen Manipulationen,wie z.B. einer Division durch Null. Ein

weiterer Vor-

teil dar Strategie ist ihr geringer Speicherplatzbedarf. Er ist von dar Drdnung D(n}, Das

gew~hlte

Muster beschleunikt die Suche in Schluchten, wenn

diese nicht stark gekrOmmt sind. Die Extrapolationsschritte folgen weise der Gradiententrajektorie. Die

Beschr~nkung

n~herungs

der Tastschritte auf die

Koordinatenrichtungen kann aber auch hier, wie bei der Koordinatenstrategie, zu einem vorzeitigen Abbruch dar Suche fOhren. Weitere Abwandlungen der Methode, die nicht.so groBe Verbreitung gefunden haben, stammen u.a. von Wood (1960, 1962, 1965) (siehe auch Weisman und Wood (1966) und Weisman, Wood, Rivlin (1965)), Emery und O'Hagan (1966J

spider

- 58 -

method l, Fend und Chandler ( 1961;moment rosetta search l, Bendler und MacDonald (1969;razor search), Pierre (1969Jbunny-hop search), Erlicki und Appelbaum (1970) und Houston und Huffman (1971); eine ausfuhrlichere Aufzahlung alterer Versuche findet sich bei Lavi und Vogl (1966), Einige dieser Modifikationen erlauben, Nebenbedingungen in Form von Ungleichungen direkt zu berucksichtigen. Ihnen ahnlich ist ein von Schneider (siehe Drenick, 1967) entworfenes Programm. Abgesehen davon, daB man, urn es zu benutzen, angeben muB, welchs der Variablen bei den einzelnen Restriktionen beteiligt sind, scheint es nicht sehr effektiv zu arbeiten. Oberaus

lange Rechenzeiten und ungenaue Re-

sultate - besonders bei vielen Variablen lieBen es angebracht erscheinen, Schneiders Verfahren nicht in den Strategienvergleich (siehe Kapitel 6) aufzunehmen. Das Problem, Nebenbedingungen bei direkter Suche zu berucksichtigen, haben auch Klingman und Himmelblau (1964) und Glass und Cooper (1965) untersucht. Die resultierenden Methoden transformieren das ursprungliche Problem mehr oder weniger. Sie sind heute durch die generelleren Straffunktionsverfahren verdrangt. Mit 'Opcon' (siehe Bernard und Sonderquist, 1959) bzw. 'Dptimat' (siehe Weiss, Archer und Burt, 1961) sind automatische Dptimisatoren zur online-Dptimierung von chemischen Prozessen bekannt geworden, die ebenfalls die direkte Suche in abgewandelter Form verwenden. Eine ne.uere Anwendung beschreiben Sawaragi, Takamatsu, Fukunaga, Nakanishi und Tamura (1971). 3.2.1. 3

Strategie von Rosenbrock: rotierende Koordinaten

Rosenbrocks Idee (1960) war es, die Beschrankung der Anzahl der Suchrichtungen bei der Koordinatenstrategie dadurch aufzuheben, daB sich die Suchschritte parallel zu den Achsen sines im Raum Rn drehbaren Koordinatensystems bewegen konnen. Eine der Achsen wird so gelegt, daB sie in die am gunstigsten erscheinende Richtung weist. Dazu wird ahnlich wie bei der direkten Suche von Hooke und Jeeves die im Laufe der Iterationen aus Erfolgen und MiBerfolgen gesammelte Erfahrung benutzt. Die ubrigen Richtungen warden senkrecht zur ersten und orthogonal untereinander festgelegt. Anfangs bestehen die Suchrichtungen aus den Einheitsvektoren (0)

vi

= ei

fur i

= 1(1Jn

Vom Startpunkt x(O,Ol aus wird in jeder Ricntung mit den diskreten Anfangsschrittweiten s~O,Ol fur i ~

= 1(1Jn

je ein Versuch unternommen. Im Fall sines

Erfolges (einschlieBlich Gleichheit der Zielfunktionswerte) wird der veranderte Variablenvektor beibehalten und die Schrittweite mit einem positiven Faktor

- 59 a>1 multipliziert: bei einem MiBerfolg laBt man den Vektor der Variablen unverandert und multipliziert die Schrittweite mit einem negativen Faktor -1 F(x(k,nl+i-11), gehe zu Schritt 6, anderenfalls: Wenn

,gehe zu Schritt 5 : m (: :

,setze F' = F(x'l und j

1

- 61 -

Schritt 3:

Wenn G. (x') J

~

0

~

o

gehe zu Schritt 7 : setze fj = F(x'l und gehe zu Schritt 4 gemaB (3.22). ~j(x'){fj-F'}

sonst , ersetze F' + F' +

Wenn F' > F(x(k,nl+i- 1 ll, gehe zu Schritt 6. Schritt 4: Schritt 5:

Wenn j < m, erhohe j + j+1 und gehe zu Schritt 3. Setze x(k,nl+i) = x', s(k,l+1) = 3 (k,ll si i und ersetze d(k) i

Wenn )kl Schritt 6:

i

i

=0

J.

Gehe zu Schritt 7. Setze x(k,nl+il = x (k,nl+i-1) , si(k,l+1) (k)

(k)

0, setze vi

Wenn vi Schritt 7:

d(k) + s(k,l)

-1, setze v!kl

=

i

+

Wenn vj(kl Wenn i

[: :

1 •

=

1(1)m, gehe zu Schritt 8, anderenfalls:

fur alle

, erhohe i + 1+1 ,erhohe

+

1+1 und setze i

Gehe zu Schritt 2. Schritt 8:

Setze x(k+ 1 ,0)

= X

(k,nl+il

Bilde die Vektoren aik) Wenn

lla~k)ll

erhohe Wenn Schritt 9:

1)

lla~k)ll > 0.3

+ 1, anderenfalls setze

\l

(k)

VJ.

J

1(1Jn

II a~klll

= 0

Falls n > 1, bilde neue Richtungsvektoren fur i

d!hl

d!kl fur alle i

6, beende die Suche.

\l

0 •

(k+1)

V.

J.

1(1)n gemaB den Rekursionsformeln (3. 21) der

Gram-Schmidt Orthonormierung. Erhohe k

+

k+1 und gehe zu Schritt 1.

In Skizze 3.7 sind ein paar Iterationen der Rosenbrock-Strategie fur n = 2 geometrisch dargestellt. Am Startpunkt x(O,Ol sind die Suchrichtungen gleich den Einheitsvektoren. Nach drei Durchgangen (6 Versuchen) haben die Tastschritte in jeder Richtung einmal zu Erfolgen und anschlieBend zu MiBerfolgen gefuhrt. Beim bis dahin erreichten Bestzustand x(O,Bl = x 11 • 0 ) werden neue Richtungsvektoren v~ 1 ) und v~ 1 ) generiert. Funf weitere Versuche fuhren zum

Endpunkt x 11 • 5 l = x 12 • 0 ) der zweiten Iteration, an dem wiederum die ~ichtungs wahl erneuert wird. Anhand der beigefugten Tabelle kann, wer will, die Schritte nachvollziehen.

- 62 Skizze 3.7 Strategie von Ro5enbrock

r(2J

I

(OJ v2

(OJ I v1 I (1 J (3 J E::::T--n- - - - - - - - - - - -X (OJ ··... T

e

X-----

(5J

--- -

Startpunkt Erfolg

-X MiBerfolg

Ge5amterfolg

\...

+

....

' (11-r

c

0 ·rl

.jJ

l!l

>

< a_

Schrittwei ten 51 52 2 2 2 2 6 -1 -3 -3 2 2 2 2 6 6 18 2 2

Bemerkungen Startpunkt Erfolg MiBerfolg MiBerfolg Erfolg MiBerfolg MiBerfolg Drthonormierung und Obertrag Erfolg Erfolg Erfolg MiBerfolg MiBerfolg Drthonormierung und Obertrag

- 63 Numerische Experiments zeigen, daB die rotierenden Koordinaten sich innerhalb weniger Iterationen so ausrichten, daB eine von ihnen etwamit der Gradientenrichtung zusammenfallt. So vermag die Strategie, ausgepragten Schluchten in der Zielfunktionstopologie zu folgen. Ebenso wie die Methode von Hooke und Jeeves benotigt das Verfahren von Rosenbrock keine Information uber partielle Ableitungen und benutzt keine linearen Suchmethoden zur exakten Lokalisierung von relativen Minima. Damit ist sie ebenfalls sehr robust. Einen Nachteil hat sie jedoch gegenuber der direkten Mustersuche: die Drthonormierungsprozedur von Gram und Schmidt ist sehr aufwendig. Sie erfordert Speicherplatz in der Gr5Benordnung D(n 2 J fur die Matrizen A={a .. } und V={v .. }, und die Zahl der ~J

~J

Rechenoperationen wachst sogar mit D[n3J, Zumindest dann, wenn ein Zielfunktionsaufruf relativ wenig aufwendig ist, fallt die Rechenzeit fur die Drthonormierung bei vielen Variablen stark ins Gewicht. Allerdings ist die Parameterzahl ohnehin durch den hohen Speicherplatzbedarf begrenzt. Liegen Nebenbedingungen vor, so muB darauf geachtet werden, daB der Startpunkt nicht nur im zulassigen Bereich liegt, sondern auch genugend weit von den Grenzen entfernt ist. Anwendungsbeispiele der Strategie von Rosenbrock findet man bei Storey (1962) und Storey und Rosenbrock (1964). Darunter ist auch ein diskretisiertes Funktionenoptimierungsproblem. Fur Aufgaben ohne Restriktionen existiert ein Code von Machura und Mulawa (1973), Die Gram-Schmidt Drthonormierung programmierte zum Beispiel Clayton (1971). Lange-Nielsen und Lance (1972) haben aufgrund numerischer Experiments zwei Verbesserungen der Rosenbrock-Strategie vorgeschlagen. Die erste besteht darin, die Schrittweiten zu Beginn sines Zyklus bzw. nach jeder Drthonormierung nicht als konstant anzusetzen, sondern sie entsprechend den Erfolgen und MiBerfolgen wahrend des vorangegangenen Zyklus anzupassen und dabei gleichzeitig zu skalieren. Die zweite Verbesserung betrifft die Abbruchregel. Diese wird durch die einfachere Bedingung ersetzt, daB mehrere Versuche hintereinander im Rahmen der Rechengenauigkeit zu gleichem Wert der Zielfunktion fuhren. 3.2.1.4

Strategie von Davies, Swann und Campey (OSCJ

Eine Kombination der Rosenbrockschen Idee der rotierenden Koordinaten

mit

eindimensionalen Suchmethoden stammt von Swann (1964). Sie ist bekannt geworden unter der Bezeichnung Davies-Swann-Campey-, kurz OSC-Strategie. Die von Box, Davies und Swann (1969) gegebene Beschreibung des Verfahrens differiert etwas von der bei Swann, und so kommt es, daB mehrere Versionen der Strategie in der spateren Literatur existieren. Hier soll dem Driginalkonzept

- 64 -

von Swann der Vorzug gegeben warden, das zum Tail Gemeinsamkeiten mit dem Verfahren der konjugierten Richtungen von Smith (1962) (siehe auch Kapitel 3.2.2) aufweist. Vom Startpunkt x(O,Ol aus wird in den Einheitsrichtungen

v~ 01 = ei fOri= 1(1)n jeweils eine lineare Suche ausgefOhrt. Der Endpunkt sei x(O,n). Es schlieBt sich eine eindimensionale Minimierung in der Richtung des bis dahin erzielten Gesamterfolges (0) x(O,n) vn+1 II x(O,n) (O,n+1) mit dem Ergebnis x an.

-

X

-

X

(0,0) (O,O)

II

Danach erfolgt die Orthonormierung, z.B. nach der Methode von Gram und Schmidt. Wenn eine der linearen Suchan erfolglos bliebe, wOrds der neue Richtungssatz nicht mehr den vollen Parameterraum aufspannen. Daher warden nur diejenigen der alten Richtungsvektoren in den OrthonormierungsprozeB einbezogen. langs denen eine vorgeschriebene Mindeststrecke zurOckgelegt worden ist. Die Obrigen Richtungen bleiben erhalten. Die DSC-Methode setzt aber noch eine weitere HOrde vor die Koordinatendrehung. Wenn die wahrend einer Iteration

bewaltigte

Stracke kleiner als die zur linearen Suche

verwendete Schrittweite ist. wird diese urn den Faktor 10 verringert und die nachste Iteration mit dem alten Richtungssatz durchgefOhrt. Nach einer Orthonormierung fallt eine der neuen Richtungen (die erste) zusammen mit derjenigen der (n+1)-ten linearen Suche der letzten Stufe. Daher kann diese auch als erste Minimierung im neuen Koordinatensystem interpretiert warden. Es brauchen nur noch n eindimensionale Suchan zu folgen, urn die Iteration abzuschlieBen. Als SchluBkriterium verwendet die DSC-Strategie die Lange des aus Anfangs- und Endpunkt einer Iteration gebildeten Gesamtvektors.

Unterschreitet

sie

eine vorgegebene Genauigkeitsschranke,

wird die Suche beendet. Der Algorithmus lautet: Schritt 0: Gebe einen Startpunkt x(O,O) und eine Anfangsschrittweite s(O) vor (gemeinsam fOr alle Richtungen). Stelle eine Genauigkeitsforderung

E >

0 •

Wahle als ersten Richtungssatz v~Ol

ei fOr alle i=1(1}n •

Setze k = 0 und i = 1 • Schritt 1:

Suche in Richtung v~k) ausgehend von x(k,i- 1 ) das relative Minimum x(k,il, so daB

- 65 -

Schritt 2:

< n Wenn i [ = n

• erhohe i

n+1 Schritt 3:

Wenn

gehe zu Schritt 4.

= x(k,n)

Bilde z

II z II

i+1 und gehe zu Schritt 11

+

gehe zu Schritt 3J - x(k,OJ

> 0. setze v ~~~ =

N . i=n+1 und gehe zu Schritt 1;

= x(k,n), d(kl = 0 und gehe zu n+1 Schritt 5, Wenn llx(k, n+ 1 l - x(k,O)II ~s(kl, gehe zu Schritt 6. Setze s(k+ 1 l = 0.1 s(k) • (k+1) Wenn s ~ t,beende die Suche, anderenfalls setze .x(k+ 1 ,0l = x(k,n+ 1 l , anderenfalls setze x(k,n+ 1 J

Schritt 4: Schritt 5:

erhohe k Schritt 6:

+

k+1, setze i = 1 und gehe zu Schritt 1 •

Sortiere die Richtungen v~k) und zugehorigen Strecken dikl fur i

= 1(1ln

ld(kl,r> t i ~ t

so urn, daB

fur alle i fur alle i

1(1)p p+1(1ln

Wenn p < 2, also stets fur n Schritt 7:

= 1,

gehe zu Schritt 5.

Bilde neue Richtungsvektoren vik+ 1 l fur i

= 1(1lp

mittels des

Orthonormierungsprozesses von Gram und Schmidt (Formal 3.21). se t ze s (k+1) s (k) , d(k+1) -- d(k) n+1 1 und x(k+1,0l

x(k,nl, x(k+1,1l

Erhohe k + k+1, setze i

=2

=

x(k,n+1)

und gehe zu Schritt 1.

Auf eine geometrische Darstellung sei hier verzichtet, da dte feinen Unterschiede zur Rosenbrock-Methode in einer graben Skizze kaum herauszuheben sind. Die lineare Suchprozedur des DSC-Verfahrens ist ausfuhrlich bei Box, Davies und Swann (1969) beschrieben. Sie schachtelt das Minimum in der gewahlten Richtung durch drei aquidistante Punkte ein und laBt eine einzige Langrangesche, quadratische Interpolation folgen. Die Autoren verweisen auf ihre Erfahrung, daB dies okonomischer in bezug auf die Zahl der Zielfunktionsaufrufe sei, als exaktes lineares Suchan mit einer Folge von Interpolationen je Richtung. Dar Algorithmus der linearen Suche ist: Schritt 0:

Gebe einen Startpunkt x0 , eine Schrittweite s und eine Richtung v vor.

Schritt 1:

Bilde x

= x0

Wenn F(x)

~

+ s V F(x 0 J,gehe zu Schritt 3 •

- 66 Schritt 2:

Ersetze x + x - 2s v und s + -s . Wenn F(xJ

~

F(x 0 J,gehe zu Schritt 3,

anderenfalls (beida erste Versuche erfolglos) gehe zu Schritt 5. Schritt 3:

Ersetze s + 2s und setze x0 Bilde

Schritt 4:

x0 + s

X

=x

•

V

Wenn F(xl

1

,setze x(k+ 1 ,sl = x' und gehe zu Schritt 8

= ~

,gehe zu Schritt 5 ,gehe zu Schritt 6

Schritt 4:

x

(Expansion J Bilde x" = 2x' Wenn F ( x " ) < F ( x ( k' b) ), x" •. anderenfalls sstze x ( k+ 1 's J x' setze x(k+ 1 ,sl Gehe zu Schritt 8 •

Schritt 5:

Bilde

X"

= 0. 5

(X +

X')

(partielle Kontraktion auBenl .

Wenn F(x" J < F(x'l , setze x(k+ 1 .~ 1 = x" und gehe zu Schritt 8 , Schritt 6:

Schritt 7:

anderenfalls gehe zu Schritt 7 (partielle Kontraktion innenl . + x(k,s)J Bilde x" = 0.5 Wen n F ( x " ) < F (X ( k' s ) ) , Setze X ( k+1. ~) = x" und gehe zu Schritt 8 .

(x

(totals Kontraktionl Bilde x(k+ 1 ·" 1 = o.5(x(k,bl + x(k,vll fur alle v = 0(1Jn und gehe zu Schritt 9

- 70 (k.+1,v J

Schritt 8:

Obert rage

Schritt 9:

Erhohe k. + 1 0 J i = 1(1]n} und Anfangsschrittw eiten d~O) fOr die ai Gradientenbestimm ung, z.B.

{e

,wenn x~ 01 , wenn x1TO)

(OJ _ [0.05 lxi 01 I di - 0.05

+0 0

Bestimme den Vektor g(O) anhand der Formel (3.32) unter Benutzung der Schrittweiten di(0) . Setze H(OJ =I, h~O) = 1 fOr alle i Schritt 1:

und k = o • Bestimme v(k) Wenn k

Wenn h~kl Schritt 2:

-H[k)g[k) .

=

= 0, gehe zu Schritt

Wenn g[k)Tv(k) >

0 fOr alle i H(O)

h~kl

h~O)

v

[k)

3 •

0 , gehe zu Schritt 3

F(x(kl], beende die Suche. (k+1 ]= nach dem oben genannten Differenzenschema Bestimme g Bilde y(k] = x(k+ 11 -x(k] und z(k] = g(k+ 1 l - g(k] . n und

Wenn k

>

lv~kl I

< e:a

1 (1 ln.

fur alle i

und i

Schritt 5:

beende die Suche. Bilde H(k+ 1 J = H(kl + A(kl gemaB Formel (3.31] und h(k+1] = i

(kl

h~kl+....,.z:'i'i~17"'> {z(kJ( 1 - s(k]g(k]\(k] ~

v

(klT (k] z

i

v

(klT (kl z

l+Zs

(k] (kl gi }

fur alle i = 1(1Jn . Falls die auftretenden Nenner nicht zu Null werden, erhohe k

+

k+1 und gehe zu Schritt 1.

An die Stelle der kubischen Hermiteschen Interpolation sstzt Stewart sins quadratische Interpolation nach Lagrange, so wie sie Powell in seiner Strategie der konjugierten Richtungen verwendet. Dadurch werden Gradientenbestimmungen an den Stutzstellen vermieden. Ein Punkt x(k] ist jeweils durch den Startvektor der linearen Suche gegeben. Der zweite,x(k] + s v(k] ,wird in Richtung v(k] mit dem Abstand -2

s =min {1, g

(k]T (kl (F(x

v

(k]

]-Fm]}

plaziert. Fm ist sine Abschatzung des Wertes der Zielfunktion am gesuchten Minimum. Sie muB vorgegeben werden. s = 1 als obere Grenze entspricht der Lange sines Newton-Raphson Schrittes. Die dritte Stutzstelle soll durch quadratische Interpolation mit der Information x(k], x(k] + s v(k], den zugehorigen Zielfunktionswerten und g(k]Tv(kl, der Ableitung der Zielfunktion in Richtung v(k) an der Stelle x(k), gewonnen werden. Die weitere Folge der Lagrangeschen Interpolationen wird abgebrochen, falls das vorausgesagte Minimum so weit auBerhalb des jeweiligen Intervalls liegt, daB es vom nachsten Punkt mehr als zweimal so weit entfernt ist wie dieser vom Mittelpunkt. Lill (1970, 1971] (siehe auch Kovacs und Lill, 1971] hat sin komplettes AlgolProgramm der ableitungsfreien DFP-Strategie von Stewart veroffentlicht, das

- 96 lediglich in der linearen Suche geringfugig vom Original abweicht. Fletcher (1969b) berichtet von Tests, die den Algorithmus von Stewart dem von Powell uberlegen erscheinen lassen, wenn die Zahl der Variablen groBer wird. Andere Differenzenschemata zur numerischen Ermittlung der partiellen Ableitungen aus Werten der Zielfunktion sind von Brown und Dennis (19721 und Gill und Murray (19721 vorgeschlagen worden. Stewart selbst berichtet von Tests, die seine Regeln als brauchbar erweisen insofern, als die Ergebnisse durchaus vergleichbar sind mit solchen, die mit Hilfe analytisch vorgegebener Ableitungen erzielt warden. Dies mag daran liegen, daB Rundungsfehler hier wegen der Matrixoperationen sowieso schon starker ins Gewicht fallen als zum Beispiel bei Methoden der konjugierten Gradienten. Kelley und Myers (19711 empfehlen daher, beim DFP-Verfahren Matrixoperationen mit doppelter Rechengenauigkeit auszufuhren. 3.2.4

Neuere Entwicklungen

Die Fahigkeit der Quasi-Newton Strategie von Davidon, Fletcher und Powell (DFPJ, Newton-Richtungen aufbauen zu kennan, ohne explizite Angaben Gber zweite partielle Ableitungen zu benotigen, macht sie, vom mathematischen Standpunkt aus gesehen, sehr attraktiv. Alle Bemuhungen bei der raschen und intensiven Weiterentwicklung des Konzepts sind darauf gerichtet, die Korrekturformel (3.311 so zu verandern, daB die Neigung zur Instabilitat infolge von Rundungsfehlern und unexakten linearen Suchen vermindert wird und quadratische Konvergenz m6glichst erhalten bleibt. Inzwischen gibt es eine ganze Reihe von entsprechenden Vorschlagen sowie theoretischen und experimentellen Untersuchungen dazu: Adachi (1973a,bl Bass (19721 Broyden (1967, 1970a,b,c, 19721 Broyden und Johnson (1972} Broyden, Dennis und

Mer~

(19731

Davidon £1968, 19691 Dennis (19701 Dixon (1972a,b,c, 19731 Fiacco und McCormick (1968} Fletcher (1969a,b, 1970b, 1972b,d} Gill und Murray (1972} Goldfarb (1969, 19701 Goldstein und Price (1967} Greenstadt (19701 Hestenes (19691 Himmelblau (1972a,bl

- 97 Hoshino (1972) Huang (1970, 1974) Huang und Chambliss (1973, 1974) Huang und Levy (1970) Jones (1973) Lootsma (1972a,bl Mamen und Mayne (1972) Matthews und Davies (1971) McCormick, Pearson und Ritter (1969, 1974) Murray (1972a,bJ Murtagh (1970) Murtagh und Sargent (1970) Di, Sayama und Takamatsu (1973) Oren (1973} Ortega und Rheinboldt (1972) Pierson und Rajtora (1970) Powell (1969, 1970a,b,c,g, 1971, 1972a,b,c,d) Rauch (1973) Ribiere (1970) Sargent und Sebastian (1972, 1973) Shanno und Kettler (1970,a,b'l Spedicato (1973) Tabak (1969) Tokumaru, Adachi und Goto (1970) Werner (1974) Wolfe (1967, 1969, 1971) Viele der neueren Strategien, z.B. die von Broyden (1970b,c,) und Huang (1970) definierten Klassen oder Familien von einander ahnlichen Methoden, sind theoretisch gleichwertig, Sie erzeugen die gleichen konjugierten Richtungen v(k) und bei exakter linearer Suche die gleiche Folge x[k) von Iterationspunkten, wenn F(xl quadratisch ist. Dixon (1972cl waist diese Identitat sogar fur allgemeinere Zielfunktionen nach unter dar Bedingung, daB kein Glied der Folge H(k) singular wird. Die wichtige Feststellung, daB unter gewissen Voraussetzungen Konvergenz auch ohne lineare Suchan erreicht warden kann, wird Wolfe (1967) zugeschrieben, Eine Rekursionsformel, die diesen Forderungen genugt, lautet H(k+1) = H(k) + 8 Ckl mit

B(k)

=

(y[k)_H(k)z(k)) (y[k)_H[k)z[k))T (y[k)_H(k)z(k)lz(k)T

(3.34)

- 98 Sie wurde unabhangig von Broyden (1967), Davidon (1968, 1969), Pearson (1969) und Murtagh und Sargent (1970) entdeckt (siehe Powell, 1970a). Die Korrekturmatrix B(k) hat den Rang Eins, wahrend A(k) in Formel (3.31) vern Rang Zwei ist. Methoden vern Rang Eins (rank one methods), Davidon bezeichnet sie auch als Varianz-Verfahren, konnen nicht sicherstellen, daB H(k) positiv definit bleibt. Auch kommt es vor - selbst im quadratischen Fall -, daB H(k) singular oder B(kl unbegrenzt wird. Eine Reihe von zusatzlichen SicherheitsmaBnahmen ist daher notwendig, urn Methoden dieser Art anwendbar zu machen (Powell (1970al und Murray (1972cll. Die Vorteile beider Konzepte zu nutzen und ihre Nachteile zu vermeiden, darauf zielt der KompromiBvorschlag H(k+1 l = H(k) + A(k) + a(k) B(k)

(3.35)

mit dem frei wahlbaren skalaren Parameter a(k) > 0 ab (z.B. Fletcher, 1970bl. Broyden (1970b,c), Shanno (1970a,b) und Shanno und Kettler (1970) nennen Kriterien zur Wahl geeigneter a(k). Aber auch die gemischte Korrektur, bek~nnt als BFS oder Broyden-Fletcher-Shanno

~ormel,

kann keine quadratische Konver-

genz garantieren, es sei denn, lineare Suchen werden ausgefOhrt. Lediglich monotone Abnahme der Eigenwerte der M.atrix H(kl 1st nachweisbar. Aus numerischen Tests

ergibt sich aber, daB die erhohte Zahl von Iterationen meist

mehr als wettgemacht wird durch die Ersparnis an

Funktionswertaufrufen in-

folge des Wegfalls eindimensionaler Optimierungen (Fletcher,1970al. Fielding (1970) entwarf ein Algol-Programm nach Broydens Angaben mit linearer Suche (Broyden, 1965). Es ist der DFP-Methode im Hinblick auf die Zahl der Funktionsaufrufe meist unterlegen, konvergiert aber mitunter auch dann, wenn das Verfahren der variablen Metrik versagt. Dixon (1973) nennt eine Zusatzkorrektur zur Richtungswahl, v(k) mit

w

(0}

-H(k) VF(x(k}l + w(k) 0 W(k)

und

+ (x(k+1l_x(kl}T VF(x(k+1ll (k+1) (kl (x -x l ( x (k+1 l -x (kl 1r z (k}

durch die 1m Verbund mit einer Matrixkorrektur gemaB (3.35) ohne lineare Suchen quadratische Konvergenz erzielt werden kann. Er weist nach, daB dann maximal je n+2 Funktionsaufrufe und Gradientenbestimmungen erforderlich sind, wenn man nach Erreichen von v(k) X

=0

eine Iteration

(k+1)

hinzufOgt. Fast alle der genannten Verfahren setzen voraus, daB wenigstens die ersten partiellen Ableitungen als Funktionen der Variablen vorgegeben werden und somit im Rahmen der Stellenzahl des verwendeten Rechners exakt

- 99 sind. Die aufwendigeren Matrizenrechnungen sell man moglichst mit doppelter Genauigkeit durchfuhren, urn den EinfluB von Rundungsfehlern klein zu halten. Nur zwei neuere Vorschlage fur ableitungsfreie Quasi-Newton Methoden sind zu nennen: Greenstadt (1972) und Cullum (1972), Wahrend Cullums Algorithmus ahnlich dam von Stewart den Gradientenvektor aus Funktionswertdifferenzen approximiert, versucht Greenstadt davon loszukommen. Analog zu Oavidons Idee, die Hessesche Matrix erst im Laufe dar Iterationen aus dar Kenntnis

uber den Gra-

dienten zu approximieren, schlagt Greenstadt vor, den Gradienten aus Informationen uber Zielfunktionswerte im Laufe von mehreren Sub-Iterationen anzunahern. Lediglich am Startpunkt muB sin Differenzenschema fur die ersten partiellen Ableitungen herhalten. Der Algorithmus ist nach den Worten des Autors noch im Entwicklungsstadium,und fur die Zahl der Iterationen ist selbst im quadratischen Fall ein Wert > n zu erwarten. Eine andere interessante Technik der variablen Metrik von Elliott und Sworder (1969a,b, 1970) kombiniert das Konzept der stochastischen Approximation fur die Folge der Schrittweiten mit den Richtungsalgorithmen der Quasi-Newton Strategie. Quasi-Newton Strategien vom Rang Eins sind besonders geeignet, wenn die Zielfunktion sine Summa von Quadraten darstellt (Bard, 1970). Aufgaben der Minimierung von Quadratsummen entstehen zum Beispiel aus dam Problem, Systems von simultanen (nicht-linearenl Gleichungen zu losen oder die Parameter eines mathematischen Modells aus experimentellen Oaten zu bestimmen (nichtlineare Regression und curve fitting). Solche Zielfunktionen sind deshalb einfacher zu behandeln, wail Newton-Richtungen von vornherein ohne zweite partielle Ableitungen gebildet warden konnen, wenn nur die Jacobische Matrix dar ersten Ableitungen aller einzelnen Terme dar Zielfunktion angegeben wird. Die alteste darauf aufbauende Iterationsvorschrift ist als GauB-Newton Methode (GauB, 1609), generalized least squares method oder Taylor-series method bekannt. Sis hat ella Vor- und Nachteile dar Newton-Raphson Strategie. Verbesserungen des Grundverfahrens nennen Levenberg (1944) und Marquardt (1963). Wolfes Sekanten-Verfahren (Wolfe (1959bl, siehe auch Jeeves (1956)) ist der Vorlaufer dar neueren Varianten, die die Jacobische Matrix nicht als Vorgabe verlangen, sondern sis im Laufe dar Iterationen aufbauen. Auf Einzelheiten sell hier nicht naher eingegangen warden. Es sei verwiesen auf die einschlagige Literatur:

- 100 Barnes, J,G,P, (1965) Bauer (1965) Beale (1970) Brown und Dennis (1972) Broyden {1965, 1969, 1971) Davies und Whitting {19721 Dennis (1971, 1972) Fletcher (1968, 1971) Golub {1965) Jarratt (1970) Jones (1970) Kowalik und Osborne (1968) Morrison (1968) Ortega und Rheinboldt {1970) Osborne

(19721

Peckham (1970) Powell (1965, 1966, 1968b, 1970d,e, 1972el Powell und MacDonald (1972) Rabinowitz (1970) Ross (1971) Smith und Shanno (1971) Spath (1967) (siehe auch Silverman (1969)) Stewart (1973) Vitale und Taylor (1968) Zeleznik (1968) Brent (1973) nennt weitere Literaturstellen. Peckhams Strategie ist vielleicht herauszuheben, Sie stellt eine Modifikation des Simplex-Verfahrens von Nelder und Mead (1965 l bzw. von Spendley (1969 l dar und erweist sich in Tests der Strategie von Powell (1965) uberlegen in bezug auf die Zahl der Funktionsaufrufe. Obwohl in mehreren Veroffentlichungen, auf die in diasem und dam vorigan Kepitel hingawiesen wurde, Strategien beschrieben warden, die kaum noch als echte hill-climbing Methoden bezeichnet warden konnen, sondern eher in die Rubriken mathematische Programmierung odar Funktionenoptimierung einzureihen sind, bestand nicht die Absicht, eine Einfuhrung in die Grundlagen diaser beiden umfangreichen Gebiata zu geban. Sis liegen zu wait am Randa des Intaressenkraisas, dessen Mittelpunkt die direkten Suchstratagian bilden,

- 101 -

4

Zufallsstrategien

Eine Gruppe von Optimiermethoden ist in Kapitel 3 vollig auBer acht gelassen worden: Verfahren, bei denen die Variablen nach probabilistischen anstelle von deterministischen Regeln variiert werden - die Bewertung eines Versuchsergebnisses darf selbstverstandlich nicht der WillkGr unterliegen. Die Oberschrift weist schon darauf hin, daB es nicht nur sine Zufallsstrategie, sondarn darer viele gibt, die sich zum Teil erheblich voneinander unterscheiden. Einerseits wird nach Zufallsentscheidungen beim Optimieren gerufen, wenn deterministische Vorschriften nicht den gewunschten Erfolg haben oder sine ausweglose Situation herbeifOhren1 andererseits gelten Zufallsstrategien vielfach von vornherein als besonders aufwendig. Es herrscht die Meinung vor, daB mit scharfem Nachdenken und daraus resultierenden ausgeklOgelten deterministischen Vorschriften stets bessere Ergebnisse zu erzielen sind als mit Entscheidungen, die in irgend einer Weise dem Zufall Oberlassen werden. DaB Zufall aber nicht mit WillkOr gleichzusetzen 1st, sondern ebenfalls nach - zum Teil sehr raffinierten - GesetzmaBigkeiten eingesetzt werden kann, sollen die im folgenden dargestellten Strategien zeigen. Nicht hinter jeder Systematik der hill-climbing Verfahren stecken tiefschOrfende Oberlegungen. Die zyklische Wahl der Koordinatenrichtungen bei der GauBSeidel Strategie konnte ebenso gut durch sine Zufalls-Reihenfolge ersetzt warden. Denkbar 1st auch, die Anzahl der benutzten Richtungen zu vergroBern. Da kein plausibler Grund vorliegt, bevorzugt in achsenparallelen Richtungen nach dem Optimum zu suchen, konnte man anstelle von nur n .verschiedenen Einheitsvektoren auch beliebige, zufallig ausgewahlte, Richtungsvektoren

verwenden.

In der Tat sind solche Vbrschlage gemacht worden (Brooks, 1958), urn den vorzeitigen Abbruch der Minimumsuche in engen Schluchten zu vermeiden (vergleiche Kapitel 3.2.1.1). Ahnliche Vorstellungen haben zum Beispiel O'Hagan und Moler (nach Wilde und Beightler, 1967), Emery und O'Hagan (1966), Lawrence und Steiglitz (1972) und Beltrami und

Indus~

(1972) entwickelt, urn die Muster-

suche von Hooke und Jeeves (1961, siehe Kapitel 3.2.1.2) zu verbessern. Nicht nur in engen Schluchten, auch am Rand eines durch Nebenbedingungen in Form von Ungleichungen festgelegten zulassigen Gebiets erweist sich die Beschrankung auf nur endlich viele Suchrichtungen als nachteilig. Alle deterministischen Heilmittel gegen vorzeitiges Beenden deriterationenfolge setzen voraus, daB mehr Information eingeholt warden kann, zum Beispiel in Form von partiallen Ableitungen der Restriktionsfunktionen (siehe Klingman

und Himmelblau

- 102 (1964), Glass und Cooper (1965) oder Paviani und Himmelblau (1969)). Diese Information zur Verfugung zu stellen, bedeutet meist erheblichen Mehraufwand und 1st mitunter gar nicht moglich. Zufallsrichtungen, die sich nicht an dar Struktur dar Zielfunktion und des zulassigen Bereichs orientieren, verursachen aufgrund ihres Verzichts auf Dptimalitat sines Einzelschrittes ebenfalls mehr Aufwand. Sie sind jedoch in jedem Fall anwendbar. Viele deterministische Dptimiermethoden, besonders solche, die sich am Gradienten dar Zielfunktion orientieren, haben Konvergenzschwierigkeiten an Stellen mit unstetigen partiellen Ableitungen. Im Hohenlinienbild einer zweiparametrigen Zielfunktion, deren Maximum gesucht ist, korrespondieren solche Stellen mit scharfen Graten, die zum Gipfel fuhren (siehe z.B. Zwart, 1970). Eine enge Schlucht - das geometrische Bild im Fall dar Minimierung - fuhrt zu dam gleichen Problem, wenn die endlichen Schrittweiten groBer als die Breite des schmalen Tales sind. Dann versagen alle Versuche, in Koordinatenrichtungen Verbesserungenzuerzielenbzw. aus Tastschritten in ihnen sine lokal baste Fortschreit- (Gradienten-)Richtung vorherzusagen. Das gleiche Phanomen kann auch bei analytischer Vorgabe dar partiellen Ableitungen auftreten infolge von Rundungsfehlern beim Rechnen mit endlicher Stellenzahl. Um vorzeitiges Abbrechen einer Suche in solchen Fallen zu vermeiden, hat Norkin (1961) vorgeschlagen, immer dann, wenn die Dptimierung nach dam herkommlichen Iterationsschema beendet ist, einen Schritt in einer beliebigen Koordinatenrichtung vom (vermeintlichen) Optimum wegzugehen, unter AusschluB dieser einen Variablen erneut nach dam Extremum zu suchen und erst dann endgultig aufzuhoren, wenn aus allen Deviationsrichtungen zum gleichen Punkt zuruckgekehrt worden 1st. Diese Zusatzregel soll auch das Stagnieren an Sattelpunkten verhindern. Selbst das Simplexverfahren dar linearen Programmierung benutzt Zufallsentscheidungen, wenn die Extremwertsuche endlos zu warden droht, wail das Problem 'entartet' ist. Dann soll nach dam Vorschlag von Dantzig (1966) das Iterationsschema zugunsten sines Zufalls-Austauschschrittes unterbrochen warden. Entartet ist ein Problem aber nur deswegen, wail die normalen Regeln den Sonderfall nicht berucksichtigen (siehe auch Kapitel 6.2). Ein weiteres Beispiel fur die Zuhilfenahme des Zufalls in ausweglosen Situationen ist Brents Modifikation dar Strategie mit konjugierten Richtungen (Brent, 1973). Powells Algorithmus (Powell, 1964)

neigt bei vieldimensionalen Problemen

dazu, linear voneinander abhangige Richtungen zu erzeugen und dann nur noch

- 103 in einem Unterraum des Rn zu operieren. Darum durchbricht Brent den Ablauf der linearen Suchan hin und wieder mit Schritten in zufallig ausgewahlten Richtungen (siehe auch Kapitel 3.2.2.1). Besonders haufig trifft man auf Vorschlage, den Zufall walten zu lassen, wenn es darum geht, globale Minima multimodaler

Zielfunktion~n

zu finden. Salcha

Aufgaben tauchen haufig bei der Projektierung auf (Motskus 1967, 1971), konnen aber auch das Resultat einer Umformung diskreter in stetige Problema sein (Katkovnik und Shimelevich, 1972). So gut wie alle sequentiellen Suchverfahren konnen nur ein lokales Optimum ansteuern, in der Regel das, welches dem Startpunkt am nachsten liegt. Nur wenige Konzepte zur Sicherung globaler Konvergenz sequentieller Optimiermethoden sind bekannt (siehe z.B. Motskus und Feldbaum (1963), Chichinadze (1987, 1969), Goldstein und Price (1971), Ueing (1971,1972), Branin und Hoc (1972), McCormick (1972), Sutti, Trabattoni und Brughiera (1972), Treccani, Trabattoni und Szego (1972), Brent (1973), Hesse (1973),

Dpa~ic

(1973),

Ritter und Tui (siehe Zwart, 1973)). Vielfach handelt es sich urn heuristische Zusatzregeln. Gran (1973) betrachtet zum Beispiel Gradientenverfahren, die durch Addition eines Zufallsprozesses zu den deterministischen Anderungen globale Konvergenz erreichen sollen. Hill (1964,

siehe auch Hill und Gibson, 1965)

schlagt vor, das zu untersuchende Intervall zu unterteilen und in jedem Abschnitt soviel Information zu sammeln, daB eine kubische Interpolation ausgefOhrt warden kann. Das baste aller Teilergebnisse wird als Approximation des globalen Dptimums anerkannt. Der mit der Parameterzahl n stark steigende Aufwand fOr n-dimensionale Interpolationen laBt diese Methode jedoch fOr mehr als zwei Variable nicht mehr praktikabel erscheinen. Von mehreren verschiedenen, zufallig ausgewahlten, Anfangszustanden auszugehen und die jeweils erreichten lokalen Minima (oder Maximal miteinander zu vergleichen, wird meist als einziger Ausweg angesehen, urn zumindest mit gewisser Wahrscheinlichkeit das globale Optimum bestimmen zu konnen. Entsprechende Vorschlage stammen unter anderem von Gelfand und Tsetlin (1961), Bromberg (1962), Bocharov und Feldbaum (1962), Zellnik, Sondak und Davis (1962), Krasovskii (1962), Gurin und Lobac (1963), Flood und Leon (1964, 1966), Kwakernaak (1965), Casey und Rustay (1966), Weismann und Wood (1966), Pugh (1966), McGhee (1967), Crippen und Scheraga (1971) sowie Brent (1973). Ein weiteres Problem stellt sich deterministischen Strategien entgegen, wenn die errechneten bzw. gemessenen Werte der Zielfunktion stochastisch gestort sind. Im experimentellen Bereich, zum Beispiel bei der on-line Optimumsuche oder beim Aufrechterhalten von Dptimalzustanden von Prozessen, muB man von vornherein mit Storungen rechnen (siehe z.B. Tovstucha (1960), Feldbaum (1960,

- 104 1962), Krasovskii (1963), Medvedev (1963, 1968), Kwakernaak (1966) und Tsypkin (1967)), Aber auch beim rechnerischen Optimieren mit analytisch vorgegebener Zielfunktion kommt es aufgrund von Rundungsfehlern zu gleichwertigen Erscheinungen (Brent, 1973), besonders, wenn man bei dar Losung von Funktionenoptimierungsaufgaben hybrids Analogrechner verwendet (z.B. Gilbert {1967), Korn und Korn (1964), Bekey und Karplus (1971)), Eine einfache, wenn auch - im Sinne des Rechen- bzw. Versuchsaufwandes - teure Methode, dem zu begegnen, ist die Wiederholung dar Messungen, bis eine eindeutige Aussage moglich ist. So verfahren Box und Wilson (1951) bei der experimentellen Gradientenmethode und Box (1957) bei seiner EVOP-Strategie, Anstelle einer fasten Anzahl von Wiederholungen, die auf der sicheren Seite liegt, aber eventuell unnotig hoch ist, kann man nach dem Konzept der sequentiellen Analyse statistischer Daten (Wald, 1966lJ siehe auch Zigangirov (1965), Schumer (1969), Kivelidi und Khurgin (1970) und Langguth (1972)) jeweils nur soviele Mehrfachproben mechen, wie anhand darer Ergebnisse unbepingt erforderlich erscheint. Nahere Untersuchungen hierzu hat zum Beispiel Mlynski (1964a,b, 1966a,b) angsstellt. Im Gegensatz zum BemOhen urn Verbesserung der die Entscheidung beeinflussenden Daten haben Brooks und Mickey (1961) festgestellt, daB man mit der minimalen Zahl von n+1 Vergleichspunkten arbeiten sollte, urn eine - wenn auch gestorte - Gradientenrichtung zu ermitteln. Allerdings muB man von dar Forderung abgehen, daB jeder Schritt einen Erfolg oder sogar den (lokall groBten Erfolg einbringt. DaB die Devise, das lokal bestmagliche zu erreichen, nur selten zum besten Gesamtergebnis fuhrt, gilt nicht nur fur Gradientenstrategien erster Ordnung, sondern auch fur Newtonbzw. Quasi-Newton Methoden, Harkins (1964) behauptet zum Beispiel, daB unexakte lineare Suchan die Konvergenz sines Minimierungsverfahrens nicht nur nicht verschlechtern, sondern unter Umstanden verbessern. Ahnliche Erfahrungen fuhrten Davies, Swann und Campey dazu, bei ihrer Strategie (siehe Kapitel 3.2.1,4) nur einmal je Richtung quadratisch zu interpolieren. Auch Spendley, Hext und Himsworth (1962) gehen bei der Formulierung ihres Simplex-Verfahrens, das nur nahezu-optimale Richtungen produziert, von der Oberlegung aus, daB Zufallsentscheidungen nicht unbedingt nur nachteilig sind (siehe auch Himsworth, 1962), Die Modifikation dieser Strategie von Box (1965) legt das Startsimplex bzw, -complex aus ahnlichen Erwagungen mittels Zufallszahlen fest. Imamura, Uosaki, Tasaka und Suzuki (1970) gehen sager soweit, sine Zielfunktion kunstlich mit stochastischen Signalen zu uberlagern, urn die Konvergenz zu lokalen Optima zu verhindern. Die Starrheit sines Algorithmus, der ein festes inneres Modell der Zielfunktion zur Grundlage hat, anhand dessen die im Laufe dar Iterationen gesammelte Information interpretiert wird, bringt Gewinn, wenn die Zielfunktion dam Modell in

- 105 etwa entspricht. Ist das nicht der Fall, schwindet der Vorteil, ja er kann sich zum Nachteil umkehren. Methoden zweiter Ordnung mit quadratischem Modell scheinen in dieser Hinsicht empfindlicher zu sein, als Verfahren erster Ordnung mit nur linearem Modell. Als noch robuster gelten direkte Suchstrategien, die ohne explizites Modell arbeiten, wie zum Beispiel die Strategie von Hooke und Jeeves (1961). Sie macht keinerlei Gebrauch von der GroBe der Anderungen des Zielfunktionswertes, nur von deren Vorzeichen. Eine Methode, die eine Art Minimalmodell der Zielfunktion verwendet, ist die stochastische Approximation (Schmetterer (1961), siehe auch Kapitel 2.3), Sie, ein rein deterministisches Verfahren, nimmt an, daB die gemessenen oder auch errechneten Funktionswerte Proben einer normalverteilten ZufallsgroBe darstellen, deren Erwartungswert zu extremalisieren ist. Mit alternierenden Tast- und Arbeitsschritten, deren Lange konvergente Folgen mit vorgeschriebenen Grenzund Summenwerten bilden, tastet sia sich ans Optimum heran. Im mehrdimensionalen Fall konnen ihr Standardkonzepte verschiedener Strategien unterlegt warden, die die Richtungswahl der Arbeitsschritte betreffen (Fabian, 1966), Meist kernmen Gradientenverfahren zur Geltung. Die stochastische Approximation ist an sich sehr vielseitig,Nebenbedingungen lassensich berucksichtigen (Kaplinskii und Propoi, 1970), und Problems der Funktionenoptimierung (Gersht und Kaplinskii," 1971) kann man mit ihr ebenso wie dynamische Aufgaben des Optimum-Haltens bzw. Optimum-Verfolgens (Chang, 1966) behandeln. Tsypkin (1966,1966a,b,c, 1970a,b,cl erlautert sehr eingehend diesen Themenkomplex. Es gibt aber auch Einwande gegen die Konvergenzsicherheit bei bestimmten Zielfunktionstypen (Aizerman,Braverman und Rozonoer, 1965), Die Brauchbarkeit der Strategie im vieldimensionalen Fall 1st durch ihren hohen Aufwand begrenzt. So fehlt es nicht an Versuchen, die Konvergenz zu beschleunigen (Fabian (1967), Berlin (1969), Saridis (1966, 1970), Saridis und Gilbert (1970),

Jan~~

(1971),

Kwatny (1972lJ siehe auch Kapitel 2,3), Besonders vielversprechend scheinen Ansatze zu sein, Zufallsrichtungen zu verwenden. Hierzu sind besonders viele Untersuchungen bekannt geworden, unter anderem von Loginov (1966), Stratonovich (1966, 1970), Schmitt (1969), Ermoliev (1970), Svechinskii (1971), Tsypkin (1971, Antonov und Katkovnik (19721, Berlin (1972), Katkovnik und Kulchitskii (1972), Kulchitskii (1972), Poznyak (1972) sowie Tsypkin und Poznyak (1972),

- 106 Die Driginalmethode ist nicht in der Lags, globale Extrema mit Sicherheit zu bestimmen. Erweiterungen der Strategie in dieser Richtung stammen von

Kush-

ner (1963,1972) und Vaysbord und Yudin (1968). Die Sequenz der Arbeitsschritte wird so gestaltet, daB die Wahrscheinlichkeit dafur, daB der jeweils nachste Zustand das globale Optimum ist, maximiert wird. Im Gegensatz zum Gradientenkonzept wird die gesammelte Information nicht im Sinne lokaler, sondarn globaler Eigenschaften der Zielfunktion interpretiert. Bei zwei lokalen Minima konzentriert sich der Suchaufwand allmahlich auf deren Nachbarschaft und erst, wenn sines von ihnen signifikant besser ist als das andere, wird das nur lokale zugunsten des auch globalen Minimums verlassen, Die Beschleunigung der lokalen und die Sicherheit der globalen Suche stehen sich dabei diametral gegenuber, wenn man den Aufwand der Strategie betrachtet. Hill und Gibson (1965) zeigen, daB ihre globale Strategie der von Kushner sowie einer von Bocharov und Feldbaum uberlegen ist. Sie behandeln allerdings nur Falls mit n

~

2 Parametern.

Alle bisher genannten Strategien bleiben letzen Endes deterministisch. Sie nehmen den Zufall nur in ausweglosen Situationen zu Hilfe oder operieren unter der Annahme, daB die Zielfunktion stochastisch (1968), der deterministische und probabilistische

gestort ist. Jarvis

Optimiermethoden mitein-

ander vergleicht, halt Zufallsmethoden, die sich an keinerlei Modell klammern, fur am besten geeignet, wenn es darum geht, ein Optimum unter besonders schwierigen Bedingungen zu lokalisieren, sei es, daB die Zielfunktion gestort ist, oder daB sine 'pathologische' Problemstruktur mit mehreren Extrema, Diskontinuitaten, Plateaus, verbotenen Bereichen usw. vorliegt. Der Homoostat von Ashby (1960) ist wahrscheinlich das alteste Beispiel fur die Anwendung einer Zufallsstrategie. Sein Ziel ist es, einen Gleichgewichtszustand gegen stochastische Storungen aufrechtzuerhalten. Gesucht ist nicht ein Optimum, sondern nur ein Punkt in einem zulassigen Bereich - sine Aufgabs, die mit der Optimierung eng verbunden ist und fur deren Losung haute sine Reihe von verschiedenen heuristischen Planungsmethoden zur Verfugung steht

(siehe z.B. Weinberg und Zehnder, 1969). Ashbys Strategie, von ihm

als blinder homoostatischer ProzeB bezeichnet, wird jedesmal aktiv, wenn der Apparat aus dem Gleichgewicht gekommen ist. Dann warden die beeinfluBbaren Parameter solange zufallig variiert, bis der gewunschte Zustand wiederhergestellt ist. Die in diesem Fall endlich vielen diskreten Einstellmoglichkeiten der Variablen treten beim SuchprozeB alle mit gleicher Wahrscheinlichkeit auf. Chichinadze (1960) hat spater ein elektronisches Modell

- 107 nach dem gleichen Prinzip aufgebaut und es zur Synthase einfacher Systems der optimalen Steuerung benutzt. Als Initiator dar Zufallsstrategien fOr Optimierungsaufgaben gilt gemeinhin Brooks (1958), dar wahrscheinlich von Anderson (1953) angeregt wurde, Er beschreibt die einfache, spater auch blinde oder reine genannte, Zufallssuche (pure random search) zum Auffinden sines Minimums oder Maximums im experimentellen Bereich. In einem abgeschlossenen Interval! a

~

x

~

b warden meh-

rere Punkte probabilistisch ausgewahlt. Die Wahrscheinlichkeitsdichte ist fOr jeden Drt innerhalb des Bereichs konstant und auBerhalb Null. w(xl =

..!.

[

fOr alle a !. x !. b

VO

sonst

V ist das Volumen des WOrfels, dessen Ecken durch die Werts ai und bi fur i

= 1(1)n

gegeben sind. n

V =

TT

i=1

(b

- a l i

i

An allen ausgewahlten Punkten muB dar Wert dar Zielfunktion bestimmt warden. Als Optimum wird diejenige Stelle mit dem niedrigsten bzw. hochsten Funktionswert herausgesucht. Die erreichte Annaherung an das wahre Extremum hangt ab von dar Zahl der Versuche sowie von den aktuellen Zufallsereignissen. Daher kann man nur eine Wahrscheinlichkeit p dafOr angeben, mit dar das Optimum innerhalb einer bestimmten Anzahl N von Versuchen mit einer vorgegebenen Gen~uigkeit

approximiert wird, p =

1- (1 -

vr

(4.1)

Das Volumen v enthalt alle Punkte, die dar Genauigkeitsforderung genOgen, Durch Umformung von (4,1) erhalt man als Probenanzahl N

=

ln(1-p) ln (1 -

v]

(4.2)

um mit der Wahrscheinlichkeit p mindestens einen Versuch im Teilvolumen v zu plazieren. Brooks folgert daraus, daB dar Aufwand unabhangig von dar Zahl der Variablen ist. In ihrer Kritik weisen Hooke und Jeeves (1958) darauf hin, daB die Betrachtung dar Genauigkeit anhand des Volumenverhaltnisses fur Problema mit vielen Variablen nicht brauchbar ist. Bei n spricht einem Volumenverhaltnis von

%

c

nl{v}

=

0,98

V= 0,1

= 100

Parametern ent-

ein Streckenverhaltnis von

- 108 Das heiBt, die UngewiBheit bezOglich der Variablen x1 betragt immer noch 98 % des ursprOnglichen Intervalls [a 1 ,b 1 J, obwohl das Volumen, in dem das Optimum liegt, auf ein Zehntel reduziert worden 1st. Den gleichen Fehler wie Brooks begeht auch noch Shimizu (1969), der die Strategie fOr Problema mit Nebenbedingungen einsetzen mochte. Ein Vergleich zwischen der reinen Zufallssuche und damals bekannten deterministischen

Suchmethoden fOr experimentelle Optimierungsaufgaben (Brooks, 1959)

zeigt auch keinerlei Vorteil zugunsten der stochastischen Strategie. Der Test betrifft nur vier verschiedene Zielfunktionen mft jeweils zwei Variablen. Daraufhin empfiehlt Brooks, sein Zufallsverfahren anzuwenden, wenn die Zahl der Parameter groB oder die Feststellung der Funktionswerte erheblichen Storungen unterworfen 1st. McArthur (1961) kommt anhand numerischer Experiments zu dem SchluB, daB auch bei komplizierter Problemstruktur die Zufallsstrategie vorzuziehen ist. Gerade dieser Umstand hat dazu gefOhrt, daB die blinds oder reins Zufallssuche - oft als Monte-Carlo Methode bezeichnet - auch haute noch Verwendung findet, zum Beispiel bei der rechnerischen Dptimierung von Baukonstruktionen (Golinski und Lesniak (1966), Lesniak (1970) und Hupfer (1970)). Prinzipiell konnen alle Proben der einfachen Zufallsstrategie gleichzeitig gemacht warden. Sie 1st daher zu den simultanen Optimiermethoden zu zahlen. Die Entscheidung Ober einen Zustandsvektor der Variablen hangt nicht von den Ergebnissen vorangegangener Versuche ab, da die Wahrscheinlichkeit fOr einen Treffer gemaB der Gleichverteilung zu jedem Zeitpunkt gleich groB 1st. Bei der Anwendung auf den herkommlichen, seriell arbeitenden Rechnern muB man die Proben allerdings nacheinander ausfOhren. Das kann man sich zunutze machen, indem man nur den jeweils besten Wert der Zielfunktion und die dazu gehorenden Variablenwerte speichert. In Kapitel 3.1.1 bzw. 3.2 war die Raster- oder Tabuliermethode als optimal 1m Sinne des Minimax-Konzeptes bezeichnet worden. Die blinds Zufallssuche dOrfte demnach nicht besser sein. Bezeichnet man mit

o1 = b1 - a 1 die Intervallange bezOglich der Variablen x1 und mit di die gewOnschte Genauigkeit und nimmt an, daB alle 01 = D und d1 d fOr alle 1 1(1Jn gleich groB sind, dann gilt fOr das Volumenverhaltnis in den Gleichungen (4.1 J und (4.2)

Ist

Vklein,

Naherung

und das muB bei vielen Variablen der Fall sein, kann man mit der ln(1+yl = y

fOr y «

1

- 109 die Anzahl der benotigten Versuche schreiben als N = -ln(1-p)

(~r

Die Rastermethode erfordert unter der Annahme, daB ~ eine ganze Zahl ist, N =

(~r

Proben (vergleiche Kapitel 3.2, Formel (3.19)). Beide Verfahren sind gleichwertig fur p

= 0.63.

Sell die Wahrscheinlichkeit dafur, daB wenigstens ein

Treffer die geforderte Genauigkeit erbringt, p

= 0.90

sein, dann schneidet

die Zufallssuche mit N

= 2.3

(~r

tatsachlich Schlechter als die Rasterstrategie ab (Spang, 1962). Die Ursache fur den Mehraufwand ist aber nicht dem Zufall zuzuschreiben, sondern dem Urnstand, daB bei gleichwahrscheinlicher kontinuierlicher Variablenwahl dicht benachbarte Proben bzw. im diskreten Fall Wiederholungen nicht ausgeschlossen werden. Dennoch hat der Beweis von Spang lange Zeit alle Zufallsverfahren, nicht nur die Monte-Carlo Strategie, in MiBkredit gebracht. Unter Monte-Carlo Methoden versteht man heute allgemein Simulationsverfahren, bei denen man es mit stochastischen Ereignissen zu tun hat. Sie werden mit Erfolg angewendet bei der Losung von schwierigen Differentialgleichungen (Little, 1966) oder zur Auswertung von Integralen (Cowdrey und Reeves (1963), McGhee und Walford (1968)). Neben dem einfachen 'hit-and-miss' Schema gibt es jedoch inzwischen erheblich verbesserte Varianten (siehe z.B. Bauer (1958), Hammersley und Handscomb (1964) Kern (1966, 1968), Hull (1967) und Brandl (1969)). Amann (1968a,b) berichtet uber eine Monte-Carlo Methode mit Informationsspeicherung und eine sequentielle Erweiterung zur Losung einer linearen Randwertaufgabe, Curtiss (1956) uber ein Monte-Carlo Verfahren zur Losung linearer Gleichungssysteme. Beide sollen weniger Aufwand erfordern

als ver-

gleichbare deterministische Strategien. Pinkham (1964) und Pincus (1970) beschreiben Modifikationen fur Problems, Nullstellen einer nichtlinearen Funktion zu bestimmen bzw. mit Nebenbedingungen behaftete Dptimierungsaufgaben zu losen. Da nur relativ wenige Veroffentlichungen umfassend uber Zufalls-Optimierverfahren berichten (Karnopp (1961, 1963), Idelsohn (1964), Dickinson (1964), Rastrigin (1965a, 1968, 1969), Lavi und Vogl (1966), Schumer (1967), Jarvis (1968), Heydt (1970), Cockrell (1970), White (1970, 1971), Aoki (1971), Kregting und White (1971)), sollen die verbesserten Strategien hier kurz vorgestellt werden. Sie alle operieren mit sequentiellen und mitunter sowohl simul-

- 110 tanen als auch sequentiellen Zufallsproben und nutzen die aus vorausgegangenen Versuchen zur Verfugung stehende Information in irgend einer Weise zur Beschleunigung der Konvergenz aus. Bereits Brooks selbst macht mehrere

Verbesserungsvorschl~ge.

So kann man, um

Wiederholungen oder dicht benachbarte Proben auszuschlieBen, das zu untersuchende Volumen in Teilraume mit zum Beispiel wurfeliger Form zerlegen und in jeden nur einen Zufallstreffer plazieren. Je nach Kenntnis Ober die ungefahre Lage des Optimums wird man dabei den Teilraumen verschieden greBe Volumina geben (Idelsohn, 1964). Oadurch andert sich die ursprOngliche Gleichverteilung in eine mit groBerer Oichte in Optimumnahe. Karnopp (1961,1963,1966) hat sich ausfOhrlich mit diesem Problem beschaftigt, jedoch kein praktikables Verfahren genannt. Mathematisch fundiertere Untersuchungen zum gleichen Thema stammen von Motskus (1965, siehe auch Hupfer (1970) und Pluznikov, Andreyev und Klimenko (1971)), Yudin (1965, 1966, 1972), Vaysbord (1967, 1966, 1969), Taran (1966a,b), Karumidze (1969) und Meerkov (1972). Wird nach mehreren (simultanen) Stichproben die Suche in einem verkleinerten Teilbereich, der besonders vielversprechend erscheint, fortgesetzt. erhalt das Verfahren auch sequentiallen Charakter. Vorschlage dieser Art haben zum Beispiel McArthur (1961), Motskus (1965) und Hupfer (1970) gemacht (shrinkage random search), Zakharov (1969, 1970) verwendet die stochastische Approximation fOr die sukzessive Verkleinerung des Gebiets, in dem Monte-Carlo Stichproben ausgefOhrt warden. Am besten ausgearbeitet ist wahl die Strategie von McMurtry und Fu (1966, probabilistic automaton, siehe auch McMurtry (1965)). Die betrachtete Aufgabe lautet, die einstellbaren Parameter eines Kontrollsystems fOr einen dynamischen ProzeB adaptiv so zu justieren, daB ein Optimum des Systems trotz Storungen und (langsamar) Drift gefunden und gehalten warden kann (Hill, McMurtry und Fu (1964), Hill und Fu (1965)). Anfangs sind die Wahrscheinlichkeiten fOr alle Teilvolumina - gemessen wird der Funktionswert der als stochastisch gestort angenommenen Zielfunktion jeweils im Zentrum - gleich graB. Im Laufe der Iterationen wird die Wahrscheinlichkeitsmatrix verandert, so daB Gebiete mit besseren Zielfunktionswerten haufiger kontrolliert werden als andere. Die Suche endet damit, daB schlieBlich nur noch der Teilraum mit der groBten Wahrscheinlichkeit, das globale Optimum zu enthalten, Obrigbleibt. McMurtry und Fu benutzen eine sogenannte lineare Verstarkung zur Anpassung der Wahrscheinlichkeitsmatrix.Vorschlage zur weiteren Verbesserung der Konvergenzrate machen Nikolic und Fu (1966), Fu und Nikolic (1966), Shapiro und Narendra (1969), Asai und Kitajima (1972), Viswanathan und Narendra (1972) und Witten (1972). Strongin (1970, 1971) befaBt sich mit dem gleichen Problem aus der Sicht der Entscheidungstheorie.

- 111 -

Alle diese Verfahren legen gr5Bten Wert auf die globale Konvergenzsicherheit. Die Gute der Approximation hangt wesentlich ab von der Anzahl der Unterteilungen des untersuchten n-dimensionalen Intervalls. Hohere Genauigkeitsforderungen sind bei vielen Variablen nicht zu erfullen, da - zumindest anfangs die Zahl der zu untersuchenden Teilgebiete exponentiell mit der Zahl der Parameter zunimmt. Die lokalen Konvergenzeigenschaften zu verbessern, darauf zielen Vorschlage ab, die Mittelpunktskontrolle in einem Volumen durch eine Extremwertsuche mit einer der bekannten Suchstrategien - zum Beispiel einem Gradientenverfahren - (Hill, 1969) oder einer anderen, rein sequentiellen Zufalls-Suchmethode (s.u.J (Jarvis 1968, 1970) mit hoher Konvergenzrate, aber nur lokaler Konvergenzsicherheit, zu ersetzen. Die Anwendbarkeit bleibt jedoch beschrankt auf Problema mit hochstens 7 oder 8 Variablen. Eine andere Moglichkeit, Zufallsmethoden mit sequentiellem Charakter auszustatten, besteht darin, den Erwartungswert einer Zufallsgr5Be mit nur begrenztem Wahrscheinlichkeitsdichtefeld allmahlich zu verschieben. Seinen diesbezuglichen Vorschlag nennt Brooks (1958) kriechende Zufallssuche (creeping random search). Geeignete Zufallszahlen liefert zum Beispiel eine GauBsche Normalverteilung mit dam Erwartungswert ( und der Standardabweichung cr. Ausgehend von einem gewahlten Start-Zustand x(O) warden (simultan) mehrere Proben gemacht, die mit gr5Bter Wahrscheinlichkeit in die unmittelbare Nachbarschaft des Ausgangspunktes fallen ((

=

x(Ol). Die Koordinaten des Zustandes mit dem besten

Funktionswert bilden den Erwartungswert des nachsten Zufalls-Probensatzes. Im Gegensatz zu anderen Verfahren warden die Daten der Obrigen Versuche nicht dazu ausgenutzt, ein lineares oder sogar quadratisches Modell zu erstellen und daraus einen bestmoglichen Schritt zu errechnen (z.B. Brooks und Mickey (1961), Aleksandrov, Sysoyev und Shemeneva (1968) sowie Pugachev (1970)). Ist cr klein und die Anzahl dar Stichproben groB, wird der Bestwert ohnehin in etwa in die lokal gunstigste Richtung fallen. Urn eine Losung mit hoher Genauigkeit annahern zu konnen, sell die Streuung cr 2 sukzessiv verringert warden. Brooks nennt aber keine praktikable Regel fur die Anpassung. Viele Algorithmen sind inzwischen bekannt geworden, die von Brooks' Grundkonzept der creeping random search ausgehen. Die meisten von ihnen verzichten auf die Auswahl dar besten von mehreren Proben. Sis akzeptieren jede Verbesserung und verwerfen jade Verschlechterung (Favreau und Franks (1958), Munson und Rubin (1959), Wheeling (1960)).

- 112 Ihre Iterationsvorschrift lautet fur die Minimumsuche x(k+ 1 l=[x(kl+z(kl

Dar Zufallsvektor z

wenn F(x(kl+z(k)l

~ F(x(k)l

(Erfolg)

x(kl sonst (MiBerfolgl (kl , der in dieser Schreibweise die Anderung des Zustands-

vektors xbewirkt,gehorcht einer n-dimensionalen (O,ol-Normalverteilung mit dem Erwartungswert ~=0 und dar Streuung a2, die 1m einfachsten Fall fur alle Komponenten gleich ist. Man kann a als eine Art mittlere Schrittweite auffassen. Die Richtung von z(k) ist im Rn gleichverteilt. GauB-verteilte Anderungen verwenden auch Bekey, Gran, Sabroff und Wong (1966), Stewart, Kavanaugh und Brocker {1967) sowie De Graag (1970), Gonzalez (19701 und White (1970) benutzen statt der Normalverteilung eine in einem engen Bereich um den Ausgangspunkt in einem n-dimensionalen wurfelformigen Gebiet wirksame Gleichverteilung. Dabei warden die Diagonalrichtungen offenbar bevorzugt,bzw. die Gesamtschrittweiten sind dart im Mittel um In groBer als in den Koordinatenrichtungen. Pierre (1969) beschrankt daher die gleichwahrscheinlichen Zufallstreffer auf eine n-dimensionale Hyperkugel mit festem Radius. Rastrigin (1960 bis 19721 gibt der Gesamtschrittweite n

s

=£L i=1

einen fasten Wert. Statt der Normalverteilung erhalt er damit eine Kreisrandbzw. eine Hyperkugel-Oberflachen-Verteilung. AuBerdem wiederholt er im Falla eines MiBerfolges die Bestimmung des Zielfunktionswertes, um den EinfluB von stochastischen Storungen zu reduzieren. Anhand zweier Funktionsmodelle n

F1 (x) =

L . xi

i=1

betrachtet er die mittlere Konvergenzrate seiner Strategie und vergleicht sie mit der einer experimentellen Gradientenmethode, bei der die partiellen Ableitungen mittels Tastschritten aus Differenzenquotienten angenahert warden. Er zeigt, daB bei linearer Problemstruktur (F 1 l die Zufallssuche nur 0(/n), die Gradientenstrategie dagegen O(nl Proben benotigt, um sine vorgegebene Stracke zuruckzulegen. Ab n > 3 ist die Zufallsstrategie der deterministischen Methode stets uberlegen. Wahrend Rastrigin zeigt, daB die Zufallssuche auch im

- 113 kugelsymmetrischen Qualitatsfeld CF 2 J besser abschneidet als die Gradientensuche, behauptet Movshovich (1966) das Gegenteil. Die Diskrepanz beruht auf unterschiedlichen Annahmen Ober die Schrittweitenwahl (siehe auch Yvon (1972) und

Gaviano und Fagiuoli (1972)),

Geeignete Schrittweiten bzw. Streuungen zu wahlen, stellt die sequentielle Zufallssuche vor die gleichen Problema, wie sie von deterministischen Strategien her bekannt sind. Auch hier ist damit eng verknupft die Frage nach einer geeigneten Abbruchregel, dem Konvergenzkriterium, und nach der Sicherheit, globale Extrema anzusteuern. Khovanov (1967) ersinnt eine recht eigenwillige Steuerung dar ·zufalls-Schrittweiten. Er akzeptiert jede Zufallsander~ng

unabhangig von Erfolg oder MiBerfolg, vergroBert die Streuungen bei

jedem MiBerfolg und verringert sie anderenfalls. Dadurch sollen die Wahrscheinlichkeiten, in erfolgstrachtigen Gebieten zu verweilen und fur die Dptimumsuche irrelevante Zustande zu verlassen, vergroBert werden. Anwendungen dar Strategie sind nicht bekannt geworden, Favreau und Franks (1956), Bekey, Gran, Sabroff und Wong (1966) sowie Adams und Lew (1966) benutzen ein konstantes Verhaltnis zwischen oi und xi fur i

=

1(1Jn. Diese MaBnahme

verandert zwar laufend die 'Schrittweiten', ist aber nicht recht plausibel. Wenn ein Variablenwert xi klein ist, heiBt das noch lange nicht, daB er dem gesuchten Extremort nahe ist. Karnopp (1961) hat als erster eine an der Zahl der Erfolge bzw. MiBerfolge orientierte Schrittweitenregel vorgeschlagen, Danach werden die oi bzw. s 1 alle gemeinsam verkleinert oder vergroBert, so daB auf zwei bis drei Versuche jeweils ein Erfolg kommt. Schumer (1967) und Schumer und Steiglitz (1966) unterziehen Rastrigins KreisrandZufallsrichtungs-Verfahren einer eingehenden wahrscheinlichkeitstheoretischen Untersuchung. Fur das Modell F

3

n =

l

i=1

erhalten sie unter der Bedingung n>>1 und stets optimaler Schrittweite s r

s = 1.225 7n als Geschwindigkeit

~.

das ist die pro Zufallsschritt im Mittel zuruckgelegte

- 114 Strecke in Richtung Ziel (Minimum),

~ .. 0,203 ~ und als Erfolgsrate we' d.h. die mittlere Anzahl von Erfolgen je Versuch, w .. 0.270 e Im allgemein quadratischen Fall gelingt ihnen die theoretische Behandlung nur fOr n

= 2.

Ihr Ergebnis kann man so interpretieren, daB

~

abhangig wird

vom kleinsten KrOmmungsradius p der elliptischen Hohenlinien-Kontur, der an die Stelle von r tritt. Oa weder r noch s als bekannt vorausgesetzt werden konnen, laBt sich die optimale Schrittweite nicht ohne weiteres einhalten. Schumer und Steiglitz geben

~ine

adaptive Methode an, mit der wenigstens an-

nahernd die richtige GroBe fOr s im Laufe der Iterationen einreguliert werden kann. Am Startpunkt x(OJ warden zwei Zufallsanderungen mit den Schrittweiten s(OJ und s(0)(1+a) mit 0 1) eingefOgt werden. Numerische Tests zeigen, daB der Rechen- bzw. Versuchsaufwand tatsachlich nur linear mit der Variablenzahl steigt. Erprobt haben Schumer und Steiglitz dies anhand der Modellfunktion F3 und

x"i

Ein Vergleich mit einer Newton-Raphson Strategie, bei der die partiellen ersten und zweiten Ableitungen numerisch bestimmt werden, der Aufwand also mit D(n2J steigt, laBt die Zufallsmethode ab n > 76 bei F3 und schon ab n > 2 fOr F4 als besser erscheinen. FOr die zweite, biquadratische Modellfunktion geben Nelder und Mead (1965)

an, daB die Zahl dar Versuche bzw. Funktionswertbestimmungen bei. ihrer Simplex-Strategie mit 0(n 2 ' 11 J wachst, so daB die se-

quentielle Zufallssuche ab n >10 Oberlegen ist. White und Day (1971) verweisen auf numerische Tests, bei denen der Aufwand an Iterationen bei Schumers

- 115 Strategie etwas starker als linear mit n zunimmt, wahrend eine Modifikation von White (1970)

exakt lineare Abhangigkeit zeigt, Ein Vergleich mit der

Strategie von Fletcher und Powell

(1963)

fallt zugunsten dieser aus, be-

senders bei echt quadratischer Zielfunktion. Zu fast den gleichen theoretischen Ergebnissen wie Schumer fOr die Kreisrandverteilung kommt Rechenberg (1973) fOr eine n-dimensionale Normalverteilung (siehe Kapitel 5,1), wenn man berOcksichtigt, daB die Gesamtschrittweite n

={ L 1=1

bei gleichen Streuungen a~

=

a 2 fOr alle Zufallskomponenten zi proportional

zur Wurzel aus der Zahl der Variablen wachst. Die Ursache hierfOr ist in der Eigenschaft des euklidischen Raumes zu suchen, daB das Volumen einer Hyperkugel sich mit wachsender Dimensionszahl immer mehr auf die Randzone nahe der Oberflache konzentriert. Rechenbergs Adaptationsregel fuBt auf der anhand zweier grundverschiedener Zielfunktionsmodelle gewonnenen Beziehung zwischen optimaler Streuung und Erfolgswahrscheinlichkeit.

Daraus laBt sich

eine Adaptationsregel fOr die Schrittweiten formulieren, die die Haufigkeit bzw.GroBe der a-Anderungen von der Zahl der Variablen abhangig und von der Struktur der Zielfunktion unabhangig macht. Hierauf wird in Kapitel 5.1 naher eingegangen. Konvergenzbeweise fur die sequentielle Zufallsstrategie sind von Matyas (1965, 1967) und Rechenberg (1973) nur fur den Fall konstanter Streuung a2 gefOhrt worden. Gurin (1966) hat die Konvergenz auch fur stochastisch gestorte Zielfunktionen nachgewiesen. Allerdings wird die Konvergenzrate durch Storungen negativ beeinfluBt (Gurin und Rastrigin, 1965), jedoch weniger stark als bei Gradientenverfahren. Globale Konvergenz kann erzielt warden, wenn der Referenzwert der Zielfunktion am Ausgangspunkt wiederholt gemessen wird (Saridis und Gilbert,1970), Sebald versucht wird, durch Anpassung der Streuungen oder Schrittweiten hohere Konvergenzraten zu erzielen, schwindet die Chance, globale Extrema zu finden, Dann geht auch die Zufallssuche in eine trajektorielle Strategie Ober, Allerdings bleibt die Wahrscheinlichkeit der globalen Konvergenz bei normalverteilten Schritten stets endlich groB, nur wird sie, besenders im vieldimensionalen Fall, eventuell sehr klein. Neben der Anpassung der Schrittweiten 1st auch eine Adaptation der Richtungen denkbar. Mehrere Vorschlage dieser Art sind bekannt geworden (Satterthwaite

- 116 (1959a, nach McArthur (1961)), Wheeling (1960), Smith und Rudd (1964, nach Dickinson (1964)), Matyas (1965,1967), Bekey, Gran, Sabroff und Wong (1966), Stewart, Kavanaugh und Brocker (19671, De Graag (1970) und Lawrence und Emad (1973)), Sie alle sind heuristischer Natur. Im einfachsten Fall einer 'directed random search' wird eine erfolgreiche Zufallsrichtung solange beibehalten, bis ein MiBerfolg eintritt (Satterthwaite), Bakay, Lawrence und Rastrigin verwenden sogar jede Zufallsrichtung. Ist dar erste Schritt ein MiBerfolg, dann benutzen sie die entgegengesetzte Richtung (positive and negative absolute biasing). Smith und Rudd speichern die jeweils zwei besten Punkte aus einer groBeren Serie von Stichproben und gewinnen aus deren Abstand eine Schrittweite fur die weitere Dptimierung. Wheelings 'history vector method' addiert zu jeder Zufallsanderung einen erlernten deterministischen Anteil. Dieser Zusatzvektor 1st anfangs Null. Er wird bei jedem Erfolg urn einen Teil des Anderungsvektors vergroBert, bei MiBerfolgen entsprechend verringert. Saleh ein Lernund VergeB-ProzeB liegt auch deiTAlgorithmen von De Graag und Matyas zugrunde, Letzterer ist wahl am starksten beachtet worden, obwohl er keine prazisen Angaben uber die Wahl der Streuungen macht. Schrack und Borowski (1972) - sie geben fur Matyas' Strategie eine eigene Schrittweiten-Regel an - haben aber anhand numerischer Tests zeigen kennan, daB dar einfache, nicht richtungsorientierte Algorithmus von Schumer und Steiglitz dam von Matyas mindestens ebenburtig ist, sowohl bei ungestorten als auch bei gestorten MeBwerten der Zielfunktion. Ein etwas eigenwilliges Verfahren von Kjellstrom (1965), bei dam die Zufallssuche in wechselnden 3-dimensionalen Unterraumen des Rn stattfindet, erweist sich dabei als sehr viel Schlechter. Nur besonders gunstige Richtungen zu akzeptieren, darauf zielt auch die 'threshold strategy' von Stewart, Kavanaugh und Brocker (1967), bei der nur solche Zufallsanderungen akzeptiert warden, die eine vorgegebene Mindest-Verbesserung des Zielfunktionswertes erbringen. Die gleichzeitige Anpassung von Schrittweiten und Richtungen ist nur selten versucht worden. Die Vorschlage von Favreau und Franks (19581 sowie Matyas {1965,19671 bleiben zu unprazise, urn praktikabel zu sein. Gaidukov (1966, siehe auch Hupfer, 19701 und Furst, Muller und Nollau (1968) geben genauere Anweisungen hierzu, entweder auf der Grundlage von Rastrigins oder Matyas' Konzept. Die Adaptation der Erwartungswerte und Varianzen der Zufallsvektoren erfolgt nach MaBgabe von Erfolg und M1Berfolg dar Iterationen, Anwendungen dar Strategien sind aber nicht bekannt geworden, so daB as vorlaufig bei der von Schrack und Borowski (19721 festgestellten Tatsache bleibt, daB eine sorgfaltige Wahl der Schrittweiten die wichtigste Voraussetzung fur schnelle Konvergenz eines Zufallsverfahrens 1st.

- 117 Mit von vornherein begrenzter Richtungswahl arbeitet ein von Rastrigin entworfenes und von Heydt (1970) weiterentwickeltes Verfahren, Bei fester Schrittweite kann sine Richtung nur innerhalb eines n-dimensionalen Hyperkegels zufallig ausgewahlt warden. Der Offnungswinkel des Kegels sowie dessen Hohe (und demit die Gesamtschrittweitel warden adaptiv gesteuert. Bei spharischer Zielfunktion, z.B. der Modellfunktion F2 oder F3 oder F4 , ergibt sich keine Verbesserung des Konvergenzverhaltens, Nur wenn die Suche durch eine enge ·schlucht langere Zeit einer ausgepragten Richtung folgen muB, lassen sich Vorteile erzielen. Plotzliche Richtungsanderungen sind aber problematisch, so daB Heydt erwagt, von der Kegel-Konfiguration zu einer hyperparaboloidischen oder hyperhyperboloidischen Verteilung uberzugehen, bei der wenigstens kleine Schrittweiten genugende Richtungsfreiheit behalten. Des BemGhen urn schnelle Konvergenz steht in jedem Fall der globalen Konvergenzsicherheit entgegen. Jarvis (1968, 1970) hat daher sine Kombination des Verfahrens von Matyas (1965, 1967) mit dern von McMurtry und Fu (1966) untersucht. Numerische Tests von Cockrell (1969, 1970, siehe auch Fu und Cockrell (1970)) zeigen auch hier, daB die Grundstrategie von Matyas bzw. Schumer und Steiglitz wohl die bessere Alternative ist. Sie bietet hohe Konvergenzraten und auBerdern noch

eine zumindest bei wenigen Variablen passable Chance, glo-

bale Optima zu lokalisieren. Im vieldimensionalen Fall scheitert jades Streben nach globaler Sicherheit an zu groBem Aufwand. So landet die global konvergente Methode dar stochastischen Approximation von Vaysbord und Yudin (1968) weit abgeschlagen. Daruber hinaus 1st die sequentielle oder kriechende Zufallssuche am wenigsten anfallig bei Storungen der Zielfunktion. Anwender von Zufallsstrategien heben immer wieder deren Einfachheit, Storunanfalligkeit und Flexibilitat hervor. Diese Eigenschaften sind besonders wichtig, wenn man automatische Optimisatoren {siehe z.B. Feldbaum (1958), Herschel {1961), Medvedev und Ruban (1967) oder Krasnushkin (1970)) bauen will. Rastrigin hat wohl den ersten Optimisator mit einer Zufallssuchstrategie realisiert. Dabei ging es urn die autornatische Drehzahlregelung eines Elektromotors, Mitchell (1964)

beschreibt einen Extremwertregler, der aus einern Analog-

rechner und einem festverdrahteten Dig1talte11 besteht, Dar digitale Teil dient zur Speicherung und Ablaufsteuerung, wahrend der analogs Teil die Zielfunktion auswertet. Die Entwicklung von hybrigen Analogrechenanlagen mit ihren systernbedingten Rechenungenauigkeiten hat dazu beigetragen, Zufallsmethoden besonders sequentiellen - zu waiter Verbreitung zu verhelfen, Fur Anwendungs-

- 118 -

beispiele bleiben neben den schon erwahnten Autoren nur noch zu nennen: Meissinger (1964), Meissinger und Bekey (1966), Kavanaugh, Stewart und Brocker (1968), Korn und Kosako (1970), Johannsen (1970, 1973) und Chatterji und Chatterjee (1971). Besonders fOr Aufgaben der optimalen Steuerung und der Parameter-Identifikation lassen sich Hybridrechner mit Vorteil einsetzen, weil sis Integrationen und Differentiationen schneller auszufOhren vermogen als digitale Rechenanlagen. Mutseniyeks und Rastrigin (1964) haben fOr das dynamische Steuerproblem, sin Optimum zu halten, einen speziellen Algorithmus entworfen. Statt des Variablen-Drtsvektors x wird sin Geschwindigkeitsvektor mit den Komponenten

3xi/at variiert. Eine

einmal zufallig gewahlte Kombination wird solange beibehalten, wie der Zielfunktionswert abnimmt (bei Minimierung 3F/3t 1

Eltern und A=1 Nachkammen wirken, sie sall also

tegie heiBen. Die allgemeinste Farm, eine

(~+A]-Strategie,

farmuliert warden, daB eine Grundpapulatian aus

~

Eltern der Generation g

A Nachkammen erzeugt und aufgrund der Selektian van diesen nur die

~

(~+1]-Stra

muBte demnach sa Individuen

~+A

besten als Eltern der falgenden Generation zum Zuge kammen. In die-

sam Modell konnte es varkommen, daB ein Elter, der aufgrund seiner Vitalitat den ubrigen Eltern der gleichen Generation weit uberlegen ist, sehr lange 'lebt' und standig weitere Nachkammen erzeugt. Das widerspricht der bialagischen Tatsache der begrenzten Lebensdauer bzw. genauer, der begrenzten Zeugungsfahigkeit. Alterserscheinungen unterliegen bekanntlich nicht der bialagischen Selektian (siehe z.B. Savage (1966] ader Dsche (1972]]. Wir wallen darum als weiteres Denkmadell eine Papulation einfuhren, bei der wieder Eltern A Nachkammen erzeugen, die

~

~

Eltern jedach bei der Selektian nicht

mehr berucksichtigt warden. Vielmehr sallen die Eltern der falgenden Generation nur aus den A Nachkammen durch Selektian ausgewahlt warden. Um sine kenstante Papulatiansstarke zu erreichen, fardern wir, daB jeweils die

~

besten

der A Nachkammen zu Eltern der falgenden Generation warden. Dieses Schema wallen wir im falgenden als

(~,Al-Strategie

bezeichnen. Wie fur die (1+1]-

Strategie im Kapitel 5.1.1 sall der Algarithmus der mehrgliedrigen

(~,Al

Strategie zunachst in bialagischer Ausdrucksweise farmuliert werden. Schritt 0:

Gegeben ist sine Papulation, bestehend aus

~

Individuen.

Jades ist gekennzeichnet durch seinen Genatyp, bestehend aus je n Genen, die die Vitalitat eindeutig festlegen.

- 141 A

Schritt 1:

Jades E1ter-Individuum erzeugt

(Mutation)

samt A neue Individuen vorhanden sind. Dar Genotyp sines

~

Nachkommen, so daB insge-

Nachkommen unterscheidet sich nur wenig von dam seines E1ters. Schritt 2:

Nur die P besten dar A Nachkommen warden zu E1tern der fo1-

(Se1ektionl

genden Generation.

In mathematischer Kurzform 1auten die Vorschriften unter BerGcksichtigung von Nebenbedingungen: Schritt 0:

[OJ Gebe vor xk

fOr a11e k

= {xk,i (0]

(OJ - xEk

(0} -

wobei xk

= 1(1)P I

1

= 1(1Jn}T

dar Vektor des k-ten E1ters 1st, so daB Gj(x~ 01 J ~ 0 fOr a11e k 1(1]p und a11e j Setze g Schritt 1:

1(1Jm

0 •

Erzeuge x1£g) -- xk(g) + z((g- 1 ]A+ 1 l fOr a11e 1

=

1(1]A

wobei k e !1,pl *l

dar Vektor des 1-ten Nachkommen und z((g- 1 )A+ 1 J ein (O,a(g]J-norma1verte11ter Zufa11svektor Schritt 2:

Sortiere die xi g) fOr alle 1 =· 1 (1 )A F(x(g}J < F(x (g) J 11 12 und Gj (xigl J 1

~0

(g+1] Obertrage xk Erhohe g

+

g+1

so, daB

fOr alle 11 = 1(1)p p+1(1 )A und all a 12 1(1 )p fOr all a 11

und alle j = 1(1Jm = x (g) fOr alle k = 11 11

1(1]p

und gehe zu Schritt

Eine Darste11ung dar Ereignisse einer Generation fOr eine (2,41-Evo1utionsstrategie zeigt das zweidimensiona1e isoperimetrische Hohen11niendiagramm einer nicht11nearen Parameteroptimierungsaufgabe (Skizze 5,4]. *l z.B.

k

wenn 1 sonst

P'Pl p ganz

1st.

- 142 Skizze 5.4 mehrgliedrige (2,4)-Evolutionsstrategie

Kreiss: Linien koristanter Trefferwahrscheinlichkeit

HOhenlinien f(x) = canst.

Ek N1 (g)

5.2.2

Eltern Nachkommen Generationszllhler

Die Fortschrittsgeschwindigkeit dar (1,Al-Evolutionsstrategie

In diesem Kapitel wird dar Versuch unternommen, die Fortschrittsgeschwindigkeit der mehrgliedrigen bzw. einer (1,Al-Strategie nllherungsweise zu ermitteln. Dabei warden die von Rechenberg (1973) bei dar Berechnung der Fortschrittsgeschwindigkeit fOr die (1+1)-Strategie benutzten n-dimensionalen Modellfunktionen Kugel und Korridor gebraucht. Bei dar zweigliedrigen Evolutionsstrategie war

+ dar

Erwartungswert der je

Mutation zurOckgelegten Wegstrecke. Hier wird die Geschwindigkeit

+ zweck-

maBigerweise auf die Zahl dar Generationen bezogen.

~ ~

= Erwa rt ungswert

( zurOckgelegter Weg Generation

J

Aufgrund der gewlihlten n-dimensionalen Normalverteilung des Zufallsvektors mit dam Erwartungswert Null und der Dispersion a 2 fOr alle, voneinander unabhlingigen Vektorkomponenten ist die Wahrscheinlichkeitsdichte dafOr, von einem Punkt E{xE,i' i

a

r

1(1)n} zu einem anderen Punkt N{xN,i' i w(E-+Nl

=(

{(2!) a

exp [-

Die Entfernung zwischen xE und xN betragt

~

= 1(1)n}

zu gelangen,

J1 (xE,i-xN,i)2)

(5.9)

- 143 -

~

I..

i=1

(xE,i-xN,i)

2} 1/2

Von ihr ist aber nur ein Teil, s = f(xE. xNJ' im Hinblick auf die Zielannaherung nutzbringend.Um die gesamte Wahrscheinlichkeitsdichte dafOr zu kennen, daB ein Weg von bestimmter Lange s zurOckgelegt wird, muB noch Ober den geometrischen Drt integriert werden, fOr den die bewertete Strecke, vom Ausgangspunkt xE gemessen, gleich s ist. Dieser Drt ist die Dberflache eines ndimensionalen,begrenzten Raumgebiets. (n J w(s) =

f f .. . J

f(xE.xNJ=s

(5.10)

w(E+Nl dxN, 1 dxN. 2 •.. dxN,n

Das Ergebnis der Integration hangt ab von der Bewertungsfunktion f(xE.xNJ und damit von der Topologie der Zielfunktion F(x). Bis jetzt ist nur eine Zufallsanderung berOcksichtigt worden. Bei der mehrgliedrigen Evolution muB aber noch der Mittelwert Ober die ~ besten der A Nachkommen von~ Eltern gebildet werden, wobei jedem Nachkommen {N 1 ;1=1(1)A} eine ihm eigene Strecke s 1 zuzuordnen ist. Zunachst haben wir die Wahrscheinlichkei tsdichte w (s' J dafOr zu finden, daB der v. -bests Nachkomme einer Generation \)

den Weg s' zurOcklegt. Sie setzt sich kombinatorisch zusammen aus - der Wahrscheinlichkeitsdichte w(s 1 =s' J. daB ein bestimmter Nachkomme N1 dem Ziel gerade um s' naherkommt.

1

1

- der Wahrscheinlichkeit w(s 1 >s,)' daB ein Nachkomme Nl waiter als s' und 2 2 - der Wahrscheinlichkeit w(s 1 s 3 13=12+1

14=13+1

13111

14f{l1,12}

n A

{w(sl >s') • 1\1+1=1 \) lv+1+{11,12, •••• lv}

14

>s'l

..opt = 2.5

(ganzzahlig: Aopt

2 oder 3)

- 150 -

Das Kugelmodell

5.2.2.2

Nun warden wir versuchen, die Fortschrittsgeschwindigkeit zu berechnen fur das bei dar Betrachtung dar Konvergenzeigenschaften dar Strategie wichtige Modell dar kugelsymmetrischen Kuppe. Die

Niveaufl~chen

dar Zielfunktion f(x)

sind konzentrische Hyperkugelschalen, beispielsweise gegeben durch F(x) Skizze

5.8

n

= I

i=1

x~

= const

zeigt eine Darstellung fur den Fall zweier Variabler. Die L6-

sung erfolgt weitgehend nach dam gleichen Schema wie fur die schiefe Ebene. Einige Rechenschritte und Teilergebnisse warden wir aus dam von Rechenberg fur die zweigliedrige (1+1)-Evolutionsstrategie durchgefuhrten Rechnungsgang ubernehmen. Die normierte Wahrscheinlichkeitsdichte dafur, daB ein beliebiger Nachkomme N1

mit dem Drtsvektor x1 = {xl,il i =1(1ln}vom Elter Emit dam Ortsvektor xE • {xE,il i • 1(1ln} erzeugt wird, entspricht wieder einer n-dimensionaleh Skizze 5.8 Modellfunktion Hyperkugel

Hlihenlinien F(Xl

= x12 + x22

• const.

- 151 Normalverteilung mit dem Erwartungswert ~ = 0 und der Varianz a 2 (fur alle Vektorkomponenten gleichl • Ohne die Allgemeingultigkeit des Ergebnisses zu beeintrachtigen, kann fur den Ausgangspunkt E eine spezielle Lage

in bezug

auf das Koordinatensystem gewahlt werden. E {xE.1=rE,xE,2=0,xE,3=0, ..• xE,n=O} Zusammen mit der Abkurzung rl

=

~ri~1 x~.il

erhalt man aus Gleichung (5.9)

w(E~ 1 J=(;( 2 ~l

o)n exp (-

~ (r~ + r~

- 2 rEx 1 , 1 J) .

Als in Richtung zum Ziel hin zuruckgelegter Weg s 1 wird nur der Anteil gewertet, welcher zur Verbesserung der Zielfunktion beitragt: das ist hier die Radiendifferenz s 1 = rE-rl (siehe Skizze 5.8). Der geometrische Drt aller Punkte N1 , fur die s 1 gleich graB wird, ist die Dberflache der n-dimensionalen Hyperkugel urn den Ursprung mit dem Radius r 1 = rE-s 1 . Demnach ist die gesamte Wahrscheinlichkeitsdichte dafur, vom Punkt E ausgehend bei einer Mutation (Index ll die Strecke s 1 zuruckzulegen, das n-fache Linienintegral (n)

!··~·f (;( 2 ~ 1

w(s 1 J=f rE rl-sl

a)n exp(-

~(r~+r~-2rEx 1 , 1 J)

• dx 1 , 1dx 1 , 2 •.. dxl,n Durch Transformation auf Kugelkoordinaten erhalt man ein einfaches Integral

Das verbleibende Integral kann man durch eine modifizierte Besselfunktion darstellen:

Zur Vereinfachung der Schreibweise fuhren wir jetzt folgende Abkurzungen ein: ' v

- 152 Damit erhal t man

av 2 a -2 v --2a v e w(s l=- e Iv_ 1 (av) 1 rE

Um mit Gleichung (5.15} die Gesamtwahrscheinlichkeitsdichte zu berechnen, mit der der baste von A Nachkommen die Stracke s' = max {s 1

1

1(1JA}= rE- r'

1

1

zurUcklegt, warden noch folgende GraBen benotigt:

a

2

mit und s'

und 1 -

u

J

= 1 -

v=O Dies ergibt schlieBlich die Dichtefunktion fUr den in einer Generation zurUckgelegten Weg s'. ausgedrUckt in Einheiten von u: w(s'

)=-

rE

e

-2

a

au 2

a

a

u

\1

e

--2-

Iv_ 1 (au) [1-a e

-2

av2

u

f

v=O

v

v e

-2

Iv_ 1 (av)dv)

A-1

Da der Erwartungswert dieser Verteilung sich nicht direkt ermitteln laBt, wollen wir ihr Maximum bestimmen, um eine Naherung ,. zu erhalten. Die notwendige Bedingung aw(s. J

as

J

I

S

I

fUhrt mit der AbkUrzung D(yl = a•e

=•

0 I

a

-2

ay2

y

\1

e

-2

\ - 1 (ay)

auf die Beziehung

,. A=1+aD(uJ I u=1-au rE

1-.1.:. rE

J

v=D

D(vldv)

(5.18)

Bis auf die obere Integrationsgrenze handelt es sich um das gleiche Integral, das die exakte Losung dar Fortschrittsgeschwindigkeit fur die (1+1)-Evolutionsstrategie so erschwerte (siehe Rechenberg. 1973). Mit den Einschrankungen v>>1 und ~.Ct',

a ,rE' nl •

In Erwartung eines Endre5ultat5 ahnlich (5.41 und wail sine spezielle Ausgangssituation rE nicht intere5siert, wollen wir neue Variable einfOhren: und Er5etzt man nun t' durch t* und a durch a* und fOhrt anschlieBend noch den GrenzObergang lim ).(t*.a*,rE,nl n-durch, 50 stellt man fest, daB aus der Parameterliste fOr ). die GreBen n und rE herausfallen, t• und a• demnach als 'universelle' Variable angesehen warden konnen. Wir erhalten:

-0.5

0

0.5

1.0

1.5

2,0

+*I

/

..

0 0 0

~

~..._,_ 0 0

0

l>•2l '

0

'>

a*

o-

~.,..--• ••.. ···"'·~---------0 - - - - CA•n Th '· 0 0 ---------------· .•.. ·•····• 0 0 -,:;--'~~"-------

.---

(su=O

(1t1l- Theorie

u

Simulation s =0

fd

0

Lage dar Maxima ·~ax(a~ptl Simulation s =-~

N~herungstheorie su=-~

.··

Fortsohrittsgesohwindigkeit fOr das Korridormodell

universelle Fortsohrittsgesohwindigkeit

Diagranvn 5. 13

i!l

- 164 Iterativ gefundene Wertepaare sind im Diagramm 5,13 eingetragen, Diagramm 5.14 stellt +~ax uber A dar, Urn Aopt fur die (1,A)-Strategie zu bestimmen, d.h. denjanigen Wert A, fur den +~ax/A maximal wird, muB das nichtlineare Gleichungssystem, gebildet aus (5,29), (5,30) und + +2 + + +2 + 1 AoptE+ { w exp(+ 3[t(+ )+2 exp(a )-1) (1+2+ )+2+ } A

• {~ !~-exp(-a+))Aln[1-exp(-a+ll+1} c gelost warden. Man erhalt 6,0 (ganzzahlig: Aopt

(5,311

= 6)

Diagramm 5, 14 Fortschrittsgeschwindigkeit fOr das Korridormodell

5

maximale universelle Fortschrittsgeschwindigkeit +~ax (a~pt 1

4

3

e

2

(1+1) -Theorie

Zahl der Nachkommen 0

5

10

15

20

25

30

- 165 5.2.3

Die Schrittwaitanstauarung

Wie sell man nun vorgahan, um auch bairn mahrgliadrigen Evolutionsschama stats maximale Fortschrittsgaschwindigkeit zu arzielen, d.h. die optima2 len Streuungan ai ' i z 1(1Jn einzuhaltan? Bei der (1+1)-Stratagia wurda hierzu die 1/5-Erfolgsragel banutzt, die anhand dar zur maximalen Konvarganzrate gahorandan Erfolgswahrscheinlichkeit bei dan Modellfunktionan 'Kugel' und'Korridor' aufgastallt wurda. Diasa Stauarung von auBarhalb des eigaritlichan Mutations-Salektions Spiels antspricht nicht dem biologischan Vorbild. Vielmehr muB anganommen warden, daB sich die Schrittwaitan - exaktar: Strauungen - im Laufa der naturlichan Evolution dan Gegebanhaiten ebanfalls angepaBt haban und noch anpassen. Zwar kann die von den Umweltbedingungen hervorgerufana Mutationsrate nicht dirakt beainfluBt warden, aber die Existenz von Mutatorgenen und.Reparatur-Enzymen legen die Vermutung nahe, daB die Auswirkungen solcher Umwelteinflilssa auf das jaweils geeigneta MaB herabgesatzt warden. DaB die beobachteten Mutationsraten klein sind, ja klein sein mUssen, um optimal zu sain.- auch bai der mehrgliedrigen Evolution- geht aus der eben eingefuhrtan universellen Fortschrittsgeschwindigkeit und dar universallen Standardabweichung hervor. Danach muB a

umge-

kehrt proportional zur Zahl der Variablen sein, wie bai dar (1+1)-Stratagie. Wenn wir die biologische Evolution nachahmen wollen, kennan wir wie folgt vorgahan: Einain Elter

E

wird a.uBar den

Objektparametern xE,i

1

i

=

H1Jn

ain Satz Strategiaparameter aE,i fur die Streuungan der Zufallsanderungan z 1 1 1 = 1(1Jn zugeordnat. Jeder NachkomMe N1 des Elters E sell sich von ihm sowohl hinsichtlich dar x1 , 1 als auch bezuglich dar Parameter a 1, 1 unterschaidan. Die Andarungan dar Varianzan seien ebenfalls zufallig, klein und ihra Erwartungswarta Null, Ob ein Nachkomme zum Elter der nachsten Generation warden kann, ·hangt von seiner Vitalitat, also nur von sainen x 1 , 1 • ab. Welche Variablenwerte er raprasantiert, ist jatzt aber nicht nur durch die xE,i des Elters gegeben, sondarn auch von den die GroBe der Anderungen zi • x1 ,i - xE,i baainflussanden Standardabweichungan a 1,i abhangig. Somit untarliegen die 'Schrittweitan' indirekt ebanfalls dem Selektionsmechanismus. Die groBtmogliche Wahrscheinlichkeit dafur, daB ein Nachkomma bassar als der Eltar 1st, betragt in dar Regel • 0.5 Sia wird beispielsweisa bei der ganeigten Ebene erreicht und bei andaren

- 166 Modellfunktionen im Grenzfall unendlich kleiner Schrittweiten. Wenn verhindert warden sell, daB sine Verringerung der oi stets einen Selektionsvorteil bringt, muB A ~ 2 sein. Die optimalen Schrittweiten kennan sich aber erst dann durchsetzen, wenn A> _1_

w

opt

8

das heiBt, wenn im Mittel wenigstens sin Nachkomme sine Verbesserung des Zielfunktionswertes mit sich bringt. Die Nachkommenzahl (je Elter) spielt daher beim mehrgliedrigen Schema sine entscheidende Rolle, ahnlich der Erfolgskontrolle bei der zweigliedrigen Evolution. Zum Vergleich seien daher der (1+1)-Strategie fOr die drei hier Aopt der (1,A)-Strategie und w eopt einander gegenObergestellt. Die Daten

behandelten Modellfunktionen

sind der Arbeit von Rechenberg [1973) entnommen. fOr w e opt w e opt

Modellfunktion

1

w e

opt

A opt

geneigte Epene

2

2

2.5

Kugel

"' 0.270

3.7

4.7

5.4

6.0

Korridor

2e

Wie sollen nun die Schrittweiten geandert werden? Zunachst wollen wir nur eine fOr alle Variablenanderungen gemeinsame Streuung o 2 betrachten. Die Standardabweichung a stellt bei der Erzeugung der Zufallsanderungen einen Multiplikator dar, der stets pos1tiv 1st. Es 1st also sinnvoll, neue Schrittweiten aus alten nicht durch einen Additions-, sondern durch einen MultiplikationsprozeB zu generieren nach dem Schema [5.32) der ZufallsgroBe Z muB den Wert t = 1 haben, damit die BeDer Mittelwert dingung erfOllt warden kann, daB die Anderung ~a im Mittel zu Null wird. Ferner sollte eine VergroBerung ebenso hauf1g vorkommen, wie eine Verkleinerung der Schrittweite, exakter:die Wahrscheinlichkeiten fur das Auftreten e1nes bestimmten Zufallszahlenwertes und seines reziproken Wertes mOssen gleich graB se1n. Die dritte Forderung ist, daB kleine Anderungen haufiger als greBe sind. Alle drei genannten Bed1ngungen erfDllt die logarithmische Normalverteilung. ZufallsgroBen, die ihr gehorchen, erhalt man aus [O,o) normalverteilten Zahlen Y durch den ProzeB

Z

= ey

[5.33)

- 167 Die Wahrscheinlichkeitsdichtefunktio n fur w(z) =

Z lautet

dann

=exp (- on_zJ2) 1c2nJ a 1

1

2o 2

z

Die n§chste Frage, wie graB

a zu w§hlen

1st, wollen wir ahnlich wie fur die

(1+1)-Strategie beantworten aus der beim Kugelmodell auftretenden Anderungsrate der Schrittweiten, die sich beim Einhalten der maximalen Fortschrittsdr geschwindigkeit ergibt, FaBt man + als Differentialquotienten dg auf, so kommt man zu der Beziehung (vgl. Kapitel 5.1.2) ( ~· ) o(g+1) ...£E!.._ = exp · - ~ n o(gJ qpt

(5.34)

fur die optimalen Schrittweiten zweier aufeinanderfolgender Generationen, wobei ~~ax hier jedoch einen anderen, groBeren und von A abhangigen Wert hat. Wie groB die Anderungen der Streuungen im Mittel tatsachlich sind, wenn man (5.32) und (5.33) beim vorgeschlagenen Mutationsschema zugrundelegt, hangt von der Topologie der Zielfunktion sowie von der Zahl der Eltern und Nachkommen ab. Wenn n, die Zahl der Variablen, groB 1st, wird sich die optimale Streuung nur wenig von einer Generation zur nachsten andern. Darum wollen wir annehmen, daB in einer Generation die Selektion in etwa neutral in bezug auf Verkleinerungen und VergroBerungen der Schrittweite 1st. Damit erhalten wir fur die uber n Generationen gemittelta multiplikative Anderung die Zu-

n;(-fr Z(gJ)

fallsgroBe X X

=

g=1

exp

(~ g=1I

v(g])

Da die Y(g) alle (O,al-normalverteilt sein sollen, folgt aus dem Additionstheorem der Normalvarteilung (Heinhold und Gaede, 1972), daB 1

n

L -n g=1

eine

(o.

~)

-normalverteilte ZufallsgroBe

1st. Demnach stellen die beiden Werte exp(±-fn-) fur die mittlere Anderung (Minuszeichen fur Verminderungl der Schrittweiten pro Generation charakterivon Z bleibt naturlich e 0 = 1). Unsere stische GraBen dar [der Mittelwert Betrachtung

Forderung

[5.35)

- 168 Die Varianz

02 dar GauBverteilten Zufallszahlen Y, aus denen die logarith-

misch normalverteilten Zufallsmultiplikatoren fur die Standardabweichungen dar Variablenanderungen erzeugt warden, muB sich umgekehrt proportional zur Zahl dar Variablen verhalten. Ihr aktueller Wert sollte von dar zu erwartenden Konvergenzrate +*,also von der gewahlten Nachkommenzahl A abhangen. Nun kann man jedem Individuum statt nur sines Strategieparameters a auch fur jade Variablenanderung ein je eigenes ai zuordnen. Folgende zwei Schemata sind mliglich: ~(g)

N,i

oder

(g) aN,i

Im ersten Fall mOBte

a im zweiten z.B.

,.

(g) • zcgJ aE,i i

= a(g)

E,i

__•• 'Vn

••

(5.36)

• zcgl • zcgJ i 0

(5.371

fur alle zi

1

i = 1(1 In

1

i

a

.. 7f2TnT

fur alle zi

a

. ;1i,)

fur z 0

=

(5.38)

1(1 In (5.39)

gewahlt warden. Wir wollen auf weitere Einzelheiten nicht eingehen, wail sich spater sine andere Art dar Einzelschrittweitensteuerung anbietet, bei der

a

gemaB (5.35) verwendet warden kann. An dieser Stelle muB noch ein Wort gesagt warden uber die Alternative (1+AIoder (1,AJ-Strategie. Wir wollen annehmen, daB durch einen vom Erwartungswert starker abweichenden Zufallstreffer sin Nachkomme einen sehr graBen Schritt zum Optimum hin getan hat und zum Elter der nachsten Generation geworden 1st. Wahrend seine ihm zugeordnete Streuung dar Situation vorher durchaus gut angepaBt war, 1st sis fur den neuen Zustand ungeeignet, im allgemeinen vial zu graB. Damit wird die Wahrscheinlichkeit, daB einer der neuen Nachkommen Erfolg hat, gering. Es mOBte sine starke Anderung der Streuung, komb1n1ert mit einer gunstigen Zufallsrichtung auftreten. Da bei dar (1+Al-Strateg1e keine Verschlechterung h1ns1chtl1ch des Z1elfunkt1onswertes zugelassen wird, uberlebt der Elter .- eventuell viele Generationen. Damit steigt die Wahrscheinlichkeit fur den Erfolg einer Mutation mit wieder nicht gut angepaBter Schrittweite. Beim (1,AI-Verfahren wird ein entsprechender Ausre1Ber in einer Generation zwar auch vorkommen, in der nachsten aber sozusagen rOckgangig gemacht. Es Oberlebt dar Nachkomme, welcher am wenigsten wait zurOckgeht, d,h. die

- 169 -

Streuung wahrscheinlich am starksten reduziert. Das Schema hat also bessere Adaptationseigenschaften hinsichtlich der Schrittweite(nl • In der Tat kann man dieses Phanomen bei der Simulation beobachten. Da wir gesehen haben, daB ab A ~ 5 die maximale Fortschrittsgeschwindigkeit fast unabhangig davon ist, ob der Elter Uberleben kann oder nicht, sollten wir der (1,A)-Strategie den Vorzug geben, zumindest dann, wenn A nicht sehr klein gewahlt wird. 5.2.4

Das Konvergenzkriterium fUr

~

> 1 Eltern

Eigentlich hatten wir in Kapitel 5,2.2 die Fortschrittsgeschwindigkeit gesucht fUr ein

(~,A)-Evolutionsverfahren.

rigkeiten muBten wir uns auf den Fall

~=1

Nur wegen der rechnerischen Schwiemit nur einem Elter zurUckziehen.

Jetzt wollen wir wieder davon ausgehen, daB

~>1 1st. In jeder Generation warden ~ Zustandsvektoren xE und zugehorige Schrittweiten gespeichert - jeweils

die

~

besten von A Mutanten der Generation zuvor. Bei der Anwendung auf einem

Rechner brauchen wir zwar mehr Speicherplatz, haben aber fUr jede Variable mehrere geeignete Werte zur VerfUgung. Sollte bei einer komplizierten - eventuell 'pathologischen' - Topologie der Zielfunktion ein Individuum an einen Drt gelangen, der fUr das weitere Voranschreiten ungUnstig 1st, so haben wir nun noch genUgend andere, vielleicht sogar wesentlich gUnstigere Ausgangspunkte. Entsprechend der Brauchbarkeit ihrer Dbjektparameterkombination plazieren einige Eltern mehr Mutanten in die Spitzengruppe der Nachkommenschaft als andere. In der Regel werden die besten Individuen einer Generation sich hinsichtlich ihrer Variablenvektoren und Zielfunktionswerte voneinander unterscheiden, solange nicht das Optimum erreicht 1st. Damit gewinnen wir ein einfaches Konvergenzkriterium. E5 581 Fb der be5te Zielfunktion5wert der Population au5 Fb =Min {F(x~g)l

l

~

k = 1(1)~}

k

und F der 5chlechte5te 5

F

Max {F(x~g)J J k = 1(1)~}

5

k

Dann fordern wir fUr die Beendigung der Suche, daB entweder F5-Fb~£c

oder erfUllt 1st,

.1!..

{F

5

Eltern

EkJk=1(1)~

- 170 wobei

£c > 0

] im Rohmoo "" Roohoo•gooo"igkoit

1 +Ed >

festzulegen sind. Absolut oder relativ mussen die Zielfunktionswerte der Eltern einer Generation dicht zusammenrOcken, ehe Konvergenz angenommen wird. Die BegrOndung dafur, daB sich das Kriterium an Funktionswerten und nicht an Variablenwerten oder Schrittweiten orientiert, ist schon bei der (1+1)-Strategie diskutiert worden (siehe Kapitel 5.1.3), 5.2.5

Die Skalierung dar Variablen durch Rekombination

Mit dam

(~,Al-Verfahren

eroffnet sich noch eine andere,

auch und gerade fur

numerische Optimierungsprobleme bedeutsame MOglichkeit, weitere biologische Evolutionsprinzipien nachzuahmen: die geschlechtliche Fortpflanzung. Durch Kombination der Gene zweier Eltern tritt zur Punktmutation sine neue Variationsquelle.

Die Tatsache, daB nur wenige primitive Organismen auf

diesen Mechanismus der Rekombination verzichten, l§Bt erwarten, daB er fur die Evolution sehr gOnstig ist. Anstelle eines Vektors xig) sind in einer Population ~ voneinander verschiedene, x~g) fur k

= 1(1)~

, vorhanden.

Im biologischen Bereich bezeichnet

man die Gesamtheit aller Gene in einer Generation auch als Genpool. Die Populationsgenetik (z.B. Wilson und Bossert, 1973) beschaftigt sich zum Beispiel mit den Haufigkeitsverteilungen bestimmter Allele in einer Population, den sogenannten Genfrequenzen, Diese Betrachtungsweise beruht darauf, daB die biologischen Variablen nur in diskreten Stufen veranderbar sind, Wir wollen die Rekombination jetzt ubertragen auf die numerische Optimierung mit stetigen Parametern- wiederum in vereinfachter Weise, In unserer Population von ~

~

Eltern haben wir von jeder Komponente xi

1

i=1(1)n

verschiedene Werts gespeichert. Aus diesem Genpool ziehen wir nun jeweils

einen der

~

zu xi gehorenden GroBen, nacheinander fur alle 1

= 1(1)n.

Das Zie-

hen sell zufallig geschehen, so daB die Wahrscheinlichkeit dafur, daB ein xi von einem bestimmten (k) dar~ Eltern stammt,

1II betragt

fur alle k • 1(1)~

Der so zusammengestellte Variablenvektor bildet den Ausgangspunkt fur die anschlieBende Zufallsvariation der Komponenten.

- 171 Bei dieser Nachahmung der Rekombination haben wir anstelle der Bisexualitat sozusagen eine Multisexualitat gesetzt. Dies geschah weniger aus prinzipiellen Erwagungen als vielmehr aus praktischen Grunden dar Programmierung. Ein grober Test ergab einen nur noch geringen Zuwachs dar Fortschrittsgeschwindigkeit beim Obergang vom bisexuellen zummultisexuellen

Schema, wohl aber

eine erhebliche Beschleunigung durch den Wechsel vom ungeschlechtlichen Fall ohne Rekombinationsmoglichkeit zum bisexuellen. Ein ausfuhrlicher, exakter Vergleich muBte erst noch gefuhrt werden. Dhne einen Anhalt von dar Theorie her 1st es schwierig, fur jeden dar verschiedenen Algorithmen die richtigen Anfangsschrittweiten und Schrittweitenanderungsraten zu wahlen. Nur dann aber kommt man zu,von Nebeneffekten freien,quantitativen Aussagen. So 1st es schwierig, zu sagen, wodurch dar Beschleunigungseffekt der Rekombination zustande kommt. Er mag zum Beispiel herruhren davon, daB statt

~

ver-

schiedener Ausgangspunkte im bisexuellen Fall

n-2

I 2i i=1 Kombinationsmeglichkeiten bei n Variablen vorhanden sind. Bei der hier gewahl~2 • ~c~-11

ten Multirekombination sind es sogar ~n. was die Zahl dar moglichen Realisationen weit ubersteigt. Bisher haben wir die Rekombination nur bei den Dbjektvariablen betrachtet. Ebenso kann man aber auch die Strategieparameter. die Schrittweiten, rekombinieren. Selbst dann, wenn anfangs allenEltern gleiche a 1 =a fur alle i=1(1)n zugeordnet warden und beim Erzeugen dar Nachkommen alle Schrittweitenkomponenten mit einem gemeinsamen Zufalls-Multiplikator variiert warden, sind in den folgenden Generationen die Streuungen ai aller Individuen fur jades i

= 1(1ln

verschieden. Allain durch Rekombination ist es also moglich, daB sich die Schrittweiten einzeln den Gegebenheiten dar Zielfunktion anpassen. Eine bessere Kombination bringt hohere Oberlebenschancen ihres Tragers mit sich. So steht zu erwarten, daB sich im Laufe dar Optimumsuche die jeweils beste Zusammensetzung dar {ai

1

i

= 1(1ln}

einstellt- diejenige, welche die maximale Fortschrittsge-

schwindigkeit mit sich bringt. Beim Versuch, dies im Test zu verifizieren, macht sich ein unangenehmes Phanomen bemerkbar. Es kommt vor, daB eine dar n verschiedenen

Standardabweichungen ai

plotzlich - d.h. durch einen vom

Erwartungswert erheblich abweichenden Zufallszahlenwert - so stark verringert

- 172 -

wird, daB die zugehorige Variable xi kaum noch verandert warden kann. Die Gesamtvariation des Vektors x liegt - grob gesprochen - dann in einem (n-1)-dimensionalen Unterraum des Rn, Entgegen dar Hoffnung, daB solch sin Nachkomme geringere Oberlebenschancen hat als andere, zeigt sich, daB er sich sogar bevorzugt durchsetzt. Das liegt daran, daB die Fortschrittsgeschwindigkeit bei optimaler Schrittweite proportional zu l 1st. Wenn n, die n Zahl der Variablen,kleiner wird, 1st die Konvergenzrate - ebenso wie die optimale Schrittweite - gr5Ber. Die Dptimumsuche findet daher nur noch in einem Unterraum des Rn statt. Erst wenn die Zielfunktion nur noch dadurch verbessert warden kann, daB die bisher von dar Variation ausgenommene Variable verandert wird, setzt der Mutations/Selektions-Mechanismus dazu an, deren zugehorige Streuung zu vergr5Bern und so wieder in den Bereich zu bringen, in dem merkliche Anderungen moglich sind. Die Minimumsuche vollzieht sich hinsichtlich des Zielfunktionswertes in regelrechten SprOngen mit gegenOber der sonst gleichmaBigen Konvergenzrate zeitweise gr5Beren und dann wieder kleineren Fortschrittsgeschwindigkeiten. Solch instabiles Verhalten zeigt sich sehr ausgepragt, wenn ~. die Zahl dar Eltern, klein 1st. Mit hinreichend groBem

~

ist der Vorrat an Schrittweiten-

kombinationen des Genpools stets groB genug, urn 'Oberanpassungen ' zu vermeiden bzw. schnell wieder zu kompensieren, Wie groB ~ zweckmaBigerweise zu wahlen 1st, scheint sowohl von n, der Zahl der Variablen, als auch von der Komplexitat der Zielfunktion abzuhangen. Auch die Wahl des Variationsmechanismus der Standardabweichungen o1 beeinfluBt die Instabilitatsneigung. Es scheint gOnstiger zu sein, einen fOr alle oi gleichen Schrittweitenmultiplikator Z gemaB (5.32) und (5,35) zu verwenden, als je eigene Zufallsfaktoren

z1 gemaB

(5,36) und (5,38), Eine waiters Verbesserung kann man erzielen,

wenn man als Ausgangsgr5Be bei der Variation der Schrittweiten jeweils den Mittelwert aus zwei elterlichen Streuungen heranzieht anstelle des Wertes nur sines Elters. Auch diese MaBnahme laBt sich biologisch rechtfertigen, Sie entspricht der Nachahmung der sogenannten intermediaren Rekombination. Sehr gOnstig mOBten sich in diesem Zusammenhang Chromosomenmutationen auswirken, bei denen zum Beispiel die Platze zweier Einzelschrittweiten miteinander vertauscht warden. Bei einigen Lebewesen findet man neben dem hier zugrundegelegten haploiden das diploids Vererbungsschema. Dabei speichert jades Individuum zwei Satze von Variablenwerten, Wahrend zur Auspragung des Phanotyps nur jeweils ein Allel benutzt wird, warden bei der Zeugung von

- 173 Nachkommen beide Allele in den Genpool eingebracht. Wenn beide Allele gleich sind, spricht man von Homozygotie, anderenfalls von Heterozygotie. Heterozygote Allele vergroBern den Vorrat an Varianten im Genpool und damit die Kombinationsm6glichkeiten. Hinsichtlich der Stabilitat des evolutiven Geschehens scheint auGh dies von Vorteil zu sein. Der eigentliche Gewinn der Dip leidie wird aber sicherlich erst sichtbar, wenn auBerdem Rezessivitat und Dominanz als weitere Evolutionsfaktoren mit hinzugenommen werden. Alle diese Ausbaumoglichkeiten des mehrgliedrigen Schemas warten noch auf ihre Verwirklichung. Um ihren EinfluB auf die Fortschrittsgeschwindigkeit theoretisch erfassen zu konnen, milBte man erst einmal eine Theorie der stellen. Geht man nach dem hier fur sich

fur~>

~=1

(~,A)-Strategie

fur

~

> 1 auf-

praktizierten Schema vor, so ergeben

1 aufgrund.der dann starkeren Asymmetrie der Oichteverteilung

w(s') erhebliche Differenzen zwischen Naherungstheorie und Simulationsergebnissen. 5.2.6

Zur globalen Konvergenz

Bei der Diskussion der deterministischen Dptimierungsverfahren (Kapitel 3) hatten wir festgestellt, daB einzig und allein simultane Strategien, zum Beispiel die aquidistante Rastermethode, in der Lage sind, globale Minima beliebiger Zielfunktionen mit Sicherheit zu lokalisieren. Der mit ihrer Anwendung verbundene Rechenaufwand steigt mit dem Volumen des betrachteten Raumabschnitts, also exponentiell mit der Zahl der Variablen. Weniger Aufwand zu treiben unter Beibehaltung der absoluten globalen Konvergenzsicherheit, gestattet die dynamische Programmierung von Bellman - allerdings nur, wenn die Zielfunktion von ganz spezieller Struktur ist, so daB nur ein Teil des Raumes Rn durchmustert werden muB. Unter den stochastischen Suchverfahren hat die Monte-Carlo Methode die beaten globalen Konvergenzchancen. An die Stelle der Sicherheit tritt bei ihr eine hohe Wahrscheinlichkeit, das globale Optimum zu finden, Fordert man eine 90 %ige Wahrscheinlichkeit, ist ihr Aufwand gr6Ber als der der aquidistanten Rastersuche, Globale Konvergenz mit endlicher WahrscQeinlichkeit kann aber auch der (1+1)-Evolutionsstrategie bescheinigt werden, wenn die Schrittweiten (Streuungen) der Zufallsanderungen konstant gehalten werden (siehe Rechenberg, 1973), Wie graB die Chance 1st, das absolute unter mehreren lokalen Minima ausfindig zu machen, hangt allerdings von der Topologie, insbesondere von der Verteilung und der •Brei te • der Minima ab. Von einem lokalen zu einem globalen Extremum zu springen, diese Chance wahrzunehmen, stellt den Anwender in der Regel vor eine Geduldsprobe,

- 174 Die Forderung, ein Optimum genau und mBglichst schnell zu approximieren, steht der Wahrung globaler Konvergenzsicherheit in jedem Fall diametral entgegen. Wir haben uns bei dar Formulierung dar Evolutionsstrategie-Algorithmen hauptsachlich dar ersten Forderung nach hoher Konvergenzrate gebeugt, und zwar durch die Adaptation dar Schrittweiten. So kann eine gute globale Konvergenzeigenschaft fOr beida Strategien nicht behauptet warden. Mit

~ >

1 warden bei dar mehrgliedrigen Evolution mehrere Zustandsvektoren

{xk(gil ; k = 1(1)~ ; 1 = 1(1ln} in jeder Generation (g) gespeichert. Wenn • ( J die xkg sehr verschieden voneinander sind, wachst die Wahrscheinlichkeit dafOr, daB wenigstens ein Punkt in der Nahe des globalen Dptimums liegt und die restlichen im Laufe dar Generation in dessen Nahe rOcken. Diese Chance schwindet mit dam ZusammenrOcken dar x~gl und dam demit verbundenen Kleinerwerden der Schrittweiten. Sie bleibt aber stets endlich groB und wachst mit steigendem

~.

der Zahl dar Eltern. Diese Verbesserung gegenOber der (1+1)-

Strategie nutzt man am konsequentesten aus, wenn man die Suche mit

~

ver-

schiedenen, im ganzen erfolgversprechenden Raumgebiet etwa gleichmaBig ver(0) (OJ teilten Anfangsvektoren xk beginnt und die Standardabweichungen {ok,i ; k

= 1(1)~

dam

; 1

= 1(1Jn}

(~+A)-Schema

beim Start recht groB wahlt. Auch hier 1st das

(~,A)

vorzuziehen, wail die Konzentration urn einen lokal sehr

gOnstigen Zustand zumindest verzogert wird. 5.2.7

Programmierdetails der Unterprogramme GRUP und REKD

Im Anhang A2 ist ein Fortran-Listing der hier entwickelten mehrgliedrigen (~,A)-Evolutionsstrategie

beigefugt mit dar Alternative:

GRUP

ohne Rekombination ;

REKD

mit Rekombination (intermediar fOr die Schrittweitenl •

Bei dar Wahl von

~

(Zahl dar Elternl und A (Zahl dar Nachkommenl braucht

nicht darauf geachtet zu warden, daB A durch

~

restlos teilbar 1st. Die Zu-

ordnung dar Nachkommen zu den Eltern beruht auf einer Zufallsauswahl mit ganzzahligen gleichverteilten Zufallszahlen aus dem Interval! nur A >

~

11.~].

Es muB

sein, und zwar urn soviel groBer, daB in jeder Generation im Mittel

mindestens ein Nachkomme je Elter besser als dieser sein kann. Empfehlenswert ist, gemaB den AusfOhrungen in Kapitel 5.2.3 ,z.B. Die Umwandlung von (0,1]-gleichverteilten in

A~ 6~

•

(O,ol-normalverteilte Pseudo-

zufallszahlen geschieht in gleicher Weise wie beim Unterprogramm EVOL dar (1+1)- Strategie (siehe Kapitel 5.1.5). Die logarithmisch normalverteilten

- 175 Streuungsmultiplikatoren warden mittels der Exponentialfunktion erzeugt. Die Schrittweiten (Standardabweichungen der einzelnen Zufallskomponentenl sind anfangs e1nzeln e1nstellbar, Sie unterliegen im Laufe der Generationen den Beschrankungen fOr i

1 ( 1) n

und wobei

im Rahmen der Rechnergenau1gkeit

und vorgegeben warden konnen. Der Parameter

cr,

der die mittlere ~nderungsrate der Schrittweiten beeinfluBt,

sollte etwa proportional zu ~ gewahlt warden. Der Proportionalitatsfaktor hangt hauptsachlich vom ebenfalls freien Parameter A, der Zahl der Nachkommen je Generation, ab. FOr sine (10,100)-Strategie sollte man ihn etwa gleich E1ns setzen, um be1 einfachen Optimierungsproblemen schnellstmogliches Konvergieren zu gestatten. Mit A kann dieser Wert

(~*)

sublinear vergroBert war-

den, etwa gemaB A "'

I~* e ~*

J

(vergleiche Formal (5.22)) . Wenn die Anfangsschrittweiten cr~Ol zu groB gewahlt warden, kann es sein, daB der eventuell besonders gut plazierteAnfangsvektor x[O) verlorengeht. Dieser ROckschritt in der ersten Generation kommt jedoch der Wahrscheinlichkeit, sin globales unter mehreren lokalen Minima zu erreichen, zugute. FOr

~

> 1 konn-

(0)

ten pr1nz1p1ell je ~ versch1edene Anfangsvektoren {xk 1 l k = 1[1)~ l 1=1(1ln} ' (0) und {crk, 1 J k = 1(1)~ l 1 = 1[1)n} vorgegeben warden. Im vorliegenden Programm wird diese Differenzierung dar Eltern-Generation automatisch vorgenommen. Da[0)

bei warden die xk

aus x

(0)

mit (0, cr

[OJ

l-normalverteilten Zufallsvektoren

additiv erzeugt, Die cr~Ol = cr(Ol sind fOr alle Eltern anfangs gleich graB,

Das Konvergenzkriterium ist in Kapitel 5.2.4 beschrieben, Es orientiert sich an der Differenz dar Zielfunktionswerte zwischen dem jewei-ls besten und schlechtesten

Elter einer Generation. Als Genau1gkeitsparameter sind sine

absolute und sine relative GroBe (&c und Ed) anzugeben (vergleiche Kapitel 5.1.3).0ar0ber hinaus kann fOr die Suche sine obere Rechenzeitschranke gewahlt warden, um in jedem Fall Endresultate vom Hauptprogramm her ausdrucken lassen zu konnen (siehe auch Kapitel 5,1,5)

- 176 Nebenbedingungen in Form von Ungleichungen warden, wie anhand des Unterprogramms EVOL beschrieben, behandelt tKapitel 5,1,4), Oas gilt auch fUr den Fall, daB der Startpunkt x(OJ nicht im zulassigen Gebiet liegt. Da aus GrUnden der kontinuierlichen Schrittweitenanpassung darauf verzichtet wurde, die Eltern einer Generation mit in den SelektionsprozeB einzubeziehen, konnte es vorkommen, daB von den A Nachkommen weniger als

~

nicht letal sind. Die Popu-

lation wUrde kleiner warden, im Extremfall sogar aussterben. Urn dies zu verhindern, wurde das Iterationsschema dahingehend verandert, daB gegebenenfalls mehr als A Nachkommen erzeugt warden, urn

~

Eltern in jeder Generation und so-

mit konstante Populationsstarke zu erzwingen. Beispiele fUr den praktischen Einsatz der mehrgliedrigen Evolutionsstrategie kennan, abgesehen von den Tests in Kapitel 6, noch nicht vorgewiesen warden, DafUr 1st sie noch zu neu. Die (1+1)-Strategie- allerdings in einer alteren als der hier vorgestellten Version - hat sich dagegen bereits mehrfach bewahren konnen1 einmal in Verbindung mit einem Linearisierungsverfahren zur Minimierung von Quadratsummen bei 'surface-fitting' Problemen (Plaschko und Wagner, 1973), Hier liefert die Evolution brauchbare Naherungswerte, durch die das Konvergieren der deterministischen Methode erst ermoglicht wird. AuBerdem sell sie dafUr sorgen, daB das globale Minimum dar multimodalen Zielfunktion lokalisiert wird. In einem anderen, praxisnahen

vielparame~rigen

Fall geht es

urn die gewichtsoptimale Auslegung von Leichtbau-Stabtragwerken (Hofler, LeyBner und Wiedemann (1973) und LeyBner (1974)), Auch hier wird die Evolutionsstrategie kombiniert mit einem anderen Verfahren, diesmal mit der Simplexmethode dar linearen Programmierung, Beida Strategien warden alternierend eingesetzt, bis die erzielbaren Verbesserungen je Stufe nur noch sehr gering sind. Die Kontrolle anhand von bekannten Losungen zeigt die Brauchbarkeit der Vorgehensweise, Ein drittes Beispiel liefert Hartmann (1974), dar die optimale Geometrie eines statisch belasteten Schalentragwerks sucht. Er parametrisiert das Funktionenoptimierungsproblem, indem er fUr die Querschnittskontur der Tonnenschale einen geeigneten Polynom-Ansatz macht. Dessen Koeffizienten sollen so bestimmt warden, daB das absolut groBte Querbiegemoment mDglichst klein wird. Dann warden dar konstruktive Aufwand fUr die Querbewehrung und somit die Herstellungskosten minimal. FUr verschiedene Lastfalle findet Hartmann von dar Kreiszylinderform erheblich abweichende optimale Schalengeometrien mit zum Tail fast verschwindend kleinen Querbiegemomenten.

- 177 6

6.1

Vergleich direkter Suchstrategien dar Parameteroptimierung Problematik

Die Oberaus greBe und standig steigende Zahl von Optimierungsmethoden fOhrt zwangslaufig zu dar Fraga nach dar besten Strategie. Eine eindeutige Antwort scheint es nicht zu geben. Denn. gabe es ein optimales Optimierungsverfahren, dann wOrden sich alle anderen Methoden erObrigen, ja sie mOBten eigentlich langst in Vergessenheit geraten sein. Wegen dar starken Konkurrenz schon existierender Strategien, erweist es sich haute als notwendig, zusammen mit dam Vorschlag fOr eine neue Methode oder Variants ihre Vorteile uno Verbesserungen gegenOber alteren Strategien aufzuzeigen. In dar Regel wird dazu eine Minimumaufgabe genannt, bei deren Lesung bereits bekannte Verfahren versagen, das neu vorgeschlagene dagegen erfolgreich ist. Oder as wird anhand ausgewahlter Beispiele nachgewiesen, daB mit dar neuen Version Rechenzeit bzw. Iterationen eingespart warden kennan. Die Folge derartiger Vereffentlichungen ist im Prinzip unendlich fortsetzbar. Bei genugender Einsicht in die Vorgehensweise einer Strategie, laBt sich stets ein spezielles Optimierungsproblem konstruieren, bei welchem diese versagt. Ebenso kann man fOr jade beliebige Aufgabenstellung eine spezielle Lesungsmethode entwerfen, die anderen Verfahren Oberlegen ist. Man braucht nur die Kenntnis Ober die Problemstruktur, welchs mit dar mathematischen Formulierung gegeben ist, rigoros auszunutzen. Es kann aber nicht Sinn dar Entwicklung auf dam Gebiet dar Optimierungsmethoden sein, fur jades Problem oder jeden Problemtyp ein eigenes Lesungsverfahren zu entwickeln. Vielmehr mechte ein

Praktiker am liebsten mit nur einer Stra-

tegie auskommen, die alle in dar Praxis vorkommenden Aufgaben zu lesen vermag und gleichzeitig meglichst geringen Gesamtaufwand erfordert. Eine so universelle Optimierungsmethode gibt as aber bisher nicht, und manche Autoren bezweifeln, daB es sie jemals geben wird (Arrow und Hurwicz, 19571. Alle zur Zeit bekannten Verfahren sind nur in bestimmten Teilbereichen uneingeschrankt anwendbar. Je nach dar speziellen Aufgabe ist einmal die eine, einmal die andere Strategie erfolgreicher bei dar Lesung. Die Fraga nach dar insgesamt besten Strategie stellt gewissermaBen selbst ein Optimierungsproblem dar. Urn sie objektiv beantworten zu kennan, mOBte eine Zielfunktion formuliert warden, anhand dar sich entscheiden lieBe, welchs von zwei Methoden, gemessen an ihren Ergebnissen, die bessere ist. Solange as keine allgemein anerkannte GOtefunk-

- 178 tion dieser Art gibt, bleibt die Frage nach der optimalen Optimierungsmethode unbeantwortet. 6.2

Aussagen der Theorie

Die klassische Optimierungstheorie befaBt sich mit dem Aufstellen von notwendigen und hinreichenden Existenzkriterien fOr Maxima und Minima. Sie liefert Gleichungssysteme, aber keine iterative Methode zum Auffinden der Uisung. Selbst das Simplexverfahren von Dantzig (1966) zur Losung linearer Programmierungsaufgaben ist nicht als direktes Ergebnis der Theorie anzusehen. Theoretische Betrachtungen des linearen Problems zeigen nur, daB das gesuchte Extremum Sonderfalle ausgenommen - stets in einer Ecke des von den Restriktionen aufgespannten Polyeders liegen muB. Mit n als Zahl der Variablen und m als Zahl der Nebenbedingungen (hinzu kommen n Nichtnegativitatsbedingungenl sind die Ecken - Schnittpunkte der von den linearen Restriktionsfunktionen gebildeten Hyperebenen- in ihrer Anzahl ebenfalls begrenzt: maximal (m~n]. Selbst die systematische Inspektion aller Schnittpunkte ware sin endliches Optimierungsverfahren. Nicht alle Schnittpunkte sind aber zugleich Ecken des zulassigen Gebiets (Saaty, 1955,1963). MOller-Merbach (1971) nennt als obere Grenze m•n-m+2 zulassige Eckpunkte. Die Simplexmethode - ein Verfahren des steilsten Anstiegs entlang den Polyederkanten - durchlauft nur einen Bruchteil aller Ecken. Dantzig (1966) verweist auf empirische Erfahrungen, nach denen die Zahl der benotigten Iterationen proportional mit n, der Zahl der Variablen, wachst, wenn m, die Zahl der Restriktionen, konstant ist bzw. proportional mit m, wenn n-m nicht zu klein ist. Da im ungOnstigsten Fall zwischen m und 2m Tauschoperationen im Tableau der (m+1l•(n+1l Koeffizienten auszufOhren sind, wachst die Rechenzeit mit 0 (m 2.·n l. In sogenannten entarteten Fallen kann das Simplexverfahren aber auch endlos werden. Das zyklische Durchlaufen der gleichen Ecken muB dann durch eine Regel der Zufallsauswahl der Iterationsschritte durchbrochen werden (Dantzig). Die Frage nach der Endlichkeit iterativer Verfahren 1st ein zentrales Thema auch der nichtlinearen Programmierung. Hier kann die Losung an irgendeiner Stelle des Randes oder im Innern des eingeschlossenen Gebiets liegen. FOr den Spezialfall, daB die Zielfunktion und alle Restriktionsfunktionen konvex und mehrmals stetig differenzierbar sind, haben Kuhn und Tucker (1951) bzw. John (1948) notwendige und hinreichende Bedingungen fOr Extremallosungen angegeben. Die Mehrzahl der auf dieser Basis entwickelten Iterationsmethoden ist entworfen fOr Problems mit quadratischer Zielfunktion und linearen Restriktionen.

- 179 Typische Vertreter der quadratischen Programmierung sind z.B. die Verfahren von Beale (1956) und Wolfe (1959al.Sie benutzen weitgehend den Algorithmus der Simplexmethode und gehoren daher nach Hadley (1969) in die Gruppe der benachbarte-Extremalpunkt-Verfa hren. Andere Strategien konnen sich im Laufe der Iterationen auch in das Innere des zulassigen Gebiets begeben. Sofern die Nebenbedingungen es zulassen, bewegen sie sich in Richtung des Gradienten der Zielfunktion. Man bezeichnet sie daher als Gradientenmethoden der nichtlinearen Programmierung (Kappler, 1967). Sie eignen sich aber nicht etwa fur alle nichtlinearen Aufgaben, wie die Namensgebung vermutsn lieBe. Beweisbar ist ihre Konvergenz bestenfalls fOr differenzierbare quasikonvexe Programme (KGnzi, Krelle und Oettli, 1962). Die Zahl der benotigten Iterationen bzw. die Konvergenzrats laBt sich nicht einmal unter diesen Bedingungen allgemein angeben. Im folgenden soll versucht werden, einen kurzen AbriB zu geben Gber die Konvergenzeigenschaften nichtlinearer Dptimierungsmethoden im restriktionsfreien Fall (hill-climbing Verfahren l. 6.2.1

Konvergenzbeweise

Ein Konvergenzbeweis fOr ein iteratives Verfahren lauft darauf hinaus, zu zeigen, daB die Folge der Iterationspunkte x[k)mit k als Zahlindsx monoton gegen den gesuchten Punkt x' strebt: lim k-

!I

x[k)_x,

II _,.

0

oder fOr

k

~

K [e:)
0

fur die

normalverteilten Mutationsschritte - 1st die Wahrscheinlichkeit, von einem beliebigen Ausgangspunkt (z.B. einem lokalen Minimum) zu einem beliebigen anderen Punkt mit besserem Zielfunktionswert (z.B. einem globalen Minimum) zu gelangen, stets groBer als Null, wenn dar Abstand beider Punkte endlich 1st. Rechenberg (19731 gibt fur das zweigliedrige Verfahren notwendige und hinreichende Bedingungen an, damit dieErfolgswahrscheinlichkeit einen bestimmten Wert nicht unterschreitet. Angaben uber den Aufwand lassen sich nur fur spezielle Zielfunktionen mechen. Problematisch in dieser Hinsicht sind die Regeln zur Steuerung der Mutationsschrittweiten und zur Entscheidung uber den Abbruch der Suche. Die Forderung nach schnellem Konvergieren im einen Fall und nach einer bestimmten Mindestwahrscheinlichkeit fur globale Konvergenz im anderen, lassen sich kaum miteinander vereinbaren.

6.2.2

Konvergenzraten

So wichtig es vom mathematischen Standpunkt aus auch sein mag, zu zeigen, daB ein bestimmtes Verfahren unter gewissen Voraussetzungen sicher zum Ziel fuhrt, noch bedeutender 1st eine Antwort auf die Frage nach dem erforderlichen Aufwand bzw. nach der Konvergenzgeschwindigkeit. Wie schnell eine Optimallosung approximiert wird bzw. wieviele Iterationen benotigt warden, urn eine bestimmte Annaherung an das Ziel zu erreichen, laBt sich wieder nur fur einige abstrakte Methoden und nur unter noch groBeren Einschrankungen beantworten. Man unterscheidet zwischen Konvergenz erster und zweiter Drdnung. Obwohl einige Autoren den Begriff quadratische Konvergenz reservieren fur den Fall, daB die Losung eines quadratischen Problems innerhalb endlich vieler Iterationen exakt gefunden wird, soll er hier als Synonym fur Konvergenz zweiter Drdnung gebraucht warden. Linear gegen x' konvergiert eine Iterationspunktfolge x(k), wenn sie die Bedingung

- 182 -

ek mit o ~ e < 1 und c
Crl

=

hr

-II

llx(k)- x'll

=

x(k+ 11 ·- x'll

darstellt. Durch Umformung erhalt man

oder

II

xck+ 11 - x'

II

x (k)

-

x'

II

II

II II

x (k)

X (OJ

-

-

x'

X'

II

II

(1

-

£] n

woraus sich wegen fOr lineares Konvergenzverhalten der Evolutionsstrategien ableiten laBt. 6.3

Numerischer Strategienvergleich

Theoretisch abgeleitete Aussagen Ober Konvergenz und Konvergenzraten von Optimierungsverfahren sind zwar nicht unnOtz, sagen jedoch aufgrund der oft recht strengen Annahmen bzw. Einschrankungen nur wenig Ober die Leistungsfahigkeit im allgemeinen nichtlinearen Fall aus. Angaben zum Rechenaufwand lieBen sich zum Beispiel nur fOr quadratische Zielfunktionen machen. Daraus ergibt sich die Notwendigkeit numerischer Tests selbst fOr mathematisch fundierte Methoden dar nichtlinearen Optimierung. Viele der direkten Strategien sind ohnehin nur heuristischer Natur.

DaB sie sich behauptet haben, verdan-

ken sie nur dam experimentellen Nachweis ihrer Brauchbarkeit in praktisch vorkommenden Situationen. Iterationsverfahren erfordern meist eine betrachtliche Anzahl von Rechenschritten. Ohne maschinelle Hilfsmittel lassen sie sich vielfach gar nicht anwenden. So zeigt sich eine bemerkenswerte Parallelitat zwischen der Entwicklung Schneller Digitalrechner und numerischer Optimierungsmethoden. Die Verwendung solcher Anlagen bringt aber eine Schwierigkeit mit sich. Auf die moglichen unangenehmen Folgen endlicher Genauigkeit von linearen Suchan 1st schon hingewiesen worden. Die endliche Stellenzahl, mit dar Daten gespeichert warden, bringt es mit sich, daB alle Rechenoperationen Rundungsfehlern unterworfen sind, es sei denn,es handelt sich urn ganze Zahlen. Konvergenzbeweise setzen aber Exaktheit dar Kalkulationen voraus, Sie gelten daher stets nur fOr das Konzept eines Algorithmus, nicht aber fOr ein spezielles Rechnerprogramm. Die Anfalligkeit einer Strategie gegenOber Rundungsfehlern hangt von ihrer Codierung ab, Auch hieraus ergibt sich die Notwendigkeit, die Konvergenzeigenschaften numerischer Methoden im Experiment zu OberprOfen.

- 169 Aufgrund der endlichen Wortlange sines Digitalrechners 1st auch dar Zahlenbereich beschrankt. Wird er uberschritten, so fuhrt dies in dar Regel zum Abbruch des laufenden Programms. Salcha fatalen Ausfuhrungsfehler (floating overflow, floating davids check) sind meist die Folge von Rundungsfehlern bei vorangegangenen Rechenschritten bzw. von Unterschreitungen des absolut kleinsten Zahlenwerts (floating underflow), die nicht als fatale Fehler angesehen warden. Nur wenige Algorithmen, z.B. von Brent (1973), nehmen von vornherein RGcksicht auf die endliche Maschinengenauigkeit,. Dbwohl die Bedeutung numerischer Strategienvergleiche irrmer wieder hervorgehoben wird, sind bisher nur wenige Arbeiten veroffentlicht worden, die uber Erfahrungen mit einer groBeren Anzahl von Minimierungsverfahren anhand vieler verschiedener Testprobleme ·barichten. Aus den alteren Untersuchungen von Brooks (1959), Spang (19621, Dickinson (19641, Leon (1966al. Box (1966), Kowalik und Osborne (19681 ragt eine - von Colville (1968,19701 - mit 30 teilnehmenden Strategien und 8 verschiedenen Problemen aufgrund ihres Umfangs heraus. Sie umfaBt sehr viele Gradientenmethoden, aber nur wenige direkte Suchverfahren. In neueren Tests von Jacoby, Kowalik und Pizzo (19721, Himmelblau (1972al, Smith (19731 und anderen 1m Sammelband von Lootsma (1972al warden ableitungsfreie Strategien in starkerem MaBe berucksichtigt. Die Vergleiche von Gorvits und Larichev (19711 und Larichev und Gorvits (19741 betreffen nur Gradientenverfahren, dar von Tapley und Lewallen (19671 einige Konzepte zur numerischen Behandlung des Funktionenoptimierungsproblems, 6.3.1

Verwendete Rechenanlage

Die Anlage,auf dar die numerischen Experiments durchgefuhrt wurden, war eine PDP 10 dar Firma Oigi tal Equipment Corporation, Maynard, Massachusetts, mit folgenden Oaten: Kernspeicherplatz: 64 K (1 K

= 1024

Wortel

Wortlange:

36 bit

Zykluszeit:

1,65 bzw. 1.6 psec

Oas timesharing-Betriebssystem nahm etwa 34 K des Kernspeichers in Anspruch, so daB dam Benutzer nur noch 30 K frei zur Verfugung standen. Urn einige Problema mit meglichst vielen Variablen bearbeiten zu kennan, wurde generell nur mit einfacher Genauigkeit gerechnet. Das fur alle Strategien gleiche 2n Hauptprogramm belegte etwa (5 + 1024! K Worts, die Fortran-Bibliothek weitare 5 K. Die sich

hieraus ergebende Maximalzahl nmax dar Parameter fur die

einzelnen Suchverfahren, die getestet wurden, 1st in Tabella 6,3 angegeben.

- 190 Die endliche Wortlange sines Digitalrechners hat zur Folge, daB sein Zahlenbereich beschrankt ist. Die absoluten GrenzenfOrGleitkommaarithmetik waren gegeben durch: absolut groBte Zahl: absolut kleinste Zahl: FOr die Mantissa sine Zahlenwertessteht nur sin Tail des Wortes zur VerfOgung. Daraus ergab

sich die meist wichtigere, wail niedrigere. differen-

zielle Genauigkeitsgrenze: kleinste Differenz bezogen auf Eins: 2-27 FOr den Rechner galten demnach folgende Gleichungen: E

1 +

£

= 0

fOr fOr

1£1

lEI

.

:::l

cQJ

QJ

.-
!

.....

::J

N

.....

10 2 10

1-.

"'c

...,

m

1J

10

10 3

1-.

m

0 ..... ...,

m

.....

N

...,.....

I I

10

.!: 10

c

'+-

0

j------+------~---+-

1-.

1-.

c m c

,....

m

>.

::J 10

H

""'c

::J

:!:; ------+---1---+----+.....m

10 2

N

.....

1-.

m

.!: 10 N

1J

.....

10 1 1 o2 N~ -----1-¥----,,c----+---t 1 0 1

10 2

Zahl der Variablen 10

100

10°101

10°

Zahl der Variablen 100

10

1000

Strategie von DavidonFletcher-Powell-Stewart in der Fassung von Lill variable Metrik

Strategie von Hooke und Jeeves m

'+-

::J

1-.

'+-

::J 10

"'c

10 4

0 10 5 ..... ...,

'+-

::J

'+-

::J

c

1-.

'+-

.....

c m .....

m

10 4

m

.>!

..... N

.>!

>.

m

...,

.....

10 1-

1-.

N

::J 10

10 3

c

::J

'+.....

1-.

.....m

m

1J

10 3

.....

.!: 10 N

10 2

.>!

"'

1J

.!: 10 N

"'c0

..... ...,

10 2

N

10 1

1-.

m

1J

ITE 1.1

10 1

10 2

10

der Variablen 10

100

1000

10° 100

Zahl der Variablen

- 208 Oiagramme 6.6 - Fortsetzung Strategie von Rosenbrock mit Orthonorm. nach Gram-Schmidt

Simplex-Strategie von Nelder und Mead 10 5

J..

30steigt jedoch auch hier der Rechenzeitbedarf mit der Parameterzahl starker als mit der Ordnung O(n3J. Es muB daher bezweifelt warden, daB die Suche bis zum Erreichen der maximalen, intern geforderten, Genauigkeit fortgesetzt worden ware. Wahrend sich die Methoden zweiter Drdnung bei der Losung des Problems 1.1 nur dadurch unter den meisten anderen Strategien hervorheben. daB ihr Rechenzeitbedarf T

=c

• n2

c = canst.

durch einan klainan Proportionalitatsfaktor c gekannzeichnat 1st, mOBtan sia ihre Fahigkaitan bai dar Losung dar echt quadratischan Aufgaba (Problem 1.2) erst vall zur Galtung bringan. Die Methode dar variablan Metrik arfGllt diese Erwartungan. Laut Theorie hat sie die Eiganschaft Qn, das haiBt, nach n Iterationen, n2 linearan Suchan und Rachanzaitan in dar GroBanordnung 0(n3J sollte die Aufgabe gelost sein. Daher mag es zunachst verwundern, wenn die numerischen Tests nur etwa O(nO•SJ Iterationen bzw. O(n2·5J Rechenzeit als Bedarf ausweisen. Diese scheinbare Diskrepanz zwischen Theorie und Experiment klart sich auf, wenn man beachtet, daB die Eigenschaft Qn vollige Exaktheit nach hochstens n Iterationen bedeutet, hier aber nur eine endliche Reduktion des Unsicherheitsintervalls gefordert wird.

- 214 Eher als das gute Abschneiden der DFPS-Methode ist das Verhalten der theoretisch ebenfalls quadratisch konvergenten Strategie von Powell erstaunlich. Nicht allein. daB sie erheblich mehr Rechenzeit braucht. nein, sie versagt sogar vollig bei groBer Parameterzahl. Schon bei n=40 Variablen kommt es vor. daB die Schrittweite langs einer gewahlten Richtung zu Null wird. Daraufhin wird auch das Konvergenzkriterium nicht erfOllt und der SuchprozeB wird unendlich. Er muB von auBen her unterbrochen warden. FOr n=SO und n=60 konvergierte die Powell-Methode zwar, fOr n=70, 80, 90, 100 und 130 versagte sie jedoch wieder. Die Ursache fOr dieses Verhalten wurde nicht naher analysiert, dOrfte aber wahl mit dem von Zangwill (1967) erhobenen Einwand gegen die SchlOssigkeit des Konvergenzbeweises von Powell (1964) zusammenhangen. Es scheint so, als ob Rundungsfehler in Verbindung mit kleinen Schritten wahrend der eindimensionalen Suche dazu fOhren, daB linear voneinander abhangige Richtungen generiert warden. Unabhangigkeit der n Richtungen ist aber die Voraussetzung dafOr, daB sie konjugiert zueinander sind bzw. warden konnen. Auch die Koordinatenstrategien konvergieren nicht, wenn die Zahl der Variabien des Problems 1.2 sehr groB wird. Mit Fibonacci-Suche und Goldenem Schnitt als Intervallteilungsmethoden versagen sie ab n=100, mit quadratischer Interpolation ab n=150, FOr erfolgreiches lineares Suchan mOBten die Schrittweiten kleiner warden, als es die endliche Wortlange dar verwendeten Rechenanlage zulaBt. DaB dieses Phanomen erst bei vielen Parametern auftritt, liegt daran, daB mit steigender Variablenzahl die Kondition dar Formmatrix dar quadratischen Aufgabe 1.2 entsprechend D(n 2 J zunimmt. In gleichem MaBe warden die elliptischen Niveauflachen F(xJ=const. immer mehr langgestreckt und die relativen Minimierungen langs dar Koordinatenrichtungen immer weniger effektiv, Dieses Versagen ist typisch fOr Verfahren mit Variation einzelner Parameterwarts und zeigt, wie wichtig die Wahl anderer Suchrichtungen sein kann. Hier konnen sich Zufallsrichtungen als vorteilhaft erweisen (siehe Kapitel 4). Recht eindeutig mit O(n 3 J steigt der Rechenaufwand dar Methode von Hooke und Jeeves sowie dar von Davies-Swann-Campey (DSC), wenn das Drthonormierungsverfahren von Palmer verwendet wird. Dies korrespondiert mit O(n) Tastprozeduren und O(n 2 J Funktionsaufrufen bei der Strategie von Hooke und Jeeves bzw. mit O(n} Drthonormierungen sowie 0(n 2 J linearen Suchan und Bestimmungen von Warten dar Zielfunktion bei dar DSC-Methode. Die ursprOngliche Prozedur von Gram und Schmidt zur Bildung zueinander orthogoneler Richtungen erfordert O(n 3 J stett 0(n 2 J Rechenoperetionen. Oa die Art der Drthonormierung die IteretionQnfolge im Obrigen kaum zu beeinflussen scheint, benotigt die DSC-Stretegie mit

- 215 dam Unterprogramm von Gram-Schmidt O(n~J statt O(n 3 J Grundoperationen bei dar Losung dar Aufgabe 1.2. Oar Rechenzeitbedarf der Rosenbrock-Methode steigt aus diesem Grund ebenfalls mit O(n~J. Auffallend 1st aber, daB das Einzelschrittvorgehen (Rosenbrockl im Verbund mit dar Unterdruckung dar Orthonormierung, solange nicht in jeder der n Richtungen mindestens ein erfolgreicher Schritt ausgefuhrt wurde, weniger Zeit erfordert als lineares Suchan, selbst wenn nur einmal quadratisch interpoliert wird. Die Zahl dar Zielfunktionsaufrufe, die von dar Ordnung O(n 2 J ist, spielt bei beiden zuletzt genannten Verfahren nur sine untergeordnete Rolle. Am aufwendigsten erweisen sich wieder die Simplex- und die Complex-Strategie. Ab n=30 kommt die Methode von Nelder und Mead nicht ohne Neustarts in die geforderte Zieln~he. Auch bei 6 Variablen muB

das Suchsimplex schon einmal reinitialisiert warden. Die Zahl dar Funktionsaufrufe steigt· etwa mit O(n 3 J,

die Rechenzeit daher mit O[nSJ. Entsprechend steil ist der Anstieg dar Zeit mit dar Zahl der Variablen bei der Strategie von

Box mit 2n Ecken. Fur

n=30 wurde das Problem 1.2 aber nur in einem von drei Versuchen, fur n=40 gar nicht mehr gelost. Reduziert man die Eckenzahl des Complex auf n+10, dann versagt die Methode schon ab n=20. Oar Aufwand dar Evolutionsstrategien steigt wie schon bei Problem 1.1 recht gleichm~Big

mit dar Parameterzahl an -

gleichm~Biger

als bei manchen dar

determinierten Suchmethoden. Zielfunktionsaufrufen in der Ordnung 0 (n 2 J entspricht mit O[n3J wachsender Zeitbedarf, um Aufgabe 1.2 zu bew~ltigen. Oa die zuruckzulegende Stracke nicht groBer geworden ist, muB dar Mehraufwand gegenuber Problem 1.1 durch die ortlich kleineren Krummungsradien verursacht worden sein. Oiese

h~ngen

zusammen. Aufgrund des

mit den

L~ngen

regelm~Bigen

der Halbachsen des Niveau-Ellipsoids

Baus dar Formmatrix A dar quadratischen

Zielfunktion 1.2 kann die Konditionszahl K, das Verh~ltnis von groBter zu kleinster Halbachse (vergleiche hierzu Testproblem 1.2 im Anhang A1.1), K

=

2 (:m~x] mJ.n

als einzige EinfluBgroBe auf die geometrische Form des

Hohenfl~chenmusters

an-

gesehen warden. Die restlichen Halbachsen warden sich zwischen amin und amax gleichm~Big verteilen. Oa K mit O(n 2 J steigt, liegt die Vermutung nahe, daB die

- 216 Fortschrittsgeschwindigkeit

+-

die mittlere Anderung des Abstandes zum Ziel,

bezogen auf die Zahl dar Mutationen bzw. Generationan- nurmitder Wurzel aus der Konditionszahl abnimmt. Eine Theorie fOr den allgemein quadratischen Fall aufzustellen, 1st bisher nicht gelungen. Sie wird auch kompliziertar aussehan, wail auBer dem Verhaltnis von groBter zu kleinster Halbachse weitere n-2 Paramater, die die Form dar Hyperallipsoida fastlegen, eine Rolla spielen. Auch die Lage des Startpunktas wird einan EinfluB haban, bei vielen Variablen aber wahl nur zu Baginn dar Suche. Nach einer Obergangsphase wird dar Ausgangspunkt dar Mutationen stets in dar Umgebung des Ortes liegen, an dem die ZielfunktionsNiveau-Hyperflachen am starksten gekrOmmt sind. Wenn man in der Kugelmodelltheorie von Rechenberg (1973), r als mittleren ortlichen KrOmmungsradius auffaBt, mOBte die Fortschrittsgeschwindigkeit 1m ungOnstigsten Fall umgekehrt proportional zur Wurzel aus der Konditionszahl warden. Die Konvergenzrate der Evolutionsstrategie ware also vergleichbar mit der der Strategie des steilsten Abstiegs, fOr die im quadratischen Fall die Funktionswerte zwaier aufeinanderfolgender Iterationen sich verhalten wie (Akaike, 1960): amax - amin amax + amin In der Gruppe der Verfahren, deren Zeitaufwand mit O(n3J steigt, liegen die Evolutionsstrategien relativ gOnstiger als bei Problem 1.1. Abgesehen davon, daB die Koordinatenstrategien bei vielen Variablen gar nicht mehr konvergieren, warden sie in bezug auf die Geschwindigkeit von der zweigliedrigen Evolutionsstrategie Oberholt. Der Abstand bzw. die Relation zwischen zwei- und mehrgliedriger Evolution ohne Rekombination 1st in etwa gleich geblieben. Abweichend von den Obrigen Versionen verhalt sich die (10,100)-Evolutionsstrategie mit Rekombination. Sie benotigt zur Losung des Problems 1.2 erheblich mehr Rechenzeit. Dies ist darauf zurOckzufuhren, daB die Wahrscheinlichkeitsverteilung fOr Mutationsschritte sich zwar andern, aber nicht kontinuierlich den ortlichen Gegebenheiten anpassen kann. Das Mutationsellipsoid, das 1st der geometrische Ort aller Mutationsschritte gleicher Wahrscheinlichkeitsdichte, kann sich zwar in Richtung der Koordinatenachsen dehnen und zusammenziehen, aber nicht im Raum drahen. Hierzu mOBten auBer den Streuungen bzw. Varianzen auch die Lagewinkel bzw. Kovarianzen variabel sein. Wie die Ergebnisse zeigen, bildet sich, ausgehend von einer kugelformigen Gestalt, eina

- 217 Konfiguration des Mutationsellipsoids heraus, die den SuchprozeB anfangs beschleunigt. Bairn Fortschreiten in Richtung auf das Ziel hin muB das Ellipsoid

laufend

kleiner warden. Es mOBte sich aber auch entsprechend dar Lage

dar Hohenlinien dar Zielfunktion allmahlich drehen. Das ist nicht moglich. wail dar hier

gew~hlte

Mechanismus keine voneinander

abh~ngigen

Komponenten

des Zufallszahlenvektors zulaBt. Das Ellipsoid muB sich erst wieder in Richtung auf eine Kugel zuruckbilden oder insgesamt klein warden, ehe es sich erneut, diesmal in anderen Achsenrichtungen, ausdehnt. Dieser umstandliche Vorgang vollzieht sich zwar, aber unter erheblicher Verzogerung des Suchprozesses. Hinzu kommt noch ein weiteres unerwunschtes Phanomen. Angenommen, eine einzelne Streuung wird plotzlich sehr vial kleiner. Die zugehorige Variation dar Variablen spielt sich dann in einem (n-1)-dimensionalen Unterraum des Rn ab. Unter sonst gleichbleibenden Bedingungen 1st die Wahrscheinlichkeit sines Erfolges daher gr6Ber, als wenn sich alle Dbjektparameter geandert hatten. Schrittweitenanderungen dieser Art setzen sich also

bevorzugt durch

und verstarken im Verein mit dar Starrheit des Mutationsellipsoids in bezug auf

Drehungen das instabile Verhalten dar Strategie mit Rekombination. Ver-

hindern

l~Bt

sich dies durch eine greBe Population. in dar stets genugend

Vorrat an andersartigen Parameterkombinationen, auch fur die Streuungen, vorhanden 1st. Eine andere Moglichkeit besteht darin, ein Individuum mit einer Einstellung dar Schrittweitenparameter mehrere Mutationen hintereinander ausfuhren zu lassen. Dann wird der Gesamterfolg nicht so sehr von dar augenblicklichen Erfolgswahrscheinlichkeit sondern mehr von dar GroBe der Teilerfolge abhangig. Die Gute dar Strategie-Parameter wird somit objektiver bewertet, Im ubrigen 1st Problem 1.2 das einzige, bei dam sich die Rekombination storend bemerkbar gemacht hat. In vielen anderen

F~llen

fuhrte sie,

selbst in dar verwendeten einfachen Form, zu einer Reduktion des Rechenaufwandes (siehe zweiten und dritten Test).

- 218 6.3.3.2

Zweiter Test; Zuverlassigkeit

Konvergenz im quadratischen Fall ist eine Mindestforderung an nichtlineare Dptimierungsverfahren. DaB numerische Tests selbst dann notwendig sind, wenn die Konvergenz theoretisch gesichert ist, bestatigen die unbefriedigenden Ergebnisse der Koordinatenstrategien und der Methode von Powell bei groBer Zahl der Variablen. Noch wichtiger, ja unumganglich sind experimentelle Untersuchungen zur Konvergenzsicherheit von Optimiermethoden anhand nichtquadratischer nichtlinearer'Probleme. Einige Verfahren mit internem quadratischen Zielfunktionsmodell mussen zur Anwendung auf Problema allgemeiner Natur abgewandelt warden. Das gilt zum Beispiel fOr die Methode der konjugierten Gradienten. Das Verfahren von Fletcher und Reeves (1964) endet eigentlich. wenn in n zueinander konjugierten Richtungen jeweils das relative Minimum ermittelt worden 1st. Bei Zielfunktionen hoherer Ordnung wird das Optimum jedoch nach n Iterationen noch nicht erreicht sein. Selbst bei schlecht konditionierten quadratischen Problemen warden mitunter mehr Iterationen benotigt. Zwei Moglichkeiten eroffnen sich hier. Der IterationsprozeB kann entweder Ober n lineare Suchan hinaus schematisch weitergefuhrt warden oder in zyklischer Weise Wiederholt warden. Fletcher und Reeves empfehlen, nach je n+1 Iterationen die gesammelte Information zu zerstoren und von vorn, d.h. mit der unkorrigierten Gradientenrichtung. zu beginnen. Diese Vorgehensweise sei bei nicht quadratischer Zielfunktion effektiver. Fox (1971) dagegen weist darauf hin, daB periodischer Neustart das Konvergieren im quadratischen Fall verhindern kann, wahrend einfaches Fortsetzen der Iterationsfolge erfolgreich ist. Weitere Vorschlage fOr Neustartregelungen finden sich bei Fletcher (1972a). Ahnlich sieht es mit den Quasi-Newton-Methoden aus, bei denen die Hessesche Matrix oder deren Inverse stufenweise approximiert warden soll. Abgesehen davon, daB einige der vorgeschlagenen Formeln zur Vebesserung der Naherungsmatrix schon theoretisch zu Divisionen durch Null fuhren konnen, passiert dies bei anderen Versionen durch den EinfluB von Rundungsfehlern (Broyden, 1972). Wenn die Hessesche Matrix Singularitatsstellen aufweist, stagniert der OptimierungsprozeB, bevor das Optimum erreicht ist. Bard (1968) und andere empfehlen als Heilmittel, die Naherungsmatrix von Zeit zu Zeit durch die Einheitsmatrix zu ersetzen. Die im Laufe der Iterationen gesammelte Information wird dabei wieder zerstort. Pearson (1969) schlagt eine NeustartPeriode von 2n Zyklen vor, Powell (197Dbl die regelmaBige Hinzunahme anderer als der vorhergesagten Schritte. So bleibt nach Fletcher

(1~70bl

"die Relevanz

- 219 -

dar quadratischen Endlichkeitseigenschaften fur allgemeinere Funktionen stets fraglich". Da es keine Zielfunktion gibt, anhand dar stellvertretend fur alle anderen die Eigenschaften im nicht-quadratischen Fall experimentell ermittelt warden kennan, mussen moglichst viele, moglichst unterschiedliche Aufgabentypen fur numerische Tests herangezogen warden. Dar Wert von Strategienvergleichen wachst mit deren Anzahl und guter Auswahl. Er bleibt aber prinzipiell begrenzt. Mancha Aufgaben haben sich als Standardbeispiele durchgesetzt, andere warden von jedem Experimentator nach eigenem Geschmack hinzugefugt. So findet man auch im Problemkatalog zur zweiten Testserie dieses Strategienvergleichs bekannte und neue Problema, wobei letztere hauptsachlich unter dam Gesichtspunkt konstruiert wurden, die Grenzen dar Brauchbarkeit dar Evolutionsstrategien aufzuzeigen. Alle bisher bekanntgewordenen Tests benutzen als Beurteilungsgrundlage die Zahl dar Funktionsaufrufe (Gewichtsfaktoren Zielfunktion: Gradient: Hassen sche Matrix = 1 : n : 2(n+1 l lund die Rechenzeit, urn eine vorgeschriebene Genauigkeit zu erzielen. Die betrachteten Zielfunktionen sind meist mehrmals stetig differenzierbar und von relativ wenigen Variablen abhangig, die Ergebnisse von Problem zu Problem und von Strategie zu Strategie sehr uneinheitlich. Mit dar einen Methode findet man das eine Minimum sehr schnell, ein anderes erst nach langer Zeit1 mit einer zweiten Methode kann es gerade umgekehrt sein. Die Fulle dar Einzelergebnisse ist fur eine zusammenfassende Beurteilung eher hinderlich. Darum warden oft Mittelwertefurdie benotigte Rechenzeit und die Zahl dar Funktionswertbestimmungen errechnet. Das Fazit solcher Tests ist dann die Feststellung, daB Verfahren zweiter Drdnung schneller sind als salcha erster Drdnung, und diese wiederum schneller als direkte Suchmethoden. Diese SchluBfolgerungen, die sich mit den Testergebnissen bei quadratischen Problemen decken, lassen vermuten, daB die gewahlten Zielfunktionen sich zumindest in Zieln8he ahnlich wie im quadratischen Fall verhalten. So wird auch haufig festgestellt, daB anfangs einer Suche Gradientenmethoden, zum SchluB dagegen Newton-Methoden schneller konvergieren. Die gemessenen Mittelwerte hangen daher vom gewahlten Startpunkt und dar geforderten Approximationsgenauigkeit ab.

- 220 Schwierig wird die Beurteilung, wenn eine Methode bei einem Problem nicht konvergiertJ wenn sie entsprechend ihren eigenen Abbruchkriterien die Suche beendet, ohne dar Losung einigermaBen nahe gekommen zu sein. Eine Strategie, die haufiger in dieser Art versagt, kann man nicht zur Anwendung in dar Praxis empfehlen, selbst dann nicht, wenn sie in anderen Fallen besonders schnell ist. Im Gegensatz zu Testaufgaben ist die richtige Losung eines praktischen Problems ja nicht im voraus bekannt. Man muB sich daher auf die von einer Strategie gelieferten Ergebnisse verlassen ·kennan, wenn man sie nicht mitHilfe einer anderen Methode OberprOfen kann. Die Zuverlassigkeit ist daher ein mindestans ebenso wichtiges Kriterium fOr die Beurteilung von Optimierungsverfahren, wie die Schnelligkeit. Im zweiten Tail des Strategienvergleichs sell daher die Robustheit der Dptimierverfahren getestet warden. BeurteilungsmaBstab ist die Zahl dar Aufgaben, welchs von einer bestimmten Methode gelost warden. Da in diesem Zusammenhang mehr die Komplizierheit des Problems als dessen Umfang sine Rolle spielt, liegt die Zahl dar Variablen nur zwischen sins und sachs. Alle praktischen numerischen Iterationsverfahren konnen eine Losung nur mit endlicher Genauigkeit approximieren. Urn das Endergebnis einer Optimumsuche als ausreichend akzeptieren oder als unzureichend verwerfen zu konnen, muB man eine Grenze festlegen, jenseits der die Losung als genau genug, diesseits der sie als unbefriedigend anzusehen ist. Die Struktur der Zielfunktion Obt dabei einen maBgeblichen EinfluB auf die erreichbaren Genauigkeiten aus (Hyslop, 1972), Daher wurden die Grenzwerte zur Einstufung dar Testergebnisse nach folgendem Schema ermittelt. Ausgehend von dar bekannten exaktenoderbesten Losung x*~{xiJi=1(1Jn}, warden die Variablen einzeln und in allen Variationen urn die Betrage

~x = i

[±

6

± xt6

fOr fOr

xt xi

0

+0

verandert. FOr n=2 erhalt man zum Beispiel acht verschiedene Kontrollwerte dar Zielfunktion:

tt Optimum () Kontrollzustande

- 221 Im allgemeinen Fall gibt es 3n-1 .verschiedene Werts. Die starkste Abweichung AF(6) vom Dptimalwert F(x*l _legt die Grenze fest zwischen Ergebnissen mit ausreichender und solchen mit ungenugender Zielannaherung. Um mehrere Guteklassen zu erhalten, wurden vier verschiedene Testschrittweiten 6j,j=1(1)4 gewahlt. 61

~

10-38

62

10-8

63

= 10-~

64

10- 2

Als 'exakt' gelost gilt eine Aufgabe, wenn F ~ F(x*l + AFC6 1 J erreicht wird. Ist dagegen zum SchluB der Suche F > F(x*l + AFC6 4 J, dann hat die betreffendeStrategie versagt. Weitere drei Approximationsklassen liegen entsprechend dazwischen. Gefordert wurde von allen Strategien die maximal erreichbare Genauigkeit. Die entsprechenden freien Parameter der Strategien, welchs die Abbruchkriterien beeinflussen, sind in Tabella 6.3 schon genannt worden. Im Unterschied zum ersten Test wurden aber keine weiteren, gemeinsamen Abschaltregeln hinzugefugt. Insgesamt 50 Aufgaben waren zu losen. Die mathematischen Formulierungen der Problems sind 1m Anhang A1.2

aufgelistet. Mancha unterscheiden sich nur

durch die gewahlten Startbedingungen, andere durch die gestellten Nebenbedingungen. 9 von 14 Strategien bzw. Versionen von Grundstrategien eignen sich nicht fur die Losung von restriktionsbehafteten Problemen, jedenfalls nicht direkt. Verfahren zur Transformation der Variablen sowie Straffunktionsmethoden wurden nicht angewendet. Eine Ausnahme bildet die Methode von Rosenbrock, welchs die Zielfunktion nur in dar Nahe dar Grenzen verandert und in einem Zuge angewendet warden kann, wahrend bei Straffunktionen sonst sine Folge von Teiloptimierungen durchzufuhren 1st. Die zweite Testreihe zerfallt daher in einen Tail mit 28 Problemen ohne Nebenbedingungen fur alle 14 Strategien und einen zweiten Tail mit 22 restriktionsbehafteten Problemen fur 5 Strategien. Die Ergebnisse sind in den Tabellen 6.9 bis 6.12 zusammengestellt. Die jeweils erreichte Zielannaherung gemaB den oben definierten Genauigkeitsklassen 1st durch ein entsprechendes Symbol gekennzeichnet.

- 222 Tabella 6.9 Ergebnisse aller Strategien zum zweiten Vergleichstest Problema ohne Nebenbedingungen

.,..,QJ

-t&l)l)

~&.t

0~&1)

bO

QJ

.....

Ill

.....H Problem Nr. en 2.1 2.2 2.3 2.4 2.S 2.6 2.7 2.8 2.9 2.10 2.11 2.12 2.13 2.14 2 .1S 2.16 2.17 2.18 2.19 2.20 2.21 2.22 2.23 2.24 2.25 2.26 2.27 2.28

0

Ill

H

u..

3 3 2 3 2

s s s

3

s s s

0 .J 0

a:: (!)
UJ

(!)

a::

1 1 1 1 2 1 1 4 4 4 2 3r 3r 3 1 1 3 1 1 1 1 2 1 1 1 4

1 1 1 1 1 1 1 1 2 3 3 3 1 3r 3r 2 1 1 2 1 1 1 1 2 1 1 1 4

1a 1a 1 3r 3r 2 1 1 3 1 1 1 1 1 1 1 1 3

.J 0

:::J

a::

,.:

UJ

Bedeutung dar Kennzeichen Genauigkeit Genauigkeit Genauigkeit Genauigkeit Genauigkeit

10-38 10- 8 10- 4 10- 2 -2 als 10

1 2 3 4 5

erreichte erreichte erreichte erreichte erreichte

e a r n v

fatale Ausfuhrungsfehler (floating overflow, floating davids check) Abschaltregel wirkungslos, Suche endlos ohne waiters Konvergenz Rechenzeit zu graB bzw. Konvergenz zu langsam, Suche abgebrochen betrifft Simplex-Verfahren von Nelder und Mead: Neustart(s) erforderlich betrifft Rosenbrock-Methode bei Nebenbedingungen: Startpunkt verschoben, da unzul!!ssig

besser als besser als besser als besser als schlechter

- 223 Auffallende Verhaltensweisen bei dar Losung dar einzelnen Aufgaben sind im Problemkatalog A1.2

charakterisiert und gegebenenfalls kurz analysiert.

An dieser Stelle sind

daher nur noch einige globale Betrachtungen uber die

Zuverl!ssigkeit dar Suchmethoden in bezug auf die Gesamtheit dar Problema vonnoten. Problema ohne Nebenbedingungen (Tabella 6.9) Die Resultate dar drei Versionen dar Koordinatenstrategie sind sehr ahnlich und insgesamt unbefriedigend. Ein Drittel aller Problema kann mit ihnen nicht oder nur sehr ungenau gelost warden. Exakte Losungen (6=1o-3BJ bilden schon sine Ausnahme und nur in weniger als einem Drittel aller Falla sind die erreichten Endergebnisse _gut (6~1o-BJ, Wie schon bairn quadratischen Zielfunktionsmodell, so zeigt sich auch hier, daB ein Fortschreiten langs der durch die Einheitsvektoren gegebenen Richtungen schlieBlich nur noch mit sehr kleinen Schrittweiten m5glich ist. Die von dar endlichen

Wortlange. des Digital-

rechners her gesetzte Grenze fur die kleinstmoglichen Anderungen dar Variablen wird oft schon erreicht, bevor die Suche in genugende Nahe zum Ziel gelangt 1st. Ahnlich zueinander verhalten sich auch die drei Verfahren mit rotierenden Koordinatenrichtungen, namlich die Strategien von Rosenbrock sowie Davies, Swann und Campey, Die WahldesOrthonormierungsverfahrens (nach Gram-Schmidt oder Palmer) beeinfluBt zwar die Rechenzeiten erheblich, kaum aber die erzielten Genauigkeiten. Fordert man 'Exaktheit' dar Losungen, so erweisen sich alle drei Methoden in etwa 4 von 10 Fallen als brauchbar. Doppelt so hoch wird dieser Anteil, wenn man die Forderungen auf die nachste Stufe herabsetzt. Zwei Aufgaben (2.7 und 2.8) warden von allen drei Varianten nicht gelost. Wahrend die Rosenbrock-Methode die Suche in groBer Entfernung zum Ziel beendet, wird bei der DSC-Strategie sine lineare Suche endlos. Zur Vorbereitung dar einmaligen quadratischen Interpolation verwendet sie ein Unterprogramm, mit dam das relative Minimum langs dar gewahlten Richtung eingegrenzt warden soll. Im vorliegenden Fall liegt dies jedoch 1m Unendlichen. Daher wird nach einiger Zeit dar Zahlenbereich, den der Rechner verwalten kann, uberschritten. Es kommt zu einem fatalen Ausfuhrungsfehler mit dar Meldung: 'floating overflow•. W!hrend auf den meisten Rechnern ein Programm an dieser Stelle abgebrochen wird, rechnet die verAnlage mit dam greBten Zahlenwert [21 27 1 _anstelle des Wertes, dar

wendete

den Zahlenbereich uberschritten hat, waiter,

Da bairn DSC-Verfahren

auch Schritte mit gleichbleibendem Zielfunktionswert als erfolgreich gewer-

- 224 -

tet werden,kommt das Eingrenzungsverfahren trotzdem nicht zum Ende,Das Konvergenzkriterium wird innerhalb dieses Unterprogramms nicht uberpruft. So wird das ganze Verfahren endlos, ohne daB der Wert der Zielfunktion sich uberhaupt noch andert. Es muB von auBen her abgebrochen werden. Das Konvergenzkriterium der Rosenbrock-Methode versagt in 3 Fallen, obwohl die Losungen bereits exakt gefunden sind. In den Tabellen ist jeweils vermerkt, wo fatale Ausfuhrungsfehler auftreten oder die Dptimierung nicht regular beendet wird. Mit 11 bis 12 exakten bzw. jeweils 23 guten Endergebnissen liegen diese drei Methoden mit rotierenden Koordinatenrichtungen recht gut im Rennen. Fatale Fehler treten besonders haufig auf bei Verwendung der sozusagen besanders hochgezuchteten Suchverfahren, der Methode von Powell sowie der DFPS-Strategie. Nicht immer treffen sie mit Abbruchschwierigkeiten oder schlechten Endergebnissen zusammen. Die erzielten Genauigkeiten wurden daher unabhangig von den Ausfuhrungsfehlern gewertet. Die Zahl der exakten. Losungen ist bei beiden Verfahren extrem niedrig.

A~ch

gute Naherungen sind

mit 20 (Powell) bzw. 16 (DFPSl von 26 m6glichen seltener als bei den Orthonormierungsstrategien. Recht haufig kommen beide theoretisch so vorteilhafte Methoden nicht einmal in die Nahe der gesuchten Losung1 meist bei denjenigen Aufgaben, welchs auch den viel einfacheren Koordinatenverfahren Schwierigkeiten bereiten. Als Ursachen kommen hier auBer dem Versagen der linearen Suche aufgrund sines relativen Minimums imUnendlichen noch hinzu: a) die Verwechslung zwischen MinimaundSattelpunkten aufgrund der Mehrdeutigkeit bei

quadratischer Interpolation (Pro-

blem 2.19 bei der Powell-Strategie, Problem 2.27 bei der Methode der variablen Metrik) bl Unstetigkeitsstellen der Zielfunktion oder deren Ableitungen £Problema 2.6, 2.21, 2.22) c) singulars Hessesche Matrix (Problem 2.14 bei der DFPSMethodel. Aber auch eine vollig regulars, mehrfach stetig differenzierbare Zielfunktion zehnten Grades (Problem 2.23) wird von beiden quadratisch konvergenten Strategien nicht bewaltigt. Ihr Konzept, alle im Laufe der Iterationen anfallenden Daten im Sinne ihres inneren quadratischen Modells zu interpretieren, fOhrt offenbar zu vollig falschen Vorhersagen Ober gOnstige Richtungen und Schrittweiten, wenn die Funktion von wesentlich hOherer als zweiter Ordnung ist. Nicht eine der Obrigen direkten Suchmethoden versagt bei dieser Aufgabe. Im Gegenteil, sie alle finden die exakte Losung,

- 225 Bei dar Methode von Powell kann man vergenzkriterien. Das daB nach dam

regul~ren

w~hlen

zwischen zwei verschiedenen Kon-

unterscheidet sich vom einfachen dadurch,

sch~rfere

Ends dar Iterationenfolge dar ermittelte Bestzustand

leicht variiert und erneut nach dam Minimum gesucht wird. Nur dann, wenn beida Ergebnisse 1m Rahmen dar geforderten Genauigkeit dicht beieinander liegen, wird die Suche endgultig abgebrochen. Sonst wird nach einer linearan Suche in Richtung des Differenzvektors zwischen beiden L6sungen die Suche fortgesetzt. Unter den hier gestellten extremen Genauigkeitsforderungen wird die Suche aber meist mit dar Meldung beendet, daB Rundungsfehler in der Zielfunktionsauswertung die weitere In diesen

F~llen

wird die

Ann~herung

zus~tzliche

nicht ausgefuhrt.

Auch

sonst

an das Ziel verhindern.

Variation des Endergebnisses wird mit dam

Kon-

sch~rferen

vergenzkriterium nur noch sine sehr geringe Verbesserung dar Ergebnisse erzielt. Die Guteklasse dar Resultate wird dadurch in keinem Fall verandert. Bei vier Problemen wird dar SuchprozeB endlos, weil die Schrittweiten zu Null warden und das Abbruchkriterium nicht mehr GberprGft wird. Er muB von auBen unterbrochen warden. Fatale Ausfuhrungsfehler treten sehr auf. In drei

F~llen

kommt as zum 'floating overflow', in sieben

h~ufig

F~llen

zum 'floating davids check'. Dies betrifft insgesamt acht Aufgaben. Noch anfalliger zeigt sich die DFPS-Strategie. Funfmal wird 'floating overflow•, elfmal 'floating devide check' registriert. Betroffen sind hier zw6lf Aufgaben. Fehlerfrei arbeitet

dagegen die direkte Suche von Hooke und Jeeves. Aber

auch sie versagtbeizwei Problemen, einmal aufgrund von spitzen Ecken 1m Muster dar Niveaulinien (Problem 2.6) und ein anderes Mal in dar station~ren

N~he

eines

Punktes mit sehr engem zum Ziel fuhrenden Tal (Aufgabe 2.19).

Die Zahl dar exakten Losungen betragt 6, die der guten Naherungen immerhin 21. Ahnlich im gesamten, aber unterschiedlich im einzelnen, verhalten sich die Simplex- und die Complex-Strategie. Etwa 6 exakten und - zusammen mit diesen 17 guten L6sungen stehen je zwei 2.22). Diese warden durch kantige

Versagensf~lle

Niveaufl~chen

gegenuber (Problem 2.21 und 1m mehrdimensionalen Raum

hervorgerufen. Die Neustart-Regel des Nelder-Mead Verfahrens wird bei neun Probleml6sungen in Anspruch genommen. Das nur auf den Funktionswerten an den Simplex -Ecken beruhende Abschaltkriterium spricht in neun

F~llen

nicht an.

Die Optimumsuche wird endlos, ohne daB noch Verbesserungen des Zielfunktionswertes zu beobachten sind. Die Ergebnisse dar Complex-Strategie sind stark

- 226 abhangig von dar durch Zufallszahlen festgelegten Startkonfiguration. Gewertet wurde hier dar jeweils baste von drei Versuchen mit je verschiedenen Pseudozufallszahlenfolgen.Besonders hervorzuheben ist das im Vergleich zu allen anderen Methoden besteErgebnis des Complex-Verfahrens bei dar Losung von Problem 2.26. Alle drei Versionen dar Evolutionsstrategie zeichnen sich dadurch aus, daB sis in keinem Fall vollig versagen und wait mehr als die Halfte aller Problame exakt (nach obiger Definition) zu losen verm5gen. Da ihr Verhalten ebenfalls durch Zufallszahlen beeinfluBt wird, gilt das gleiche wie fur die Complex-Methode: aus drei Tests wurde derjenige mit dam besten Endergebnis gewertet. Im Gegensatz zur Strategie von

Box zeigen sich die Evolutions-

methoden aber weniger abhangig von dar aktuellen Zufallszahlenfolge. Insbesondere gilt dies fur die mehrgliedrigen Versionen. Rekombination erhoht fast durchweg die Chance, die gesuchten Losungen sehr gut zu approximieren. Fatale Fehler durch Oberschreiten des maximalen Zahlenbereichs oder Division durch Null treten infolge dar einfachen Rechenoperationen dieser Strategien nicht auf. Unstetigkeitsstellen dar partiellen Ableitungen, Sattelpunkte und dergleichen machen sich nicht storend bemerkbar. Zeitraubend wird die Suche allerdings, wenn das Minimum durch sin langgestrecktes, enges Tal erreicht wird. Die Schrittweiten bzw. Streuungen, die sich dann einstellen, sind sehr klein und bedingen langsames Konvergieren gegenuber Methoden, welchs lineare Suchan in Richtung dar Talsohle ausfuhren kennan. Wahrend die mittlere Geschwindigkeit einer Evolutionsstrategie durch Windungen des Tales nicht waiter beeinfluBt wird, ist dies bei eindimensionaler Minimierungsprozedur aber dar Fall. Wesentliche Vorteile in bezug auf die Konvergenzgeschwindigkeit sind durch lineare Suchan nur dann zu erzielen, wenn as Richtungen im Raum gibt,langs denen erfolgreiche Schritte ausgefuhrt warden konnen, deren Langen groB gegenuber den ortlichen Krummungen der Zielfunktions-Niveauflachen sind. Beispiele hierfur sind die Aufgaben 2.14, 2.15 und 2.28. In diesen Fallen sind die optimalen Streuungen dar Evolutionsmethoden schon lange vor Erreichen des Minimums an dar entsprechend dar Rechnergenauigkeit festgelegten unteren Grenze angelangt. Die gesuchte Losung kann daher nicht mit dar geforderten Exaktheit approximiert warden. Bei den Problemen 2.14 und 2.15 konnte aus Grunden dar Rechenzeit die Erfullung des Konvergenzkriteriums nicht abgewartet werden1 die Suche wurde trotz stetigen, wenn auch langsamen Fortschreitens abgebrochen.

- 227 Schwierigkeiten mit der auf Funktionswerten beruhenden Abschaltregel ergeben sich nur bei der Losung sines Aufgabentyps (2.11. 2.121 mit der (10,100]-Evolutionsstrategie mit Rekombination. Die mehrgliedrige Methodesu~t die 10 besten Individuen einer Generation nur unter den jeweils 100 Nachkommen aus. Deren 10 Eltern warden bei der Auslese nicht berucksichtigt. Dies geschieht aus Grunden der Schrittweiten-Anpassung.

Im allgemeinen ist der

zum besten Nachkommen gehorende Zielfunktionswert in jeder Generation naher an der Losung als der zum besten Elter gehorende. Im Falle der beiden zuletzt genannten Aufgaben trifft das anfangs auch zu. Mit zunehmender Annaherung an das Optimum kommt es aber immer haufiger vor, daB der in einer Generation auftretende Bestwert wieder verloren geht. Dies hangt damit zusammen, daB sich die Zielfunktion infolge von Rundungsfehlern bei der Berechnung ihrer Werts in der Nahe des Minimums nahezu stochastisch verhalt. Dadurch irrt die Population in der Umgebung der (quasi singularenl Optimallosung umher, ohne das Konvergenzkriterium erfullen zu konnen. Die ubrigen Suchmethoden - einschlieBlich der mehrgliedrigen Evolutionsstrategie ohne Rekombination - geraten nicht in diese Schwierigkeiten, wail sie langst nicht so nah an das Optimum herankommen. DaB die dritte Aufgabe vom gleichen Problemtyp (2.10] auch bei Rekombination in endlicher Zeit regular gelost wurde, ist wohl eher ein Zufall. Das Minimum war auch hier lange vor Erfullung des Abbruchkriteriums erreicht. Insgesamt ist die mehrgliedrige Evolutionsstrategie mit Rekombination die sicherste und zuverlassigste aller getesteten Suchmethoden. Nur in 5 von 28 Fallen lokalisierte sie die Losung nicht exakt und die groBten Abweichungen bezuglich der Variablen lagen in der Genauigkeitsklasse

o=1o-~.

Tabella 6.10 gibt noch einmal einen Oberblick uber die Summe der Aufgaben ohne Nebenbedingungen, die von den beteiligten Suchverfahren mit bestimmten Genauigkeiten gelost wurden, uber die Gesamtzahl der nicht gelosten Problems und die Zahl der Falls, in denen fatale Ausfuhrungsfehler beobachtet wurden bzw. die SchluBkriterien versagten.

- 228 Tabella 6,10 Zusanrnenfassung dar Ergebnisse aus Tabella 6.9 Strategie

FIBO GOLD LAGR HOJE DSCG DSCP POWE DFPS SIMP ROSE COMP EVOL GRUP REKD

Summa dar gel5sten Aufgaben in den Genauigkeitsstufen 6~ 10-38 10- 8 10- 2 10- 4 3 4 2 6 11 12 4 5

7 11 5

17 18 23

9 9 7 21 23 24 20 16 18 23 17 20 22 24

18 18 17 26 24 26 21 18 24 26 24 24 27 28

19 19 21 26 26 26 21 22 26 26 26 28 28 28

keine Lasung bzw. 6>10- 2

fatale Rechenfehler

kein reguliires Abschalten

9 9 7 2 2 2 7 6 2 2 2 0 0 0

0 0 0 0 2 2 8 12 0 0 0 0 0 0

0 0 0 0 2 2 4 0 9 3 0 0 0 2

) *)

*) je zweimal Suche abgebrochen wegen zu langsamer Konvergenz

Problema mit Nebenbedingungen In den Tabellen 6.11 und 6.12 sind die Ergebnisse von 5 Strategien bei dar L5sung dar 22 Aufgaben mit Nebenbedingungen wiedergegeben. AusfOhrungsfehler wie Zahlenbereichsuberschreitungen oder Divisionen durch Null wurden bei keiner Methode beobachtet. Auch Schwierigkeiten beim Beenden dar Suche traten in keinem Fall auf. Die Methode von Rosenbrock liiBt sich nur dann anwenden, wenn der Startpunkt dar Suche innerhalb des zuliissigen Bereichs liegt. Deshalb muBten fOr 7 Aufgaben die Anfangswerte dar Variablen veriindert warden. Alle anderen Verfahren fanden sehr schnell sine zuliissige Basislasung. Wie schon bei den Problemen ohne Restriktionen, so wurden auch hier die von Zufallszahlen abhiingigen Strategien jeweils dreimal mit verschiedenen Pseudozufallszahlenfolgen gestartet. Gewertet wurde das baste dar drei Ergebnisse. Wiihrend die Resultate dar Complex-Methode und der zweigliedrigen Evolution recht unterschiedlich

in ihrer Guts ausfielen, zeigten sich die mehrgliedrigen Ver-

sionen dar Evolutionsstrategie, besonders die mit Rekombination, weniger beeindruckt von den aktuellen Zufallszahlen. Zwei Problema (2.40 und 2.41) bereiteten allen Suchmethoden groBe Schwierigkeiten. Es handelt sich um einfache lineare Programme, die zum Beispiel mit dam Simplexverfahren von

- 229 Tabella 6.11 Ergebnisse aller Strategien zum zweiten Vergleichstest Problema mit Nebenbedingungen

.....m

k"&l)

bO

I)~&

~01)

m

.....

.....1-o"' Problem Nr. en &I)

2.29 2.30 2.31 2.32 2.33 2.34 2.35 2.36 2.37 2.38 2.39 2.40 2.41 2.42 2.43 2.44 2.45 2.46 2.47 2.48 2.49 2.50

UJ

en

a_

:E:

_J

D

cr

D

> UJ

3

1 5 3 3 2 2

4

D

3v 3v 3 1 3v 1 3 3v 3 5 5 3 3v 1 3 3 3v 3v 3 3

u

1 1 5 3 4 1

1 1 4 5 5 2 2

1 3 3 5 5 3 3 5 2 2 1 3 2 1

4 3 1 1 4

a_ ::::J

D

l!l

cr

3 1 1 1 4 3 4

3 1

1 1 4 5 5 2 2 1 2 3 1 1 3 1

1 1 3 5 5

cr

~

UJ

1 2 4

Bedeutung der Kennzeichen wie in Tabella 6.9

Tabella 6.12 Zusarrrnenfassung der Ergebnisse aus Tabella 6.11 Strategie

ROSE COMP

EVOL GRUP REKO

Summa der gelosten Aufgaben in den Genauigkeitsstufen 6~ 10-38 10- 8 10- 2 10- 4 4 6 10 10 16

4 11 12 13 17

20 18 14 17 19

20 18 19 20 20

keine Losung bzw. 6>10- 2 2 4 3 2 2

- 230 Dantzig sehr schnell und exakt gel6st warden k6nnen. Dem Ziel jeweils am nachsten kam noch die (10,100)-Evolutionsstrategie mit Rekombination. Wenn auch die Evolutionsmethoden bei Aufgaben mit Nebenbedingungen insgesamt nicht schlechter abschneiden als die Rosenbrock- und die Complex-Strategie, so zeigen sie doch Unzulanglichkeiten, die bei Problemen ohne Restriktionen nicht auftreten. Besonders die 1/5-Erfolgsregel zur Steuerung der Streuungen der Mutationsschrittweiten bei der (1+1)-Evolutionsstrategie erweist sich als ungeeignet, optimale Fortschrittsgeschwindigkeiten zu erzielen, wenn mehrere Nebenbedingungen aktiv warden. Die Neigung der Evolutionsmethoden, 1m Mittel der Gradiententrajektorie zu folgen, fuhrt bei Aufgaben mit echten Restriktionen dazu, daB die Suche recht schnell auf sine oder mehrere Grenzen des zulassigen Bereichs st6Bt. Des Weiterwandern in Zielrichtung entlang solcher Kanten 1st dann recht muhselig und langsam. In Skizze 6.13 1st die Situation fur zwei Variable und eine Nebenbedingung geometrisch veranschaulicht. Skizze 6.13 Zur Situation an aktiven Grenzen

unzulassiges Gebiet

Kreiss: Linien gleicher Trefferwahrscheinlichkeit

negative Gradientenrichtung

Die H6henlinien der Zielfunktion verlaufen in spitzem Winkel (a) zur Bereichsgrenze. Demit sine Mutation als Erfolg gewertet warden kann, muB sie in den zulassigen Bereich fallen und auBerdem noch den verbessern.

Zielfunktionswert

Zur Vereinfachung soll angenommen warden, daB alle

Mutationen auf den Rand eines Kreises urn den jeweiligen Ausgangspunkt treffen. Bei vielen Variablen 1st diese Betrachtungsweise ja durchaus zulassig (siehe Kapitel 5.1). Zunachst wird der Mittelpunkt des Kreises, auf dessen

- 231 Rand die : Zufallstreffer fallen, noch in einiger Entfernung von dar Grenze liegen !P 1 J. Ist dar Winkel zwischen den Hohenlinien dar Zielfunktion und dam Rand des zulassigen Bereichs klein und die Schrittweite bzw. Streuung dar Mutationsschrittweite graB, dann wird nur ein geringer Tail dar Mutationen erfolgreich sein (dick gezeichneter Tail des Kreises a 1 J. Die 1/5-Erfolgsregel sorgt dafOr, daB dieser Anteil auf 20 % gebracht wird. Ist dar Winkel a hinreichend klein, dann kann das nur durch Verringerung dar Streuung !a2 J erreicht warden. Dar Suchpunkt P gerat in immer groBere Nahe zur Bereichsgrenze und liegt schlieBlich auf ihr !P2 J. Oa es dann keine endliche Schrittweite mehr gibt, die zu einer Erfolgsrate in dar gewOnschten Hohe fuhrt, wird die Streuung permanent reduziert bis zu dam im Programm festgelegten Minimalwert. Je nach dar aktuellen Struktur des Problems und den gewahlten ParameterWerten fur die Konvergenzkriterien wird die Suche langsam fortgesetzt oder vor Erreichen des Optimums abgebrochen. Je mehr Restriktionen 1m Laufe dar Suche aktiv warden, desto geringer wird die Wahrscheinlichkeit, daB das Ziel gut approximiert wird. Aber selbst bei Problemen mit nur zwei Variablen und einer Restriktion (Aufgabe 2.461 kann dar Winkel zwischen den N1veaul1n1en und dam Rand des zulassigen Bereichs in Minimumnahe verschwindend klein warden. Ahnliche Situationen, wie die in Skizze 6.13 dargestellte, kennan sogar bei Problemen ohne Nebenbedingungen auftreten, wenn die Zielfunktion Unstetigkeiten in den ersten partiellen Ableitungen aufweist. Beispiele hierfur sind die Problema 2.6 und 2.21. Sind nur wenige Variable beteiligt, dann ist die Chance jedoch graB, das Ziel dennoch zu erreichen. Andere Suchverfahren, besenders diejenigen, welche

lineare Suchan ausfuhren,

kommen uber sol-

che Unstetigkeitsstellen dagegen generell nicht hinweg. Auch die mehrgliedrige Evolutionsstrategie, die ohne starre Schrittweitensteuerung arbeitet, bOBt ihr sonst recht sicheres Konvergenzverhalten ein,wenn das Erfolgsgebiet durch Restriktionen stark eingeengt ist. Solange die Individuen noch nicht am Rand des zulassigen Bereichs angelangt sind, haben diejenigen Nachkommen eine groBere Oberlebenschance, deren Schrittweiten kleiner geworden sind. So konzentriert sich schlieBlich auch hier die ganze Population in einem immer enger werdenden Bereich am Rand des zulassigen Gebiets. DaB von dar Theorie dar Fortschrittsgeschwindigkeit beim Korridor-Modell entsprechende Schwierigkeiten nicht vorhergesagt warden, daB die optimale

- 232 Erfolgsrate sogar fast gleich graB ist wie bairn Kugel-Modell, liegt allein daran, daB dar Gradientenvektor dar Zielfunktion uberall parallel zu den Grenzen verlauft. Damit pendelt die Suche zwischen Korridormitte und Rand hin und her. Die geringe Erfolgschance an mehrdimensionalen Kanten wird dadurch kompensiert, daB bei konstanter Aufenthaltswahrscheinlichkeit uber dam Korridorquerschnitt dar Raumanteil dar kantennahen Gebiete sehr klein ist. Wird die Erfolgsrate nur uber genugend lange Perioden gemittelt, so fuhrt die 1/5-Erfolgsregel nicht zu permanenter Verringerung dar Streuungen, sondern zu konstanter optimeler Schrittweite, die nur von dar Korridorbreite und dar Zahl dar Variablen abhangt. GOnstiger als

in

Skizze 6.13 liegen die Verhaltnisse, wenn die Nebenbe-

dingungen in expliziter Form bzw. vorliegen. In bezug auf eine Variable wird das Erfolgsgebiet an einar Granze auf die Halfte reduziert, Sind an einam Aufenthaltspunkt m Variable jaweils einseitig eingeschrankt, dann vergehen im Mittel 2m Mutationen, ehe ein Treffer in den zulassigen Bereich fallt. Die 1/5-Erfolgsregel wird fur m>2 auch hier die Streuungan laufand verkleinern, bis sie ihren Minimalwart erreicht haben. AuBer einer absolutan kann auch sine relative untere Granze der Streuungen in Relation zu den

aktuellen Variablenwerten als Eingabe-

parameter angegeben warden. Je nach dem Weg, den der SuchprozeB einschlagt, warden die Grenzwerte der Streuungen, die fur jade Variable ainzeln einstellbar sind, zu unterschiedlichen Zeitpunkten erreicht. Damit andert sich ihr Verhaltnis zueinander und mit der neuen Schrittweitenkombination kann schnelleres Konvergieren erzielt warden. Die zusatzliche Variabilitat dar mehrgliedrigen Evolutionsstrategie mit Rekombination, die darin besteht, daB die Streuungan der Variablenanderungen wahrend des gesamten Optimierungsprozesses einzeln einstellbar sind, macht sich bei Problemen mit Nabenbedingungen sehr positiv bemerkbar. Geeigneta Streuungskombinationen stellen sich nicht erst ain, wann die kleinstm6glichan Schrittwaitan arraicht warden, sondarn schon vorhar. Oadurch wird die Gasamtrachanzait kurzar und das Endargebnis ganauar. Die Rakombinationsm8glichkait scheint sich aber auch bei nicht expliziten Grenzen positiv bemerkbar zu mechen. Sie erhoht offenbar die Chance, daB auch Nachkommen mit groBerer Schrittweite in Grenznahe noch erfolgreich sind. Jedenfalls ruckt die Population langsamar zusamman, als es ohna Rakombination dar Fall 1st.

- 233 Globele Konvergenzeigenschaften Unter den 50 Testproblemen befinden sich 6, welchs neben dem globalen noch mindestens ein weiteres lokales Minimum aufweisen. Im Zuverlassigkeitstest wurde die erreichte Genauigkeit nur in bezug auf das jeweils approximierte Optimum beurteilt. Wie sieht es nun mit dar Fahigkeit der einzelnen Strategien aus, globale Minima zu lokalisieren? Mehrere Aufgaben waren eigens hierfur so entworfen, daB sich sehr viele lokale Optima ergaben, und zwar die Problems 2.3, 2.26, 2.30 und 2.44. In Tabella 6.14 sind die Testergebnisse unter diesem Gesichtspunkt ausgewertet. Tabella 6.14 Ergebnisse.aller Strategien zum zweiten Vergleichstest globale Konvergenzeigenschaften Q)

.....

00

..., Q)

Ill

Problem Nr. 2.3 2.26 2.30 2.32 2.44 2.45 2.47 2.46

...,"'

(/)

0 III H

u..

L1 L1

0

_J

0

(.!)

L1 L1

a:: (.!)

< _J

L3 L1

...,l1J

u

:r:

0

0

L1 L1

(.!)

(/)

L7 L1

0.

u

(/)

0

L7 L1

l1J

3 0 0.

L1 L1

(/)

0.

u..

0

L3 L1

~

H

(/)

L1 L1

_J

0.

a::

0

u

> l1J

a:: (.!)

L6 L1 L4 G L1 L L3 L2

L1 L1 L1 G L1 G L1 Lm

Lm G L1 G Lm G G G L1 G G G L2 G Lm GL

l1J

(/)

0

~

0

::::l

0 >l l1J

a::

G G G G G G G GL

Bedeutung der Kennzeichen L L3 Lm

G GL

Sue he konvergiert Suche konvergiert nach absteigenden Suche konvergiert Sue he konvergiert Suche konvergiert

gegen lokales Minimum gegen des 3. lokale Minimum ( Zahlung dar Reihenfolge Zielfunktionswerten I gegen verschiedene lokale Minima je nach Zufallszahlen gegen globeles Minimum gegen lokales oder globales Minimum je nach Zufallsz.

Abgesehen von einer Aufgabe (2,321, deren globales Minimum von allen getesteten

Suchstrategien gefunden wurde, konvergierte die Methode von Rosenbrock

stets nur gegen lokale Optima. Oas Complex-Verfahren und die (1+11-Evolutionsstrategie waren lediglich in einem Fall besser. Bei Aufgebe 2.45 strebten sie gegen das globale Minimum.

- 234 Wesentlich bessere globale Konvergenzeigenschaften zeichnen die mehrgliedrige Evolution aus, gleich ob mit oder ohne Rekombination. Trotz ihres zufallsabhangigen Wages im Raum fand sie in jedem Fall zum absoluten Minimum. Nur bei Aufgabe 2.48 kam es vor, daB eines der lokalen Optima angesteuert wurde. Hier ist das zulassige Gebiet nicht zusammenhangend. Zwischen Startpunkt und globalem Minimum gibt es keine Verbindungslinie, die nicht durch den von den Restriktionen ausgeschlossenen Bereich fOhrt. Oer Weg der einfachen Evolution und die Startsituation der Complex-Methode sind zwar auch von der aktuellen Pseudozufallszahlenfolge abhangig; die Resultate von je drei Versuchen unterscheiden sich jedoch bestenfalls dadurch, daB verschiedene lokale Minima approximiert wurden. Die (1+11-Evolution Oberwand einmal 33 relative Optima und konvergierte zum 34. (Aufgabe 2.3). Trotz der im Test manifestierten guten globalen Konvergenzeigenschaften der mehrgliedrigen Evolutionsmethode ist Skepsis geboten. Wenn die Suche mit kleinen Schrittweiten in der Nahe eines nur lokalen Minimums begonnen wird, das globale weit entfernt ist und eine gebietsmaBig nur kleine Umgebung mit geringeren Zielfunktionswerten hat, dann kann die Wahrscheinlichkeit, zu ihm zu gelangen, sehr gering werden. Ist darOber hinaus die Zahl der Variablen sehr graB, die Schrittweiten der Mutationen dementsprechend klein gegenOber euklidischen Entfernungen zwischen zwei Punkten im Rn, dann entspricht die Suche nach einem absoluten unter vielen nur relativen Optima der sprichwortlichen Suche nach einer Stecknadel in einem Heuhaufen. Singulars Minima zu lokalisieren, ist schon bei wenigen Variablen so gut wie aussichtlos. Die mehrgliedrige Evolution erhoht zwar gegenOber anderen Suchmethoden die Wahrscheinlichkeit des Auffindens globaler Minima, kann dies aber aufgrund ihres sequentiellen Charakters nicht absolut sicherstellen. 6.3.3.3

Dritter Test: nicht-quadratische Problema mit vielen Variablen

Wahrend in der ersten Testserie die Konvergenzgeschwindigkeiten bei quadratischer Zielfunktion OberprOft und in der zweiten die Konvergenzsicherheit im allgemeinen nichtlinearen Fall ermittelt wurde, sell der dritte Test dazu dienen, den Rechenaufwand fOr nicht-quadratische Problema zu erkunden. Die Aufgaben der zweiten Testserie erscheinen wegen der geringen Parameterzahlen hierfOr ungeeignet, da Konvergenzgeschwindigkeiten bzw. Rechenzeiten erst im Zusammenhang mit der Zahl der Variablen interessant sind. Die Konstruktion von Zielfunktionen, die nicht-quadratisch sind und sich zugleich auf beliebig viele Variable erweitern lassen, ist kein triviales Problem ,

DaB dieser

- 235 dritte Strategienvergleich nur 10 verschiedene Problema umfaBt, liegt aber auch daran, daB er besonders hohen Rechenaufwand erforderte. In mehreren Fallen .wurden CPU-Zeiten von einigen Stunden benotigt, urn nur eine Strategie bei einer Aufgabe mit einer bestimmten Zahl von Variablen zu testen. 7 Problemen ohne Restriktionen stehen 3 mit Nebendingungen gegenOber. Im Anhang A1.3

sind die Aufgaben mathematisch formuliert und ihre Losungen engage-

ben. Vorgegangen wurde wie bairn ersten Test. Neben dam strategiespezifischen Abschaltkriterium, das auf maximale Genauigkeitsforderungen hinauslief, wurde ein weiteres, allen Suchverfahren gemeinsames Konvergenzkriterium verwendet. Danach war die Suche dann zu beenden, wenn eine bestimmte Stracke vom Startpunkt aus in Richtung auf des Minimum zurOckgelegt war. Die Parameterzahl wurde in den Stufen 3, 10, 30, 100, 300 und 1000 bis zur gemaB Speicherkapazitat maximal moglichen Anzahl variiert. Wenn aber ein Problem mit z.B. 30 Variablen von einer Strategie nicht gelost wurde oder nach dar maximalen Rechenzeit von B Stunden noch keine Entscheidung verlag, wurde die Zahl dar Variablen.natOrlich nicht waiter erhoht. Wie im ersten Test wurden die Startbedingungen festgelegt durch (-1Ji (OJ - * x i - xi + TciiJ Eine Ausnahme bilden Problem 3.3 mit (OJ - * x i - xi +

'IT

(-1Ji

10 TciiJ '

damit die Suche jeweils gegen das gewOnschte und nicht gegen eines dar vielen anderen, gleichwertigen Minima konvergiert, und Problem 3.10 mit (OJ _ * x i - xi +

1 7TnT

urn von einem zulassigen Startpunkt aus beginnen zu kennan. FOr die Aufgaben 3.8 und 3.9, deren Minimum im Unendlichen liegt, galten besondere Bedingungen fOr den Startpunkt und des

SchluB~riterium

(siehe Anhang A1.3J.

Die Ergebnisse sind in den Tabell&n 6.15 zusammengetragen. Zum Vergleich sind die Resultate des ersten Tests zum Tail (Problem 1.1J mit aufgefOhrt. Man kann die Oaten auf zweierlei Weise auswerten. Einmal unter dam Gesichtspunkt dar Zuverlassigkeit einer Strategie und einmal im Hinblick auf die Rechenzeiten.

- 236 -

Tabella 6.15 Ergebnisse eller Strategien zum dritten Vergleichstest Es bedeuten:

n Fall

Zahl der Variablen ein Kennzeichen fOr· des Konvergenzverhalten regulares Ende der SucheJ die geforderte Annaherung an des Ziel wurde erreicht 2

die Suche wurde vor Erreichen der gewOnschten Genau-

3

die Suche· wurde endlos, ohne zu konvergierenJ sie

igkeit beendet muBte von auBen her unterbrochen warden 4

die maximale Rechenzeit von 8 Stunden reichte nicht aus, urn die Suche erfolgreich zu beenden (bei Versuchen mit der mehrgliedrigen Evolutionsstrategie wurde bei Aussicht auf Erfolg mitunter mehr Rechenzeit investiertl

1(2)

es wurde kein Versuch unternommen je nach Pseudozufallszahlenfolge traten verschiedene Falla auf1 die Daten beziehen sich auf den zuerst genannten Fall

ZFA

Zahl der Zielfunktionsaufrufe

RFA

Zahl dar Aufrufe von Restriktionsfunktionen

Zeit Rechenzeit in Sekunden (CPU-Zeit) Iterationen, Zyklen, Tastzyklen, lineare Suchan, Orthonormierungen, Neustarts usw. wurden wie bairn ersten Vergleichstest gezahlt. Fatale Rechenfehler wurden nur bei der Powell- und der DFPS-Methode reg1str1ert.E1ne genauere AufschlOsselung, bei welchen Problemen sie auftraten, 1st hier nicht angegeben. In der Regel waren die gleichen Aufgabentypen wie bairn zweiten Test betroffen. Bei Problemen ohne Nebenbedingungen sind in den Tabellen fOr die Evolutionsstrategian die Angaben Ober die Zahl der Zielfunktionsaufrufe fortgelassen. Diese laBt sich aus der Zahl der Mutationen bzw. Generationen errechnen: EWL

GRUP,REKO

1 + Zahl der Mutationen 10 + 100 x Zahl der Generationen

Tabella 6.15 - Fortsetzung

1 3 10 4 1 1 1 2

1 1 1 1 1 2 1 1

1 1 1 1 1 2 1 1

1 .1 3.1 3.2 3.3 3.4 3.5 3.6 3.7

1.1 3.1 3.2 3.3 3.4 3.5 3.6 3.7

1 2 10 4 1 1 1 1

1 3 10 4 1 1 1 2

N

»

Ql

c

..... ...:

1 1 1 1 1 2 1 1

..... ..... Ill u..

1 .1 3.1 3.2 3.3 3.4 3.5 3.6 3.7

a.

"'

.0 0

..;

=3

85 198 745 321 140 82 138 87

158 415 1250 630 192 85 192 183

158 415 1250 630 192 85 192 183

n

N

u..

, N

:>, N

...

....

.....Q)

,...;

4

,...;

0,08 0.08

0.06 0,08 0.10 16.7 0.06

N

...

.....Q)

1 1 1 1 1 2 1 1

u..

Ill

..... .....

3 3

3 3 3 130 3

1-

Ill

:>, N

...""'.,

.....

= 30

168 168

168 168 168 7493 168

n

N

< u..

,...;

1 .1 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10

a..

"'

0

.c

1

1

1 1 1 1 1 1 1 1 1

u..

1 3 5 3 2 2 2 2 1 1 8

"'

Cl

.... ....Ill .c ...

101 28 367

=3

27 41 98 45 44 29 44 29 28 28 268

n

N

< u.. a:

< u..

...

0,08 0.14 0.30 0.40 0.14 0.12 0.14 0.10 0.16 0.10 1.16

N

.....Q)

2

1

1 1 1

1

1 1 1 1 1

u..

.... ....Ill

"'

2 3 4 1 4 3 4 2 1 6 12

Cl

.c... < u.. a: N

Q)

........

120 0.91 161 1.36 282 2.10 5.02 73 279 1.98 295 2.02 279 2.06 152 1.10 91 1128 1.60 427 309 3.46 2953 9766 30.5

n • 10

N

< u..

2

1 1 1 1 1 1 1 1 1 1

0 3 3 8 0 0 0 0 1 1

"'

Cl

.... .c... .... Ill u..

N

...

.....Q)

n 121 575 575 3077 121 121 121 121 241 512

N

< u..

0.70 0.62

0.43 0.74 0.74 4210 0.48

ROSE - Rosenbrock-Methode mit Gram-Schmidt-Orthonormierung

a..

.c

.........Ill

.....Q)

E

HOJE - Oirekte Suche von Hooke und Jeeves

Tabella 6,15 - Fortsetzung

a

7861 215

30

2

1 2 1 1 2 2

2 2 2

n

1-

Ill

:>, N

...""'.

1 1 1

< u.. a:

u..

..... .... Ill

c:

.....Q)

N

Q)

N

0

2 3 4 47 9 47 3 0 2

1 1 1 1 1 1

Cl

c ....c: "'

1 2 1 1

1 1 1

II...

........ Ill

1 1 1

u..

.... ....Ill

3.72 3.68

2.86

2.37 4.82 4.78

1.18 18.7 19.1 1690 1.20 1.36 1.32 1.32 17.3 9.76

N

Q)

........

352 352

352

352 352 352

= 100

< u..

........

119 153 137

4954 4954 4954

83059 7337 83059 1871 226 2833

33448 969

= 75(maxl

< u.. a:

100 784 758

N

...

.....Q)

4954 18612 17714

< u.. N

N

= 300

< u..

899 2352 3879

n

9 9

9

9 33 32

n

1-

Ill

:>, N

...""'.

c: Q)

.....

Q)

12 12

12

12 21 21

n

1-

Ill

:>, N

...""'.

4660 728 4830 236 84.8 194

145 242 342

N

........

1 2 1 1

1 1 1

u..

.........Ill

c:

.....Q)

N

1700 2160 2410

23505 23505

1460 5710 5440

N

... .....Q)

23505

23505 42004 42004

= 1000

< u..

w

CD

N

Tabella 6.15 - Fortsetzung

E

.....Q)

0

c

1 1 1 1 1 1 1 1

lO lJ..

0 1 3 2 0 1 0 1

1-< 0

..., ..... .c

rl

u

3 6 12 9 3 6 3 6

n

.....~ .....

(/)

::J

cQ) .c

20 32 48 35 20 30 20 30

=3

cC

lJ.. N

0.04 0.08 0.12 0.28 0.06 0.08 0.06 0.10

N

.....Q)

...,

lO lJ..

1 1 1 1 1 1 1 1

0 2 3 8 0 0 0 0

1-< 0

..... ...,0 ..... .c

c

1-< 0

e

10 30 40 112 10 10 10 10

n

.....~ .....

(/)

::J

u

cQ) .c

56 119 147 377 56 47 56 56

= 10

cC

lJ.. N

0.20 0.86 1.12 26.0 0.20 0.20 0.22 0.22

N

.....Q)

...,

1 1 1 2 1 1 1 1

lO lJ..

..... .....

0 1 3 28 0 0 0 0

1-< 0

c 0 .c ...,

e

1-< 0

30 91 151 1087 30 30 30 30

n

.....~ .....

(/)

::J

u

cQ) .c

1 .1 3.1 3.2 3.3 3.4 3.5 3.6 3.7

0..

.0 0 1-

0

.: n

30

30 91 91 700 30

..... ....

en

::J

c: Q) .c:

....ffi

1 1 1 1 1 2 1 1

1 .1 3.1 3.2 3.3 3.4 3.5 3.6 3.7

a..

"'

.... .... Ill

1.1-

.0 0

1 3 4 2 1 1 1 15

H

Q)

...."'

...;.,

n

3

10 20 25 15 10 11 10 101

=

N

< 1.1-

0.02 0.06 0.06 0.12 0.02 0,02 0.02 0.26

N

Q)

....

+>

1 1 1 1 1 2 1 1

1.1-

.... .... Ill

24 48 65 61 24

24 307

1 16

n = 10

N

< 1.1-

1 3 4 4 1

H

Q)

...."'

...;.,

0.08 1.42

0.06 0.20 0.30 3.96 0.06

N

Q)

....

+>

1 1 1 1 1 2 1 2

Ill 1.1-

..... ....

1 15

1 4 4 45 1

H

+>

Q)

"'

Ill

...;

= 30

64 760

64 160 160 1640 64

n

N

< 1.1-

0.40 7.84

0.32 1.82 1.78 932 0.34

N

.....Q)

+>

c

1

1 2 1 2

1

1 5 5

H

+>

Q)

"'

+>

.,

.....

1 1 1

Ill 1.1-

..... .....

0

3.92

3.34

204 204

Q)

Q)

1 2 1 2

1 1 1

Ill 1.1-

..... .....

Q)

1

1

1 6 6

n

H

+>

"'

Ill

+>

.....

c: Q) c: 0

100

Q)

N

........

8.74

7.82

3.72 15.1 15.0

+> ..... Q)

N

11.8

10.2

364 364

9.56 84.4 84.2

364 1274 1274

= 180(maxJ

N

Ill

....+> 0

c: Q) c: 0

Q)

N

19.0

16.2

8.60 15.5 15.5

n = 135(maxJ

..... ....

c:

Q)

"'Ill

en

::J

c: Q) .c:

..,. 0

N

Tabella 6.15 - Fortsetzung

1 1 1 1 1 1 1 1

=3

28 34 40 32 25 32 25 28

Q)

0.09 0.10 0.12 0.28 0.08 0.08 0.08 0.08

N

.......,

1 1 1 1 1 1 1 1

u...

Ill

..... .....

0 0 0 0 0 185 0 48

z

Q)

::J

...,.,

Ill

I.

...,"'

1 1 1 1 1 1 1 1 1 1 1

1 .1 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.6 3.9 3.10

69 76 83 58 74 57 85 76 40 35 33

0 J-n =

Minimum:

fur j=1(1Jn fur j=n+1(1 J2n

xr = 0 fur i=1(1)n; F(x*J

=

0; alle G1 bis Gn aktiv

Neben diesem globalen Minimum existiert noch ein lokales im zulassigen Bereich:

xi_ = (

2 fur i=1

o fur

i=2(1Jn

F(x'J = 2 exp(-2)

Wie schon bei der Losung des Problems 2.45 mit fOnf Variablen. so konvergierten auch hier die Suchmethoden nur in dem MaBe, wie sie die einzelnen Schrittweiten verschieden voneinander einstellen konnen. Die Strategie von Rosenbrock versagte schon ab n=10. Das Complex-Verfahren konvergierte bei gleicher Variablenzahl mitunter nach etwa 1000 Sekunden Rechenzeit. manchmal aber nicht einmal innerhalb von acht Stunden. Bei n=30 Parametern erreichte keine der Strategien das gesteckte Ziel vor Erreichen der Rechenzeitschranke. Die nach acht Stunden erzielten Ergebnisse zeigten eine deutliche Oberlegenheit der zweigliedrigen Evolution und der mehrgliedrigen mit Rekombination. In der folgenden Tabella sind die erzielten Bestwerte der Zielfunktion fOr alle Vergleichsstrategien angegeben

(1+1)-Evolution

10- 4 J* 10- 7 10-30

(10.100)-Evolution ohne Rekombination

10-12

(10.100)-Evolution mit Rekombination

10-26

Rosenbrock Complex

J* Die Rosenbrock -Strategie beendete die Suche vorzeitig nach ca. 5 Stunden. Alle anderen Werte sind Zwischenergebnisse nach 8 Stunden Rechenzeit. wobei die strategieeigenen Abschaltkriterien noch nicht erfOllt waren. die Suche also meglicherweise noch erfolgreich hatte abgeschlossen werden konnen.

- 355 -

A2

ANHANG 2 • P'ORTRAN•CODIERUNGEN DER BEJDEN EVOLUTIONS• STRATEGIEN MIT BESCHREIBUNGEN

A2.1 (l+l)•EVOLUTIONSSTRATEGIE EVOL C SUBROUTINE EVOL MIT FUNCTION Z

c c

c

1.

c c c c c c c c c c c

c c c

c c c c c c c c c

c c c c c

c c c c

c c c

c c c

c

c c

c c

ZWECK DAS UNTERPROGRAMM EVOL 1ST EINE FORTRAN•CODIERUNG DER ZWEIGLIEDRIGEN EVOLUTIONSSTRATEGIEo Ei HANDELT SICH UM ElNE ITERATIVE, DIREKTE SUCHSTRATEGIE FUER PARAMETER•OPTIMIERUNGSPROBLEME. GESUCHT WIRD NACH OEM MINIMUM EINER (NlCHTLINEAREN) FUNKTION BELIEBIG, ABER ENDLICH VIELER, KONTINUIERLICH VERAENDERLICHER VARIA• BLERo ABLEITUNGEN DER ZIELFUNKTION WERDEN NICHT BENOE• TIGTo NEBENBEDINGUNGEN IN FORM VON UNGLEICHUNGEN (RECHTE SEITE GROESSER GLEICH 0) KOENNEN BERUECKSICHTIGT WER• DEN. DER BENUTZER MUSS ANFANGSWERTE FUER DIE VARIABLEN UNO FUER DIE ZUGEHOERIGEN EINZELSCHRITTWEITEN VORCE• BENe LIEGT DER ANFANGSZUSTAND NICHT IM ZULAESSIGEN BE• REICH, DANN WIRD NACH EINEM ZULAESSIGEN PUNKT GESUCHT, INDEM DIE SUMME, GEBILDET AUS DEN NEGATIVEN FUNKTIONS• WERTEN DER VERLETZTEN RESTRIKTlONEN, MINIMIERT WIRDo

c

c c c c

BESCHREIBUNG

2.

ARGUMENTLISTE DER SUBROUTINE EVOL(N,M,LF,LR,LS,TM,EA,EB,EC,ED,SN,FB,XB,SM, X,F,G,T,Z,R) VOR BZWo BEI AUFRUF DES UNTERPROGRAMMS MUESSEN ALLEN ARGUMENTEN AUSSER LF,FB,X UNO Z WERTE BZWo NAMEN ZUGEWIESEN WERDEN. DIE GROESSEN XB UNO SM BEHALTEN NICHT DIE IHNEN ANFANGS GECEBENEN WERTE. N

M

LF

[INTEGER) ZAHL DER VARIABLEN (GROESSER 0) [INTEGER) ZAHL DER RESTRIKTIONEN CGROESSER ODER GLEICit 0) [INTEGER) FALLKENNZEICHEN MIT FOLGENDER BEDEU• TUNG: LP'=•2 STARTPUNKT UNZULAESSICo DIE SUCHE NACH EINEM ZULAESSIGEN ZUS1'AND WAR ERFOLCLOS 0 WAHRSCHEINLICH IST DER ZULAESSIGE BEREICH LEER. STARTPUNKT UNZULAESSlGo DIE SUCHE NACH EINEM ZULAESSIGEN ZUSTAND WURDE WEGEN ZEITUEBERSCHREITUNG ABGEBROCHENo LF=O STARTPUNKT UNZULAESSlGo DIE SUCHE NACH EINEM ZULAESSIGEN ZUSTAND WAR ERFOLGREICH. DIE GEFUNDENEN ENDWERTE XB KOEHNEN ALS STARTPUNKT DER MlMlMUMSUCHE VERWENDET WERDEN, INDEM EVOL ERNEUT AUFGERUFEN WIRDo DIE MlNIMUMSUCHE WURDE WEGEN ZEITUEBER• SCHREITUNG ABGEBROCHENo DIE MINIMUMSUCHE WURDE REGULAER BEENDET. LF=2 IM RAHMEN OER VORGEGEBENEN GENAUIGKEITS• PARAMETER KONNTE KEINE VERBESSERUNG DES ZlELFUNKTlONSWERTES MEHR ERZIELT WERDEN.

- 356 -

c c c

c c

c c c

c c c c c

LR

LS

c c

c c c c c c c c c c c

TM

c

EA

c c c c c c c

EB

c c c

c

c c

c

c c c c c c c c c c

c c c

c c c

EC ED

SN

FB XB

WAHRSCHEINLICH LIEGT DER GEFUNDENE ENDZU• STAND XB C•EXTREMORT) MIT FB C•EXTREMWERT) IN DER NAEHE EINES LOKALEN, EVENTUELL AUCH DES GLOBALEN, MINIMUMS. [INTEGER] HILFSGROESSE FUER UIE SCHRITTWEITEN• STEUERUNGo NORMALWERTa 1 DIE SCHRITTWEITEN WERDEN SO GESTEUERT, DASS IM MITTEL 1 ERFOLG CVERBESSERUNG DES ZIELFUNKTIONS• WERTES) AUF 5•LR VERSUCHE CZIELFUNKTIONS•AUFRUFE) KOMMTo GEMITTELT WIRD UEBER DIE JEWEILS LETZTEN 10•N*LR VERSUCHE. [INTEGER] HILFSGROESSE ZUR KONVERGENZPRUEFUNG 0 MINDE~TWERTa 2 DIE SUCHE IHRD BEENDET, WENN INNERHALB VON lO*N•LR*LS YERSUCHEN DER WERT OER ZIELFUNKTION UM WENIGER ALS EC (ABSOLUT) ODER ED CRELATIV) VERBESSERT WURDEo BEACHTE: DIE SCHRITTWEITEN WER• DEN INNERHALB DIESES VERGLEICHSZEITRAUMS MAXIMAL UM DEN FAKTOR SN•*C10*LS) REDUZIERT. WIRD SN•O.B5 GEWAEHLT, DANN IST DER FAKTOR Oo2**LSo [REAL) PARAMETER ZUR RECHENZEITKONTROLLE, Z.B. MAXIMAL£ CPU•ZEIT IN SEKUNDEN • !NTSPRECHEND DER MIT ARGUMENT T BENANNTEN FUNKTIONo DIE SUCH! WIRD ABGEBROCHEN, SOBALD T GROESSER TM FESTGESTELLT WIRDo DIESE KONTROLLE ERFOLGT NACH JEWEILS N*LR MUTATIONEN z ZIELFUNKTIONSAUFRUFEN. [REAL) UNTERE GRENZE FUER DIE SCHRITTWEITEN, ABSOLUTe EA MUSS MINDESTENS SO GROSS GEWAEHLT WERDEN, DASS IM RAHMEN DER RECHENGENAUIGKEIT EA GROESSER 0 GEWERTET WIRD. [REAL) UNTERE GRENZE FUER DIE SCHRITTWEITEN, RELATIV ZU DEN VARlABLENWERTEN. EB MUSS MINDE• STENS SO GROSS GEWAEHLT WERDEN, DASS IM RAHMEN DER RECHENGENAUIGKEIT 1 0 +EA GROESSER 1. GEWERTET WIRDo [REAL) PARAMETER FUER DAS KONVERGENZKRITERIUM, ABSOLUT. SIEHE UNTER LS. (EC GROESSER O, SIEHE EA) [REALJ PARAMETER FUER DAS KONVERGENZKRITERIUM, RELATIVe SIEHE UNTER LS. C1.+ED GROESSER 1., SIEHE EB) KONVERGENZ WIRD ANGENOMMEN, WENN EINES DOER BEIDE KRITERIEN ERFUELLT SIND. WILL MAN EIN KRI• TERIUM UNTERDRUECKEN, SO KANN MAN ENTWEDER EC•O SETZEN ODER ED SO, DASS 1o+ED=t., ABER ED GROESSER O. IM RAHMEN DER RECHENGENAUIGKEIT GILT. [REAL) HlLFSGROESSE FUER DIE SCHRITTWEITENADAP• TATION. NORMALWERT; 0.85. SOLL DIE SCHRITTWEITE WAEHREND DER SUCHE KONSTANT BLEIBEN, SO WAEHLE MAN SN•loOo ENTSPRECHEND DER DURCH LR FESTGELEGTEN ERFOLGSRATE WERDEN DIE SCKRITTWEITEN NACH JEWEILS N*LR VERSUCHEN ENTWE• DER MIT OEM FAKTOR SN ODER I.ISN MULTIPLIZIERT. lREALl BESTWERT DER ZIELFUNKTION, DER WAEHREND DER GESAMTEN SUCHE AUFTRAT. lEINOIMENSIONALES REAL ARRAY DER LAENGE Nl BEIM AUFRUF: STARTWERTE FUER DIE VARIABLEN

- 357 -

c c c c c c c c

SM

c c

c c c c c c c

c c c c

X

c

c c

F

c c c c c

G T

c c

Z

c c c c c c c c

c c c c c c c c c c c c

R 3.

c c c ••

c c c

BEIM AUSSTIEG: ZU FB GEHOERENDE BESTWERTE DER VARIABLEN [EINDIMENSIONALES REAL ARRAY DER LAENGE NJ BEIM AUFRUFI STARTWERTE DER SCHRITTWEITEN • EXAKTERI DER STANDARDABWEICHUNGEN DER KOMPONENTEN DES ZUFALLSVEKTORS BE!M AUSSTlEGI MOMENTANE SCHRITTWEITEN DER LETZ• TEN, NICHT UNBEDINGT ERFOLGREICHEN, MUTATION OPTIMAL£ EINSTELLU~G BEIM STARTI ETWA OERTLICHER KRU£MMUNGSRADIUS DER ZIELFUNKTIONS•HYPERFLAECHE, DIVIDIERT DURCH DIE ANZAHL DER VARIABLEN. PRAKTIKABLERER VORSCHLAG& SMU>•DX(l)/SQRT(N), WOBEI DX(I) EINE GROBE ABSCHAETZUNG FUER DIE ENT• FERNUNG ZUM ZIEL BZW. DAS MAX!MALE UNSICHER• HE!TSINTERVALL BEZUEGLICH DER VARIABLEN X(l) DAR• STELLTo WENN DIE SM(l) ZU GROSS VORGEGEBEN WER• DEN, DAUERT ES EINIGE ZEIT, BIS SIE ANGEPASST WORDEN SIND. DAS KOMMT JEDOCH DER WAHRSCHEIN• LICHKEIT ZUGUTE, EIN GLOBALES UNTER MEHREREN LOKALEN OPTIMA AUSFINDIG ZU MACHEN. [EINDIMENSIONALES REAL ARRAY DER LAENGE Nl HILFSFELD ZUR SPEICHERUNG EINES VARIABLENVEKTORS [REAL FUNCTION) NAME DER ZIELFUNKTION, DIE YOM BENUTZER SELBST ZU YORMULIEREN IST. [REAL FUNCTION} NAME DER FUNKTION ZUR BERECHNUNG DER RESTRIKTIONSFUNKTIONSWERTEJ YOM BENUTZER ZU PROGRAMMU:REN. [REAL FUNCTION] NAME DER FUNKTION FUER DIE RECHENZEITKONTROLLE. [REAL FUNCTION) NAME DER FUNKTION FUER DIE TRANSFORMATION VON GLEICHVERTEILTEN IN NORMAL• VERTEILTE PSEUDOZUFALLSZAHLEN. WIRD DER NAME Z BEIBEHALTEN, DANN KANN DIE DER SUBROUTINE EVOL ANGEFUEGTE ··uNCTION Z FUER OlESEN ZWECK VERWENDET WERDEN. [REAL FUNCTION) NAME DER FUNKTION ZUR GENERIE• RUNG GLEICHVERTEI~TER PSEUDOZUrALLSZAHLEN

METHODE SIEHE Io RECHENBERG: EVOLUTIONSSTRATEGIE • OPTIMIERUNG TECHNISCHER SYSTEME NACH PRINZIPIEN DER BIOLOGISCHEN EVOLUTION. BAND 15 DER REIHE PROBLEMATA, FROMMANN•HOLZBOOG, STUTTGART•BAD CANNSTADT, 1973. UIE METHODE BASIERT AUF EINER STARK VEREINFACHTEN NACH• AHMUNG DER BIOLOGISCHEN EVOLUTION MIT MUTATION (ZUFAEL• LIGE AENDERUNG DER VARIABLEN, AENDERUNGSVEKTOR NORMAL• VERTEILT) UND SELEKTION (AUSLESE DER VERSCHLECHTERUNGEN UNO SPEICHERN DER VERBESSERUNGEN). DIE STREUUNGEN DER NORMALVERTEILUNG tBZW. SCHRITTWEITEN) WERDEN GESTEUERT UEBER DAS VERHAELTNIS VON ANZAHL DER VERBESSERUNGEN ZU ANZAHL DER MUTATIONEN. KONVERGENZKRITERIUM BASIERT AUF DER AENDERUNG DER ZIELFUNKTIONSWERTE CSIEHE UNTER LS,EC UND ED)

- 358 -

c c s.

c c &. c

c c c c c c c c c c

c c c c c c

c c c c c c c c c c c c c c c c c c c c c c c c c c c c c c c c c c c c

7.

EIN/AUSGABE UEBER PERIPHERIE

J