Optimierung - Optimierung: Unterschied zwischen den Versionen
Zeile 25: | Zeile 25: | ||
\end{aligned}</math> Das bedeutet eine Funktion muss mindestens zweimal differenzierbar sein, damit diese Methode verwendet werden kann. In der Literatur findet man eine Unzahl an weiteren Methoden zur numerischen Bestimmung von Nullstellen.<br /> | \end{aligned}</math> Das bedeutet eine Funktion muss mindestens zweimal differenzierbar sein, damit diese Methode verwendet werden kann. In der Literatur findet man eine Unzahl an weiteren Methoden zur numerischen Bestimmung von Nullstellen.<br /> | ||
Aufgabe 5:<br /> | Aufgabe 5:<br /> | ||
Berechne für das Polynom <math display="inline"> | Berechne für das Polynom <math display="inline">p^{\prime}(x)</math> aus Beispiel 6 die ersten beiden Newtonschritte mit Startwert <math display="inline">x_1 = 0</math>. Schreib ein kleines Programm in der Programmiersprache deiner Wahl. Versuche auch andere Startwerte und beobachte wie sich das Verfahren verhält. | ||
Die Bestimmung von globalen Extrema ist typischerweise wesentlich komplizierter als die Suche nach lokalen Extrema. Auch müssen diese nicht zwangsläufig existieren; die Funktion <math display="inline">f(x) = sin(x)</math> besitzt unendlich lokale Minima und Maxima, die gleichzeitig globale Extremwerte sind, die Funktion <math display="inline">f(x) = x sin(x)</math> besitzt unendlich viele lokale Extremwerte, aber keinen globalen. Plotten Sie die beiden Funktionen, um sich diese Tatsache vor Augen zu führen! Für eine gewisse Klasse von Funktionen kann man jedoch von lokaler Optimalität auf globale Optimalität schließen. Speziell nennt man eine Funktion f konvex (konkav), falls die Funktionswerte zwischen zwei Werten x und y jeweils unterhalb der Verbindungsgeraden der beiden Funktionswerte an x und y – der sogenannten Sekante - liegen. D.h. für jede Zahl t zwischen 0 und 1 gilt <math display="block">\begin{aligned} | Die Bestimmung von globalen Extrema ist typischerweise wesentlich komplizierter als die Suche nach lokalen Extrema. Auch müssen diese nicht zwangsläufig existieren; die Funktion <math display="inline">f(x) = sin(x)</math> besitzt unendlich lokale Minima und Maxima, die gleichzeitig globale Extremwerte sind, die Funktion <math display="inline">f(x) = x sin(x)</math> besitzt unendlich viele lokale Extremwerte, aber keinen globalen. Plotten Sie die beiden Funktionen, um sich diese Tatsache vor Augen zu führen! Für eine gewisse Klasse von Funktionen kann man jedoch von lokaler Optimalität auf globale Optimalität schließen. Speziell nennt man eine Funktion f konvex (konkav), falls die Funktionswerte zwischen zwei Werten x und y jeweils unterhalb der Verbindungsgeraden der beiden Funktionswerte an x und y – der sogenannten Sekante - liegen. D.h. für jede Zahl t zwischen 0 und 1 gilt <math display="block">\begin{aligned} | ||
f | &f(t x+(1-t) y) \leq t f(x)+(1-t) f(y) \text { (konvex) } \\ | ||
\ | &f(t x+(1-t) y) \geq t f(x)+(1-t) f(y)(\text { konkav) } | ||
f | \end{aligned}</math> | ||
\ | |||
[[File:fig/bild8.jpg|thumb|none|alt=Konvexe Funktion |Konvexe Funktion ]] | [[File:fig/bild8.jpg|thumb|none|alt=Konvexe Funktion |Konvexe Funktion ]] | ||
Zeile 125: | Zeile 124: | ||
Gegeben sei die symmetrische Matrix <math display="block">\begin{aligned} | Gegeben sei die symmetrische Matrix <math display="block">\begin{aligned} | ||
A=\left(\begin{matrix}1&2\\2&-4\\\end{matrix}\right) | A=\left(\begin{matrix}1&2\\2&-4\\\end{matrix}\right) | ||
\end{aligned}</math> Die zu A gehörende quadratische Form <math display="inline">q</math> ordnet jedem zweidimensionalen Vektor den Wert zu. <math display="block">\begin{ | \end{aligned}</math> Die zu A gehörende quadratische Form <math display="inline">q</math> ordnet jedem zweidimensionalen Vektor den Wert zu. <math display="block"> | ||
\vec{x}=\left(\begin{ | \begin{array}{r} | ||
\vec{x}=\left(\begin{array}{l} | |||
\end{ | x_1 \\ | ||
x_2 | |||
\end{array}\right) \\ | |||
\vec{x}^T A \vec{x}=x_1^2+4 x_1 x_2-4 x_2^2 | |||
\end{array} | |||
</math> Eine quadratische Form heißt<br /> | |||
'''positiv definit''', falls <math display="inline">{\vec{x}}^TA\vec{x} > \vec{0} </math> für alle x 0<br /> | '''positiv definit''', falls <math display="inline">{\vec{x}}^TA\vec{x} > \vec{0} </math> für alle x 0<br /> | ||
'''positiv semidefinit''', falls <math display="inline">{\vec{x}}^TA\vec{x} \geq \vec{0} </math> für alle x 0<br /> | '''positiv semidefinit''', falls <math display="inline">{\vec{x}}^TA\vec{x} \geq \vec{0} </math> für alle x 0<br /> | ||
Zeile 145: | Zeile 149: | ||
Die dazugehörigen Matrizen werden dann ebenfalls als positiv (semi-) definit usw. bezeichnet. In der Praxis kann die Definitheit von Matrizen oft mit dem Hauptminorenkriterium bestimmt werden. Als i-ten führenden Hauptminor einer Matrix bezeichnet man die Determinante der Matrix, die man gewinnt, wenn man nur die ersten i Zeilen und Spalten betrachtet; für eine Matrix <math display="block">\begin{aligned} | Die dazugehörigen Matrizen werden dann ebenfalls als positiv (semi-) definit usw. bezeichnet. In der Praxis kann die Definitheit von Matrizen oft mit dem Hauptminorenkriterium bestimmt werden. Als i-ten führenden Hauptminor einer Matrix bezeichnet man die Determinante der Matrix, die man gewinnt, wenn man nur die ersten i Zeilen und Spalten betrachtet; für eine Matrix <math display="block">\begin{aligned} | ||
A=\left(\begin{matrix}a_{1,1}&\cdots&a_{1,n}\\\vdots&\ddots&\vdots\\a_{n,1}&\cdots&a_{n,n}\\\end{matrix}\right) | A=\left(\begin{matrix}a_{1,1}&\cdots&a_{1,n}\\\vdots&\ddots&\vdots\\a_{n,1}&\cdots&a_{n,n}\\\end{matrix}\right) | ||
\end{aligned}</math> lauten sie also (die senkrechten Striche sind eine alternative Schreibweise für die Berechnung der Determinante der Matrix zwischen den Strichen): <math display="block"> | \end{aligned}</math> lauten sie also (die senkrechten Striche sind eine alternative Schreibweise für die Berechnung der Determinante der Matrix zwischen den Strichen): | ||
<math display="block"> | |||
\ | \tilde{\Delta}_1(A)=a_{1,1}, \quad \tilde{\Delta}_2(A)=\left(\begin{array}{cc} | ||
a_{1,1} & a_{1,2} \\ | |||
a_{2,1} a_{2,2} | |||
\end{array}\right), \ldots, \tilde{\Delta}_n=\operatorname{det} A | |||
</math> | |||
Es gilt nun: sind alle führenden Hauptminoren positiv, so ist die Matrix positiv definit; sind die Vorzeichen der führenden Hauptminoren abwechselnd positiv und negativ – beginnend mit negativ – so ist die Matrix negativ definit. Weiters ist die Determinante der Matrix das Produkt der Eigenwerte - ist also die Determinante 0, so ist die Matrix indefinit, ist sie ungleich 0, sind alle Eigenwerte ungleich 0. Viele Fälle können mit diesen Kriterien durch Ausschluss bestimmt werden; nur wenn einer oder mehrere führende Hauptminoren 0 sind, ist keine eindeutige Aussage möglich. Wir können nun allgemeine Kriterien dafür aufstellen, wann eine zweimal differenzierbare mehrdimensionale nichtlineare Funktion ein lokales Extremum aufweist. Eine notwendige Bedingung ist wie bereits erwähnt <math display="inline">\mathrm{\nabla f}=0</math>.Für Funktionen in einer Variablen bedeutet das: die Ableitung verschwindet. Ist die zweite Ableitung positiv, so findet sich dort ein Minimum. Diese Bedingung für Minima lässt sich auf Funktionen in mehreren Variablen erweitern: Wenn der Gradient in einem Punkt verschwindet und die zweite Ableitung in jeder Richtung negativ ist, so handelt es sich um ein lokales Minimum. Dafür genügt es, dass die zweite Ableitung in Richtung der Eigenvektoren der Hessematrix negativ ist, d.h., dass alle Eigenwerte der Hessematrix negativ sind und diese daher negativ definit ist; analoges gilt für die Maxima. | Es gilt nun: sind alle führenden Hauptminoren positiv, so ist die Matrix positiv definit; sind die Vorzeichen der führenden Hauptminoren abwechselnd positiv und negativ – beginnend mit negativ – so ist die Matrix negativ definit. Weiters ist die Determinante der Matrix das Produkt der Eigenwerte - ist also die Determinante 0, so ist die Matrix indefinit, ist sie ungleich 0, sind alle Eigenwerte ungleich 0. Viele Fälle können mit diesen Kriterien durch Ausschluss bestimmt werden; nur wenn einer oder mehrere führende Hauptminoren 0 sind, ist keine eindeutige Aussage möglich. Wir können nun allgemeine Kriterien dafür aufstellen, wann eine zweimal differenzierbare mehrdimensionale nichtlineare Funktion ein lokales Extremum aufweist. Eine notwendige Bedingung ist wie bereits erwähnt <math display="inline">\mathrm{\nabla f}=0</math>.Für Funktionen in einer Variablen bedeutet das: die Ableitung verschwindet. Ist die zweite Ableitung positiv, so findet sich dort ein Minimum. Diese Bedingung für Minima lässt sich auf Funktionen in mehreren Variablen erweitern: Wenn der Gradient in einem Punkt verschwindet und die zweite Ableitung in jeder Richtung negativ ist, so handelt es sich um ein lokales Minimum. Dafür genügt es, dass die zweite Ableitung in Richtung der Eigenvektoren der Hessematrix negativ ist, d.h., dass alle Eigenwerte der Hessematrix negativ sind und diese daher negativ definit ist; analoges gilt für die Maxima. | ||
Zeile 179: | Zeile 187: | ||
Aufgabe 7:<br /> | Aufgabe 7:<br /> | ||
Untersuche die folgenden beiden Funktionen auf lokale Extrema: | Untersuche die folgenden beiden Funktionen auf lokale Extrema: | ||
f_1 | \begin{array}{r} | ||
f_2 | f_1(x, y, z)=4 x-2 x^2+6 y-y^2-z^2+3 \\ | ||
\end{ | f_2(x, y, z)=3 x^2-4 x y+3 y^2+10 z-z^2 | ||
\end{array} | |||
</math> | |||
<span id="algorithmen-zur-optimierung"></span> | <span id="algorithmen-zur-optimierung"></span> | ||
Zeile 234: | Zeile 244: | ||
Das '''Lagrange-Theorem''' besagt nun folgendes: falls <math display="inline">\left(x_0,y_0\right)</math> ein lokales Minimum von <math display="inline">f\left(x,y\right)</math> unter der Nebenbedingung <math display="inline">g\left(x,y\right)=c</math> ist, und falls <math display="inline">\mathrm{\nabla g}(x_0,y_0)\neq(0,0)^T </math>so gibt es eine eindeutige Zahl <math display="inline">\lambda</math>, für welche die Lagrange-Funktion einen stationären Punkt in <math display="inline">\left(x_0,y_0\right)</math> hat, d.h. <math display="inline">\mathrm{\nabla L}(x_0,y_0)=(0,0)^T</math> unter Beibehaltung der Nebenbedingung <math display="inline">g\left(x,y\right)=c</math>. Um Kandidaten zur Lösung der ursprünglichen Aufgabe zu erhalten, muss also das folgende System von Gleichungen gelöst werden: | Das '''Lagrange-Theorem''' besagt nun folgendes: falls <math display="inline">\left(x_0,y_0\right)</math> ein lokales Minimum von <math display="inline">f\left(x,y\right)</math> unter der Nebenbedingung <math display="inline">g\left(x,y\right)=c</math> ist, und falls <math display="inline">\mathrm{\nabla g}(x_0,y_0)\neq(0,0)^T </math>so gibt es eine eindeutige Zahl <math display="inline">\lambda</math>, für welche die Lagrange-Funktion einen stationären Punkt in <math display="inline">\left(x_0,y_0\right)</math> hat, d.h. <math display="inline">\mathrm{\nabla L}(x_0,y_0)=(0,0)^T</math> unter Beibehaltung der Nebenbedingung <math display="inline">g\left(x,y\right)=c</math>. Um Kandidaten zur Lösung der ursprünglichen Aufgabe zu erhalten, muss also das folgende System von Gleichungen gelöst werden: | ||
<math display="block">\begin{aligned} | <math display="block"> | ||
\frac{\partial}{\partial x}L | \begin{aligned} | ||
\frac{\partial}{\partial y}L | &\frac{\partial}{\partial x} L(x, y, \lambda)=\frac{\partial}{\partial x} f(x, y)+\lambda \frac{\partial}{\partial x} g(x, y)=0\\ | ||
\frac{\partial}{\partial\lambda}L | &\frac{\partial}{\partial y} L(x, y, \lambda)=\frac{\partial}{\partial y} f(x, y)+\lambda \frac{\partial}{\partial y} g(x, y)=0\\ | ||
\end{aligned}</math> | &\frac{\partial}{\partial \lambda} L(x, y, \lambda)=g(x, y)-c=0 | ||
\end{aligned} | |||
</math> | |||
d.h., der Gradient der Zielfunktion ist ein lineares Vielfaches des Gradienten der Funktion, die die Nebenbedingung angibt. Nun zeigt uns der Gradient die Richtung des stärksten Anstiegs an und steht normal auf die Höhenschichtlinie. Stellen wir uns den Graphen der Zielfunktion als hügelige Landschaft vor, so wird durch die Nebenbedingung ein Weg durch diese Landschaft gelegt, und gesucht werden die höchsten bzw. tiefsten Punkte auf diesem Weg. An diesen fällt das Gelände senkrecht zum Weg am steilsten ab (s. Abbildung [[#bild11 |1.3]]).<br /> | |||
Beispiel 11:<br /> | Beispiel 11:<br /> | ||
Ein Verbraucher habe die Nutzenfunktion <math display="block">\begin{aligned} | Ein Verbraucher habe die Nutzenfunktion <math display="block">\begin{aligned} | ||
Zeile 263: | Zeile 274: | ||
Abbildung [[#bild12 |1.4]] zeigt einerseits ausgewählte Niveaulinien der Zielfunktion <math display="inline">f\left(x,y\right)=\mathrm{xy}</math>, anderseits die Gerade <math display="inline">y=5-\frac{x}{2}</math> welche gerade die Budget-beschränkung beschreibt. Sinnvoller weise sind beide Investitionen x und y positiv. Entsprechende Ungleichungs-Nebenbedingungen werden im nächsten Abschnitt besprochen. Am Punkt <math display="inline">(x_0 = 5, y_0 = 2.5)</math> berührt die Gerade die Niveaulinie zum Wert <math display="inline">xy = 12.5</math>. Es ist klar ersichtlich, dass an allen anderen Punkten die Gerade jene Niveaulinien schneidet, die einem geringeren Wert der Zielfunktion entsprechen. Daher handelt es sich bei dem Punkt <math display="inline">(x_0, y_0)</math> um ein lokales Maximum der Zielfunktion unter der gegebenen Budgetbeschränkung. Dass an dieser Stelle die Nebenbedingungsgerade tangential an die Niveaulinie liegt ist typisch, und der geometrische Grund dafür, dass die Lagrange-Methode funktioniert. Abbildung [[#bild12a |1.5]] ist eine dreidimensionale Veranschaulichung des Sachverhaltes; die stark ausgezogene Kurve ist der Graph der Funktion unter der Nebenbedingung (der „Weg durch das hügelige Gelände“, um beim Bild zu bleiben). An seinem höchsten Punkt ist er tangential zum Graphen der Höhenschichtlinien, d.h., das Gelände fällt dort senkrecht zum Weg am steilsten ab.<br /> | Abbildung [[#bild12 |1.4]] zeigt einerseits ausgewählte Niveaulinien der Zielfunktion <math display="inline">f\left(x,y\right)=\mathrm{xy}</math>, anderseits die Gerade <math display="inline">y=5-\frac{x}{2}</math> welche gerade die Budget-beschränkung beschreibt. Sinnvoller weise sind beide Investitionen x und y positiv. Entsprechende Ungleichungs-Nebenbedingungen werden im nächsten Abschnitt besprochen. Am Punkt <math display="inline">(x_0 = 5, y_0 = 2.5)</math> berührt die Gerade die Niveaulinie zum Wert <math display="inline">xy = 12.5</math>. Es ist klar ersichtlich, dass an allen anderen Punkten die Gerade jene Niveaulinien schneidet, die einem geringeren Wert der Zielfunktion entsprechen. Daher handelt es sich bei dem Punkt <math display="inline">(x_0, y_0)</math> um ein lokales Maximum der Zielfunktion unter der gegebenen Budgetbeschränkung. Dass an dieser Stelle die Nebenbedingungsgerade tangential an die Niveaulinie liegt ist typisch, und der geometrische Grund dafür, dass die Lagrange-Methode funktioniert. Abbildung [[#bild12a |1.5]] ist eine dreidimensionale Veranschaulichung des Sachverhaltes; die stark ausgezogene Kurve ist der Graph der Funktion unter der Nebenbedingung (der „Weg durch das hügelige Gelände“, um beim Bild zu bleiben). An seinem höchsten Punkt ist er tangential zum Graphen der Höhenschichtlinien, d.h., das Gelände fällt dort senkrecht zum Weg am steilsten ab.<br /> | ||
Für eine allgemeine Klassifizierung von Punkten, die mithilfe der Lagrage Funktion gefunden wurden, steht die Methode der berandeten Hessematrizen zur Verfügung; im zweidimensionalen Fall: Sei <math display="block"> | Für eine allgemeine Klassifizierung von Punkten, die mithilfe der Lagrage Funktion gefunden wurden, steht die Methode der berandeten Hessematrizen zur Verfügung; im zweidimensionalen Fall: Sei | ||
L | <math display="block"> | ||
L(x, y, \lambda)=f(x, y)+\lambda g(x, y-c) | |||
</math> | |||
\begin{ | die Lagrangefunktion eines Optimierungsproblems; dann bilden wir die Hessematrix nach allen drei Variablen – allerdings beginnend mit <math display="inline">\lambda</math>: | ||
\frac{\partial^ | <math display="block"> | ||
\frac{\partial^ | \bar{H}=\left(\begin{array}{c} | ||
\end{ | \frac{\partial^2 L}{\partial \lambda^2} \frac{\partial^2 L}{\partial \lambda \partial x} \frac{\partial^2 L}{\partial \lambda \partial y} \\ | ||
\frac{\partial^2 L}{\partial \lambda \partial x} \frac{\partial^2 L}{\partial x^2} \frac{\partial^2 L}{\partial x \partial y} \\ | |||
\frac{\partial^2 L}{\partial \lambda \partial y} \frac{\partial^2 L}{\partial x \partial y} \frac{\partial^2 L}{\partial y^2} | |||
\end{array}\right) | |||
</math> | |||
(der linke obere Eintrag – die zweite Ableitung nach <math display="inline">\lambda</math> – ist immer 0.)<br /> | |||
Ist die Determinante dieser Matrix positiv, so haben wir ein lokales Maximum, ist sie negativ, ein Minimum, ist die Determinante Null, so ist die Frage nicht entscheidbar.<br /> | Ist die Determinante dieser Matrix positiv, so haben wir ein lokales Maximum, ist sie negativ, ein Minimum, ist die Determinante Null, so ist die Frage nicht entscheidbar.<br /> | ||
Einen Sonderfall stellen Nebenbedingungen dar, die eine beschränkte Menge beschreiben – z.B. einen geschlossenen Kreis, eine Ellipse oder ein Streckenstück; auf einer solchen Menge können wir einfach alle kritischen Punkte der Reihe nach betrachten – der mit dem größten Funktionswert ist das Maximum, der mit dem kleinsten das Minimum. | Einen Sonderfall stellen Nebenbedingungen dar, die eine beschränkte Menge beschreiben – z.B. einen geschlossenen Kreis, eine Ellipse oder ein Streckenstück; auf einer solchen Menge können wir einfach alle kritischen Punkte der Reihe nach betrachten – der mit dem größten Funktionswert ist das Maximum, der mit dem kleinsten das Minimum. | ||
Zeile 296: | Zeile 311: | ||
\lambda\left(g\left(x,y\right)-c\right)=0 | \lambda\left(g\left(x,y\right)-c\right)=0 | ||
\end{aligned}</math> Die complementary slackness Bedingung beinhaltet in sehr eleganter Form dass ein lokaler Extremwert direkt am Rande des zulässigen Bereiches andere Bedingungen erfüllen muss als im Inneren: für <math display="inline">\lambda=0</math> erhält man die lokalen Maxima im Inneren, diese sind die gleichen, die wir auch ohne Nebenbedingung gefunden hätte. Am Rand hingegen müssen die Gradienten von <math display="inline">f\left(x,y\right)</math> und <math display="inline">g\left(x,y\right)</math> (anti-) parallel sein, d.h., wenn wir der Richtung des steilsten Angstiegs der Zielfunktion folgen würden, würden wir den von der Nebenbedingung erlaubten Bereich verlassen. Zusammenfassend liefert dies die sogenannten Karush Kuhn Tucker (KKT) Bedingungen als notwendige Bedingungen für lokale Extrema unter Ungleichheits-Nebenbedingungen:<br /> | \end{aligned}</math> Die complementary slackness Bedingung beinhaltet in sehr eleganter Form dass ein lokaler Extremwert direkt am Rande des zulässigen Bereiches andere Bedingungen erfüllen muss als im Inneren: für <math display="inline">\lambda=0</math> erhält man die lokalen Maxima im Inneren, diese sind die gleichen, die wir auch ohne Nebenbedingung gefunden hätte. Am Rand hingegen müssen die Gradienten von <math display="inline">f\left(x,y\right)</math> und <math display="inline">g\left(x,y\right)</math> (anti-) parallel sein, d.h., wenn wir der Richtung des steilsten Angstiegs der Zielfunktion folgen würden, würden wir den von der Nebenbedingung erlaubten Bereich verlassen. Zusammenfassend liefert dies die sogenannten Karush Kuhn Tucker (KKT) Bedingungen als notwendige Bedingungen für lokale Extrema unter Ungleichheits-Nebenbedingungen:<br /> | ||
<math display="block">\begin{aligned} | <math display="block"> | ||
\frac{\partial}{\partial x}L | \begin{aligned} | ||
\frac{\partial}{\partial y}L | \frac{\partial}{\partial x} L(x, y, \lambda)=\frac{\partial}{\partial x} f(x, y)+\lambda \frac{\partial}{\partial x} g(x, y) &=0 \\ | ||
\frac{\partial}{\partial y} L(x, y, \lambda)=\frac{\partial}{\partial y} f(x, y)+\lambda \frac{\partial}{\partial y} g(x, y) &=0 \\ | |||
\lambda | g(x, y) \leq c \lambda & \leq 0 \\ | ||
\end{aligned}</math> | \lambda(g(x, y)-c) &=0 | ||
\end{aligned} | |||
</math> | |||
Beispiel 12:<br /> | Beispiel 12:<br /> | ||
Zeile 312: | Zeile 329: | ||
\end{aligned}</math> Die Gesamtarbeitsleitung ist beschränkt: <math display="block">\begin{aligned} | \end{aligned}</math> Die Gesamtarbeitsleitung ist beschränkt: <math display="block">\begin{aligned} | ||
g\left(x,y\right)={\mathrm{Ax}}^2+{\mathrm{By}}^2\le L | g\left(x,y\right)={\mathrm{Ax}}^2+{\mathrm{By}}^2\le L | ||
\end{aligned}</math> Die KKT Bedingungen lauten also: <math display="block">\begin{aligned} | \end{aligned}</math> Die KKT Bedingungen lauten also: | ||
\frac{\partial}{\partial x}L | <math display="block"> | ||
\frac{\partial}{\partial y}L | \begin{aligned} | ||
\end{aligned}</math> wobei <math display="block">\begin{aligned} | \frac{\partial}{\partial x} L(x, y) &=a+2 \lambda \mathrm{Ax}=0 \\ | ||
\frac{\partial}{\partial y} L(x, y)=b+2 \lambda \mathrm{By}=0 &=\\ | |||
\lambda\left(\mathrm{Ax}^2+\mathrm{By}^2-L\right) &=0 | |||
\end{aligned} | |||
</math> | |||
wobei <math display="block">\begin{aligned} | |||
\lambda\le0 {\mathrm{Ax}}^2+{\mathrm{By}}^2\le L | \lambda\le0 {\mathrm{Ax}}^2+{\mathrm{By}}^2\le L | ||
\end{aligned}</math> Falls <math display="inline">\lambda=0</math> folgt aus den ersten beiden Gleichungen unmittelbar <math display="inline">a=b=0</math>, im Widerspruch zur Angabe. Für <math display="inline">\lambda<0</math> folgt <math display="inline">x>0,y>0</math>, und daher <math display="block">\begin{aligned} | \end{aligned}</math> Falls <math display="inline">\lambda=0</math> folgt aus den ersten beiden Gleichungen unmittelbar <math display="inline">a=b=0</math>, im Widerspruch zur Angabe. Für <math display="inline">\lambda<0</math> folgt <math display="inline">x>0,y>0</math>, und daher <math display="block">\begin{aligned} | ||
Zeile 364: | Zeile 386: | ||
f\left(x,y\right)=x^2+y^2\\\ | f\left(x,y\right)=x^2+y^2\\\ | ||
NB:g\left(x,y\right)=2\mathrm{xy}=1 | NB:g\left(x,y\right)=2\mathrm{xy}=1 | ||
\end{aligned}</math> <math display="block">\begin{ | \end{aligned}</math> | ||
f | <math display="block"> | ||
\begin{array}{r} | |||
\end{ | f(x, y)=e^{x y} \\ | ||
N B: g(x, y)=x+y=1 | |||
\end{array} | |||
</math> (Gib jeweils Skizzen mit den Niveaulinien an um zu klären, ob es sich um ein Maximum oder ein Minimum handelt). | |||
Aufgabe 5<br /> | Aufgabe 5<br /> |
Version vom 23. September 2022, 15:36 Uhr
Optimierung
Ziel dieser Lektion ist es die nichtlineare Optimierung auf Funktionen mit mehreren Variablen zu erweitern. Dazu wird die Theorie der Eigenwerte aus der linearen Algebra benötigt. Neben der theoretischen Abhandlung sollen hier auch algorithmische Ansätze besprochen werden. Ein wesentlicher Punkt ist die Suche nach Extremwerten unter der Einhaltung von gewissen Nebenbedingungen. Als notwendige Kriterien werden die Lagrange–Methode sowie die Karush–Kuhn–Tucker Bedingungen besprochen.
Lokale Extrema von reellen Funktionen
Wir erinnern uns, dass für Funktionen mit einer Veränderlichen eine notwendige Bedingung für lokale Extrema darin besteht, dass die erste Ableitung verschwindet, i.e. durch Lösen der Gleichung erhält man mögliche Kandidaten für ein Maximum bzw. ein Minimum einer Funktion.
Beispiel 6: Betrachte das Polynom aus Beispiel 4:
Ableitung liefert
Die Suche nach Nullstellen von liefert potenzielle Kandidaten für lokale Maxima und Minima. Für ein Polynom dritten Grades gibt es geschlossene Formeln, um die Nullstellen zu bestimmen, man erhält näherungsweise
Der Vergleich mit Abbildung [bild4 ] lässt erkennen, dass an der Stelle das absolute Maximum der Funktion liegt, während es sich bei um ein lokales Minimum und bei um ein lokales Maximum handelt.
Bereits für eine solch einfache Funktion wie ein Polynom dritten Grades ist die Bestimmung der Nullstellen nicht ganz trivial. Für die meisten Funktionen ist eine explizite Lösung überhaupt nicht möglich, und man ist auf numerische Methoden angewiesen. Die wichtigste wird im folgenden Abschnitt vorgestellt:
Das Newton Verfahren
Wir wollen die Nullstelle einer Funktion finden. (In Zusammenhang mit den Optimierungsaufgaben dieses Kapitels ist die Ableitung der Funktion, deren Extremwerte gesucht werden; das Verfahren kann aber selbstverständlich für beliebige einmal differenzierbare Funktionen angewandt werden.) Das Newton-Verfahren ist ein Iterationsverfahren. Wir beginnen mit einer Stelle , die hoffentlich bereits in der Nähe der Nullstelle liegt. Grundidee ist nun die Funktion durch ihre Tangente an der Stelle zu ersetzen, und anschließend die Nullstelle der Tangente zu suchen. Die Lösung liefert den nächsten Punkt der Iteration:
Aufgabe 5:
Berechne für das Polynom aus Beispiel 6 die ersten beiden Newtonschritte mit Startwert . Schreib ein kleines Programm in der Programmiersprache deiner Wahl. Versuche auch andere Startwerte und beobachte wie sich das Verfahren verhält.
Die Bestimmung von globalen Extrema ist typischerweise wesentlich komplizierter als die Suche nach lokalen Extrema. Auch müssen diese nicht zwangsläufig existieren; die Funktion besitzt unendlich lokale Minima und Maxima, die gleichzeitig globale Extremwerte sind, die Funktion besitzt unendlich viele lokale Extremwerte, aber keinen globalen. Plotten Sie die beiden Funktionen, um sich diese Tatsache vor Augen zu führen! Für eine gewisse Klasse von Funktionen kann man jedoch von lokaler Optimalität auf globale Optimalität schließen. Speziell nennt man eine Funktion f konvex (konkav), falls die Funktionswerte zwischen zwei Werten x und y jeweils unterhalb der Verbindungsgeraden der beiden Funktionswerte an x und y – der sogenannten Sekante - liegen. D.h. für jede Zahl t zwischen 0 und 1 gilt
Abbildung 1.1 zeigt eine konvexe Funktion und deren Sekante für zwei ausgewählte Werte und . Die Sekante liegt oberhalb des Graphen der Funktion. Falls die zweite Ableitung existiert so gilt für eine konvexe Funktion
Für eine konvexe (konkave) Funktion gibt es höchstens ein lokales Extremum, und dies ist dann das globale Minimum (Maximum).
Funktionen mehrerer Veränderlicher
Um Extremwerte von Funktionen in mehreren freien Variablen zu finden ist es erforderlich, die Kriterien für Extremwerten für höherdimensionale Definitionsbereiche zu verallgemeinern. Hier werden Gradient und Hessematrix die gleichen Rollen spielen wie 1. und 2. Ableitung im Eindimensionalen. Während die Bedingung an den Gradienten – er muss gleich dem Nullvektor sein, d.h., die Richtungsableitung muss in jeder Richtung verschwinden, sich ganz unmittelbar übertragen lässt, brauchen wir für die 2. Ableitungen etwas lineare Algebra – schließlich wollen wir der Matrix ansehen, ob die 2. Richtungsableitungen in jeder Richtung positiv oder negativ sind, oder ob das Krümmungsverhalten in den verschiedenen Richtungen unterschiedlich ist.
Determinante einer Matrix
Eine nxn-Matrix A entspricht einer linearen Abbildung:
Eigenwerte und Eigenvektoren einer Matrix
Für eine Matrix A nennt man einen Vektor einen Eigenvektor zum Eigenwert , falls die sogenannte Eigenwertgleichung
Beispiel 7:
Gegeben sei die Matrix
ein Eigenvektor zum Eigenwert -3,
Eigenvektor zum Eigenwert 2.
Wie kann man Eigenwerte und Eigenvektoren berechnen? Die Eigenwertgleichung bei bekanntem ist ein lineares Gleichungssystem mit Gleichungen in Variablen. Allerdings sind auch die Eigenwerte zunächst unbekannt, und müssen erst bestimmt werden: wenn ein Vektor Lösung Lösung der Eigenwertgleichung ist, so können wir diese Gleichung umformen zu , (Hier ist I die Einheitsmatrix und der Nullvektor.) Daher ist die Matrix singulär und hat die Determinante 0 – schließlich wird ja nicht nur auf den Nullvektor abgebildet, sondern auch jedes Vielfache, also die ganze Gerade, die durch diesen Vektor läuft. Es gilt:
Fortsetzung Beispiel 7:
Die charakteristische Gleichung lautet
Lösen der quadratischen Gleichung
Die zugehörigen Eigenvektoren erhält man durch Lösen der jeweiligen Eigenwertgleichungen. Beachte, dass die Eigenvektoren nur bis auf einen multiplikativen Faktor festgelegt sind.
Aufgabe 6:
Berechne alle Eigenwerte und Eigenvektoren für folgende Matrizen:
Die linke Graphik zeigt den (ziemlich faden …) Funktionsgraphen – ein Paraboloid; die mittlere Graphik zeigt das Gradientenfeld – in jedem Punkt zeigt der Vektorpfeil in die Richtung des steilsten Anstiegs; die rechte Graphik zeigt nun die möglichen Wege einer Kugel, die wir am Scheitelpunkt absetzen: genau am Scheitelpunkt ist der Gradient null, d.h., die Richtungsableitung in jeder Richtung ist 0 und die Kugel bleibt einfach liegen. Geben wir ihr aber einen winzig kleinen Schubs, so ist der Gradient ungleich 0 und sie rollt sie nun in jedem Punkt dem Gradienten entgegen – schließlich will sie so schnell wie möglich nach unten und der Gradient zeigt den schnellsten Weg nach oben; die meisten möglichen Bahnen sind daher gekrümmt, d.h., der Gradient ändert ständig seine Richtung; es gibt allerdings zwei Richtungen, in denen die Bahnen Geraden sind – und das sind nun genau die Richtungen der Eigenvektoren der Hessematrix: in jedem Punkt auf dieser Geraden ändert sich der Gradient genau in der Richtung der Verbindung des Punktes mit dem Koordinaten-Ursprung; in unserem Fall zeigen die Pfeile auf diesen Trajektorien-Geraden jeweils vom Ursprung weg – damit ist klar: der Punkt ist ein Maximum – d.h., die Kugel wird in jeder Richtung vom Scheitel wegrollen. Das wiederum bedeutet für die Funktion, die die Höhe des Paraboloids für jeden Punkt der – Ebene angibt, dass ihre 2. Richtungsableitung im Scheitelpunkt in jeder Richtung negativ sein muss.
Daraus ergibt sich folgendes Kriterium für Extremalstellen: der Gradient muss dort verschwinden; sind alle Eigenwerte der Hessematrix negativ, so ist der Punkt ein Maximum, sind sie positiv, ein Minimum, gibt es sowohl positive als auch negative, so haben wir einen Sattelpunkt. Die Vorzeichen der Eigenwerte bestimmt man mit den Definitheitskriterien:
Definitheit
Wir werden in diesem Abschnitt immer davon ausgehen, dass A eine symmetrische Matrix ist. Für die Anwendung, die wir letztendlich betrachten wollen, nämlich für die Hessematrix, ist dies natürlich der Fall, da ja gilt:
Beispiel 8:
Gegeben sei die symmetrische Matrix
positiv definit, falls für alle x 0
positiv semidefinit, falls für alle x 0
negativ definit, falls für alle x 0
negativ semidefinit, falls für alle x 0
indefinit, falls für einige x und für einige y.
Diese Definitheitseigenschaften stehen in unmittelbarem Zusammenhang mit den Eigenwerten der Matrix A. Man kann zeigen, eine quadratische Form ist
positiv definit, falls alle Eigenwerte > 0
positiv semidefinit, falls alle Eigenwerte 0
negativ definit, falls alle Eigenwerte < 0
negativ semidefinit, falls alle Eigenwerte 0
indefinit, falls einige Eigenwerte 0 und einige Eigenwerte 0 sind.
Die dazugehörigen Matrizen werden dann ebenfalls als positiv (semi-) definit usw. bezeichnet. In der Praxis kann die Definitheit von Matrizen oft mit dem Hauptminorenkriterium bestimmt werden. Als i-ten führenden Hauptminor einer Matrix bezeichnet man die Determinante der Matrix, die man gewinnt, wenn man nur die ersten i Zeilen und Spalten betrachtet; für eine Matrix
Es gilt nun: sind alle führenden Hauptminoren positiv, so ist die Matrix positiv definit; sind die Vorzeichen der führenden Hauptminoren abwechselnd positiv und negativ – beginnend mit negativ – so ist die Matrix negativ definit. Weiters ist die Determinante der Matrix das Produkt der Eigenwerte - ist also die Determinante 0, so ist die Matrix indefinit, ist sie ungleich 0, sind alle Eigenwerte ungleich 0. Viele Fälle können mit diesen Kriterien durch Ausschluss bestimmt werden; nur wenn einer oder mehrere führende Hauptminoren 0 sind, ist keine eindeutige Aussage möglich. Wir können nun allgemeine Kriterien dafür aufstellen, wann eine zweimal differenzierbare mehrdimensionale nichtlineare Funktion ein lokales Extremum aufweist. Eine notwendige Bedingung ist wie bereits erwähnt .Für Funktionen in einer Variablen bedeutet das: die Ableitung verschwindet. Ist die zweite Ableitung positiv, so findet sich dort ein Minimum. Diese Bedingung für Minima lässt sich auf Funktionen in mehreren Variablen erweitern: Wenn der Gradient in einem Punkt verschwindet und die zweite Ableitung in jeder Richtung negativ ist, so handelt es sich um ein lokales Minimum. Dafür genügt es, dass die zweite Ableitung in Richtung der Eigenvektoren der Hessematrix negativ ist, d.h., dass alle Eigenwerte der Hessematrix negativ sind und diese daher negativ definit ist; analoges gilt für die Maxima.
Achtung! Ein naheliegender Irrtum: man könnte glauben, dass es reicht, wenn wir uns das Krümmungsverhalten in x und y Richtung anschaun – also die zweiten partiellen Ableitungen; das ist aber nicht der Fall: die Abbildung zeigt eine Funktion, die entlang x und der y-Achse konkav ist; trotzdem ist der Nullpunkt – in dem der Gradient verschwindet – ein Sattelpunkt – es gibt nämlich auch Richtungen, in denen die Funktion konvex ist - die Diagonalen.
Basierend auf den Definitheitseigenschaften der Hessematrix Hf gelten folgende hinreichenden Bedingungen für Extremwerte: Sei
Falls Hf an der Stelle positiv definit, so hat f dort ein lokales Minimum.
Falls Hf an der Stelle negativ definit, so hat f dort ein lokales Maximum.
Falls Hf an der Stelle indefinit, so handelt es sich an der Stelle weder um ein lokales Maximum noch um ein Minimum, sondern um einen sogenannten Sattelpunkt.
Im Falle von positiv semidefinit oder negativ semidefinit kann keine Aussage getroffen werden (vgl. die Situation im eindimensionalen, wenn die zweite Ableitung verschwindet).
Die folgende Eierkarton-Funktion hat Bereiche, in denen sie in jeder Richtung kokav ist – dort finden sich die Maxima, also die Gipfel - andere, in denen sie in jeder Richtung konvex ist – dort sind die Minima, also die Gruben, und weitere Beriche, in denen sie in einer Richtung konvex ist, in einer anderen konkav – dort finden sich die Sattelpunkte. Stellen sie sich einen Bewohner einer dieser Gruben vor, der eine Freundin in der benachbarten Grube besuchen möchte; dabei muss er über einen Pass wandern – und dieser Pass ist dann der Sattelpunkt.
Beispiel 9:
Der linke Graph in Abbildung 1.3 zeigt einen Oberflächenplot der Funktion :
Aufgabe 7:
Untersuche die folgenden beiden Funktionen auf lokale Extrema:
\begin{array}{r}
f_1(x, y, z)=4 x-2 x^2+6 y-y^2-z^2+3 \\
f_2(x, y, z)=3 x^2-4 x y+3 y^2+10 z-z^2
\end{array}
</math>
Algorithmen zur Optimierung
Bisher haben wir nur notwendige und hinreichende Bedingungen für lokale Extremstellen kennen gelernt. Bereits im Eindimensionalen war die aktuelle Berechnung der Stelle nicht immer einfach. Für die in der Praxis so wichtigen Funktionen mehrerer Veränderlicher ist dieses Problem häufig um ein Vielfaches komplizierter – schließlich muss in der Iteration in jedem Schritt die Richtung, in der weitergesucht wird, neu bestimmt werden. Man ist oft auf numerische Lösungsmethoden angewiesen. Dieses Gebiet ist ein aktiver Forschungszweig, und nach wie vor sind bei weitem nicht alle Fragestellungen gelöst. Wir wollen an dieser Stelle nur zwei grundlegende Verfahren besprechen. Eine Umsetzung dieser Verfahren mithilfe von R finden Sie in den Videos auf der Homepage erläutert.
Das Newton Verfahren in mehreren Dimensionen
Das in Abschnitt davor bereits erwähnte Newton-Verfahren kann recht einfach auf mehrere Dimensionen verallgemeinert werden. Die Grundidee bleibt dabei gleich, man sucht nach Nullstellen von und ersetzt mit Hilfe dieses Gradienten die Funktion durch eine lineare Approximation. Man erhält das Iterationsverfahren
Das Gradientenverfahren
Die Idee hier ist, dass zunächst eine Suchrichtung festgelegt wird, und dann in diese Richtung ein eindimensionales Optimierungsverfahren angewendet wird. Bei der Suche nach einem Minimum ist es natürlich, dass man eine Richtung sucht, in der die Werte der Funktion kleiner werden, eine sogenannte Abstiegsrichtung. Mathematisch gesprochen verringern sich die Werte der Funktion in Richtung des Vektors , falls
Optimierung unter Nebenbedingungen
Häufig treten in ökonomischen Anwendungen Optimierungsprobleme auf, bei denen gewisse Nebenbedingungen erfüllt werden müssen. Das bedeutet, das nicht mehr der ganze Definitionsbereich einer Funktion betrachtet wird, sondern nur eine Teilmenge; deren genaue Gestalt hängt von den Nebenbedingungen ab; maximieren wir etwa eine Funktion unter der Nebenbedingung: , so wird das Maximum auf dem Kreis mit Radius 2 gesucht. Dieser ist die Höhenschichtline der Funktion zum Niveau 4. Wenn wir statt der Gleichung die Ungleichung als Nebenbedingung vorgeben, so wird das Maximum auf der ganzen Kreisscheibe gesucht (also auch im Inneren des Kreises). Für den Spezialfall der Optimierung von linearen Funktionen unter linearen Nebenbedingungen gibt es das sogenannte Simplex-Verfahren, das hier nicht behandelt wird; es gibt dafür inzwischen leicht auffindbare Internetresourcen (z.B. www.phpsimplex.com oder LINDO); wir behandeln die weitaus schwierigere Fragestellung der nichtlinearen Optimierung unter Nebenbedingungen, die selbst linear oder nichtlinear sein können. Die wichtigste Methode zur Behandlung von Optimierungsaufgaben unter Nebenbedingungen besteht darin, diese auf Optimierungsprobleme ohne Nebenbedingungen zurückzuführen. Der Einfachheit halber werden wir diese Theorie hier nur für Funktionen in zwei Veränderlichen vorstellen, die Verallgemeinerung auf mehrere Veränderliche erfordert zwar mehr Rechenaufwand, jedoch keine neuen Konzepte. Wir beschreiben nur die Suche nach einem lokalen Minimum, für Maxima läuft alles völlig analog, bzw. kann man das Minimum von suchen um das Maximum von zu erhalten.
Lagrange – Multiplikatoren – Gleichungen als Nebenbedingung
Wir wollen folgende Aufgabe lösen:Finde
und sucht jene Paare , für das es ein Lambda gibt, mit dem die Funktion in ein Minimum annimmt. Die Nebenbedingung steckt nun implizit in der Lagrange-Funktion. Falls die Nebenbedingung erfüllt ist so gilt . Falls die Nebenbedingung nicht erfüllt ist und zum Beispiel , so wird die Lagrange-Funktion für diesen Punkt für hinreichen kleines beliebig klein, und und die Lagrangefunktion kann in diesem Punkt für kein ein Minimum annehmen. Beachten Sie auch: das Kriterium ist etwas anderes als die Suche nach Tripeln , welche die Lagrangefunktion minimieren – solche wird man im Allgemeinen nicht finden: gilt nämlich , dann gibt es aus den genannten Gründen kein optimales !
Das Lagrange-Theorem besagt nun folgendes: falls ein lokales Minimum von unter der Nebenbedingung ist, und falls so gibt es eine eindeutige Zahl , für welche die Lagrange-Funktion einen stationären Punkt in hat, d.h. unter Beibehaltung der Nebenbedingung . Um Kandidaten zur Lösung der ursprünglichen Aufgabe zu erhalten, muss also das folgende System von Gleichungen gelöst werden:
Beispiel 11:
Ein Verbraucher habe die Nutzenfunktion
Abbildung 1.4 zeigt einerseits ausgewählte Niveaulinien der Zielfunktion , anderseits die Gerade welche gerade die Budget-beschränkung beschreibt. Sinnvoller weise sind beide Investitionen x und y positiv. Entsprechende Ungleichungs-Nebenbedingungen werden im nächsten Abschnitt besprochen. Am Punkt berührt die Gerade die Niveaulinie zum Wert . Es ist klar ersichtlich, dass an allen anderen Punkten die Gerade jene Niveaulinien schneidet, die einem geringeren Wert der Zielfunktion entsprechen. Daher handelt es sich bei dem Punkt um ein lokales Maximum der Zielfunktion unter der gegebenen Budgetbeschränkung. Dass an dieser Stelle die Nebenbedingungsgerade tangential an die Niveaulinie liegt ist typisch, und der geometrische Grund dafür, dass die Lagrange-Methode funktioniert. Abbildung 1.5 ist eine dreidimensionale Veranschaulichung des Sachverhaltes; die stark ausgezogene Kurve ist der Graph der Funktion unter der Nebenbedingung (der „Weg durch das hügelige Gelände“, um beim Bild zu bleiben). An seinem höchsten Punkt ist er tangential zum Graphen der Höhenschichtlinien, d.h., das Gelände fällt dort senkrecht zum Weg am steilsten ab.
Für eine allgemeine Klassifizierung von Punkten, die mithilfe der Lagrage Funktion gefunden wurden, steht die Methode der berandeten Hessematrizen zur Verfügung; im zweidimensionalen Fall: Sei
Ist die Determinante dieser Matrix positiv, so haben wir ein lokales Maximum, ist sie negativ, ein Minimum, ist die Determinante Null, so ist die Frage nicht entscheidbar.
Einen Sonderfall stellen Nebenbedingungen dar, die eine beschränkte Menge beschreiben – z.B. einen geschlossenen Kreis, eine Ellipse oder ein Streckenstück; auf einer solchen Menge können wir einfach alle kritischen Punkte der Reihe nach betrachten – der mit dem größten Funktionswert ist das Maximum, der mit dem kleinsten das Minimum.
Aufgabe 8:
Finde die beiden Extremstellen von
Die vorgestellte Theorie lässt sich weitgehend unverändert auf Funktionen mit mehr als zwei unabhängigen Variablen erweitern. Häufig gibt es in der Anwendung mehr als eine Nebenbedingung, und die Lagrange-Methode besteht dann darin, dass für jede Nebenbedingung ein eigener Lagrange-Multiplikator hinzugefügt wird. Bei einem Optimierungsproblem in n Variablen mit m Nebenbedingungen erhält man demnach eine Lagrange-Funktion L in n+m Variablen. Kandidaten für lokale Extrema erhält man wiederum indem man nach stationären Punkten von L sucht, wobei es nun gilt n+m Gleichungen in n+m Variablen zu lösen.
Karush Kuhn Tucker Bedingungen
Häufig tauchen Nebenbedingungen nicht in Gleichungsform, sondern in Ungleichungsform auf, z.B., dass eine Variable x nur positive Werte annehmen kann, also die Nebenbedingung erfüllen muss. Das allgemeine Problem in zwei Variablen mit einer Nebenbedingung hat die Form: Finde
Beispiel 12:
Ein Unternehmen hat die Möglichkeit zwei Güter zu produzieren. Bei beiden Produkten ist der erzielbare Preis jeweils proportional zur Qualität x bzw. y, während der Aufwand zur Qualitätssteigerung quadratisch wächst. D.h.:
Produkt 1: Für Preis bedarf es Arbeitseinheiten
Produkt 2: Für Preis bedarf es Arbeitseinheiten
wobei alle Konstanten größer als 0 sein sollen.
Das Unternehmen hat insgesamt höchstens L Einheiten an Arbeit pro Woche zur Verfügung, die es der Produktion der beiden Güter zuordnen kann. Bestimme welche Qualität bzw. den Erlös maximiert, wenn der wöchentliche Absatz auf jeden Fall gewährleistet ist. Lösung: Der erzielbare Erlös beträgt
Aufgabe 9: Untersuche die Funktion
Zusammenfassung
Wir haben einige Aspekte der nichtlinearen Optimierung kennen gelernt. Speziell wurden zur Lösung von mehrdimensionalen Optimierungsaufgaben als hinreichende Bedingungen für lokale Maxima und Minima die Definitheitseigenschaften der Hessematrix angegeben. Für Optimierungsaufgaben mit Nebenbedingungen wurden nur notwendige Bedingungen zum Finden von lokalen Extremstellen besprochen, und zwar die Lagrange-Methode im Falle von Gleichheits-nebenbedingungen, und die Karush-Kuhn-Tucker Bedingungen für Ungleichheits-nebenbedingungen. Als einfache Algorithmen zum Lösen von nichtlinearen Optimierungsaufgaben wurden das Newton-Verfahren und das Gradientenverfahren kurz diskutiert.
Optimierung ist ein weites Feld, und viele interessante Gebiete konnten hier nicht einmal kurz angerissen werden. Eine Liste von gängigen Fragestellungen umfasst Transportprobleme, Zuordnungsprobleme, Netzplantechnik oder das weitläufige Gebiet der ganzzahligen und kombinatorischen Optimierung. Die dort benötigten Techniken unterscheiden sich oft wesentlich von denen die in diesem Kapitel erwähnt wurden, und oftmals finden Konzepte der Graphentheorie Verwendung. Für eine elementare deutschsprachige Einführung sei etwa auf das Buch von Domschke und Drexl (1995) verwiesen.
Wiederholungsaufgaben/Übungen
Aufgabe 1
Untersuche folgende Funktionen auf Extremwerte bzw. Sattelstellen (verwende die Definitheit der Hessematrix, um Entscheidung zu treffen).
Führe zu den Funktionen aus Aufgabe 1 jeweils die erste Iteration des Gradientenverfahrens aus, wobei im Punkt (1,1) gestartet wird. Für welche der drei Aufgaben ist die Suche nach einem (lokalen oder globalen) Minimum überhaupt sinnvoll?
Aufgabe 3
Führe für die Funktion
Aufgabe 4
Finde die Extremwerte der folgenden Funktionen unter den angegebenen Nebenbedingungen:
Aufgabe 5
Ermittle mit Hilfe der KKT-Bedingungen alle Extremstellen der folgenden Funktionen unter den gegebenen Nebenbedingungen