Optimierung - Optimierung
Optimierung
Ziel dieser Lektion ist es die nichtlineare Optimierung auf Funktionen mit mehreren Variablen zu erweitern. Dazu wird die Theorie der Eigenwerte aus der linearen Algebra benötigt. Neben der theoretischen Abhandlung sollen hier auch algorithmische Ansätze besprochen werden. Ein wesentlicher Punkt ist die Suche nach Extremwerten unter der Einhaltung von gewissen Nebenbedingungen. Als notwendige Kriterien werden die Lagrange–Methode sowie die Karush–Kuhn–Tucker Bedingungen besprochen.
Lokale Extrema von reellen Funktionen
Wir erinnern uns, dass für Funktionen mit einer Veränderlichen eine notwendige Bedingung für lokale Extrema darin besteht, dass die erste Ableitung verschwindet, i.e. durch Lösen der Gleichung erhält man mögliche Kandidaten für ein Maximum bzw. ein Minimum einer Funktion.
Beispiel 6: Betrachte das Polynom aus Beispiel 4:
Ableitung liefert
Die Suche nach Nullstellen von liefert potenzielle Kandidaten für lokale Maxima und Minima. Für ein Polynom dritten Grades gibt es geschlossene Formeln, um die Nullstellen zu bestimmen, man erhält näherungsweise
Der Vergleich mit Abbildung [bild4 ] lässt erkennen, dass an der Stelle das absolute Maximum der Funktion liegt, während es sich bei um ein lokales Minimum und bei um ein lokales Maximum handelt.
Bereits für eine solch einfache Funktion wie ein Polynom dritten Grades ist die Bestimmung der Nullstellen nicht ganz trivial. Für die meisten Funktionen ist eine explizite Lösung überhaupt nicht möglich, und man ist auf numerische Methoden angewiesen. Die wichtigste wird im folgenden Abschnitt vorgestellt:
Das Newton Verfahren
Wir wollen die Nullstelle einer Funktion finden. (In Zusammenhang mit den Optimierungsaufgaben dieses Kapitels ist die Ableitung der Funktion, deren Extremwerte gesucht werden; das Verfahren kann aber selbstverständlich für beliebige einmal differenzierbare Funktionen angewandt werden.) Das Newton-Verfahren ist ein Iterationsverfahren. Wir beginnen mit einer Stelle , die hoffentlich bereits in der Nähe der Nullstelle liegt. Grundidee ist nun die Funktion durch ihre Tangente an der Stelle zu ersetzen, und anschließend die Nullstelle der Tangente zu suchen. Die Lösung liefert den nächsten Punkt der Iteration:
Aufgabe 5:
Berechne für das Polynom Fehler beim Parsen (Syntaxfehler): {\textstyle p’(x)} aus Beispiel 6 die ersten beiden Newtonschritte mit Startwert . Schreib ein kleines Programm in der Programmiersprache deiner Wahl. Versuche auch andere Startwerte und beobachte wie sich das Verfahren verhält.
Die Bestimmung von globalen Extrema ist typischerweise wesentlich komplizierter als die Suche nach lokalen Extrema. Auch müssen diese nicht zwangsläufig existieren; die Funktion besitzt unendlich lokale Minima und Maxima, die gleichzeitig globale Extremwerte sind, die Funktion besitzt unendlich viele lokale Extremwerte, aber keinen globalen. Plotten Sie die beiden Funktionen, um sich diese Tatsache vor Augen zu führen! Für eine gewisse Klasse von Funktionen kann man jedoch von lokaler Optimalität auf globale Optimalität schließen. Speziell nennt man eine Funktion f konvex (konkav), falls die Funktionswerte zwischen zwei Werten x und y jeweils unterhalb der Verbindungsgeraden der beiden Funktionswerte an x und y – der sogenannten Sekante - liegen. D.h. für jede Zahl t zwischen 0 und 1 gilt Fehler beim Parsen (Unbekannte Funktion „\begin{aligned}“): {\displaystyle \begin{aligned} f\left({tx}+\left(1-t\right)y\right)\le{tf}(x)+(1-t)f(y) \: \mathrm(konvex)\\\ f\left({tx}+\left(1-t\right)y\right)\geq{tf}(x)+(1-t)f(y) \: \mathrm(konkav)\end{aligned}}
Abbildung 1.1 zeigt eine konvexe Funktion und deren Sekante für zwei ausgewählte Werte und . Die Sekante liegt oberhalb des Graphen der Funktion. Falls die zweite Ableitung existiert so gilt für eine konvexe Funktion
Für eine konvexe (konkave) Funktion gibt es höchstens ein lokales Extremum, und dies ist dann das globale Minimum (Maximum).
Funktionen mehrerer Veränderlicher
Um Extremwerte von Funktionen in mehreren freien Variablen zu finden ist es erforderlich, die Kriterien für Extremwerten für höherdimensionale Definitionsbereiche zu verallgemeinern. Hier werden Gradient und Hessematrix die gleichen Rollen spielen wie 1. und 2. Ableitung im Eindimensionalen. Während die Bedingung an den Gradienten – er muss gleich dem Nullvektor sein, d.h., die Richtungsableitung muss in jeder Richtung verschwinden, sich ganz unmittelbar übertragen lässt, brauchen wir für die 2. Ableitungen etwas lineare Algebra – schließlich wollen wir der Matrix ansehen, ob die 2. Richtungsableitungen in jeder Richtung positiv oder negativ sind, oder ob das Krümmungsverhalten in den verschiedenen Richtungen unterschiedlich ist.
Determinante einer Matrix
Eine nxn-Matrix A entspricht einer linearen Abbildung:
Eigenwerte und Eigenvektoren einer Matrix
Für eine Matrix A nennt man einen Vektor einen Eigenvektor zum Eigenwert , falls die sogenannte Eigenwertgleichung
Beispiel 7:
Gegeben sei die Matrix
ein Eigenvektor zum Eigenwert -3,
Eigenvektor zum Eigenwert 2.
Wie kann man Eigenwerte und Eigenvektoren berechnen? Die Eigenwertgleichung bei bekanntem ist ein lineares Gleichungssystem mit Gleichungen in Variablen. Allerdings sind auch die Eigenwerte zunächst unbekannt, und müssen erst bestimmt werden: wenn ein Vektor Lösung Lösung der Eigenwertgleichung ist, so können wir diese Gleichung umformen zu Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \left(A-\lambda I\right)\vec{x}=\vec{o}} , (Hier ist I die Einheitsmatrix und der Nullvektor.) Daher ist die Matrix singulär und hat die Determinante 0 – schließlich wird ja nicht nur auf den Nullvektor abgebildet, sondern auch jedes Vielfache, also die ganze Gerade, die durch diesen Vektor läuft. Es gilt:
Fortsetzung Beispiel 7:
Die charakteristische Gleichung lautet Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \begin{aligned} \left|A-\lambda I\right|=\left|\begin{matrix}3-\lambda&2\\-3&-4-\lambda\\\end{matrix}\right|=\lambda^2+\lambda-6=0 \end{aligned}}
Lösen der quadratischen Gleichung Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \begin{aligned} \lambda=-\frac{1}{2}\pm\sqrt{\frac{1}{4}+6}=-\frac{1}{2}\pm\frac{5}{2} \end{aligned}} liefert die Nullstellen und .
Die zugehörigen Eigenvektoren erhält man durch Lösen der jeweiligen Eigenwertgleichungen. Beachte, dass die Eigenvektoren nur bis auf einen multiplikativen Faktor festgelegt sind.
Aufgabe 6:
Berechne alle Eigenwerte und Eigenvektoren für folgende Matrizen: Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \begin{aligned} A=\left(\begin{matrix}\mathrm{\ 8}&7\\1&2\\\end{matrix}\right) \\\ B=\left(\begin{matrix}1&-1\\-1&1\\\end{matrix}\right) \\\ C=\left(\begin{matrix}1&-2&2\\-2&-2&4\\1&4&-6\\\end{matrix}\right) \end{aligned}}
Die Theorie der Eigenwerte und Eigenvektoren spielt in vielen Anwendungsbereichen eine wesentliche Rolle . Ein Polynom n-ten Grades hat genau n Null-stellen, allerdings müssen diese nicht unbedingt verschieden sein – das Polynom Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle x^2-2x+1}
hat die beiden Nullstellen Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle x_1=x_2=1}
Man sagt: 1 ist eine Nullstelle mit Vielfachheit 2. Nullstellen können auch komplexe Zahlen sein. Für symmetrische Matrizen (d.h. AT = A), kann man zeigen, dass alle Eigenwerte reell sind. Zu den Eigenwerten mit Vielfachheit n gehören dann n linear unabhängige Eigenvektoren. Um uns die Bedeutung dieser Größen im Zusammenhang mit mehrdimensionalen Funktionen vor Augen zu führen, betrachten wir die Abbildung
Die linke Graphik zeigt den (ziemlich faden …) Funktionsgraphen – ein Paraboloid; die mittlere Graphik zeigt das Gradientenfeld – in jedem Punkt zeigt der Vektorpfeil in die Richtung des steilsten Anstiegs; die rechte Graphik zeigt nun die möglichen Wege einer Kugel, die wir am Scheitelpunkt absetzen: genau am Scheitelpunkt ist der Gradient null, d.h., die Richtungsableitung in jeder Richtung ist 0 und die Kugel bleibt einfach liegen. Geben wir ihr aber einen winzig kleinen Schubs, so ist der Gradient ungleich 0 und sie rollt sie nun in jedem Punkt dem Gradienten entgegen – schließlich will sie so schnell wie möglich nach unten und der Gradient zeigt den schnellsten Weg nach oben; die meisten möglichen Bahnen sind daher gekrümmt, d.h., der Gradient ändert ständig seine Richtung; es gibt allerdings zwei Richtungen, in denen die Bahnen Geraden sind – und das sind nun genau die Richtungen der Eigenvektoren der Hessematrix: in jedem Punkt auf dieser Geraden ändert sich der Gradient genau in der Richtung der Verbindung des Punktes mit dem Koordinaten-Ursprung; in unserem Fall zeigen die Pfeile auf diesen Trajektorien-Geraden jeweils vom Ursprung weg – damit ist klar: der Punkt ist ein Maximum – d.h., die Kugel wird in jeder Richtung vom Scheitel wegrollen. Das wiederum bedeutet für die Funktion, die die Höhe des Paraboloids für jeden Punkt der – Ebene angibt, dass ihre 2. Richtungsableitung im Scheitelpunkt in jeder Richtung negativ sein muss.
Daraus ergibt sich folgendes Kriterium für Extremalstellen: der Gradient muss dort verschwinden; sind alle Eigenwerte der Hessematrix negativ, so ist der Punkt ein Maximum, sind sie positiv, ein Minimum, gibt es sowohl positive als auch negative, so haben wir einen Sattelpunkt. Die Vorzeichen der Eigenwerte bestimmt man mit den Definitheitskriterien:
Definitheit
Wir werden in diesem Abschnitt immer davon ausgehen, dass A eine symmetrische Matrix ist. Für die Anwendung, die wir letztendlich betrachten wollen, nämlich für die Hessematrix, ist dies natürlich der Fall, da ja gilt:
Beispiel 8:
Gegeben sei die symmetrische Matrix
positiv definit, falls Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\vec{x}}^TA\vec{x} > \vec{0} } für alle x 0
positiv semidefinit, falls für alle x 0
negativ definit, falls für alle x 0
negativ semidefinit, falls Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle {\vec{x}}^TA\vec{x} \leq \vec{0} } für alle x 0
indefinit, falls für einige x und für einige y.
Diese Definitheitseigenschaften stehen in unmittelbarem Zusammenhang mit den Eigenwerten der Matrix A. Man kann zeigen, eine quadratische Form ist
positiv definit, falls alle Eigenwerte > 0
positiv semidefinit, falls alle Eigenwerte Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \geq} 0
negativ definit, falls alle Eigenwerte < 0
negativ semidefinit, falls alle Eigenwerte 0
indefinit, falls einige Eigenwerte 0 und einige Eigenwerte 0 sind.
Die dazugehörigen Matrizen werden dann ebenfalls als positiv (semi-) definit usw. bezeichnet. In der Praxis kann die Definitheit von Matrizen oft mit dem Hauptminorenkriterium bestimmt werden. Als i-ten führenden Hauptminor einer Matrix bezeichnet man die Determinante der Matrix, die man gewinnt, wenn man nur die ersten i Zeilen und Spalten betrachtet; für eine Matrix Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \begin{aligned} A=\left(\begin{matrix}a_{1,1}&\cdots&a_{1,n}\\\vdots&\ddots&\vdots\\a_{n,1}&\cdots&a_{n,n}\\\end{matrix}\right) \end{aligned}} lauten sie also (die senkrechten Striche sind eine alternative Schreibweise für die Berechnung der Determinante der Matrix zwischen den Strichen): Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \begin{aligned} {\widetilde{\Delta}}_1\left(A\right)=a_{1,1},\ \ {\widetilde{\Delta}}_2\left(A\right)=\begin{pmatrix}a_{1,1}\ a_{1,2} \\\ a_{2,1} a_{2,2}\end{pmatrix} , …, {\widetilde{\Delta}}n=detA \end{aligned}}
Es gilt nun: sind alle führenden Hauptminoren positiv, so ist die Matrix positiv definit; sind die Vorzeichen der führenden Hauptminoren abwechselnd positiv und negativ – beginnend mit negativ – so ist die Matrix negativ definit. Weiters ist die Determinante der Matrix das Produkt der Eigenwerte - ist also die Determinante 0, so ist die Matrix indefinit, ist sie ungleich 0, sind alle Eigenwerte ungleich 0. Viele Fälle können mit diesen Kriterien durch Ausschluss bestimmt werden; nur wenn einer oder mehrere führende Hauptminoren 0 sind, ist keine eindeutige Aussage möglich. Wir können nun allgemeine Kriterien dafür aufstellen, wann eine zweimal differenzierbare mehrdimensionale nichtlineare Funktion ein lokales Extremum aufweist. Eine notwendige Bedingung ist wie bereits erwähnt .Für Funktionen in einer Variablen bedeutet das: die Ableitung verschwindet. Ist die zweite Ableitung positiv, so findet sich dort ein Minimum. Diese Bedingung für Minima lässt sich auf Funktionen in mehreren Variablen erweitern: Wenn der Gradient in einem Punkt verschwindet und die zweite Ableitung in jeder Richtung negativ ist, so handelt es sich um ein lokales Minimum. Dafür genügt es, dass die zweite Ableitung in Richtung der Eigenvektoren der Hessematrix negativ ist, d.h., dass alle Eigenwerte der Hessematrix negativ sind und diese daher negativ definit ist; analoges gilt für die Maxima.
Achtung! Ein naheliegender Irrtum: man könnte glauben, dass es reicht, wenn wir uns das Krümmungsverhalten in x und y Richtung anschaun – also die zweiten partiellen Ableitungen; das ist aber nicht der Fall: die Abbildung zeigt eine Funktion, die entlang x und der y-Achse konkav ist; trotzdem ist der Nullpunkt – in dem der Gradient verschwindet – ein Sattelpunkt – es gibt nämlich auch Richtungen, in denen die Funktion konvex ist - die Diagonalen.
Basierend auf den Definitheitseigenschaften der Hessematrix Hf gelten folgende hinreichenden Bedingungen für Extremwerte: Sei Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \begin{aligned} \mathrm{\nabla f}\left({\vec{x}}_0\right)=0. \end{aligned}}
Falls Hf an der Stelle positiv definit, so hat f dort ein lokales Minimum.
Falls Hf an der Stelle negativ definit, so hat f dort ein lokales Maximum.
Falls Hf an der Stelle indefinit, so handelt es sich an der Stelle weder um ein lokales Maximum noch um ein Minimum, sondern um einen sogenannten Sattelpunkt.
Im Falle von positiv semidefinit oder negativ semidefinit kann keine Aussage getroffen werden (vgl. die Situation im eindimensionalen, wenn die zweite Ableitung verschwindet).
Die folgende Eierkarton-Funktion hat Bereiche, in denen sie in jeder Richtung kokav ist – dort finden sich die Maxima, also die Gipfel - andere, in denen sie in jeder Richtung konvex ist – dort sind die Minima, also die Gruben, und weitere Beriche, in denen sie in einer Richtung konvex ist, in einer anderen konkav – dort finden sich die Sattelpunkte. Stellen sie sich einen Bewohner einer dieser Gruben vor, der eine Freundin in der benachbarten Grube besuchen möchte; dabei muss er über einen Pass wandern – und dieser Pass ist dann der Sattelpunkt.
Beispiel 9:
Der linke Graph in Abbildung 1.3 zeigt einen Oberflächenplot der Funktion :
Aufgabe 7:
Untersuche die folgenden beiden Funktionen auf lokale Extrema: Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \begin{aligned} f_1\left(x,y,z\right)=4x-2x^2+6y-y^2-z^2+3\\\ f_2\left(x,y,z\right)=3x^2-4xy+3y^2+10z-z^2\\\ \end{aligned}}
Algorithmen zur Optimierung
Bisher haben wir nur notwendige und hinreichende Bedingungen für lokale Extremstellen kennen gelernt. Bereits im Eindimensionalen war die aktuelle Berechnung der Stelle nicht immer einfach. Für die in der Praxis so wichtigen Funktionen mehrerer Veränderlicher ist dieses Problem häufig um ein Vielfaches komplizierter – schließlich muss in der Iteration in jedem Schritt die Richtung, in der weitergesucht wird, neu bestimmt werden. Man ist oft auf numerische Lösungsmethoden angewiesen. Dieses Gebiet ist ein aktiver Forschungszweig, und nach wie vor sind bei weitem nicht alle Fragestellungen gelöst. Wir wollen an dieser Stelle nur zwei grundlegende Verfahren besprechen. Eine Umsetzung dieser Verfahren mithilfe von R finden Sie in den Videos auf der Homepage erläutert.
Das Newton Verfahren in mehreren Dimensionen
Das in Abschnitt davor bereits erwähnte Newton-Verfahren kann recht einfach auf mehrere Dimensionen verallgemeinert werden. Die Grundidee bleibt dabei gleich, man sucht nach Nullstellen von und ersetzt mit Hilfe dieses Gradienten die Funktion durch eine lineare Approximation. Man erhält das Iterationsverfahren
Das Gradientenverfahren
Die Idee hier ist, dass zunächst eine Suchrichtung festgelegt wird, und dann in diese Richtung ein eindimensionales Optimierungsverfahren angewendet wird. Bei der Suche nach einem Minimum ist es natürlich, dass man eine Richtung sucht, in der die Werte der Funktion kleiner werden, eine sogenannte Abstiegsrichtung. Mathematisch gesprochen verringern sich die Werte der Funktion in Richtung des Vektors , falls Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \begin{aligned} f\left(\vec{x}+c\vec{d}\right)<f\left(\vec{x}\right) \end{aligned}} für kleine Werte von c > 0. Dies hat zur Folge, dass
Optimierung unter Nebenbedingungen
Häufig treten in ökonomischen Anwendungen Optimierungsprobleme auf, bei denen gewisse Nebenbedingungen erfüllt werden müssen. Das bedeutet, das nicht mehr der ganze Definitionsbereich einer Funktion betrachtet wird, sondern nur eine Teilmenge; deren genaue Gestalt hängt von den Nebenbedingungen ab; maximieren wir etwa eine Funktion unter der Nebenbedingung: , so wird das Maximum auf dem Kreis mit Radius 2 gesucht. Dieser ist die Höhenschichtline der Funktion Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle g\left(x,y\right)} zum Niveau 4. Wenn wir statt der Gleichung die Ungleichung als Nebenbedingung vorgeben, so wird das Maximum auf der ganzen Kreisscheibe gesucht (also auch im Inneren des Kreises). Für den Spezialfall der Optimierung von linearen Funktionen unter linearen Nebenbedingungen gibt es das sogenannte Simplex-Verfahren, das hier nicht behandelt wird; es gibt dafür inzwischen leicht auffindbare Internetresourcen (z.B. www.phpsimplex.com oder LINDO); wir behandeln die weitaus schwierigere Fragestellung der nichtlinearen Optimierung unter Nebenbedingungen, die selbst linear oder nichtlinear sein können. Die wichtigste Methode zur Behandlung von Optimierungsaufgaben unter Nebenbedingungen besteht darin, diese auf Optimierungsprobleme ohne Nebenbedingungen zurückzuführen. Der Einfachheit halber werden wir diese Theorie hier nur für Funktionen in zwei Veränderlichen vorstellen, die Verallgemeinerung auf mehrere Veränderliche erfordert zwar mehr Rechenaufwand, jedoch keine neuen Konzepte. Wir beschreiben nur die Suche nach einem lokalen Minimum, für Maxima läuft alles völlig analog, bzw. kann man das Minimum von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle -f\left(x,y\right)} suchen um das Maximum von zu erhalten.
Lagrange – Multiplikatoren – Gleichungen als Nebenbedingung
Wir wollen folgende Aufgabe lösen:Finde Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \begin{aligned} \mathrm{min\ }f\left(x,y\right) \end{aligned}} unter
und sucht jene Paare , für das es ein Lambda gibt, mit dem die Funktion in ein Minimum annimmt. Die Nebenbedingung steckt nun implizit in der Lagrange-Funktion. Falls die Nebenbedingung erfüllt ist so gilt Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle L\left(x,y,\lambda\right)=f\left(x,y\right)}
. Falls die Nebenbedingung nicht erfüllt ist und zum Beispiel , so wird die Lagrange-Funktion für diesen Punkt für hinreichen kleines Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \lambda}
beliebig klein, und und die Lagrangefunktion kann in diesem Punkt für kein ein Minimum annehmen. Beachten Sie auch: das Kriterium ist etwas anderes als die Suche nach Tripeln , welche die Lagrangefunktion minimieren – solche wird man im Allgemeinen nicht finden: gilt nämlich Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \left(g\left(x,y\right)-c\right)\neq0}
, dann gibt es aus den genannten Gründen kein optimales !
Das Lagrange-Theorem besagt nun folgendes: falls ein lokales Minimum von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle f\left(x,y\right)}
unter der Nebenbedingung Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle g\left(x,y\right)=c}
ist, und falls so gibt es eine eindeutige Zahl , für welche die Lagrange-Funktion einen stationären Punkt in hat, d.h. Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle \mathrm{\nabla L}(x_0,y_0)=(0,0)^T}
unter Beibehaltung der Nebenbedingung Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle g\left(x,y\right)=c}
. Um Kandidaten zur Lösung der ursprünglichen Aufgabe zu erhalten, muss also das folgende System von Gleichungen gelöst werden:
Fehler beim Parsen (Unbekannte Funktion „\begin{aligned}“): {\displaystyle \begin{aligned} \frac{\partial}{\partial x}L\left(x,y,\lambda\right)=\frac{\partial}{\partial x}f\left(x,y\right)+\lambda\frac{\partial}{\partial x}g\left(x,y\right)=0\\\ \frac{\partial}{\partial y}L\left(x,y,\lambda\right)=\frac{\partial}{\partial y}f\left(x,y\right)+\lambda\frac{\partial}{\partial y}g\left(x,y\right)=0\\\ \frac{\partial}{\partial\lambda}L\left(x,y,\lambda\right)=g\left(x,y\right)-c=0\\\ \end{aligned}}
Die beiden ersten Gleichungen haben eine anschauliche Interpretation: fassen wir sie in eine Gleichung zusammen und verwenden die Gradienten – Schreibweise, so erhalten wir Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \begin{aligned} \mathrm{\nabla f}\left(x,y\right)=-\lambda\nabla g\left(x,y\right) \end{aligned}}
d.h., der Gradient der Zielfunktion ist ein lineares Vielfaches des Gradienten der Funktion, die die Nebenbedingung angibt. Nun zeigt uns der Gradient die Richtung des stärksten Anstiegs an und steht normal auf die Höhenschichtlinie. Stellen wir uns den Graphen der Zielfunktion als hügelige Landschaft vor, so wird durch die Nebenbedingung ein Weg durch diese Landschaft gelegt, und gesucht werden die höchsten bzw. tiefsten Punkte auf diesem Weg. An diesen fällt das Gelände senkrecht zum Weg am steilsten ab (s. Abbildung 1.3).
Beispiel 11:
Ein Verbraucher habe die Nutzenfunktion
Abbildung 1.4 zeigt einerseits ausgewählte Niveaulinien der Zielfunktion , anderseits die Gerade welche gerade die Budget-beschränkung beschreibt. Sinnvoller weise sind beide Investitionen x und y positiv. Entsprechende Ungleichungs-Nebenbedingungen werden im nächsten Abschnitt besprochen. Am Punkt berührt die Gerade die Niveaulinie zum Wert Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle xy = 12.5}
. Es ist klar ersichtlich, dass an allen anderen Punkten die Gerade jene Niveaulinien schneidet, die einem geringeren Wert der Zielfunktion entsprechen. Daher handelt es sich bei dem Punkt um ein lokales Maximum der Zielfunktion unter der gegebenen Budgetbeschränkung. Dass an dieser Stelle die Nebenbedingungsgerade tangential an die Niveaulinie liegt ist typisch, und der geometrische Grund dafür, dass die Lagrange-Methode funktioniert. Abbildung 1.5 ist eine dreidimensionale Veranschaulichung des Sachverhaltes; die stark ausgezogene Kurve ist der Graph der Funktion unter der Nebenbedingung (der „Weg durch das hügelige Gelände“, um beim Bild zu bleiben). An seinem höchsten Punkt ist er tangential zum Graphen der Höhenschichtlinien, d.h., das Gelände fällt dort senkrecht zum Weg am steilsten ab.
Für eine allgemeine Klassifizierung von Punkten, die mithilfe der Lagrage Funktion gefunden wurden, steht die Methode der berandeten Hessematrizen zur Verfügung; im zweidimensionalen Fall: Sei
Ist die Determinante dieser Matrix positiv, so haben wir ein lokales Maximum, ist sie negativ, ein Minimum, ist die Determinante Null, so ist die Frage nicht entscheidbar.
Einen Sonderfall stellen Nebenbedingungen dar, die eine beschränkte Menge beschreiben – z.B. einen geschlossenen Kreis, eine Ellipse oder ein Streckenstück; auf einer solchen Menge können wir einfach alle kritischen Punkte der Reihe nach betrachten – der mit dem größten Funktionswert ist das Maximum, der mit dem kleinsten das Minimum.
Aufgabe 8:
Finde die beiden Extremstellen von Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \begin{aligned} f\left(x,y\right)=x^2+y^2 \end{aligned}}
unter der Nebenbedingung
Die vorgestellte Theorie lässt sich weitgehend unverändert auf Funktionen mit mehr als zwei unabhängigen Variablen erweitern. Häufig gibt es in der Anwendung mehr als eine Nebenbedingung, und die Lagrange-Methode besteht dann darin, dass für jede Nebenbedingung ein eigener Lagrange-Multiplikator hinzugefügt wird. Bei einem Optimierungsproblem in n Variablen mit m Nebenbedingungen erhält man demnach eine Lagrange-Funktion L in n+m Variablen. Kandidaten für lokale Extrema erhält man wiederum indem man nach stationären Punkten von L sucht, wobei es nun gilt n+m Gleichungen in n+m Variablen zu lösen.
Karush Kuhn Tucker Bedingungen
Häufig tauchen Nebenbedingungen nicht in Gleichungsform, sondern in Ungleichungsform auf, z.B., dass eine Variable x nur positive Werte annehmen kann, also die Nebenbedingung erfüllen muss. Das allgemeine Problem in zwei Variablen mit einer Nebenbedingung hat die Form: Finde
Fehler beim Parsen (Unbekannte Funktion „\begin{aligned}“): {\displaystyle \begin{aligned} \frac{\partial}{\partial x}L\left(x,y,\lambda\right)=\frac{\partial}{\partial x}f\left(x,y\right)+\lambda\frac{\partial}{\partial x}g\left(x,y\right)=0\\\ \frac{\partial}{\partial y}L\left(x,y,\lambda\right)=\frac{\partial}{\partial y}f\left(x,y\right)+\lambda\frac{\partial}{\partial y}g\left(x,y\right)=0\\\ g\left(x,y\right)\le c \lambda\le0\\\ \lambda\left(g\left(x,y\right)-c\right)=0\\\ \end{aligned}}
Beispiel 12:
Ein Unternehmen hat die Möglichkeit zwei Güter zu produzieren. Bei beiden Produkten ist der erzielbare Preis jeweils proportional zur Qualität x bzw. y, während der Aufwand zur Qualitätssteigerung quadratisch wächst. D.h.:
Produkt 1: Für Preis bedarf es Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle Ax^2}
Arbeitseinheiten
Produkt 2: Für Preis Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle by}
bedarf es Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle By^2}
Arbeitseinheiten
wobei alle Konstanten größer als 0 sein sollen.
Das Unternehmen hat insgesamt höchstens L Einheiten an Arbeit pro Woche zur Verfügung, die es der Produktion der beiden Güter zuordnen kann. Bestimme welche Qualität bzw. Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\textstyle y}
den Erlös maximiert, wenn der wöchentliche Absatz auf jeden Fall gewährleistet ist. Lösung: Der erzielbare Erlös beträgt Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \begin{aligned} f\left(x,y\right)=\mathrm{ax}+b \end{aligned}}
Die Gesamtarbeitsleitung ist beschränkt:
Aufgabe 9: Untersuche die Funktion Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \begin{aligned} f\left(x,y\right)=x^2+y+1 \end{aligned}} auf Extremwerte unter der Nebenbedingung
Zusammenfassung
Wir haben einige Aspekte der nichtlinearen Optimierung kennen gelernt. Speziell wurden zur Lösung von mehrdimensionalen Optimierungsaufgaben als hinreichende Bedingungen für lokale Maxima und Minima die Definitheitseigenschaften der Hessematrix angegeben. Für Optimierungsaufgaben mit Nebenbedingungen wurden nur notwendige Bedingungen zum Finden von lokalen Extremstellen besprochen, und zwar die Lagrange-Methode im Falle von Gleichheits-nebenbedingungen, und die Karush-Kuhn-Tucker Bedingungen für Ungleichheits-nebenbedingungen. Als einfache Algorithmen zum Lösen von nichtlinearen Optimierungsaufgaben wurden das Newton-Verfahren und das Gradientenverfahren kurz diskutiert.
Optimierung ist ein weites Feld, und viele interessante Gebiete konnten hier nicht einmal kurz angerissen werden. Eine Liste von gängigen Fragestellungen umfasst Transportprobleme, Zuordnungsprobleme, Netzplantechnik oder das weitläufige Gebiet der ganzzahligen und kombinatorischen Optimierung. Die dort benötigten Techniken unterscheiden sich oft wesentlich von denen die in diesem Kapitel erwähnt wurden, und oftmals finden Konzepte der Graphentheorie Verwendung. Für eine elementare deutschsprachige Einführung sei etwa auf das Buch von Domschke und Drexl (1995) verwiesen.
Wiederholungsaufgaben/Übungen
Aufgabe 1
Untersuche folgende Funktionen auf Extremwerte bzw. Sattelstellen (verwende die Definitheit der Hessematrix, um Entscheidung zu treffen). Fehler beim Parsen (MathML mit SVG- oder PNG-Rückgriff (empfohlen für moderne Browser und Barrierefreiheitswerkzeuge): Ungültige Antwort („Math extension cannot connect to Restbase.“) von Server „https://wikimedia.org/api/rest_v1/“:): {\displaystyle \begin{aligned} f\left(x,y\right)=x^2+y^2 \end{aligned}}
Führe zu den Funktionen aus Aufgabe 1 jeweils die erste Iteration des Gradientenverfahrens aus, wobei im Punkt (1,1) gestartet wird. Für welche der drei Aufgaben ist die Suche nach einem (lokalen oder globalen) Minimum überhaupt sinnvoll?
Aufgabe 3
Führe für die Funktion
Aufgabe 4
Finde die Extremwerte der folgenden Funktionen unter den angegebenen Nebenbedingungen:
Aufgabe 5
Ermittle mit Hilfe der KKT-Bedingungen alle Extremstellen der folgenden Funktionen unter den gegebenen Nebenbedingungen