Forum: PC-Programmierung Mathematik: Partielle Ableitungen und Optimierung


von Martin (Gast)


Lesenswert?

Hallo Leute,

ich will eine Regressionsgerade ermitteln.
Bei der genauen Betrachtung der Herleitung ist mir folgende
Frage in den Sinn gekommen.

Die Ermittlung der Gerade (m,b Parameter) geht über das
Kriterium "Methode der Fehlerquadrate".
Die Summe muss minimiert werden.

SQ(m,b) = Summe über i=(1,N) von (y[i]-m*x[i]-b)^2

Vorgehensweise 1)
dSQ/dm = 0
dSQ/db = 0
Lösung dieses Gleichungssystems => m,b

Vorgehensweise 2)
dSQ^2/dm/db = 0
Lösung dieser Gleichung => m,b

Wieso ist Vorgehensweise 2 falsch?
Nach einmal ableiten nach m bekomme ich einen p-parametriesierten
Ausdruck, der die Änderungsrate von SQ über m darstellt. Diese 
abgeleitet
nach b und zu Null gleichgesetzt, findet Abhängigkeit von m und b
sodass, bei denen Änderungsraten 0 sind => min oder max.

Mal anderes Beispiel:
f(x1,x2)=p(x1)+q(x2) mit p,q:R->R und f:RxR->R
Bei Vorgehensweise 1 erkennt man, dass beide Summenteile
für sich optimiert werden. Aus p wird min/max auf x1 Achse bestimmt,
aus q min/max auf x2 Achse.

Bei Vorgehensweise 2 erkennt man, dass df^2/dx1/dx2 immer 0 ist.

Mir fehlt ein klares Bild was bedeuten (x1,x2) grapisch, die
aus beiden Methoden sich ergeben.

Kann jemand dazu was sagen?

von Max (Gast)


Lesenswert?

Bei Vorgehensweise 2 kommt nix raus:

Nach dm:
2*Sum (y-mx-b)(-x)
Nach db:
2*Sum (x)=0

Bei Vorgehensweise 1:
Man will ja die extremwerte haben, die im quadratischen Fall immer 
Minimum sind. Die Info über m und b kommen in beiden Gleichungen vor. Es 
werden ja die optimalen Werte gesucht und der optimale Wert muss beiden 
Bedingungen genügen.

LG

von Rainer Z. (razi)


Lesenswert?

Hai!

Vorweg: Analysis war mein Hass-Fach, meine Ausführungen
erfolgen unter Ausschluss jeglicher Gewähr für Korrektheit,
Verständlichkeit oder Tauglichkeit für einen bestimmten
Zweck. :-)

Martin schrieb:

> ich will eine Regressionsgerade ermitteln. [...]
> Vorgehensweise 1)
> dSQ/dm = 0
> dSQ/db = 0
> Lösung dieses Gleichungssystems => m,b

Hmm... sieht sinnvoll aus. Anschauliches Bild: Wir stellen
uns ein m-b-SQ-Diagramm vor, in dem irgendwo ein nach oben
geöffnetes (einschaliges) Rotationsparaboloid schwebt. Jedem
Punkt (m,b) ist damit eine Quadratsumme SQ zugeordnet; das
Minimum (d.h. die gesuchte Lösung) liegt logischerweise in
der "runden Spitze" dieses Paraboloids.

Deine Gleichungen oben sind zwei erste Ableitungen - eine
für jede Koordinate. Die Ableitungen sind in unserem Bild
(Paraboloid) Geraden bzw. Ebenen; die Nullstelle gibt die
jeweilige Koordinate der Lösung an.

> Vorgehensweise 2)
> dSQ^2/dm/db = 0
> Lösung dieser Gleichung => m,b
>
> Wieso ist Vorgehensweise 2 falsch?
> Nach einmal ableiten nach m bekomme ich einen p-parametriesierten
> Ausdruck, der die Änderungsrate von SQ über m darstellt.

Ja.
In unserem Bild von oben (Paraboloid) müsste das eine Ebene sein.

> Diese abgeleitet nach b und zu Null gleichgesetzt,

Hier steckt, glaube ich, das Problem: Wir betrachten ja nicht
mehr das Paraboloid SQ(m,b), sondern die Ebene dSQ/dm, und
von dieser bestimmen wir die Ableitung in b-Richtung.

> findet Abhängigkeit von m und b sodass, bei denen
> Änderungsraten 0 sind => min oder max.

Nein, nicht Änderungsraten - es ist nur eine Rate! Die
Gleichung dSQ^2/dm/db = 0 fragt: "An welchen Stellen hat
die Änderungsrate dSQ/dm lokale Extrema in b-Richtung?"

Da ist überhaupt keine Rede davon, dass dSQ/dm selbst
gleich Null sein müsste - nur deren Ableitung in b-Richtung
muss gleich Null sein! Das ist etwas ganz anderes.

> Mal anderes Beispiel:
> f(x1,x2)=p(x1)+q(x2) mit p,q:R->R und f:RxR->R
> Bei Vorgehensweise 1 erkennt man, dass beide Summenteile
> für sich optimiert werden. Aus p wird min/max auf x1 Achse
> bestimmt, aus q min/max auf x2 Achse.

Ja, logisch, zwei Bestimmungsgleichungen und zwei gesuchte
Koordinaten.

> Bei Vorgehensweise 2 erkennt man, dass df^2/dx1/dx2 immer 0
> ist.

Ja, sollte nach obigem auch logisch sein: Wenn df/dx1 nicht
von x2 abhaengt, dann kommt überall 0 raus. Das sagt ja nur
aus: "df/dx1 ändert sich nicht, wenn sich x2 ändert" Es sagt
aber nix darüber, wie groß df/dx1 ist - sondern nur, dass
es konstant (in x2-Richtung) ist.

> Mir fehlt ein klares Bild was bedeuten (x1,x2) grapisch, die
> aus beiden Methoden sich ergeben.
>
> Kann jemand dazu was sagen?

Ich hab was gesagt.
Hat es geholfen?

Grusz,
Rainer

von Arc N. (arc)


Lesenswert?


: Bearbeitet durch User
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.