Mathematische Begründung

Nächste Seite: Gründe für paralleles Lernen Aufwärts: Begründung des Verfahrens Vorherige Seite: Begründung des Verfahrens Inhalt

Mathematische Begründung

Wir nehmen zunächst an, daß erst

und dann

trainiert wird, und daß alle Gewichte sich nicht während, sondern erst nach einer Trainingsepisode ändern. Dann bekommen wir zwar kein `on-line' Verfahren, dafür aber eine mathematische Rechtfertigung der Methode. Bei der Implementierung des praktischen Algorithmus werden wir dann aus pragmatischen Gründen in verschiedener Hinsicht wieder vom off-line Ansatz abweichen und dieses Vorgehen nachträglich durch Experimente rechtfertigen.

Für 's Lernphase wird in diesem Abschnitt angenommen, daß die Ausgaben von zufällig gewählt werden. In 's Ausgabeknoten werden zu jedem Zeitpunkt durch konventionelle Aktivationsausbreitung (in ) die Voraussagen für 's neue Eingaben (hervorgerufen durch die externe Rückkopplung oder durch von den Effektoren unabhängige Umgebungsänderungen) berechnet. Wir betrachten den Fall vorgegebener Trainingsintervallgrenzen. 's zu minimierende Fehlerfunktion ist

$\begin{displaymath}E_{M} = \sum_{t} \sum_{k \in I \cup P} (x_{{k}_{t}}-y_{{k}_{t}} )^{2}, \end{displaymath}$

wobei $y_{{k}_{t}}$ die Aktivation des

ten vorhersagenden Knotens von

zur Zeit

ist, $x_{{k}_{t}}$ die Aktivation des entsprechenden vorhergesagten Knotens von

ist und

über alle Zeitschritte eines Trainingsintervalls rangiert. Jedes Gewicht $w_{ij}$ von

ändert sich dabei proportional zu

$\begin{displaymath}\frac{\partial E_M }{\partial w_{ij}}. \end{displaymath}$

Ist 's Lernphase abgeschlossen, so werden seine Gewichte eingefroren. und werden zu einem einzigen großen Netzwerk konkateniert, wobei 's Ausgabeknoten mit 's Eingabeknoten identifiziert werden. Jetzt beginnt 's Lernphase. 's zu minimierende Fehlerfunktion ist

$\begin{displaymath}E_C = \sum_{t,i}(c_i - y_i(t))^2. \end{displaymath}$

Dabei ist $y_{i}(t)$ die Aktivation des ten R-Knotens zur Zeit , und seine unveränderliche gewünschte Aktivation. Für die mathematische Begründung wird angenommen, daß nur noch von und abhängt, nicht mehr jedoch von der Umgebung. (Das ist der Systemidentifikationsansatz in seiner allgemeinsten Form.)

Um Gradientenabstieg zu bekommen, muß ein Gewicht $w_{ij}$ von sich proportional zu

$\begin{displaymath}\frac {\partial E_C} {\partial w_{ij}} \end{displaymath}$

ändern, und zwar unter der konstanten Nebenbedingung . Abgesehen von einigen sehr plausiblen, langfristig geradezu notwendigen, im folgenden ausgeführten Abweichungen implementiert A2 unter Verwendung des IID-Algorithmus gerade den Gradientenabstieg in

Nächste Seite: Gründe für paralleles Lernen Aufwärts: Begründung des Verfahrens Vorherige Seite: Begründung des Verfahrens Inhalt

Juergen Schmidhuber 2003-02-20