next up previous contents
Nächste Seite: Gründe für paralleles Lernen Aufwärts: Begründung des Verfahrens Vorherige Seite: Begründung des Verfahrens   Inhalt

Mathematische Begründung

Wir nehmen zunächst an, daß erst $M$ und dann $C$ trainiert wird, und daß alle Gewichte sich nicht während, sondern erst nach einer Trainingsepisode ändern. Dann bekommen wir zwar kein `on-line' Verfahren, dafür aber eine mathematische Rechtfertigung der Methode. Bei der Implementierung des praktischen Algorithmus werden wir dann aus pragmatischen Gründen in verschiedener Hinsicht wieder vom off-line Ansatz abweichen und dieses Vorgehen nachträglich durch Experimente rechtfertigen.

Für $M$'s Lernphase wird in diesem Abschnitt angenommen, daß die Ausgaben von $C$ zufällig gewählt werden. In $M$'s Ausgabeknoten werden zu jedem Zeitpunkt durch konventionelle Aktivationsausbreitung (in $M$) die Voraussagen für $C$'s neue Eingaben (hervorgerufen durch die externe Rückkopplung oder durch von den Effektoren unabhängige Umgebungsänderungen) berechnet. Wir betrachten den Fall vorgegebener Trainingsintervallgrenzen. $M$'s zu minimierende Fehlerfunktion ist


\begin{displaymath}E_{M} =
\sum_{t} \sum_{k \in I \cup P}
(x_{{k}_{t}}-y_{{k}_{t}} )^{2}, \end{displaymath}

wobei $y_{{k}_{t}}$ die Aktivation des $k$ten vorhersagenden Knotens von $M$ zur Zeit $t$ ist, $x_{{k}_{t}}$ die Aktivation des entsprechenden vorhergesagten Knotens von $C$ ist und $t$ über alle Zeitschritte eines Trainingsintervalls rangiert. Jedes Gewicht $w_{ij}$ von $M$ ändert sich dabei proportional zu


\begin{displaymath}\frac{\partial E_M }{\partial w_{ij}}. \end{displaymath}

Ist $M$'s Lernphase abgeschlossen, so werden seine Gewichte eingefroren. $M$ und $C$ werden zu einem einzigen großen Netzwerk konkateniert, wobei $M$'s Ausgabeknoten mit $C$'s Eingabeknoten identifiziert werden. Jetzt beginnt $C$'s Lernphase. $C$'s zu minimierende Fehlerfunktion $E_C$ ist


\begin{displaymath}E_C = \sum_{t,i}(c_i - y_i(t))^2. \end{displaymath}

Dabei ist $y_{i}(t)$ die Aktivation des $i$ten R-Knotens zur Zeit $t$, und $c_i$ seine unveränderliche gewünschte Aktivation. Für die mathematische Begründung wird angenommen, daß $E_C$ nur noch von $W_C$ und $W_M$ abhängt, nicht mehr jedoch von der Umgebung. (Das ist der Systemidentifikationsansatz in seiner allgemeinsten Form.)

Um Gradientenabstieg zu bekommen, muß ein Gewicht $w_{ij}$ von $C$ sich proportional zu


\begin{displaymath}\frac {\partial E_C} {\partial w_{ij}} \end{displaymath}

ändern, und zwar unter der konstanten Nebenbedingung $W_M$. Abgesehen von einigen sehr plausiblen, langfristig geradezu notwendigen, im folgenden ausgeführten Abweichungen implementiert A2 unter Verwendung des IID-Algorithmus gerade den Gradientenabstieg in $E_C$.


next up previous contents
Nächste Seite: Gründe für paralleles Lernen Aufwärts: Begründung des Verfahrens Vorherige Seite: Begründung des Verfahrens   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite