Detaillierte Beschreibung des Verfahrens

Nächste Seite: Das notwendigerweise nicht perfekte Aufwärts: Ein System für das Vorherige Seite: Ein System für das Inhalt

Detaillierte Beschreibung des Verfahrens

Jede Fokustrajektorie schließt diskrete Zeitschritte 1 ... ein. Zum Zeitpunkt der Trajektorie heißt 's Eingabevektor . ergibt sich aus den sensorischen Eingaben des Fokus zur Zeit . 's Ausgabevektor zur Zeit heißt . wird als Steuersignal für den Fokus interpretiert und verursacht eine Fokusbewegung und damit eine neue Eingabe . Die finale gewünschte Eingabe $d_{pfin}$ der Trajektorie ist ein extern vorgegebenes Aktivationsmuster und korrespondiert zu dem in der visuellen Szene zu findenden Objekt. Für alle ist $dim(d_{pfin})= dim(x_p(t))$ . Zunächst nehmen wir an, daß $d_{pfin}$ für alle Trajektorien konstant ist (es soll also immer dasselbe Detail der Szene gefunden werden). 's Aufgabe besteht darin, startend von beliebig vorgegebenen Anfangspositionen Sequenzen von Fokusbewegungen zu produzieren, so daß für alle Trajektorien gilt: $d_{pfin}=x_p(k)$ . Der finale Eingabefehler $e_{pfin}$ der zum Zeitschritt unterbrochenen Trajektorie ist

$\begin{displaymath}e_{pfin} = (d_{pfin}-x_p(k))^T (d_{pfin}-x_p(k)). \end{displaymath}$

Die $e_{pfin}$ ergeben sich also aus den Differenzen zwischen den gewünschten und den tatsächlichen finalen Eingaben.

Das Modellnetzwerk sieht zu einem gegebenen Zeitpunkt 's Ein- und Ausgabe und wird darauf trainiert, 's nächste Eingabe zu prophezeien. Die folgende Diskussion bezieht sich auf den Fall, daß und parallel lernen. In einigen Experimenten werden wir separate Trainingsphasen für und verwenden, die Änderungen für diesen Fall sind aber trivial und hauptsächlich notationeller Art.

's Eingabevektor zur Zeit der Trajektorie ist die Konkatenation von und . 's Ausgabevektor zur Zeit der Trajektorie ist , wobei $\mid m_p(t) \mid = \mid x_p(t) \mid$ . 's Fehler zur Zeit der Trajektorie ist

$\begin{displaymath}E_p(t) = (x_p(t+1) - m_p(t))^T (x_p(t+1) - m_p(t)). \end{displaymath}$

's Ziel ist die Minimierung von $\sum_{p,t} E_p(t)$ , wozu BP verwendet wird:

$\begin{displaymath}\triangle W_M^T = -\alpha_M \frac{\partial \sum_{p,t} E_p(t)}{\partial W_M} . \end{displaymath}$

Hierbei ist

's Gewichtsvektor, $\triangle W_M$ dessen Inkrement, und $\alpha_M$

's konstante Lernrate. (In den unten beschriebenen Experimenten weichen wir allerdings wieder vom reinen Gradientenabstieg ab und ändern

's Gewichte nach jedem Zeitschritt einer Trajektorie.)

Dem Systemidentifikationsansatz folgend nehmen wir nun an, daß $\sum_p e_{pfin}$ durch eine differenzierbare Funktion von 's Gewichtsvektor angenähert werden kann. Um

$\begin{displaymath}\frac{\partial \sum_p e_{pfin}}{\partial W_C}, \end{displaymath}$

zu approximieren, wird vorausgesetzt, daß mit fixem die Umgebung simulieren kann. Die Approximation wird durch Anwendung des unfolding in time-Algorithmus (siehe Kapitel 2) auf das rekurrente Netzwerk berechnet, welches man dadurch erhält, daß man

's Eingabeknoten mit

's Ausgabeknoten und

's Eingabeknoten mit

's Ein- und Ausgabeknoten identifiziert:

$\begin{displaymath}\triangle W_C = -\alpha_C \sum_p \left( \frac{\partial m_p(k)}{\partial W_C} \right)^T (d_{pfin} - x_p(k)) . \end{displaymath}$

Dabei ist $\triangle W_C$ das Inkrement von und $\alpha_C$ 's Lernrate. Man beachte, daß die Differenz zwischen der gewünschten finalen Eingabe und der tatsächlichen finalen Eingabe zur Berechnung eines Gradienten für unter Zuhilfenahme von herangezogen wird, nicht die Differenz zwischen der gewünschten finalen Eingabe und der von vorhergesagten finalen Eingabe (siehe auch Kapitel 6). (In den unten beschriebenen Experimenten weichen wir vom reinen Gradientenabstieg ab und ändern 's Gewichte am Ende jeder Trajektorie.)

Nächste Seite: Das notwendigerweise nicht perfekte Aufwärts: Ein System für das Vorherige Seite: Ein System für das Inhalt

Juergen Schmidhuber 2003-02-20