next up previous contents
Nächste Seite: DRITTE METHODE: EIN VERFAHREN Aufwärts: VOLLSTÄNDIGE RÜCKKOPPLUNG Vorherige Seite: ERSTE METHODE: `BACK-PROPAGATION THROUGH   Inhalt

ZWEITE METHODE: `REAL-TIME RECURRENT LEARNING' (RTRL)

Die Kettenregel erlaubt die Herleitung mehr als eines Algorithmus zur Berechnung ein und desselben Gradienten. Robinson und Fallside wiesen als erste darauf hin, daß die Fehlerpropagierungsphase nicht unbedingt notwendig ist [79](siehe auch [78]). Es ist möglich, schon zur Laufzeit der Aktivierungsausbreitungsphase Information aufzusammeln, die sich bei der Beobachtung von späteren Fehlern sofort zur Berechnung eines Fehlergradienten heranziehen läßt. Der Vorteil dieses Verfahrens liegt darin, daß es bei fixer Netzgröße unabhängig von der Länge der zu erlernenden Sequenzen mit beschränktem Speicherplatz auskommt. Zu jedem Zeitpunkt einer Episode werden im wesentlichen die gleichen Operationen ausgeführt. Damit eignet sich die Methode für `on-line' Lernen, was ihr auch den Namen `Real-Time Recurrent Learning' (RTRL) eingetragen hat.

Wir lehnen uns wieder an Williams und Zipsers Beschreibung an [151] [150]. Verwandte Methoden finden sich in [68], [59], [3], [28] und [80].

Da der Gradient der Summe aller $E(t)$ gleich der Summe der entsprechenden Gradienten ist, genügt es, für jedes Gewicht $w_{ij}$ den Wert

\begin{displaymath}
\triangle w_{ij}(t) =
-\alpha
\frac{\partial E(t)}{\partial...
...d_{k}(t)-x_{k}(t))
\frac{\partial x_{k}(t)}{\partial w_{ij}}
\end{displaymath}

zu bestimmen. $\sum_{t} \triangle w_{ij}(t)$ liefert dann die Gesamtgewichtsänderung für $w_{ij}$ am Ende des Trainingsintervalls. Nach der Kettenregel gilt für alle $k \in U$ und alle Zeitschritte $t$ außer dem ersten

\begin{displaymath}
\frac{\partial x_{k}(t+1)}{\partial w_{ij}} =
f_{k}'(net_{k...
...al x_{l}(t)}{\partial w_{ij}}
+ \delta_{ik} x_{j}(t) \right].
\end{displaymath}

$\delta_{ik}$ bezeichnet hier das Kroneckersche Delta und ist 1 für $i=k$ und $0$ sonst.

Für den ersten Zeitschritt ist die entsprechende Ableitung $0$. Daher lassen sich mit $0$ initialisierte Variablen $p_{ij_{new}}^{k}$ und $p_{ij_{old}}^{k}$ zur inkrementellen Berechnung der $ \frac{\partial x_{k}(t)}{\partial w_{ij}} $ einführen. Zu jedem Zeitpunkt $t$ werden diese Variablen gemäß

\begin{displaymath}
\forall i,j,k:~
p_{ij_{new}}^{k}
\leftarrow
f_{k}'(net_{k}...
...forall i,j,k:~
p_{ij_{old}}^{k}
\leftarrow
p_{ij_{new}}^{k}
\end{displaymath}

aktualisiert und anschließend, wie oben ausgeführt, zur Berechnung von $\triangle w_{ij}(t)$ herangezogen.

On-Line versus Off-Line. Die off-line Version des Algorithmus spart sich die Ausführung der Gesamtgewichtsänderung (die Summe aller durch einzelne Zeitschritte verursachten Gewichtsänderungen) bis Abschluß der Präsentation aller Trainingssequenzen auf. Die entsprechende on-line-Version ändert die Gewichte zu jedem Zeitschritt jeder Trainingssequenz. Eine interessante Eigenschaft der on-line-Version ist, daß die Notwendigkeit zur Spezifikation von Trainingssequenzbegrenzungen entfällt (`all episodes blend into each other' [150]). Die Lernrate $\alpha$ muß dabei natürlich klein genug sein, um kein Potential für Instabilitäten aufkommen zu lassen: Nur im asymptotischen Fall (bei gegen Null gehender Lernrate) vollzieht man exakten Gradientenabstieg in der Fehlersumme. Akzeptable Lernraten lassen sich gegenwärtig nur durch Experimente finden. Die später zu beschreibenden Experimente legen sowohl für die on-line Version als auch für die off-line Version für $\alpha$ Werte zwischen $\alpha = 0.02$ und $\alpha = 1.0$ nahe.

Komplexität. Die Speicherkomplexität von RTRL beträgt $O(n^3)$, die Berechnungskomplexität pro Zeitschritt beträgt $O(n^4)$.

Es sollte erwähnt werden, daß es auch RTRL-Versionen für nicht-diskrete Zeit gibt [68] [28].

Vor allem die Zeitkomplexität macht das Verfahren für großmaßstäbliche Anwendungen unbrauchbar. Im folgenden Abschnitt lernen wir eine Methode kennen, die exakt denselben Gradienten berechnet, bei gleichem Speicheraufwand aber $n$ mal schneller ist.


next up previous contents
Nächste Seite: DRITTE METHODE: EIN VERFAHREN Aufwärts: VOLLSTÄNDIGE RÜCKKOPPLUNG Vorherige Seite: ERSTE METHODE: `BACK-PROPAGATION THROUGH   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite