next up previous contents
Nächste Seite: ERSTE METHODE: `BACK-PROPAGATION THROUGH Aufwärts: VOLLSTÄNDIGE RÜCKKOPPLUNG Vorherige Seite: ARCHITEKTUR UND AKTIVIERUNGSDYNAMIK   Inhalt

PERFORMANZMASS

$T(t)$ bezeichne die Menge von Indizes $k \in U$, für die ein von einem externen Lehrer definierter Zielwert $d_k(t)$ zum Zeitpunkt $t$ existiert. Die Menge aller dieser Zielwerte zu allen diskreten Zeitpunkten $0 < t \leq s$ der Eingabesequenz dient zur Definition des Performanzmaßes als die Summe aller zu verschiedenen Zeitpunkten auftretenden Fehler (den Abweichungen der tatsächlichen Ausgaben des Netzes von den Zielwerten). Wir schreiben:

\begin{displaymath}
e_k(t) = d_k(t) - x_k(t),~~falls~k \in T(t),
\end{displaymath}


\begin{displaymath}
e_k(t) = 0~~ sonst,
\end{displaymath}


\begin{displaymath}
E(t) = \frac{1}{2} \sum_{k \in U} (e_k(t))^2,~~
E^{total}(t',t) = \sum_{\tau = t'+1}^t E(\tau).
\end{displaymath} (2.4)

Bei einer Trainingssequenz mit $s$ Zeitschritten wollen wir durch einen geeigneten Lernalgorithmus

\begin{displaymath}
E^{total}(0,s)
\end{displaymath} (2.5)

mimimieren. Man beachte, daß die Minimierung von $E^{total}(0,s)$ im allgemeinen die zeitweise Speicherung von vergangenen Ereignissen erfordert, und daß i.a. nicht von vornherein bekannt ist, für welche Zeitdauern das Netz vergangene Ereignisse mit Hilfe seiner zyklischen Verbindungen intern repräsentieren muß, um seine Aufgabe lösen zu können.

Die drei folgenden Lernalgorithmen beruhen auf dem Prinzip des einfachen Gradientenabstiegs. Die Trainingssequenz wird dabei wiederholt präsentiert. Nach jeder Präsentation bestimmt man für jedes Gewicht $w_{ij}$ eine Gewichtsänderung

\begin{displaymath}
\triangle w_{ij}(s) = - \alpha \frac{\partial E^{total}(0,s) }
{\partial w_{ij}},
\end{displaymath} (2.6)

wobei $\alpha$ eine positive Konstante (die sogenannte Lernrate) bezeichnet. Die Anwendung gradientenbasierter Lernalgorithmen kann im asymptotischen Fall (bei gegen Null gehendem $\alpha$) höchstens zur Verbesserung der gegenwärtigen Gewichtsmatrix führen - nicht zur Verschlechterung. In praktischen Anwendungen (siehe Abschnitt 2.6) erweisen sich oft Lernraten in der Größenordnung von 0.01 bis 1 als brauchbar.

Wie schon verschiedentlich erwähnt, kennt die Numerik trickreichere und häufig effizientere Standardverfahren zur Ausnützung der einmal gewonnenen Gradienteninformation (z.B. konjugierte Gradientenverfahren, `line search', Methoden zweiter Ordnung, effiziente Approximationen von Methoden zweiter Ordnung, etc., siehe e.g. [24][89][67][127]). Derartige Modifizierungen sind allerdings orthogonal zum Ziel dieser Arbeit - wir werden daher in den Experimenten stets einfachen Gradientenabstieg verwenden. Auch zur Behandlung lokaler Minima der Zielfunktion machen wir nur von der einfachsten Lösung Gebrauch, welche darin besteht, ausgehend von verschiedenen zufällig gewählten Gewichtsmatrizen solange ein wiederholtes, lokales, gradientenbasiertes Suchen im Raum der möglichen Gewichtsmatrizen durchzuführen, bis ein Programm mit zufriedenstellender Performanz gefunden worden ist.

In der Regel hat man es mit vielen Trainingssequenzen zu tun - in diesem Fall ergibt sich die Gewichtsänderung für jedes Gewicht bei jeder Iteration des Gradientenabstiegsprozesses zur Summe der Beiträge, die man durch einen der nachfolgenden gradientenbasierten Algorithmen für jede einzelne Trainingssequenz erhält. Gerechtfertigt ist dies durch den Hinweis auf die Tatsache, daß der Gradient der Summe aller Fehler gleich der Summe der entsprechenden Gradienten ist.


next up previous contents
Nächste Seite: ERSTE METHODE: `BACK-PROPAGATION THROUGH Aufwärts: VOLLSTÄNDIGE RÜCKKOPPLUNG Vorherige Seite: ARCHITEKTUR UND AKTIVIERUNGSDYNAMIK   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite