next up previous contents
Nächste Seite: EXPERIMENTE ZUR TEMPORÄREN VARIABLENBINDUNG Aufwärts: EXPERIMENTE Vorherige Seite: EXPERIMENTE   Inhalt

EIN EXPERIMENT MIT UNBEKANNTEN ZEITLICHEN VERZÖGERUNGEN

Bei diesem Experiment wurde das System mit einem kontinuierlichen Strom von Eingabeereignissen versorgt. $F$'s Aufgabe bestand darin, seinen einzelnen Ausgabeknoten genau dann anzuschalten, wenn das Ereignis `B' zum ersten Mal nach einem zu einem beliebigen vorherigen Zeitpunkt stattgefundenen Ereignis `A' auftrat. Zu allen anderen Zeitpunkten sollte der Ausgabeknoten ausgeschaltet bleiben. Dies entspricht im wesentlichen der in [150] durch ein rekurrentes Netz gelösten `flip-flop'-Aufgabe.

Eine Schwierigkeit besteht bei diesem Problem darin, daß zwischen korrelierten Ereignissen im Prinzip beliebig lange zeitliche Verzögerungen eintreten können. Eine weitere Schwierigkeit liegt in der Abwesenheit von Information über Traininingssequenzbegrenzungen. Die Aktivationen und Gewichte der beteiligten Netze wurden zu keinem Zeitpunkt rückgesetzt oder von neuem initialisiert. Von Ereignissen aus früheren Trainingssequenzen verursachte Aktivationen konnten somit im Prinzip destruktiven Einfluß auf die Verarbeitung späterer Sequenzen nehmen.

Sowohl $F$ als auch $S$ besaßen die Topologie eines Standard-Perzeptrons: $F$ verfügte über 3 Eingabeknoten für 3 mögliche Eingabeereignisse `A', `B', and `C', welche in lokaler Manier repräsentiert wurden: Der Eingabevektor $(1, 0, 0)^T$ stand für `A', $(0, 1, 0)^T$ stand für `B', $(0, 0, 1)^T$ stand für `C'. Zu einem gegebenen Zeitpunkt wurden die Eingabeknoten von $F$ durch einen zufällig ausgewählten Eingabevektor aktiviert. $F$'s Ausgabe war eindimensional. $S$ besaß 3 Eingabeknoten für die möglichen Ereignisse `A', `B', and `C'. Bei Verwendung von Architektur 1 verfügte $S$ weiterhin über 3 Ausgabeknoten, einen für jedes schnelle Gewicht in $W_F$. Bei Verwendung von Architektur 2 besaß $S$ 4 Ausgabeknoten, drei für $F$'s Eingabeknoten und einen für $F$'s Ausgabeknoten. Keines der Netze benötigte für die Aufgabe versteckte Knoten. Die Aktivierungsfunktion aller Ausgabeknoten war die Identitätsfunktion. Die Gewichtsmodifikationsfunktion (3.2) für die schnellen Gewichte war durch

\begin{displaymath}
\sigma(w_{ba}(t-1), \Box w_{ba}(t)) =
\frac{1}{
1 + e^{-T(w_{ba}(t-1)+ \Box w_{ba}(t) - \frac{1}{2})} }
\end{displaymath} (3.9)

gegeben (der Parameter $T$ bestimmt hier die maximale Steigung der logistischen Funktion, welche die schnellen Gewichte auf das Intervall zwischen 0 und 1 begrenzt).

$S$' `langsame' Gewichte wurden zufällig zwischen -0.1 und 0.1 initialisiert. Die Aufgabe galt als gelöst, falls für 100 aufeinanderfolgende Zeitschritte $F$'s Ausgabefehler den Wert 0.05 nicht überstieg. Wurden die schnellen Gewichte gemäß Architektur 1 und Gleichung (3.4) geändert, fand das System bei $T=10$ und $\eta =1.0$ innerhalb von 300 Zeitschritten eine Lösung. Änderten sich die schnellen Gewichte hingegen gemäß Architektur 2 und Gleichung (3.5) (dies bedeutete 4 Ausgabeknoten für $S$), benötigte das System bei $T=10$ und $\eta = 0.5$ 800 Zeitschritte zur Lösung des Problems.

Typischerweise besaßen die gefundenen Algorithmen folgende Eigenschaften: Der Auftritt eines `A'-Signals wurde von $S$ durch die Kreierung eines starken schnellen Gewichts für die von dem zu `B' gehörigen Eingabeknoten ausgehende Verbindung in $F$ beantwortet. Damit wurde das $F$-Netzwerk zu einem `B'-Detektor. Trat nun irgendwann das `B'-Signal auf, `reinitialisierte' $S$ das $F$-Netz, indem es das schnelle Gewicht auf der von dem zu `B' gehörigen Eingabeknoten ausgehenden Verbindung in $F$ wieder dramatisch schwächte. Dadurch wurde $F$ bis zur Beobachtung des nächsten `A's unempfindlich gegenüber weiteren `B'-Signalen.


next up previous contents
Nächste Seite: EXPERIMENTE ZUR TEMPORÄREN VARIABLENBINDUNG Aufwärts: EXPERIMENTE Vorherige Seite: EXPERIMENTE   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite