next up previous contents
Nächste Seite: Verschmelzen der drei Netze Aufwärts: Multidimensionale adaptive Kritiker Vorherige Seite: Multidimensionale adaptive Kritiker   Inhalt

Drei interagierende Netzwerke

Wie kann man aus einem sowieso schon recht informierten internen vektorwertigen R-Signal des Kritikers ein noch informierteres machen?

Eine Antwort liefert das vorangehende 5. Kapitel: Wir verwenden ein drittes Netzwerk $M$, um Differenzen aufeinanderfolgender Vorhersagen des Kritikers (identisch mit den jeweiligen internen Reinforcementvektoren) in Abhängigkeit von aufeinanderfolgenden Netzwerkzuständen von $C$ zu modellieren. Um den Systemidentifikationsansatz vernünftig ins Spiel zu brigen, muß aber der Alles-oder-Nichts-Charakter von $C$'s stochastischer Aktivierungsfunktionen verschwinden (wir brauchen eine kontinuierliche differenzierbare Wahrscheinlichkeitsverteilung für die Ausgaben von $C$). Zu diesem Zweck definieren wir für jeden Knoten $i$ eine neue Aktivierungsfunktion:


\begin{displaymath}x_i(t) = f(\sum_j w_{ij}(t-1) x_i(t-1) + noise(t)). \end{displaymath}

Gehorcht $noise(t)$ z.B. einer Gauß-Verteilung (oder einer anderen differenzierbaren Verteilung), so kann man Williams' Konzept der `Fehlerpropagierung durch Zufallsgeneratoren' anwenden [77]. Dem Systemidentifikationsansatz folgend propagiert man zu jedem Zeitpunkt die Differenz zwischen tatsächlichem und gewünschtem internen Reinforcementvektor durch $C$'s Ausgabeknoten zurück `in die Vergangenheit'. Zu diesem Zweck muß $C$ sich gerade so viele vergangene Aktivationen pro Knoten merken, wie die Fehlerrückpropagierungsphase Schritte umfaßt (typischerweise also nur eine Aktivation pro Knoten.) Nur $C$'s Gewichte ändern sich während der Fehlerpropagierung, $M$'s Gewichte bleiben fix.


next up previous contents
Nächste Seite: Verschmelzen der drei Netze Aufwärts: Multidimensionale adaptive Kritiker Vorherige Seite: Multidimensionale adaptive Kritiker   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite