next up previous contents
Nächste Seite: Adaptive Kritiker Aufwärts: Der Systemidentifikationsansatz Vorherige Seite: Zusätzliche Beschränkungen für Ausgabeknoten   Inhalt

Eingeschränkte externe und interne Rückkopplung.

Robinson und Fallside haben Munros Ansatz zum R-Lernen wesentlich erweitert [41][39]. Sowohl das Modellnetzwerk $M$ als auch das Steuernetzwerk $C$ können im Prinzip voll rückgekoppelt sein. Das Modellnetzwerk sagt zu einem gegebenen Zeitpunkt $t$ in seiner eindimensionalen Ausgabe das Reinforcement zum jeweils nächsten Zeitpunkt $t+1$ voraus. Durch $M$'s Rekurrenz können die Voraussagen auf allen vergangenen Ein- und Ausgaben des ebenfalls rekurrenten Steuernetzwerkes basieren.

Robinson wendet sich als erster dem Problem des parallelen Lernens von $C$ und $M$ zu. Um aus zwei Netzwerken eines zu machen, addiert er $M$'s und $C$'s Fehlerterme. Dabei nimmt er in Kauf, daß die Fehlersignale für beide Netzwerke weniger Information tragen: Fehlersignale für das Steuernetz werden mit solchen für das Modellnetz gemixt, und umgekehrt. In den Experimenten seiner Ph.D. Arbeit [39] wendet Robinson sein Verfahren mit mäßigem Erfolg auf ein einfaches Brettspiel (`Tic-Tac-Toe') an. Dabei benutzt er das `unfolding in time'-Prinzip, welches bekanntermaßen zu einem Algorithmus führt, der nicht lokal in der Zeit ist.

Man beachte, daß für komplexe (nicht Markov-mäßige) Umgebungen auch das Robinsonsche Modellnetzwerk nicht hinreichend ist. In Kapitel 5 werden wir die Arbeiten von Munro, Widrow, Jordan, Robinson und Fallside auf den allgemeinen Fall erweitern. Das resultierende Verfahren wird auf Umgebungen anwendbar sein, die nicht vom Markov-Typ sind, es wird lokal in der Zeit sein, es wird ausschließlich auf reinforcementartige Lerninformation (gewonnen aus einer beliebigen Zahl von `Schmerzzellen' und `Lustzellen') angewiesen sein, und es wird ein Modell aller durch die externe Dynamik verursachten Eingaben konstruieren, um damit vollständiges `credit-assignment' in die Vergangenheit zu gewährleisten.


next up previous contents
Nächste Seite: Adaptive Kritiker Aufwärts: Der Systemidentifikationsansatz Vorherige Seite: Zusätzliche Beschränkungen für Ausgabeknoten   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite