Eingeschränkte externe und interne Rückkopplung.

Nächste Seite: Adaptive Kritiker Aufwärts: Der Systemidentifikationsansatz Vorherige Seite: Zusätzliche Beschränkungen für Ausgabeknoten Inhalt

Eingeschränkte externe und interne Rückkopplung.

Robinson und Fallside haben Munros Ansatz zum R-Lernen wesentlich erweitert [41][39]. Sowohl das Modellnetzwerk

als auch das Steuernetzwerk

können im Prinzip voll rückgekoppelt sein. Das Modellnetzwerk sagt zu einem gegebenen Zeitpunkt

in seiner eindimensionalen Ausgabe das Reinforcement zum jeweils nächsten Zeitpunkt

voraus. Durch

's Rekurrenz können die Voraussagen auf allen vergangenen Ein- und Ausgaben des ebenfalls rekurrenten Steuernetzwerkes basieren.

Robinson wendet sich als erster dem Problem des parallelen Lernens von und zu. Um aus zwei Netzwerken eines zu machen, addiert er 's und 's Fehlerterme. Dabei nimmt er in Kauf, daß die Fehlersignale für beide Netzwerke weniger Information tragen: Fehlersignale für das Steuernetz werden mit solchen für das Modellnetz gemixt, und umgekehrt. In den Experimenten seiner Ph.D. Arbeit [39] wendet Robinson sein Verfahren mit mäßigem Erfolg auf ein einfaches Brettspiel (`Tic-Tac-Toe') an. Dabei benutzt er das `unfolding in time'-Prinzip, welches bekanntermaßen zu einem Algorithmus führt, der nicht lokal in der Zeit ist.

Man beachte, daß für komplexe (nicht Markov-mäßige) Umgebungen auch das Robinsonsche Modellnetzwerk nicht hinreichend ist. In Kapitel 5 werden wir die Arbeiten von Munro, Widrow, Jordan, Robinson und Fallside auf den allgemeinen Fall erweitern. Das resultierende Verfahren wird auf Umgebungen anwendbar sein, die nicht vom Markov-Typ sind, es wird lokal in der Zeit sein, es wird ausschließlich auf reinforcementartige Lerninformation (gewonnen aus einer beliebigen Zahl von `Schmerzzellen' und `Lustzellen') angewiesen sein, und es wird ein Modell aller durch die externe Dynamik verursachten Eingaben konstruieren, um damit vollständiges `credit-assignment' in die Vergangenheit zu gewährleisten.

Nächste Seite: Adaptive Kritiker Aufwärts: Der Systemidentifikationsansatz Vorherige Seite: Zusätzliche Beschränkungen für Ausgabeknoten Inhalt

Juergen Schmidhuber 2003-02-20