Robinson wendet sich als erster dem Problem des parallelen
Lernens von und
zu. Um aus zwei Netzwerken eines
zu machen, addiert er
's und
's Fehlerterme. Dabei nimmt
er in Kauf, daß die Fehlersignale für beide Netzwerke
weniger Information tragen: Fehlersignale für das Steuernetz
werden mit solchen für das Modellnetz gemixt, und umgekehrt.
In den Experimenten seiner Ph.D. Arbeit [39]
wendet Robinson sein Verfahren mit mäßigem Erfolg auf
ein einfaches Brettspiel (`Tic-Tac-Toe') an. Dabei benutzt er
das `unfolding in time'-Prinzip, welches bekanntermaßen
zu einem Algorithmus führt, der nicht lokal in der Zeit ist.
Man beachte, daß für komplexe (nicht Markov-mäßige) Umgebungen auch das Robinsonsche Modellnetzwerk nicht hinreichend ist. In Kapitel 5 werden wir die Arbeiten von Munro, Widrow, Jordan, Robinson und Fallside auf den allgemeinen Fall erweitern. Das resultierende Verfahren wird auf Umgebungen anwendbar sein, die nicht vom Markov-Typ sind, es wird lokal in der Zeit sein, es wird ausschließlich auf reinforcementartige Lerninformation (gewonnen aus einer beliebigen Zahl von `Schmerzzellen' und `Lustzellen') angewiesen sein, und es wird ein Modell aller durch die externe Dynamik verursachten Eingaben konstruieren, um damit vollständiges `credit-assignment' in die Vergangenheit zu gewährleisten.