Robinson wendet sich als erster dem Problem des parallelen Lernens von und zu. Um aus zwei Netzwerken eines zu machen, addiert er 's und 's Fehlerterme. Dabei nimmt er in Kauf, daß die Fehlersignale für beide Netzwerke weniger Information tragen: Fehlersignale für das Steuernetz werden mit solchen für das Modellnetz gemixt, und umgekehrt. In den Experimenten seiner Ph.D. Arbeit [39] wendet Robinson sein Verfahren mit mäßigem Erfolg auf ein einfaches Brettspiel (`Tic-Tac-Toe') an. Dabei benutzt er das `unfolding in time'-Prinzip, welches bekanntermaßen zu einem Algorithmus führt, der nicht lokal in der Zeit ist.
Man beachte, daß für komplexe (nicht Markov-mäßige) Umgebungen auch das Robinsonsche Modellnetzwerk nicht hinreichend ist. In Kapitel 5 werden wir die Arbeiten von Munro, Widrow, Jordan, Robinson und Fallside auf den allgemeinen Fall erweitern. Das resultierende Verfahren wird auf Umgebungen anwendbar sein, die nicht vom Markov-Typ sind, es wird lokal in der Zeit sein, es wird ausschließlich auf reinforcementartige Lerninformation (gewonnen aus einer beliebigen Zahl von `Schmerzzellen' und `Lustzellen') angewiesen sein, und es wird ein Modell aller durch die externe Dynamik verursachten Eingaben konstruieren, um damit vollständiges `credit-assignment' in die Vergangenheit zu gewährleisten.