Widrow, der sich vor allem mit adaptiver Regelung beschäftigt, hat einen ganz analogen Ansatz vorgeschlagen. Ein nicht sehr wesentlicher Unterschied zu Munros Verfahren besteht darin, daß die zu modellierende Umwelteigenschaft mehrdimensional sein kann. Typische Beispiele für mehrdimensionale Umwelteigenschaften sind beispielsweise durch Zustandsvariablen eines physikalischen Prozesses gegeben.
Ein wesentlicher Unterschied zwischen Widrows Arbeiten und dem Ansatz von Munro besteht in der Möglichkeit der externen (nicht aber der internen) Rückkopplung [34]. Der Grundansatz ist der folgende: Ein azyklisches Modellnetzwerk wird mit Hilfe von zufällig ausgewählten Trainingsbeispielen und BP darauf trainiert, aus Ein- und Ausgaben eines den gesamten Umgebungszustand wahrnehmenden Steuernetzwerkes Voraussagen über 's Eingaben zum nächsten Zeitpunkt zu machen. Damit modelliert also abhängig vom Umgebungskontext die Effekte möglicher Aktionen von . Das funktioniert natürlich nur dann richtig, wenn der wahrnehmbare Zustand der Umgebung zum Zeitpunkt nicht von Zeitpunkten abhängt, wenn also die sichtbare Umgebung der Markov-Eigenschaft genügt.
Nach dieser ersten Lernphase werden 's Gewichte eingefroren wie gehabt, und die Lernphase für das ebenfalls azyklische Steuernetzwerk beginnt. Zwar wird nie in der Lage sein, anders als in statischer Weise auf bestimmte Eingaben zu reagieren. Damit ist die von implementierbare Dynamik von der trivialen Art. In Markov-Umgebungen kann die Kombination von und jedoch zur Lösung ziemlich schwieriger zeitlicher `credit-assignment'-Probleme eingesetzt werden. Mit Hilfe des `unfolding in time'-Prinzips kann das rekurrente Netzwerk , das durch Identifizierung von 's Ausgabelage mit 's Eingabelage und der Identifizierung von 's Ausgabelage mit 's Eingabelage entsteht, dazu veranlaßt werden, zielgerichtete Trajektorien im Ausgaberaum von zu erzeugen. Damit entfällt der Lehrer, der zu verschiedenen Zeitpunkten anzeigt, welche Ausgabeaktion die externe Umgebung manipulieren soll. Die zu lernenden Trajektorien brauchen nicht vordefiniert zu sein, lediglich gewünschte Zielzustände z.B. am Ende einer Trajektorie müssen bekannt sein.