Widrow, der sich vor allem mit adaptiver Regelung beschäftigt, hat einen ganz analogen Ansatz vorgeschlagen. Ein nicht sehr wesentlicher Unterschied zu Munros Verfahren besteht darin, daß die zu modellierende Umwelteigenschaft mehrdimensional sein kann. Typische Beispiele für mehrdimensionale Umwelteigenschaften sind beispielsweise durch Zustandsvariablen eines physikalischen Prozesses gegeben.
Ein wesentlicher Unterschied zwischen Widrows
Arbeiten und dem Ansatz von Munro besteht in der Möglichkeit der
externen (nicht aber der internen) Rückkopplung [34].
Der Grundansatz ist der folgende: Ein azyklisches Modellnetzwerk wird
mit Hilfe von zufällig ausgewählten Trainingsbeispielen und BP darauf
trainiert, aus Ein- und Ausgaben eines den gesamten
Umgebungszustand wahrnehmenden Steuernetzwerkes
Voraussagen über
's Eingaben zum nächsten Zeitpunkt zu
machen. Damit modelliert
also abhängig vom Umgebungskontext
die Effekte möglicher Aktionen von
. Das funktioniert
natürlich nur dann richtig, wenn der wahrnehmbare
Zustand der Umgebung zum Zeitpunkt
nicht von Zeitpunkten
abhängt, wenn also die sichtbare Umgebung der Markov-Eigenschaft
genügt.
Nach dieser ersten Lernphase werden 's Gewichte eingefroren
wie gehabt, und die Lernphase für das ebenfalls
azyklische Steuernetzwerk
beginnt.
Zwar wird
nie in der Lage sein, anders als in statischer
Weise auf bestimmte Eingaben zu reagieren. Damit ist die von
implementierbare Dynamik von der trivialen Art.
In Markov-Umgebungen kann die Kombination von
und
jedoch zur Lösung ziemlich schwieriger zeitlicher
`credit-assignment'-Probleme eingesetzt werden.
Mit Hilfe des `unfolding in time'-Prinzips kann das rekurrente
Netzwerk
, das durch Identifizierung von
's Ausgabelage
mit
's Eingabelage und der Identifizierung von
's Ausgabelage mit
's Eingabelage entsteht, dazu veranlaßt werden,
zielgerichtete Trajektorien im Ausgaberaum von
zu erzeugen.
Damit entfällt der Lehrer, der zu verschiedenen Zeitpunkten
anzeigt, welche Ausgabeaktion die externe Umgebung manipulieren
soll. Die zu lernenden Trajektorien brauchen nicht vordefiniert
zu sein, lediglich
gewünschte Zielzustände z.B. am Ende einer Trajektorie müssen
bekannt sein.