next up previous contents
Nächste Seite: Zusätzliche Beschränkungen für Ausgabeknoten Aufwärts: Der Systemidentifikationsansatz Vorherige Seite: Keine Rückkopplung   Inhalt

Nur externe Rückkopplung

Widrow, der sich vor allem mit adaptiver Regelung beschäftigt, hat einen ganz analogen Ansatz vorgeschlagen. Ein nicht sehr wesentlicher Unterschied zu Munros Verfahren besteht darin, daß die zu modellierende Umwelteigenschaft mehrdimensional sein kann. Typische Beispiele für mehrdimensionale Umwelteigenschaften sind beispielsweise durch Zustandsvariablen eines physikalischen Prozesses gegeben.

Ein wesentlicher Unterschied zwischen Widrows Arbeiten und dem Ansatz von Munro besteht in der Möglichkeit der externen (nicht aber der internen) Rückkopplung [34]. Der Grundansatz ist der folgende: Ein azyklisches Modellnetzwerk $M$ wird mit Hilfe von zufällig ausgewählten Trainingsbeispielen und BP darauf trainiert, aus Ein- und Ausgaben eines den gesamten Umgebungszustand wahrnehmenden Steuernetzwerkes $C$ Voraussagen über $C$'s Eingaben zum nächsten Zeitpunkt zu machen. Damit modelliert $M$ also abhängig vom Umgebungskontext die Effekte möglicher Aktionen von $C$. Das funktioniert natürlich nur dann richtig, wenn der wahrnehmbare Zustand der Umgebung zum Zeitpunkt $t+1$ nicht von Zeitpunkten $s < t$ abhängt, wenn also die sichtbare Umgebung der Markov-Eigenschaft genügt.

Nach dieser ersten Lernphase werden $M$'s Gewichte eingefroren wie gehabt, und die Lernphase für das ebenfalls azyklische Steuernetzwerk $C$ beginnt. Zwar wird $C$ nie in der Lage sein, anders als in statischer Weise auf bestimmte Eingaben zu reagieren. Damit ist die von $C$ implementierbare Dynamik von der trivialen Art. In Markov-Umgebungen kann die Kombination von $C$ und $M$ jedoch zur Lösung ziemlich schwieriger zeitlicher `credit-assignment'-Probleme eingesetzt werden. Mit Hilfe des `unfolding in time'-Prinzips kann das rekurrente Netzwerk $G$, das durch Identifizierung von $M$'s Ausgabelage mit $C$'s Eingabelage und der Identifizierung von $C$'s Ausgabelage mit $M$'s Eingabelage entsteht, dazu veranlaßt werden, zielgerichtete Trajektorien im Ausgaberaum von $C$ zu erzeugen. Damit entfällt der Lehrer, der zu verschiedenen Zeitpunkten anzeigt, welche Ausgabeaktion die externe Umgebung manipulieren soll. Die zu lernenden Trajektorien brauchen nicht vordefiniert zu sein, lediglich gewünschte Zielzustände z.B. am Ende einer Trajektorie müssen bekannt sein.


next up previous contents
Nächste Seite: Zusätzliche Beschränkungen für Ausgabeknoten Aufwärts: Der Systemidentifikationsansatz Vorherige Seite: Keine Rückkopplung   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite