next up previous contents
Nächste Seite: Nur externe Rückkopplung Aufwärts: Der Systemidentifikationsansatz Vorherige Seite: Der Systemidentifikationsansatz   Inhalt

Keine Rückkopplung

1. Als einer der ersten hat Munro das Systemidentifikationsprinzip im Kontext Reinforcement-lernender azyklischer Netze beschrieben [31]. Munro verwendet ein BP-Netzwerk $C$ mit Gewichtsvektor $W_{C}$ , um für gegebene Eingabemuster Ausgaben zu produzieren. Im Kontrast zum normalen BP sind die gewünschten Ausgaben jedoch nicht bekannt, die einzige Information über die Güte der Ausgabe wird (wie beim Reinforcement-Lernen eben üblich) durch einen evaluativen Kritiker gegeben, der nur einen skalaren Wert $ r \in [ 0 \ldots 1 ] $ zur Verfügung stellt. Das Ziel des Hauptnetzwerkes ist, für jedes Eingabemuster dasjenige Ausgabemuster zu produzieren, welches $r$ maximiert. Um nun die unbekannte `Lücke' zwischen Netzwerkausgaben und korrespondierender externer Bewertung zu schließen, trainiert Munro ein zweites Netzwerk $M$ (eben das Modellnetzwerk) mit Gewichtsvektor $W_M$ darauf, für gegebene Ein- und Ausgaben von $C$ das entsprechende Reinforcement vorherzusagen. Die Dimension von $M$'s Eingabevektor ist also stets gleich der Summe der Dimensionen der Ein- und Ausgabevektoren von $C$. $M$'s Ausgabelage ist $1$-dimensional.

Das Modellnetzwerk wird in einer ersten Phase anhand zufällig ausgewählter Kombinationen von Ein- und Ausgaben des Hauptnetzwerkes und der von dem externen Kritiker gelieferten zugehörigen Reinforcementsignale trainiert. Das BP-Verfahren dient dabei zur Berechnung von


\begin{displaymath}
\frac{\partial (r_p - x_p)}{\partial W_M}
\end{displaymath}

für alle Eingabekombinationen $ p $ mit zugehörigen Bewertungen $r_p$ und Modellausgaben $x_p$.

Sagt das Modellnetzwerk stets gut genug voraus, so werden seine Gewichte eingefroren und ändern sich von nun an nicht mehr. Nun findet der zweite Teil der Lernphase statt: Aus dem Modellnetzwerk und dem (noch untrainierten) Hauptnetzwerk wird (im wesentlichen durch Konkatenation) ein größeres Netzwerk $G$ bestehend aus den beiden Teilen $C$ und $M$ konstruiert: $M$ erhält seine Eingaben nun direkt von $C$'s Ein- und Ausgabelagen.

Eingabemuster $k$ werden nun bei $G$'s Eingabelage (welche identisch ist mit $C$'s Eingabelage) angelegt und produzieren $G$'s skalare Ausgabe $x_k$. Der gewünschte Wert für $x_k$ ist immer $1$. Die entsprechenden Fehlersignale werden nun durch $G$ nach hinten propagiert, sie durchlaufen dabei zuerst $M$ und dann $C$. Anschließend ändern sich ausschließlich $C$'s Gewichte. Das BP-Verfahren dient dabei also im wesentlichen zur Berechnung von


\begin{displaymath}
\frac{\partial (r_k - x_k)}{\partial W_C}
\end{displaymath}

unter der Bedingung $W_M$. So wird das Modellnetzwerk seiner Bezeichnung gerecht.


next up previous contents
Nächste Seite: Nur externe Rückkopplung Aufwärts: Der Systemidentifikationsansatz Vorherige Seite: Der Systemidentifikationsansatz   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite