next up previous contents
Nächste Seite: ALGORITHMUS Aufwärts: WELTMODELLBAUER Vorherige Seite: ZWEI PERFORMANZMASSE   Inhalt

ARCHITEKTUR

Das Steuernetzwerk $C$ sei (zur vereinfachten Darstellung des Prinzips) ein konventionelles azyklisches BP-Netzwerk. Alle Knoten in $C$ seien durchnumeriert, die Aktivation des $k$-ten Knotens in Antwort auf den $p$-ten an der Eingabelage anliegenden Eingabevektor $x^p$ sei mit $c^p_k$ bezeichnet, wobei $c^p_i = x^p_i$, falls $i$ Eingabeknoten ist. In der $r$-ten Lage von $C$ ($r>1$) berechnet sich $c^p_k$ wie folgt:

\begin{displaymath}
net^p_k = \sum_{l \in ~Lagen~ < r} w_{kl}c^p_l, ~~
c^p_k = f_k(net^p_k),
\end{displaymath} (4.1)

wobei $w_{kl}$ das Gewicht der gerichteten Verbindung vom Knoten $l$ zum Knoten $k$ darstellt, und $f_k$ wieder für eine differenzierbare Aktivierungsfunktion steht. Der Ausgabevektor der obersten Lage heiße $a^p$.

Das Weltmodellnetzwerk $M$ sei ebenfalls als azyklisches BP-Netzwerk implementiert. $M$'s Eingabe ist die Konkatenation $x^p \circ a^s$ der Vektoren $x^p$ und $a^s$. Für $M$'s Trainingsphase wird i.a. $p \neq s$ gelten, für $C$'s Trainingsphase hingegen stets $p = s$. Die Aktivation des $k$-ten Knotens von $M$ in Antwort auf $x^p \circ a^s$ wird mit $m^{p,s}_k$ bezeichnet, wobei $m^{p,s}_i$ gleich der $i$-ten Komponente von $x^p \circ a^s$ ist, falls $i$ Eingabeknoten ist. In der $r$-ten Lage von $M$ ($r>1$) berechnet sich $m^{p,s}_k$ analog zur Aktivationsausbreitung in $C$ wie folgt:

\begin{displaymath}
net^{p,s}_k = \sum_{l \in ~Lagen~ < r} w_{kl}m^{p,s}_l, ~~
m^{p,s}_k = f_k(net^{p,s}_k).
\end{displaymath} (4.2)

Siehe hierzu Abbildung 4.1.

Abbildung: Ein Steuernetz reagiert auf den Umgebungszustand mit einem Steuersignal für einen externen Prozeß. Die Abbildung von Kombinationen von Zuständen und Aktionen auf Effekte in der Umgebung wird durch ein zweites adaptives `Modellnetzwerk' modelliert. Letzteres dient auch zur Gradientenberechnung für das Steuernetz.
\begin{figure}\psfig{figure=fig4.1} \end{figure}


next up previous contents
Nächste Seite: ALGORITHMUS Aufwärts: WELTMODELLBAUER Vorherige Seite: ZWEI PERFORMANZMASSE   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite