next up previous contents
Nächste Seite: EXPERIMENTE Aufwärts: WELTMODELLBAUER Vorherige Seite: ARCHITEKTUR   Inhalt

ALGORITHMUS

Durch Präsentation von Kombinationen möglicher Zustands- und Aktionsvektoren sowie durch Beobachtung der entsprechenden Umgebungseffekte wird zunächst $M$ durch konventionelles BP (siehe Kapitel 1) adjustiert. Nach jeder Präsentation des Trainingsensembles ändert sich dabei jedes Gewicht $w_{ij}$ in $M$ gemäß
\begin{displaymath}
\triangle w_{ij} \sim -\frac{\partial E_M}{\partial w_{ij}}.
\end{displaymath} (4.3)

Nach Abschluß von $M$'s Trainingsphase werden $M$'s Gewichte `eingefroren'. $M$ dient ab jetzt als starre Approximation von $eval$ zur Berechnung von Fehlergradienten für $C$. Jedes Gewicht $w_{ij}$ in $C$ wird nun gemäß
\begin{displaymath}
\triangle w_{ij} \sim
-\frac{\partial \sum_p \frac{1}{2} \s...
...i - d^p_i)^2 }
{\partial w_{ij}}
=
-\sum_p \delta^p_i c^p_j
\end{displaymath} (4.4)

geändert, wobei

\begin{displaymath}
\delta^p_i = -
\frac{\partial \frac{1}{2} \sum_i (y^{p,p}_i - d^p_i)^2 }
{\partial net^p_i}
\end{displaymath}

gilt. Zu diesem Zweck berechnen wir für alle $p$ zunächst durch konventionelles BP in $M$ die Werte
\begin{displaymath}
\kappa^p_i = -
\frac{\partial \frac{1}{2} \sum_i (y^{p,p}_i - d^p_i)^2 }
{\partial a^p_i}.
\end{displaymath} (4.5)

Falls $i$ einen Ausgabeknoten von $C$ bezeichnet, so ist

\begin{displaymath}
\delta_i^p = f_i'(net^p_i) \kappa^p_i
\end{displaymath}

Steht $i$ hingegen für einen versteckten Knoten der $r$-ten Lage von $C$, so gilt

\begin{displaymath}
\delta_i^p = f_i'(net^p_i) \sum_{l \in~Lagen~ > r} w_{li} \delta^p_l.
\end{displaymath}

Erweiterung auf dynamische Umgebungen. Sind sowohl $M$ als auch $C$ rekurrent, lassen sich alle drei in Kapitel 2 vorgestellten Algorithmen auf $M$ bzw. auf die ebenfalls rekurrente Kombination von $M$ und $C$ anwenden. Derartige Erweiterungen obigen Prinzips auf zyklische Netzwerke in nichtstationären Umgebungen mit externer Rückkopplung4.2 wurden in [96], [98], und [94] beschrieben.



Unterabschnitte
next up previous contents
Nächste Seite: EXPERIMENTE Aufwärts: WELTMODELLBAUER Vorherige Seite: ARCHITEKTUR   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite