next up previous contents
Nächste Seite: EXPERIMENTE ZUR HINDERNISVERMEIDUNG Aufwärts: ADAPTIVE SUBZIELGENERIERUNG Vorherige Seite: PERFORMANZMASS   Inhalt

DIE ALGORITHMEN

Die Summe der Gradienten für verschiedene Probleme $p$ ist gleich dem Gradienten der Summe. Daher genügen uns für die verschiedenen Architekturen Methoden zur Berechnung von

\begin{displaymath}
\triangle W_S^T = \eta_S \frac{\partial \sum_{k=1}^{n+1} \frac{1}{2}
eval^2(s^p(k-1),s^p(k))}
{\partial W_S} =
\end{displaymath}


\begin{displaymath}
= \eta_S \sum_{k=1}^{n+1}
eval(s^p(k-1),s^p(k))
\left( \...
...frac{\partial e(s^p(k-1),s^p(k))}{\partial s_p(k-1)} \right)^T
\end{displaymath} (4.9)

wobei $\eta_S$ die Lernrate von $S$, $W_S$ seinen Gewichtsvektor, und $\triangle W_S$ des Gewichtsvektors Inkrement bezeichnet. (Beachte: $ \left( \frac{\partial s^p(k-1)}{\partial W_S} \right)^T $ stellt eine Jacobimatrix dar.)

Ist $E$ selbst ein BP-Netzwerk (wie z.B. in [106]), so verwenden wir nach Abschluß von $E$'s Trainingsphase konventionelles BP zur Berechnung von

\begin{displaymath}
\frac{\partial eval^2(s^p(k-1),s^p(k)) }
{\partial s^p_j(k)}
\end{displaymath} (4.10)

für alle $j$. $E$'s Gewichte bleiben dabei `eingefroren'. Andernfalls muß (4.10) eben analytisch berechnet werden (wir haben ja zu Beginn gefordert, daß $eval$ bezüglich aller Parameter differenzierbar ist).

Für Architektur 1 ist nun die Berechnung von (4.9) nicht mehr schwierig: Das Fehlersignal für $S$' $(k~dim(s^p) + l)$-ten Ausgabeknoten ( $k = 0 \ldots n-1$, $l = 1 \ldots dim(s^p)$) korrespondierend zur $(k~dim(s^p) + l)$-ten Komponente seines Ausgabevektors

\begin{displaymath}s^p(1) \circ s^p(2) \circ \ldots \circ s^p(n) \end{displaymath}

ist gerade gleich

\begin{displaymath}
\frac{1}{2}\left[
\frac{\partial eval^2(s^p(k),s^p(k+1)) }
...
...l eval^2(s^p(k+1),s^p(k+2)) }
{\partial s^p_l(k+1)}
\right].
\end{displaymath}

Alle Fehlersignale interner Knoten lassen sich nun gemäß den inzwischen geläufigen BP-Regeln (siehe Kapitel 1) bestimmen.

Architektur 2 fordert ein etwas komplexeres, von BPTT (siehe Kapitel 2) inspiriertes Verfahren. Falls $k$ ein Ausgabeknoten von $S$ und $t = n$ ist, so ist das Fehlersignal für $o^p_k(t)$ gleich

\begin{displaymath}
\delta^p_k(t) =
\frac{1}{2}\left[
\frac{\partial eval^2(s^...
...rtial eval^2(s^p(t),s^p(t+1)) }
{\partial s^p_k(t)}
\right].
\end{displaymath} (4.11)

Falls $k$ zwar ein Ausgabeknoten von $S$, aber $1 \leq t < n$ ist, so ergibt sich das Fehlersignal für $o^p_k(t)$ als
\begin{displaymath}
\delta^p_k(t) =
\frac{1}{2}\left[
\frac{\partial eval^2(s^...
...,s^p(t+1)) }
{\partial s^p_k(t)}
\right]
+
\kappa^p_k(t),
\end{displaymath} (4.12)

wobei sich
\begin{displaymath}
\kappa^p_k(t) =
\frac{\partial \sum_{i~in~Ausgabelage} \delta^p_i(t+1) }
{\partial s^p_k(t)}
\end{displaymath} (4.13)

mit BP für alle Eingabeknoten $k$ von $S$ berechnen läßt. Gleichzeitig erhält man durch diesen BP-Pass alle durch den Iterationsschritt $t$ verursachten Beiträge für $S$' Gewichtsänderungen, nämlich
\begin{displaymath}
\triangle^pw_{ij}(t) = -
\frac{\partial E^p}
{\partial w_{ij}(t)},
\end{displaymath} (4.14)

wobei $w_{ij}(t)$ analog zu Kapitel 2 das `virtuelle' Gewicht vom Knoten $j$ zum Knoten $i$ in der $t$-ten Kopie von $S$ ist. Die vom Problem $p$ verursachte Gesamtänderung eines Gewichts $w_{ij}$ ergibt sich nun zu
\begin{displaymath}
\triangle^pw_{ij} = - \eta_S \sum_t \triangle^pw_{ij}(t).
\end{displaymath} (4.15)

Analog zu BPTT braucht man auch bei obigem Verfahren nicht $n$ vollständige Kopien der beteiligten Netze anzulegen - es genügt, alle zu den verschiedenen Iterationsschritten auftretenden Aktivationen zu speichern.

Wie viele Subziele braucht man für welche Aufgaben? Die einfachste Antwort ist wohl die folgende: Versuche, eine gegebenen Aufgabe zunächst ohne Subziel zu lösen. Falls das nicht klappt, versuche es mit einem Subziel, dann mit zwei, etc. Eine mögliche Erweiterung dieses Versuch/Irrtum-Ansatzes bestünde darin, ein viertes Modul daraufhin zu trainieren, Start/Ziel-Kombinationen auf die minimale Anzahl der benötigten Subziele abzubilden.


next up previous contents
Nächste Seite: EXPERIMENTE ZUR HINDERNISVERMEIDUNG Aufwärts: ADAPTIVE SUBZIELGENERIERUNG Vorherige Seite: PERFORMANZMASS   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite