next up previous contents
Nächste Seite: EXPERIMENTE Aufwärts: VORHERSAGBARKEITSMINIMIERUNG Vorherige Seite: LOKALE BEDINGTE VARIANZMAXIMIERUNG   Inhalt

`NEURONALE' IMPLEMENTIERUNG

In praktischen Anwendungen ist die Annahme, daß der Erwartungswert der Fehler aller $P_i$ stets minmal ist, unplausibel. Nach jeder Modifikation der Repräsentationsmodule müssen die $P_i$ für geraume Zeit trainiert werden, um sich der neuen Situation anzupassen.

Das möglicherweise vorhandene Autoassoziationsmodul sowie jedes der $n$ Prediktonsmodule und der $n$ Repräsentationsmodule läßt sich als azyklisches BP-Netzwerk implementieren. Zum Training sind zwei alternierende Phasen vonnöten:



PHASE 1 (Minimierung der Prediktionsfehler):

Wiederhole für eine `hinreichende' Anzahl von `Trainingsepochen':

1. Für alle $p$:

1.1. Berechne alle $y^p_i$.

1.2. Berechne alle $P^p_i$.

1.3. Berechne für alle Gewichte $w$ in $P_i$ mittels BP den Wert

\begin{displaymath}
\frac{\partial (P^p_i - y^p_i)^2} {\partial w}.
\end{displaymath}

2. Ändere alle Gewichte $w$ jedes Prediktors $P_i$ gemäß

\begin{displaymath}
\triangle w = - \eta_P \frac{1}{2}\sum_p
\frac{\partial (P^p_i - y^p_i)^2} {\partial w},
\end{displaymath}

wobei $\eta_P$ die positive Lernrate der Prediktormodule bezeichnet.



PHASE 2:

1. Für alle $p$:

1.1. Berechne alle $y^p_i$.

1.2. Berechne alle $P^p_i$.

1.3. Falls ein Autoassoziator verwendet wird, berechne $z^p$.

$\textstyle \parbox{11cm}{
2. \uml {A}ndere alle Gewichte $v$\ jedes Repr\uml {...
...\partial y^p_i} T(x^p)
\frac{\partial y^p_i} {\partial v}.
\end{displaymath}}$

Die Gewichte der $P_i$ ändern sich also während der zweiten Phase nicht, finden jedoch trotzdem Verwendung, um Gradienten für die Gewichte der Repräsentationsmodule zu berechnen. Fehlersignale für die letzteren werden demgemäß mittels Fehlerpropagierung durch die Eingabeknoten der Prediktoren (welche ja gleichzeitig Ausgabeknoten der Repräsentationsmodule sind) gewonnen. Dies erinnert an die Art und Weise, in der in Kapitel 4 (allerdings in höchst unterschiedlichem Kontext) differenzierbare adaptive `Weltmodelle' zur Berechnung von Gradienten für das eigentlich interessierende `Steuernetzwerk' verwendet werden. Auch der Subzielgenerator desselben Kapitels bedient sich eines vergleichbaren Tricks.

Es sollte erwähnt werden, daß einige oder auch alle der Repräsentationsmodule sich versteckte Knoten teilen dürfen. Dasselbe gilt für die Prediktionsmodule. Prediktoren mit gemeinsamen versteckten Knoten müssen ihre Ausgaben allerdings sequentiell berechnen - kein Repräsentationsknoten darf dazu verwendet werden, seine eigene Aktivität vorherzusagen.

Obiger Algorithmus stellt eine `off-line'-Version dar. Gewichte ändern sich erst nach Präsentation des gesamten Eingabemusterensembles; den Prediktoren wird stets eine `hinreichende' Anzahl von Trainingsbeispielen angeboten, um mit den Repräsentationsmodulen Schritt zu halten. Die `off-line'-Version ist möglicherweise weniger attraktiv als eine `on-line'-Version, bei der (1) Eingabemuster zufällig angeboten werden, (2) Gewichtsänderungen sofort nach jeder Musterpräsentation stattfinden, und (3) Prediktoren und Repräsentationsmodule weitgehend simultan lernen. Bei solch einer `on-line'-Version führen allerdings sowohl die Prediktoren als auch die Repräsentationsmodule Gradientenabstieg in sich ändernden Funktionen durch. Wieviel derartige `on-line'-Interaktion gestattet werden darf, bleibt experimentellen Auswertungen überlassen. Bei den im nächsten Abschnitt zu berichtenden Experimenten verursachte die `on-line'-Version keine größeren Schwierigkeiten.

[104] betrachtet auch den Fall stochastischer Repräsentationsknoten, der uns jedoch im Rahmen dieser Arbeit nicht weiter interessieren soll.


next up previous contents
Nächste Seite: EXPERIMENTE Aufwärts: VORHERSAGBARKEITSMINIMIERUNG Vorherige Seite: LOKALE BEDINGTE VARIANZMAXIMIERUNG   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite