next up previous contents
Nächste Seite: Modellbildende Verfahren Aufwärts: Neuronale Ansätze Vorherige Seite: Keine Rückkopplung   Inhalt

Interne Rückkopplung

Durch Minskys und Paperts in Kapitel 2 beschriebenes Prinzip des `unfolding in time' lassen sich REINFORCE-Algorithmen auf zyklische Netzwerke ohne externe Rückkopplung erweitern. Reinforcement $r(t)$ kann dabei zu verschiedenen Zeitpunkten eines Trainingsintervalls vergeben werden. Die Lernregel für den erweiterten Fall definiert in leichter Abwandlung des azyklischen Falles für jedes Gewicht $w_{ij}$ eine Gewichtsänderung $\triangle w_{ij}$:


\begin{displaymath}
\triangle w_{ij} = \alpha_{ij} (\sum_t r(t) - b_{ij}) \sum_t e_{ij}(t)
\end{displaymath}

mit


\begin{displaymath}
e_{ij} (t) := \frac{\partial ln~P\{ y_i (t) = \xi \mid w_i, x^i (t-1) \} }
{\partial w_{ij}} ,
\end{displaymath}

wobei $y_i (t)$ die Aktivation und $x^i (t)$ den Eingabevektor von $i$ abhängig vom Zeitpunkt $t$ darstellt, und $t$ über alle Zeitpunkte außer dem ersten des Trainingsintervalls rangiert.

Das zentrale Theorem besagt nun, daß das innere Produkt


\begin{displaymath}
\frac{\partial E\{ \sum_{t}r(t) \mid w \} }{\partial w}
E\{ \triangle w \mid w \}
\end{displaymath}

positiv ist, solange der zweite Faktor nicht Null ist.

Damit haben wir den bisher allgemeinsten Lernalgorithmus für neuronale Netze kennengelernt. Er ist (wenigstens im Prinzip) tauglich für Reinforcement-Lernen mit interner Rückkopplung. Auch diese erweiterten REINFORCE-Algorithmen können schwach lokal in Raum und Zeit implementiert werden. Die starke Lokalität ist jedoch nicht gegeben, da wieder eine externe Instanz über die Trennung zwischen Aktivationsausbreitung und Gewichtsänderung wachen muß.

Wir betonen hier noch einmal, daß Williams' Resultate nicht den allgemeineren Fall der externen Rückkopplung mit einbeziehen.


next up previous contents
Nächste Seite: Modellbildende Verfahren Aufwärts: Neuronale Ansätze Vorherige Seite: Keine Rückkopplung   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite