Interne Rückkopplung

Nächste Seite: Modellbildende Verfahren Aufwärts: Neuronale Ansätze Vorherige Seite: Keine Rückkopplung Inhalt

Interne Rückkopplung

Durch Minskys und Paperts in Kapitel 2 beschriebenes Prinzip des `unfolding in time' lassen sich REINFORCE-Algorithmen auf zyklische Netzwerke ohne externe Rückkopplung erweitern. Reinforcement

kann dabei zu verschiedenen Zeitpunkten eines Trainingsintervalls vergeben werden. Die Lernregel für den erweiterten Fall definiert in leichter Abwandlung des azyklischen Falles für jedes Gewicht $w_{ij}$ eine Gewichtsänderung $\triangle w_{ij}$ :

$\begin{displaymath} \triangle w_{ij} = \alpha_{ij} (\sum_t r(t) - b_{ij}) \sum_t e_{ij}(t) \end{displaymath}$

mit

$\begin{displaymath} e_{ij} (t) := \frac{\partial ln~P\{ y_i (t) = \xi \mid w_i, x^i (t-1) \} } {\partial w_{ij}} , \end{displaymath}$

wobei

die Aktivation und

den Eingabevektor von

abhängig vom Zeitpunkt

darstellt, und

über alle Zeitpunkte außer dem ersten des Trainingsintervalls rangiert.

Das zentrale Theorem besagt nun, daß das innere Produkt

$\begin{displaymath} \frac{\partial E\{ \sum_{t}r(t) \mid w \} }{\partial w} E\{ \triangle w \mid w \} \end{displaymath}$

positiv ist, solange der zweite Faktor nicht Null ist.

Damit haben wir den bisher allgemeinsten Lernalgorithmus für neuronale Netze kennengelernt. Er ist (wenigstens im Prinzip) tauglich für Reinforcement-Lernen mit interner Rückkopplung. Auch diese erweiterten REINFORCE-Algorithmen können schwach lokal in Raum und Zeit implementiert werden. Die starke Lokalität ist jedoch nicht gegeben, da wieder eine externe Instanz über die Trennung zwischen Aktivationsausbreitung und Gewichtsänderung wachen muß.

Wir betonen hier noch einmal, daß Williams' Resultate nicht den allgemeineren Fall der externen Rückkopplung mit einbeziehen.

Nächste Seite: Modellbildende Verfahren Aufwärts: Neuronale Ansätze Vorherige Seite: Keine Rückkopplung Inhalt

Juergen Schmidhuber 2003-02-20