next up previous contents
Nächste Seite: Mögliche Erweiterung für kontinuierliche Aufwärts: Der grundlegende Algorithmus Vorherige Seite: Intuitive Erklärung   Inhalt

Gleichungen für diskrete Zeit

Zur Zeit $t$ bezeichnen wir die Aktivation des $j$-ten Knotens mit $x_{j}(t)$, das Gewicht der gerichteten Verbindung von $i$ nach $j$ mit $w_{ij}(t)$ und ihren Beitrag mit $c_{ij}(t)=x_{i}(t-1)w_{ij}(t-1)$.

Die Aktivationsausbreitungsregel lautet:

Knoten $j$ wird zur Zeit $t$ aktiviert, falls er als Eingabeknoten eine sensorische Perzeption macht, oder falls er als Nicht-Eingabeknoten den lokalen Wettbewerb seiner WTA-Einheit gewinnt, weil ihm unter allen Mitbewerbern die größte positive Netzeingabe $net_{j}(t)=\sum_{i}c_{ij}(t)$ zu eigen ist. Wir beschränken uns hier auf den einfachsten Fall: $x_{j}(t)$ ist gleich $1$, falls $j$ aktiv ist, und $0$ sonst.

Die Gewichtsänderungsregel findet simultan mit der Aktivationsausbreitungsregel ihre Anwendung (wir wollen ja Lokalität nicht nur im Raum, sondern auch in der Zeit):

Ist der Nicht-Eingabeknoten $j$ aktiv, ändern sich die Gewichte gemäß


\begin{displaymath}
\Delta w_{ij}(t) =
- \alpha c_{ij}(t) +
\frac{c_{ij}(t-1)}...
...c_{ij}(t-1)}
\sum_{k \, wins}\alpha c_{jk}(t)
+ Ext_{ij}(t)
\end{displaymath}

Dabei ist $0<\alpha <1$ eine positive Lernrate. $Ext_{ij}(t)$ ist die zum Zeitpunkt $t$ vom externen Kritiker an $w_{ij}$ spendierte Gewichtssubstanz, welche z.B wie folgt berechnet werden kann: Falls der Kritiker (noch) nicht weiß, ob das Systemverhalten belohnenswert war, ist $ Ext_{ij}(t) = 0 $. Ist der Kritiker aber der Ansicht, daß Belohnung vergeben werden sollte, und war der Knoten $j$ zur Zeit $t$ aktiv, so ist $ Ext_{ij}(t) = \eta c_{ij}(t) $. Dabei ist $\eta$ ein positiver Proportionalitätsfaktor.

Im Abschnitt über die Experimente mit der neuronalen Eimerkette werden wir sehen, daß es viel Raum für mehr oder weniger überwachte Strategien gibt, das System durch die Bestimmung von $Ext_{ij}(t)$ mit Lehrinformation zu versorgen: Es ist ohne weiteres möglich, jeden Knoten zu jedem Zeitpunkt oder aber auch nur einige wenige Knoten zu isolierten Zeitpunkten von externer Seite her zu instruieren.

Dank der zeitlich veränderlichen Umgebung sind es im allgemeinen nicht die Aktivationen (wie bei Hopfield-Netzen oder bei Equilibriums-BP), sondern höchstens die Gewichte, die einen Zustand des dynamischen Gleichgewichts erreichen können. Ein stabiler Zustand stellt sich ein, wenn jede Verbindung zu jedem Zeitpunkt gerade soviel Gewichtssubstanz verliert, wie sie im nächsten Zeitschritt wieder gewinnt. Das bedeutet, daß (parallel laufende) bereits etablierte `Eimerketten' sequentielle Kooperation und Arbeitsteilung hervorrufen.

Der lokale Charakter aller für die neuronale Eimerkette notwendigen Berechnungen sei hier noch einmal betont. Es gibt keinen Bedarf nach extern definierten Trainingsintervallgrenzen. Es ist nicht notwendig, über weit vergangene Aktivationen Buch zu führen. Es wird nicht einmal eine kumulative Berechnung (etwa von exponentiell gewichteten Summen vergangener Aktivationen) gefordert. Jeder Knoten und jede Verbindung führen zu jedem Zeitpunkt im wesentlichen dieselben Berechnungen aus. Für beliebige Netzwerkstrukturen ist damit der Spitzenberechnungsaufwand pro Verbindung und Zeitschritt $O(1)$. Auf einer sequentiellen v. Neumann Maschine kann das Verfahren mit einem Spitzenberechnungsaufwand pro Zeitschritt von $O(dim(w))$ implementiert werden, wobei $dim(w)$ die Dimension des Gesamtgewichtsvektors $w$ ist.


next up previous contents
Nächste Seite: Mögliche Erweiterung für kontinuierliche Aufwärts: Der grundlegende Algorithmus Vorherige Seite: Intuitive Erklärung   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite