next up previous contents
Nächste Seite: Generelle Lösungen für dynamische Aufwärts: Interne Rückkopplung: Dynamische Netzwerke Vorherige Seite: Interne Rückkopplung: Dynamische Netzwerke   Inhalt

Brauchbare Ad-Hoc Lösungen für dynamische Netze

Ein im eingeschränkten Sinne funktionstüchtiger Ansatz für das Lernen von Sequenzen wurde von Jordan beschrieben [20]. Bei Jordans Methode wird nicht wirklich die oben angegebene Fehlerfunktion minimiert. Vielmehr wird ein konventionelles azyklisches Back-Propagation-Netz mit einigen Zusatzeigenschaften versehen, die es ihm erlauben, bestimmte einfachere Arten `algorithmischer' zeitlicher Abhängigkeiten zu erlernen.

Die Eingabelage eines solchen Netzes ist zweigeteilt. Es existiert eine Menge $N$ von `normalen' Eingabeknoten, und eine Menge $Z$ von `Zustandsknoten'. $\mid Z \mid =
\mid O \mid $, wobei $O$ die Menge der Ausgabeknoten ist.

Zu Beginn werden die Knotenaktivationen von $Z$ mit $0$ initialisiert. Zu jedem Zeitpunkt $t$ wird $N$ mit einer externen Eingabe versehen, worauf in konventioneller Weise eine Aktivationsausbreitungsphase durch die `versteckten Knoten' bis hin zu den Ausgabeknoten stattfindet. Ausgehend von den an der Ausgabelage $O$ auftretenden Fehlern schließt sich in konventioneller Weise eine Fehlerausbreitungsphase zurück zur Eingabelage an. Zum Abschluß des Zeitschrittes ändern sich die Gewichte nach den Regeln des statischen Gradientenabstiegs.

Die Aktivationen für $Z$ zum Zeitpunkt $t+1$ berechnen sich nun wie folgt: Jeder Knoten $o \in O$ beeinflußt mit seiner Aktivation $o_{t}$ zum Zeitpunkt $t$ genau einen Knoten $z \in Z$, so daß dessen Aktivation $z_{t+1}$ zum nächsten Zeitschritt gegeben ist durch

\begin{displaymath}z_{t+1} = f(\gamma z_{t} + o_{t}). \end{displaymath}

Hierbei ist $f$ die sigmoide differenzierbare Aktivierungsfunktion, und $ 0 \leq \gamma \leq 1 $ eine Abschwächungsrate. Der Effekt der Prozedur ist, daß $Z$ Spuren vergangener Aktivationen der Ausgabeeinheiten in sich trägt. Durch den Beitrag des exponentiellen Schwunds von Aktivationen der Knoten aus $Z$ kann der Lernprozeß zumindest im Prinzip beliebig weit zurückliegende Ereignisse mit berücksichtigen.

Elman [8] beschrieb eine Modifikation des obigen Verfahrens. In seiner Version ist es nicht die Ausgabelage, sodern eine Lage mit `versteckten Knoten', die in analoger Weise zur Beeinflussung von $Z$ dient. Dadurch verschwindet die Abhängigkeit von den Ausgabeknoten (deren Aktivationen ja auch den externen Wünschen gehorchen sollen), man gewinnt etwas an Allgemeinheit.

Einige interessante Experimente wurden mit den in diesem Abschnitt beschriebenen (und verwandten) Methoden durchgeführt, darunter erfolgreiche Experimente zur Sequenzerkennung und zur Sequenzgenerierung (e.g. [8]).

Jordans und Elmans Algorithmen haben den Vorteil, daß sie zumindest eingeschränkt lokal in Raum und Zeit sind. Sie genügen jedoch nicht der starken Definition von Lokalität. Und sie sind weniger generell als die im nächsten Kapitel beschriebenen Algorithmen.


next up previous contents
Nächste Seite: Generelle Lösungen für dynamische Aufwärts: Interne Rückkopplung: Dynamische Netzwerke Vorherige Seite: Interne Rückkopplung: Dynamische Netzwerke   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite