Brauchbare Ad-Hoc Lösungen für dynamische Netze

Nächste Seite: Generelle Lösungen für dynamische Aufwärts: Interne Rückkopplung: Dynamische Netzwerke Vorherige Seite: Interne Rückkopplung: Dynamische Netzwerke Inhalt

Brauchbare Ad-Hoc Lösungen für dynamische Netze

Ein im eingeschränkten Sinne funktionstüchtiger Ansatz für das Lernen von Sequenzen wurde von Jordan beschrieben [20]. Bei Jordans Methode wird nicht wirklich die oben angegebene Fehlerfunktion minimiert. Vielmehr wird ein konventionelles azyklisches Back-Propagation-Netz mit einigen Zusatzeigenschaften versehen, die es ihm erlauben, bestimmte einfachere Arten `algorithmischer' zeitlicher Abhängigkeiten zu erlernen.

Die Eingabelage eines solchen Netzes ist zweigeteilt. Es existiert eine Menge von `normalen' Eingabeknoten, und eine Menge von `Zustandsknoten'. $\mid Z \mid = \mid O \mid$ , wobei die Menge der Ausgabeknoten ist.

Zu Beginn werden die Knotenaktivationen von mit initialisiert. Zu jedem Zeitpunkt wird mit einer externen Eingabe versehen, worauf in konventioneller Weise eine Aktivationsausbreitungsphase durch die `versteckten Knoten' bis hin zu den Ausgabeknoten stattfindet. Ausgehend von den an der Ausgabelage auftretenden Fehlern schließt sich in konventioneller Weise eine Fehlerausbreitungsphase zurück zur Eingabelage an. Zum Abschluß des Zeitschrittes ändern sich die Gewichte nach den Regeln des statischen Gradientenabstiegs.

Die Aktivationen für zum Zeitpunkt berechnen sich nun wie folgt: Jeder Knoten $o \in O$ beeinflußt mit seiner Aktivation $o_{t}$ zum Zeitpunkt genau einen Knoten $z \in Z$ , so daß dessen Aktivation $z_{t+1}$ zum nächsten Zeitschritt gegeben ist durch

$\begin{displaymath}z_{t+1} = f(\gamma z_{t} + o_{t}). \end{displaymath}$

Hierbei ist

die sigmoide differenzierbare Aktivierungsfunktion, und $0 \leq \gamma \leq 1$ eine Abschwächungsrate. Der Effekt der Prozedur ist, daß

Spuren vergangener Aktivationen der Ausgabeeinheiten in sich trägt. Durch den Beitrag des exponentiellen Schwunds von Aktivationen der Knoten aus

kann der Lernprozeß zumindest im Prinzip beliebig weit zurückliegende Ereignisse mit berücksichtigen.

Elman [8] beschrieb eine Modifikation des obigen Verfahrens. In seiner Version ist es nicht die Ausgabelage, sodern eine Lage mit `versteckten Knoten', die in analoger Weise zur Beeinflussung von dient. Dadurch verschwindet die Abhängigkeit von den Ausgabeknoten (deren Aktivationen ja auch den externen Wünschen gehorchen sollen), man gewinnt etwas an Allgemeinheit.

Einige interessante Experimente wurden mit den in diesem Abschnitt beschriebenen (und verwandten) Methoden durchgeführt, darunter erfolgreiche Experimente zur Sequenzerkennung und zur Sequenzgenerierung (e.g. [8]).

Jordans und Elmans Algorithmen haben den Vorteil, daß sie zumindest eingeschränkt lokal in Raum und Zeit sind. Sie genügen jedoch nicht der starken Definition von Lokalität. Und sie sind weniger generell als die im nächsten Kapitel beschriebenen Algorithmen.

Nächste Seite: Generelle Lösungen für dynamische Aufwärts: Interne Rückkopplung: Dynamische Netzwerke Vorherige Seite: Interne Rückkopplung: Dynamische Netzwerke Inhalt

Juergen Schmidhuber 2003-02-20