Als Ereignissspeicher verwenden wir ein azyklisches
Netzwerk mit einer Menge `schneller' Gewichtsvariablen
.
Wie diese Variablen dynamisch zu setzen sind, wird weiter unten ausgeführt.
's Eingabe zum Zeitpunkt
ist der reelle Vektor
,
's
-dimensionale Ausgabe ist der reelle Vektor
.
Abhängig von
's zeitlich veränderlichem Zustand
wird
ein und dieselbe Eingabe zu verschiedenen Zeitpunkten
unterschiedlich verarbeiten - diese Tatsache nützen wir aus,
um ein von einem zusätzlichen adaptiven Mechanismus gesteuertes
Kurzzeitgedächtnis zu konstruieren.
Da wir, unserem allgemeinen Schema folgend, später mittels der Kettenregel einen Lernalgorithmus zum Setzen der dynamischen Gewichte herleiten wollen, fordern wir, daß dieser zusätzliche Mechanismus dergestalt durch eine parametrisierte Klasse von Funktionen dargestellt wird, daß die schnellen Gewichte in differenzierbarer Weise von den Parametern abhängen.
Es liegt nahe, zu diesem Zweck wiederum
ein konventionelles mehrlagiges azyklisches Netzwerk mit einer Menge
zufällig initialisierter Gewichtsvariablen
zu verwenden.
' Eingabe zum Zeitpunkt
ist ebenfalls der reelle Vektor
.
Wie im folgenden zu sehen sein wird, wird
' Ausgabe in sofortige Gewichtsänderungen für
umgemünzt.
dient damit als Kontrollinstanz für
das `schnelle'
-Netzwerk -
' Ausgabe entscheidet
darüber, welche Ereignisse in welcher Form in
's schnellen
Gewichten gespeichert werden.
Zur Initialisierung führen wir zu Beginn jeder Trainingssequenz
einen `nullten' Zeitschritt ein.
Zum Zeitpunkt wird jede Gewichtsvariable
einer gerichteten Verbindung vom Knoten
zum Knoten
gleich
gesetzt.
ist eine Funktion von
' Ausgabeknoten -
weiter unten werden wir zwei verschiedene Implementierungen
dieser Funktion betrachten.
Zum Zeitschritt
dient
zur Berechnung
von
's gegenwärtiger Ausgabe anhand der gewöhnlichen
Aktivationsausbreitungsregeln für BP-Netzwerke (e.g. [143]):
Die Aktivation
des
-ten Knoten in der
-ten Lage von
(mit
) wird gemäß
![]() |
(3.1) |
Nun wird jede Gewichtsvariable
gemäß
![]() |
(3.2) |
![]() |
(3.3) |
Solange 's Gewichte nicht
explizit durch
modifiziert werden, bleiben sie im wesentlichen
invariant.
's gegenwärtige Eingabe läßt sich als eine Menge von Adressen
einer Menge von Variablen interpretieren,
's gegenwärtige Ausgabe kann als der derzeitige Inhalt
dieser Variablen angsehen werden. Bindungen lassen sich in
natürlicher Weise durch temporäre Konnektivitätsmuster (statt
durch temporäre Aktivationsmuster) etablieren.
Gleichung (3.2) ist im wesentlichen identisch mit Möllers und Thruns Gleichung (1) in [57]. Im Gegensatz zu [57] werden wir jedoch im folgenden einen exakten Gradientenabstiegsalgorithmus für zeitveränderliche Ein- und Ausgaben herleiten.
Wie genau lassen sich ' Ausgaben nun in
's Gewichtsänderungen
übersetzen?