Nächste Seite: ALGORITHMUS
Aufwärts: WELTMODELLBAUER
Vorherige Seite: ZWEI PERFORMANZMASSE
  Inhalt
Das Steuernetzwerk
sei (zur vereinfachten Darstellung des Prinzips) ein
konventionelles azyklisches BP-Netzwerk.
Alle Knoten in seien durchnumeriert, die Aktivation
des -ten Knotens in Antwort auf
den -ten an der Eingabelage anliegenden Eingabevektor
sei mit bezeichnet,
wobei , falls Eingabeknoten ist.
In der -ten Lage von ()
berechnet sich wie folgt:
|
(4.1) |
wobei das Gewicht der gerichteten Verbindung vom
Knoten zum Knoten darstellt, und
wieder für eine differenzierbare
Aktivierungsfunktion
steht.
Der Ausgabevektor
der obersten Lage heiße .
Das Weltmodellnetzwerk sei ebenfalls als
azyklisches BP-Netzwerk implementiert. 's Eingabe ist die Konkatenation
der Vektoren
und .
Für 's Trainingsphase wird i.a. gelten,
für 's Trainingsphase hingegen stets .
Die Aktivation
des -ten Knotens von in Antwort auf
wird mit
bezeichnet, wobei
gleich der -ten Komponente von
ist, falls Eingabeknoten ist.
In der -ten Lage von ()
berechnet sich
analog zur Aktivationsausbreitung
in wie folgt:
|
(4.2) |
Siehe hierzu Abbildung 4.1.
Abbildung:
Ein Steuernetz reagiert auf den Umgebungszustand mit einem Steuersignal
für einen externen Prozeß. Die Abbildung von Kombinationen von
Zuständen und Aktionen auf Effekte in der Umgebung wird durch
ein zweites adaptives `Modellnetzwerk' modelliert.
Letzteres dient auch zur Gradientenberechnung für das Steuernetz.
|
Nächste Seite: ALGORITHMUS
Aufwärts: WELTMODELLBAUER
Vorherige Seite: ZWEI PERFORMANZMASSE
  Inhalt
Juergen Schmidhuber
2003-02-20
Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite