next up previous contents
Nächste Seite: Ein schwieriges Balancierexperiment Aufwärts: Multidimensionale adaptive Kritiker Vorherige Seite: Drei interagierende Netzwerke   Inhalt

Verschmelzen der drei Netze in zwei

Um das Gesamtsystem zu vereinfachen, verschmelzen wir nun das Modellnetzwerk mit dem adaptiven Kritiker und nennen das Resultat einen Modellkritiker. Statt Differenzen aufeinanderfolgender Kritikervorhersagen zu modellieren, gibt der Modellkritiker in Abhängigkeit von der gegenwärtigen Ein- und Ausgabe des Steuernetzes eine Voraussage über die Summe aller in Zukunft zu erwartenden Schmerz- bzw. Lustvektoren aus. Sein Fehler wird durch die TD-Methode berechnet. Die Gewichtsänderungen des Steuernetzes ergeben sich durch Gradientenabstieg in der Steuernetzwerk/Modellkritiker-Kombination, wobei die Gewichte des Modellkritikers kurz eingefroren werden (siehe Kapitel 2 und 5). Das System lernt on-line und ist schwach lokal in Zeit und Raum.

Bemerkenswert ist bei diesem Ansatz, daß er im Gegensatz zu Suttons Methode, welche nur Zustände kritisiert, Paare von Zuständen und Aktionen bewertet. Damit besteht eine Ähnlichkeit zu den eindimensionalen Kritikern von Watkins [71] und Jordan und Jacobs [22]. Die Hauptschleife des Algorithmus sieht zum Zeitpunkt $t$ wie folgt aus:




1. Führe die zu $C$'s letztem Ausgabevektor $a(t-1)$ korrespondierende Aktion in der Umgebung aus und gewinne den neuen Eingabevektor $x(t)$ aus den geänderten Zustandsvariablen.

2. Berechne die neue Steueraktion $a(t) = f(x(t))$, wobei $f$ durch die gegenwärtige Gewichtsmatrix des BP-Steuernetzes $C$ gegeben ist.

3. Berechne den Ausgabevektor $r(t)=g(x(t),a(t))$ des Modellkritikers $MAC$, wobei $g$ durch $MAC$'s gegenwärtige Gewichtsmatrix gegeben ist.

4. Verwende das Systemidentifikationsprinzip (Kapitel 3), um den Unterschied zwischen $r(t)$ und dem gewünschten internen R-Vektor rückwärts durch $MAC$ und durch $C$'s Ausgabeknoten zu propagieren. Ändere nur $C$'s Gewichtsmatrix.

5. Verwende $x(t-1)$, $a(t-1)$, den `Discountfaktor' $0 < \gamma < 1$ und die kumulative TD-Methode (Kapitel 2), um $MAC$'s Gewichtsmatrix zu ändern.




Im folgenden Beitrag wird ein vierdimensionaler Kritiker auf eine schwierige Balancieraufgabe angewendet.


next up previous contents
Nächste Seite: Ein schwieriges Balancierexperiment Aufwärts: Multidimensionale adaptive Kritiker Vorherige Seite: Drei interagierende Netzwerke   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite