Nächste Seite: Ein schwieriges Balancierexperiment
Aufwärts: Multidimensionale adaptive Kritiker
Vorherige Seite: Drei interagierende Netzwerke
  Inhalt
Um das Gesamtsystem zu vereinfachen, verschmelzen wir nun
das Modellnetzwerk
mit dem adaptiven Kritiker und nennen das Resultat einen Modellkritiker.
Statt Differenzen aufeinanderfolgender Kritikervorhersagen zu modellieren,
gibt der Modellkritiker in Abhängigkeit von der gegenwärtigen
Ein- und Ausgabe des Steuernetzes eine
Voraussage über die Summe aller in Zukunft zu erwartenden
Schmerz- bzw. Lustvektoren aus.
Sein Fehler wird durch die TD-Methode berechnet.
Die Gewichtsänderungen des Steuernetzes ergeben
sich durch Gradientenabstieg in der
Steuernetzwerk/Modellkritiker-Kombination, wobei die Gewichte
des Modellkritikers kurz eingefroren werden (siehe Kapitel 2 und 5).
Das System lernt on-line und ist schwach lokal in Zeit und
Raum.
Bemerkenswert ist bei diesem Ansatz, daß er im Gegensatz
zu Suttons Methode, welche nur Zustände kritisiert,
Paare von
Zuständen und Aktionen bewertet. Damit besteht eine Ähnlichkeit
zu den eindimensionalen Kritikern von Watkins [71] und
Jordan und Jacobs [22]. Die Hauptschleife des
Algorithmus sieht zum Zeitpunkt wie folgt aus:
1. Führe die zu 's letztem Ausgabevektor
korrespondierende Aktion in der Umgebung aus und gewinne den
neuen Eingabevektor aus den geänderten Zustandsvariablen.
2. Berechne die neue Steueraktion
, wobei durch
die gegenwärtige Gewichtsmatrix des BP-Steuernetzes gegeben ist.
3. Berechne den Ausgabevektor
des Modellkritikers
, wobei durch 's
gegenwärtige Gewichtsmatrix gegeben ist.
4. Verwende das Systemidentifikationsprinzip (Kapitel 3), um
den Unterschied zwischen und dem gewünschten internen
R-Vektor rückwärts durch und durch 's Ausgabeknoten
zu propagieren. Ändere nur 's Gewichtsmatrix.
5. Verwende , , den `Discountfaktor'
und die kumulative TD-Methode (Kapitel 2), um
's Gewichtsmatrix zu ändern.
Im folgenden Beitrag wird ein vierdimensionaler Kritiker auf eine
schwierige Balancieraufgabe angewendet.
Nächste Seite: Ein schwieriges Balancierexperiment
Aufwärts: Multidimensionale adaptive Kritiker
Vorherige Seite: Drei interagierende Netzwerke
  Inhalt
Juergen Schmidhuber
2003-02-20
Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite