Bemerkenswert ist bei diesem Ansatz, daß er im Gegensatz
zu Suttons Methode, welche nur Zustände kritisiert,
Paare von
Zuständen und Aktionen bewertet. Damit besteht eine Ähnlichkeit
zu den eindimensionalen Kritikern von Watkins [71] und
Jordan und Jacobs [22]. Die Hauptschleife des
Algorithmus sieht zum Zeitpunkt wie folgt aus:
1. Führe die zu 's letztem Ausgabevektor
korrespondierende Aktion in der Umgebung aus und gewinne den
neuen Eingabevektor
aus den geänderten Zustandsvariablen.
2. Berechne die neue Steueraktion
, wobei
durch
die gegenwärtige Gewichtsmatrix des BP-Steuernetzes
gegeben ist.
3. Berechne den Ausgabevektor
des Modellkritikers
, wobei
durch
's
gegenwärtige Gewichtsmatrix gegeben ist.
4. Verwende das Systemidentifikationsprinzip (Kapitel 3), um
den Unterschied zwischen und dem gewünschten internen
R-Vektor rückwärts durch
und durch
's Ausgabeknoten
zu propagieren. Ändere nur
's Gewichtsmatrix.
5. Verwende ,
, den `Discountfaktor'
und die kumulative TD-Methode (Kapitel 2), um
's Gewichtsmatrix zu ändern.
Im folgenden Beitrag wird ein vierdimensionaler Kritiker auf eine schwierige Balancieraufgabe angewendet.