Wie immer zielen wir auf `On-line'-Lernen. Daher muß der Lernalgorithmus für den Kritiker lokal in der Zeit sein. Wir bedienen uns Robinson und Fallsides Verfahren [40], welches erstmals von Williams und Zipser implementiert wurde [80]. (Es ist in Kapitel 2 beschrieben. Sein Nachteil ist die nicht vorhandene Lokalität im Raum.) Das zentrale Grundprinzip ist wieder das schon früher beim lokalen Algorithmus A3 verwendete. Wir geben gleich den Algorithmus für die Maximierung kumulativen Reinforcements an.
Die Notation für die Aktivationen und Gewichte des Steuernetzwerkes wird unverändert von der Beschreibung des lokalen Algorithmus übernommen. Über den Kritiker wird lediglich ausgesagt, daß sein Eingabevektor die Dimensionalität von 's Aktivationsvektor besitzt. 's Eingabeknoten sind jeweils mit allen Nicht-Eingabeknoten von `vorwärtsverbunden'. Letztere sind ihrerseits vollständig bidirektional miteinander vernetzt. Einer der Nicht-Eingabeknoten von wird der Ausgabeknoten genannt. Seine Aktivation wird zu einem gegebenen Zeitpunkt als eine Vorhersage des noch ausstehenden kumulativen Reinforcements interpretiert.
Initialisiere alle Gewichte von und mit zufällig gewählten reellen Werten.
Initialisiere die Aktivationen der Eingabeknoten von durch sensorische Wahrnehmung. Initialisiere die Aktivationen von 's Nicht-Eingabeknoten mit .
Initialisiere die Aktivationen der Eingabeknoten von mit 's Aktivationsvektor. Berechne 's erste Voraussage des in Zukunft noch zu erwartenden kumulativen Reinforcements durch Ausführung eines Update-Schrittes für (siehe Kapitel 2) und anschließendes Ablesen der Aktivation von 's Ausgabeknoten. Setze .
Für alle Zeitschritte :
1. Bringe die Aktivitäten des rekurrenten Netzes
auf den neuesten Stand: Für alle Knoten berechne zu diesem Zweck
Die logistische Funktion liefert die Wahrscheinlichkeit dafür, daß den Wert bzw. annimmt.
2. Bringe die Aktivationen des rekurrenten Kritikers auf den neuesten Stand: Führe dazu einen Update-Schritt für (siehe Kapitel 2) aus. Gewinne 's Voraussage des in Zukunft noch zu erwartenden kumulativen Reinforcements durch Ablesen der Aktivation von 's Ausgabeknoten.
3. Berechne . ( ist das externe Reinforcement zur Zeit .)
Der `selbstgenerierte' Fehler des Kritikers ist gleich . Gemäß dem in Kapitel 2 vorgestellten Lernalgorithmus ändern sich 's Gewichte sofort proportional zu 's Gradienten bezüglich 's Gewichtsvektor.
4. Der Fehler des Kritikers ist gleichzeitig das Reinforcement für 's Reinforcement-Lernalgorithmus.
5. Setze gleich .
Die Berechnung der Fehlersignale ist wieder inspiriert durch Suttons TD-Methoden. TD-Methoden erfordern jedoch zwei sukzessive Vorhersagen während desselben Zeitschrittes, um Abhängigkeiten von Gewichtsänderungen auszuschalten. Da die Ausgabe des rekurrenten Kritikers dank seiner zyklischen Verbindungen sowieso von vergangenen Zuständen des Steuernetzwerkes und auch von vergangenen Gewichten abhängt, begnügt sich die soeben beschriebene Methode mit nur einer Vorhersage pro Zeiteinheit.
's in Schritt 4 referenzierter R-Lernalgorithmus kann z.B. durch die im Kontext des lokalen Algorithmus A3 beschriebene simple Lernregel gegeben sein, oder aber auch durch eines der im dritten Kapitel erwähnten komplizierteren Verfahren.