Wie immer zielen wir auf `On-line'-Lernen. Daher muß der Lernalgorithmus für den Kritiker lokal in der Zeit sein. Wir bedienen uns Robinson und Fallsides Verfahren [40], welches erstmals von Williams und Zipser implementiert wurde [80]. (Es ist in Kapitel 2 beschrieben. Sein Nachteil ist die nicht vorhandene Lokalität im Raum.) Das zentrale Grundprinzip ist wieder das schon früher beim lokalen Algorithmus A3 verwendete. Wir geben gleich den Algorithmus für die Maximierung kumulativen Reinforcements an.
Die Notation für die Aktivationen und Gewichte
des Steuernetzwerkes wird unverändert von der Beschreibung des
lokalen Algorithmus
übernommen. Über den Kritiker
wird lediglich ausgesagt, daß
sein Eingabevektor die Dimensionalität von
's Aktivationsvektor
besitzt.
's Eingabeknoten sind jeweils mit allen
Nicht-Eingabeknoten von
`vorwärtsverbunden'.
Letztere sind ihrerseits vollständig bidirektional miteinander vernetzt.
Einer der Nicht-Eingabeknoten von
wird der Ausgabeknoten genannt.
Seine Aktivation wird zu einem gegebenen Zeitpunkt als eine
Vorhersage des noch ausstehenden kumulativen Reinforcements interpretiert.
Initialisiere alle Gewichte von und
mit zufällig gewählten reellen Werten.
Initialisiere die Aktivationen der Eingabeknoten von
durch sensorische Wahrnehmung.
Initialisiere die Aktivationen von
's Nicht-Eingabeknoten mit
.
Initialisiere die Aktivationen der Eingabeknoten von
mit
's Aktivationsvektor.
Berechne
's erste Voraussage
des in Zukunft noch zu
erwartenden kumulativen Reinforcements durch
Ausführung eines Update-Schrittes für
(siehe Kapitel 2)
und anschließendes
Ablesen der Aktivation
von
's Ausgabeknoten. Setze
.
Für alle Zeitschritte :
1. Bringe die Aktivitäten des rekurrenten Netzes
auf den neuesten Stand: Für alle Knoten
berechne zu diesem Zweck
Die logistische Funktion
liefert die
Wahrscheinlichkeit dafür,
daß
den Wert
bzw.
annimmt.
2. Bringe die Aktivationen des rekurrenten Kritikers
auf den neuesten Stand:
Führe dazu einen Update-Schritt für
(siehe Kapitel 2)
aus.
Gewinne
's Voraussage
des in Zukunft noch zu
erwartenden kumulativen Reinforcements durch
Ablesen der Aktivation
von
's Ausgabeknoten.
3. Berechne
. (
ist das
externe Reinforcement zur Zeit
.)
Der `selbstgenerierte' Fehler des Kritikers ist gleich
.
Gemäß dem in Kapitel 2 vorgestellten
Lernalgorithmus ändern sich
's Gewichte sofort proportional
zu
's Gradienten bezüglich
's Gewichtsvektor.
4. Der Fehler des Kritikers ist gleichzeitig das Reinforcement
für 's Reinforcement-Lernalgorithmus.
5. Setze gleich
.
Die Berechnung der Fehlersignale ist wieder inspiriert durch Suttons TD-Methoden. TD-Methoden erfordern jedoch zwei sukzessive Vorhersagen während desselben Zeitschrittes, um Abhängigkeiten von Gewichtsänderungen auszuschalten. Da die Ausgabe des rekurrenten Kritikers dank seiner zyklischen Verbindungen sowieso von vergangenen Zuständen des Steuernetzwerkes und auch von vergangenen Gewichten abhängt, begnügt sich die soeben beschriebene Methode mit nur einer Vorhersage pro Zeiteinheit.
's in Schritt 4 referenzierter R-Lernalgorithmus kann
z.B. durch die im Kontext des lokalen Algorithmus A3
beschriebene simple Lernregel
gegeben sein, oder aber auch durch eines der im
dritten Kapitel erwähnten komplizierteren Verfahren.