Zunächst betrachten wir den Fall, daß die
Trainingsphase in Trainingsepisoden untergliederbar ist.
Eine Episode beginnt mit der Initialisierung von 's Aktivationsvektor und
endet mit dem Bekanntwerden des externen Reinforcements
.
Mit
und
werden positive Lernraten bezeichnet.
Initialisiere alle Gewichte mit zufällig gewählten reellen Werten.
Für alle Episoden:
Initialisiere die Aktivationen der Eingabeknoten im ersten
Zeitschritt durch sensorische Wahrnehmung.
Initialisiere die Aktivationen der anderen Knoten mit .
Für alle folgenden
Zeitschritte bis zum abschließenden Bekanntwerden von
:
1. Berechne 's Voraussage von
durch
.
2. Bringe die Aktivitäten des rekurrenten Netzes
auf den neuesten Stand: Für alle Knoten
berechne
Die logistische Funktion
liefert die
Wahrscheinlichkeit dafür,
daß
den Wert
bzw.
annimmt. Jeder Knoten
merkt sich für später seine letzte Aktivation
.
3.A. Falls der letzte Zeitschritt der Episode ist:
Setze
.
3.B. Andernfalls berechne 's neue Voraussage
.
In jedem Fall ist der Fehler des Kritikers gleich .
Gradientenabstieg bezüglich der letzten Eingabe
(mit Lernrate
) ergibt
's
neuen Gewichtsvektor
.
4. Berechne alle Gewichtsinkremente
und führe die Gewichtsänderungen durch:
.
Die Differenz sukzessiver Voraussagen des Kritikers bestimmt also die
Lernrate einer Hebb-ähnlichen Lernregel für (Schritt 4),
(siehe auch [57]
[55]
[61]).
Wollte man in Begriffen für kontinuierliche Zeit sprechen,
könnte man sagen: Die temporale Ableitung der Erwartung
zukünftigen Reinforcements ist gleich dem effektiven Reinforcement.
Man vergegenwärtige sich die extreme Einfachheit des Algorithmus.
Jeder Knoten hat zu jedem Zeitpunkt dieselbe simple Folge von
Berechnungen auszuführen. Der Spitzenberechnungsaufwand pro
Zeitschritt und Verbindung ist . Für eine sequentielle
Simulation auf einer von Neumann-Maschine ist
der Spitzenberechnungsaufwand pro
Zeitschritt
.
Um beliebig lange Zeiträume in den Griff zu bekommen, sollte man beim 3. Schritt von A3 eine kleine Modifikation anbringen:
3.B. Andernfalls berechne 's neue Voraussage
.
Dabei ist
wieder ein Abschwächungsfaktor, welcher
in naher Zukunft erwartetes Reinforcement stärker gewichtet als
in ferner Zukunft erwartetes Reinforcement.
dient im
wesentlichen der Vermeidung der Möglichkeit unendlicher Summen
bei Voraussagen über kumulatives Reinforcement (siehe auch das Kapitel
zum überwachten Lernen, Abschnitt `TD-Methoden').
Schließlich sollte noch darauf hingewiesen werden, daß die in
Schritt 4 angegebene Lernregel
für nur den allereinfachsten Repräsentanten einer ganzen Klasse
anwendbarer einfacher Reinforcement-Lernregeln darstellt.
Um z.B. unwahrscheinliche Transitionen von einem Netzwerkzustand
zum nächsten stärker zu berücksichtigen als wahrscheinliche,
braucht man die Lernregel nur leicht zu modifizieren:
Es wäre jedoch ebenso möglich, etwa Barto und Anandans Assoziative Bestrafungs- und Belohnungsregel [3] zu benutzen (siehe auch das Kapitel über R-Lernen, Abschnitt `Neuronale Ansätze').