Zunächst betrachten wir den Fall, daß die Trainingsphase in Trainingsepisoden untergliederbar ist. Eine Episode beginnt mit der Initialisierung von 's Aktivationsvektor und endet mit dem Bekanntwerden des externen Reinforcements . Mit und werden positive Lernraten bezeichnet.
Initialisiere alle Gewichte mit zufällig gewählten reellen Werten.
Für alle Episoden:
Initialisiere die Aktivationen der Eingabeknoten im ersten Zeitschritt durch sensorische Wahrnehmung. Initialisiere die Aktivationen der anderen Knoten mit .
Für alle folgenden Zeitschritte bis zum abschließenden Bekanntwerden von :
1. Berechne 's Voraussage von durch .
2. Bringe die Aktivitäten des rekurrenten Netzes
auf den neuesten Stand: Für alle Knoten berechne
Die logistische Funktion liefert die Wahrscheinlichkeit dafür, daß den Wert bzw. annimmt. Jeder Knoten merkt sich für später seine letzte Aktivation .
3.A. Falls der letzte Zeitschritt der Episode ist: Setze .
3.B. Andernfalls berechne 's neue Voraussage .
In jedem Fall ist der Fehler des Kritikers gleich . Gradientenabstieg bezüglich der letzten Eingabe (mit Lernrate ) ergibt 's neuen Gewichtsvektor .
4. Berechne alle Gewichtsinkremente
und führe die Gewichtsänderungen durch: .
Die Differenz sukzessiver Voraussagen des Kritikers bestimmt also die Lernrate einer Hebb-ähnlichen Lernregel für (Schritt 4), (siehe auch [57] [55] [61]). Wollte man in Begriffen für kontinuierliche Zeit sprechen, könnte man sagen: Die temporale Ableitung der Erwartung zukünftigen Reinforcements ist gleich dem effektiven Reinforcement.
Man vergegenwärtige sich die extreme Einfachheit des Algorithmus. Jeder Knoten hat zu jedem Zeitpunkt dieselbe simple Folge von Berechnungen auszuführen. Der Spitzenberechnungsaufwand pro Zeitschritt und Verbindung ist . Für eine sequentielle Simulation auf einer von Neumann-Maschine ist der Spitzenberechnungsaufwand pro Zeitschritt .
Um beliebig lange Zeiträume in den Griff zu bekommen, sollte man beim 3. Schritt von A3 eine kleine Modifikation anbringen:
3.B. Andernfalls berechne 's neue Voraussage .
Dabei ist wieder ein Abschwächungsfaktor, welcher in naher Zukunft erwartetes Reinforcement stärker gewichtet als in ferner Zukunft erwartetes Reinforcement. dient im wesentlichen der Vermeidung der Möglichkeit unendlicher Summen bei Voraussagen über kumulatives Reinforcement (siehe auch das Kapitel zum überwachten Lernen, Abschnitt `TD-Methoden').
Schließlich sollte noch darauf hingewiesen werden, daß die in Schritt 4 angegebene Lernregel für nur den allereinfachsten Repräsentanten einer ganzen Klasse anwendbarer einfacher Reinforcement-Lernregeln darstellt. Um z.B. unwahrscheinliche Transitionen von einem Netzwerkzustand zum nächsten stärker zu berücksichtigen als wahrscheinliche, braucht man die Lernregel nur leicht zu modifizieren:
Es wäre jedoch ebenso möglich, etwa Barto und Anandans Assoziative Bestrafungs- und Belohnungsregel [3] zu benutzen (siehe auch das Kapitel über R-Lernen, Abschnitt `Neuronale Ansätze').