In Kapitel 3, Abschnitt 2.2 wurden die Grundlagen der adaptiven Kritiker und der Reinforcementvergleichsverfahren beschrieben. In diesem Kapitel wenden wir das Reinforcementvergleichsverfahren auf zyklische Netze an.
Wir betrachten ein vollständig rekurrentes Steuernetzwerk , dessen Knoten ihre Aktivationen mittels stochastischer Aktivierungsfunktionen bestimmen. bekommt Eingaben von der Umgebung und produziert u.U. umgebungsverändernde Ausgaben. Somit kann neben der internen in der Regel auch externe Rückkopplung existieren. Zu jedem Zeitpunkt ändert sich 's Zustand im allgemeinen also abhängig sowohl von seinem alten Zustand als auch abhängig vom Umgebungszustand. Zu jedem Zeitpunkt erhält ferner der Kritiker den vollständigen Aktivierungszustand aller Knoten des Steuernetzwerkes als Eingabe. Weiterhin macht er zu jedem Zeitpunkt eine Voraussage über das noch ausstehende in Zukunft zu erwartende externe Reinforcement des sich im Programmablauf befindlichen Steuernetzwerkes.
Vergibt der externe Kritiker zu einem bestimmten Zeitpunkt Reinforcement, so werden die Gewichte des Kritikers in trivialer Weise abhängig von 's letztem Zustand dergestalt geändert, daß in ähnlicher Situation das nächste Mal eine bessere Voraussage zu erwarten ist (Terminierung von Samuels Prinzip, siehe Kapitel 3). Vergibt der externe Kritiker zu einem bestimmten Zeitpunkt kein Reinforcement, so dient (wieder abhängig von 's Zustand) die neue Voraussage des Kritikers zur Verbesserung seiner früheren Voraussage durch entsprechende Adjustierung seiner Gewichte (Nichtterminierungsfall von Samuels Prinzip). Unterschiede aufeinanderfolgender Voraussagen dienen gleichzeitig zur Änderung der Wahrscheinlichkeiten bestimmter Transitionen im rekurrenten Netzwerk .
Man könnte sagen, daß Erwartungen über den Ausgang von Programmabläufen während aufeinanderfolgender Lernzyklen `zurück in die Vergangenheit transportiert werden'. Voraussagen werden mit Systemzuständen assoziiert, die unter Umständen zeitlich sehr stark getrennt von denjenigen Zuständen sind, auf die sich die Voraussage bezieht. Der Kritiker lernt mit der Zeit, weit in die Zukunft zu blicken, obwohl er zu jedem Zeitpunkt ausschließlich zeitlich lokale Operationen durchführt. (Natürlich ergibt die Methode nur dann Sinn, wenn die Umgebung sich regelmäßig verhält, wenn sie `sich wiederholt'.)