In Kapitel 3, Abschnitt 2.2 wurden die Grundlagen der adaptiven Kritiker und der Reinforcementvergleichsverfahren beschrieben. In diesem Kapitel wenden wir das Reinforcementvergleichsverfahren auf zyklische Netze an.
Wir betrachten
ein vollständig rekurrentes Steuernetzwerk , dessen Knoten ihre
Aktivationen mittels stochastischer Aktivierungsfunktionen bestimmen.
bekommt Eingaben von
der Umgebung und produziert u.U. umgebungsverändernde Ausgaben. Somit
kann neben der internen in der Regel auch externe
Rückkopplung existieren. Zu jedem Zeitpunkt ändert sich
's Zustand
im allgemeinen
also abhängig sowohl von seinem alten Zustand als auch abhängig vom
Umgebungszustand.
Zu jedem Zeitpunkt erhält ferner der Kritiker den vollständigen
Aktivierungszustand aller Knoten des Steuernetzwerkes als
Eingabe.
Weiterhin macht er zu jedem Zeitpunkt
eine Voraussage über das noch ausstehende in Zukunft
zu erwartende externe Reinforcement des sich im Programmablauf befindlichen
Steuernetzwerkes.
Vergibt der externe Kritiker zu einem
bestimmten Zeitpunkt Reinforcement, so werden die Gewichte
des Kritikers in trivialer Weise abhängig von 's letztem
Zustand dergestalt geändert,
daß in ähnlicher Situation das nächste Mal eine bessere Voraussage
zu erwarten ist (Terminierung von Samuels Prinzip, siehe Kapitel 3).
Vergibt der externe Kritiker zu einem
bestimmten Zeitpunkt kein Reinforcement, so dient (wieder
abhängig von
's Zustand) die
neue Voraussage des Kritikers zur Verbesserung seiner
früheren Voraussage durch entsprechende Adjustierung seiner Gewichte
(Nichtterminierungsfall von Samuels Prinzip).
Unterschiede aufeinanderfolgender Voraussagen dienen gleichzeitig
zur Änderung der Wahrscheinlichkeiten bestimmter
Transitionen im rekurrenten Netzwerk
.
Man könnte sagen, daß Erwartungen über den Ausgang von Programmabläufen während aufeinanderfolgender Lernzyklen `zurück in die Vergangenheit transportiert werden'. Voraussagen werden mit Systemzuständen assoziiert, die unter Umständen zeitlich sehr stark getrennt von denjenigen Zuständen sind, auf die sich die Voraussage bezieht. Der Kritiker lernt mit der Zeit, weit in die Zukunft zu blicken, obwohl er zu jedem Zeitpunkt ausschließlich zeitlich lokale Operationen durchführt. (Natürlich ergibt die Methode nur dann Sinn, wenn die Umgebung sich regelmäßig verhält, wenn sie `sich wiederholt'.)