next up previous contents
Nächste Seite: Der lokale Algorithmus A3 Aufwärts: Mehrdimensionale adaptive Kritiker & Vorherige Seite: Einführung   Inhalt

Intuitive Erklärung des Grundprinzips

In Kapitel 3, Abschnitt 2.2 wurden die Grundlagen der adaptiven Kritiker und der Reinforcementvergleichsverfahren beschrieben. In diesem Kapitel wenden wir das Reinforcementvergleichsverfahren auf zyklische Netze an.

Wir betrachten ein vollständig rekurrentes Steuernetzwerk $C$, dessen Knoten ihre Aktivationen mittels stochastischer Aktivierungsfunktionen bestimmen. $C$ bekommt Eingaben von der Umgebung und produziert u.U. umgebungsverändernde Ausgaben. Somit kann neben der internen in der Regel auch externe Rückkopplung existieren. Zu jedem Zeitpunkt ändert sich $C$'s Zustand im allgemeinen also abhängig sowohl von seinem alten Zustand als auch abhängig vom Umgebungszustand. Zu jedem Zeitpunkt erhält ferner der Kritiker den vollständigen Aktivierungszustand aller Knoten des Steuernetzwerkes als Eingabe. Weiterhin macht er zu jedem Zeitpunkt eine Voraussage über das noch ausstehende in Zukunft zu erwartende externe Reinforcement des sich im Programmablauf befindlichen Steuernetzwerkes.

Vergibt der externe Kritiker zu einem bestimmten Zeitpunkt Reinforcement, so werden die Gewichte des Kritikers in trivialer Weise abhängig von $C$'s letztem Zustand dergestalt geändert, daß in ähnlicher Situation das nächste Mal eine bessere Voraussage zu erwarten ist (Terminierung von Samuels Prinzip, siehe Kapitel 3). Vergibt der externe Kritiker zu einem bestimmten Zeitpunkt kein Reinforcement, so dient (wieder abhängig von $C$'s Zustand) die neue Voraussage des Kritikers zur Verbesserung seiner früheren Voraussage durch entsprechende Adjustierung seiner Gewichte (Nichtterminierungsfall von Samuels Prinzip). Unterschiede aufeinanderfolgender Voraussagen dienen gleichzeitig zur Änderung der Wahrscheinlichkeiten bestimmter Transitionen im rekurrenten Netzwerk $C$.

Man könnte sagen, daß Erwartungen über den Ausgang von Programmabläufen während aufeinanderfolgender Lernzyklen `zurück in die Vergangenheit transportiert werden'. Voraussagen werden mit Systemzuständen assoziiert, die unter Umständen zeitlich sehr stark getrennt von denjenigen Zuständen sind, auf die sich die Voraussage bezieht. Der Kritiker lernt mit der Zeit, weit in die Zukunft zu blicken, obwohl er zu jedem Zeitpunkt ausschließlich zeitlich lokale Operationen durchführt. (Natürlich ergibt die Methode nur dann Sinn, wenn die Umgebung sich regelmäßig verhält, wenn sie `sich wiederholt'.)


next up previous contents
Nächste Seite: Der lokale Algorithmus A3 Aufwärts: Mehrdimensionale adaptive Kritiker & Vorherige Seite: Einführung   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite