next up previous contents
Nächste Seite: Rekurrente Kritiker und der Aufwärts: Mehrdimensionale adaptive Kritiker & Vorherige Seite: Ein schwieriges Balancierexperiment   Inhalt

Einführung eines rekurrenten Kritikers

Um die Vorhersagen des adaptiven Kritikers direkt von der Geschichte der zeitlichen Evolution eines Steuernetzes $C$ abhängig zu machen, bedarf es eines `selbstüberwachten' Lernalgorithmus' für zyklische Netze. Zwar ist $C$ aufgrund seiner eigenen zyklischen Verbindungen im Prinzip in der Lage, Information über vergangene Zustände zu repräsentieren. Erst durch einen kontinuierlich laufenden rekurrenten Kritiker ist jedoch gewährleistet, daß auch in Nicht-Markov-Umgebungen der Kritiker zutreffende Bewertungen von Systemzuständen (und vergangenen Sequenzen von Systemzuständen) zu lernen imstande ist.

Wie immer zielen wir auf `On-line'-Lernen. Daher muß der Lernalgorithmus für den Kritiker lokal in der Zeit sein. Wir bedienen uns Robinson und Fallsides Verfahren [40], welches erstmals von Williams und Zipser implementiert wurde [80]. (Es ist in Kapitel 2 beschrieben. Sein Nachteil ist die nicht vorhandene Lokalität im Raum.) Das zentrale Grundprinzip ist wieder das schon früher beim lokalen Algorithmus A3 verwendete. Wir geben gleich den Algorithmus für die Maximierung kumulativen Reinforcements an.

Die Notation für die Aktivationen und Gewichte des Steuernetzwerkes $C$ wird unverändert von der Beschreibung des lokalen Algorithmus übernommen. Über den Kritiker $A$ wird lediglich ausgesagt, daß sein Eingabevektor die Dimensionalität von $C$'s Aktivationsvektor besitzt. $A$'s Eingabeknoten sind jeweils mit allen Nicht-Eingabeknoten von $A$ `vorwärtsverbunden'. Letztere sind ihrerseits vollständig bidirektional miteinander vernetzt. Einer der Nicht-Eingabeknoten von $A$ wird der Ausgabeknoten genannt. Seine Aktivation wird zu einem gegebenen Zeitpunkt als eine Vorhersage des noch ausstehenden kumulativen Reinforcements interpretiert.




Initialisiere alle Gewichte von $A$ und $C$ mit zufällig gewählten reellen Werten.

Initialisiere die Aktivationen der Eingabeknoten von $C$ durch sensorische Wahrnehmung. Initialisiere die Aktivationen von $C$'s Nicht-Eingabeknoten mit $0$.

Initialisiere die Aktivationen der Eingabeknoten von $A$ mit $C$'s Aktivationsvektor. Berechne $A$'s erste Voraussage $P(1)$ des in Zukunft noch zu erwartenden kumulativen Reinforcements durch Ausführung eines Update-Schrittes für $A$ (siehe Kapitel 2) und anschließendes Ablesen der Aktivation von $A$'s Ausgabeknoten. Setze $r = P(1)$.

Für alle Zeitschritte $t$:

1. Bringe die Aktivitäten des rekurrenten Netzes $C$ auf den neuesten Stand: Für alle Knoten $i$ berechne zu diesem Zweck

\begin{displaymath}net_i(t) = \sum_j w_{ij}(t-1) x_i(t-1). \end{displaymath}

Die logistische Funktion $l(net_i(t))= \frac{1}{1 + e^{-net_i(t)}}$ liefert die Wahrscheinlichkeit dafür, daß $x_{i}(t)$ den Wert $1$ bzw. $0$ annimmt.

2. Bringe die Aktivationen des rekurrenten Kritikers $A$ auf den neuesten Stand: Führe dazu einen Update-Schritt für $A$ (siehe Kapitel 2) aus. Gewinne $A$'s Voraussage $P(t)$ des in Zukunft noch zu erwartenden kumulativen Reinforcements durch Ablesen der Aktivation von $A$'s Ausgabeknoten.

3. Berechne $r' = \gamma P(t) + R(t)$. ($R(t)$ ist das externe Reinforcement zur Zeit $t$.)

Der `selbstgenerierte' Fehler des Kritikers ist gleich $E= r' - r$. Gemäß dem in Kapitel 2 vorgestellten Lernalgorithmus ändern sich $A$'s Gewichte sofort proportional zu $E$'s Gradienten bezüglich $A$'s Gewichtsvektor.

4. Der Fehler des Kritikers ist gleichzeitig das Reinforcement für $C$'s Reinforcement-Lernalgorithmus.

5. Setze $r$ gleich $r'$.




Die Berechnung der Fehlersignale ist wieder inspiriert durch Suttons TD-Methoden. TD-Methoden erfordern jedoch zwei sukzessive Vorhersagen während desselben Zeitschrittes, um Abhängigkeiten von Gewichtsänderungen auszuschalten. Da die Ausgabe des rekurrenten Kritikers dank seiner zyklischen Verbindungen sowieso von vergangenen Zuständen des Steuernetzwerkes und auch von vergangenen Gewichten abhängt, begnügt sich die soeben beschriebene Methode mit nur einer Vorhersage pro Zeiteinheit.

$C$'s in Schritt 4 referenzierter R-Lernalgorithmus kann z.B. durch die im Kontext des lokalen Algorithmus A3 beschriebene simple Lernregel gegeben sein, oder aber auch durch eines der im dritten Kapitel erwähnten komplizierteren Verfahren.



Unterabschnitte
next up previous contents
Nächste Seite: Rekurrente Kritiker und der Aufwärts: Mehrdimensionale adaptive Kritiker & Vorherige Seite: Ein schwieriges Balancierexperiment   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite