next up previous contents
Nächste Seite: Einführung eines rekurrenten Kritikers Aufwärts: Multidimensionale adaptive Kritiker Vorherige Seite: Verschmelzen der drei Netze   Inhalt

Ein schwieriges Balancierexperiment

Wiederholende Vorbemerkung. Sind die gewünschten Ausgaben dem Lehrer schon bekannt, so macht es natürlich mehr Sinn, zur Beschleunigung der Konvergenz einen überwachten gradientenbasierten Lernalgorithmus zu verwenden. Das gilt ganz allgemein: Mit Reinforcement-Algorithmen sollte man nicht in Konkurrenz zu überwachten Algorithmen treten wollen, so lange beide Lernparadigmen anwendbar sind. Vielmehr sollte man sich solche Probleme aussuchen, bei denen überwachte Algorithmen per definitionem scheitern müssen. Genau das werden wir im folgenden tun.

Wir versuchen uns an dem von Anderson [2] angegebenen Balancierproblem. Das aus Stab und Wagen bestehende physikalische System wurde durch die im Anhang definierten Differentialgleichungen modelliert. Die Aufgabe bestand wieder darin, den Stab solange wie möglich zu balancieren, ohne daß der Wagen an den Begrenzungen der Spur anstieß.

Das einzige Lehrsignal für das Steuernetzwerk $C$ bestand in `Schmerzsignalen' für den Zeitpunkt $t$, in dem der Wagen an einer der Spurbegrenzungen anstieß oder der Stab umkippte. Letztere Ereignisse bedeuteten gleichzeitig das Ende der entsprechenden Episode. Dank der Abwesenheit weiterer Lehrinformation stellte sich dem System trotz der Markov-Umgebung also ein schwieriges raum-zeitliches Lernproblem.

Es muß gleich betont werden, daß die Aufgabe (im Gefolge Andersons) viel schwieriger gestellt war als die ähnliche Aufgabe, die in Barto, Sutton und Andersons vielzitiertem Artikel von 1983 beschrieben ist [5]. Barto, Sutton und Anderson verwendeten einen vorverdrahteten Dekoder, der in sorgfältig ausgeklügelter Weise Umgebungszustände in 160-dimensionale Einheitsvektoren als Eingabevektoren für das $ASE$ Element übersetzte (siehe Kapitel 3). Statt dessen verwendete Anderson reellwertige Zustandsvariablen des Wagen/Stab-Systems als Eingaben für das Steuernetz. Damit mußte das Steuernetz selbst nicht-triviale Repräsentationen für die Zustände der externen Umgebung entwickeln.

Es sei darauf hingewiesen, daß der direkte Gebrauch der physikalischen Zustandsvariablen die Aufgabe vereinfacht. Anderson hat den Grund in der Symmetrie optimaler Strategien für positive und negative Werte der Zustandsvariablen identifiziert: Eine erfolgreiche Balancierstrategie für Fälle, in denen alle Zustandsvariablen im positiven Bereich liegen, bedeutet automatisch auch schon eine erfolgreiche Balancierstrategie für betragsmäßig gleiche negative Werte (und umgekehrt). Daher wurden in den Experimenten sowohl die asymmetrisch skalierten als auch die unskalierten Werte verwendet.

$C$ bestand aus 4 Eingabeknoten für die im Anhang definierten sichtbaren Zustandsvariablen $z,\dot{z},\theta,\dot{\theta}$ (bzw. die ebenfalls im Anhang definierten asymmetrisch skalierten Zustandsvariablen \( \bar{z}, \bar{\dot{z}}, \bar{\theta}, \bar{\dot{\theta}} \)), einem konstant aktivierten Eingabeknoten der Stärke $1$ (der `wahren' Eingabe), 5 versteckten Knoten mit logistischer Aktivierungsfunktion $f(x)=\frac{1}{1+e^{-x}}$, und einem linearen Ausgabeknoten. $C$'s Ausgabeknoten war probabilistisch und bestand seinerseits aus 3 Subknoten, 2 davon zur Mittelwert- und Varianzgenerierung. Der Beitrag des Varianzknotens zur Aktivation des Ausgabeknotens bestand in seiner gegenwärtigen Aktivation multipliziert mit $ln(\frac{1 - rnd}{rnd })$, wobei $rnd$ eine gleichverteilte Zufallsvariable mit Werten zwischen $\frac{1}{2^{16}}$ und 1 war. Die einzigen Verbindungen von den Eingabeknoten zu den Ausgabeknoten führten über die versteckten Knoten. Es gab keine interne Rückkopplung.

Der (ebenfalls azyklische) Modellkritiker bestand aus 5 Eingabeknoten (vier für die Zustandsvariablen, einen für die Steuerausgabe), 5 logistischen versteckten Knoten sowie 4 linearen Ausgabeknoten zur Vorhersage vierer verschiedener möglicher Arten von `Schmerz', je eine für die vier möglichen Fehlersituationen `Wagen bumst gegen rechten Rand', `Wagen bumst gegen linken Rand', `Stab fällt nach links um', und `Stab fällt nach rechts um'. Im Fehlerfall betrug der `Schmerzbeitrag' für die entsprechende Voraussage 1.0. Aus Skalierungsgründen gab es eine fixe Verbindung mit Gewicht 0.1 zwischen dem Ausgabeknoten des Steuernetzes und der entsprechenden Eingabe des Modellkritikers. Diese wurde natürlich in jeder Phase der Fehlerpropagierung (vom Modellkritiker in das Steuernetz) berücksichtigt. Alle linearen Knoten im System hatten die Identitätsabbildung als Aktivierungsfunktion.

Zu Beginn einer Episode wurden die Zustandsvariablen $z,\dot{z},\theta,\dot{\theta}$ zufällig innerhalb ihres Wertebereichs initialisiert. Zu einem gegebenen Zeitpunkt wurde die Aktivation des Ausgabeknotens als auf den Wagen auszuübende Kraft (gemessen in Newton) interpretiert. Im nächsten Zeitschritt änderte sich $C$'s Eingabevektor gemäß einer Simulation des physikalischen Systems mittels Eulers Methode. Die zeitliche Distanz zwischen zwei Zeitschritten betrug dabei 0.02 s.

Es galt $\alpha = 0.2, \eta = 100, \gamma = 0.95$. Alle Gewichte wurden zufällig zwischen -0.05 und 0.05 initialisiert. Es wurden 5 Testläufe durchgeführt. Dabei wurde jeweils die Anzahl der Episoden gezählt, die bis zum Erreichen der ersten Episode mit mehr als 10 Minuten Balancierzeit notwendig waren (jeder Versuch wurde nach 30.000 Zeitschritten abgebrochen). (Bei zufälliger Auswahl der Ausgabeaktionen betrug die durchschnittliche Zeitdauer bis zum Eintritt in einen Fehlerzustand ca. 25 Zeitschritte ($= 0.5$ Sekunden).)

Die fünf Resultate waren: 713, 486, 536, 614, 513.

In allen durchgeführten Experimenten fand das Netzwerk also in weniger als 800 Versuchen eine befriedigende Lösung []. Damit liegt im Vergleich zu Andersons eindimensionalen Kritiker [2] ein Geschwindigkeitsvorteil im Bereich einer Größenordnung vor. Es war experimentell nicht möglich, mit einem eindimensionalen Kritiker vergleichbare Ergebnisse zu erzielen.

Bei unskalierten Zustandsvariablen sank die Anzahl der für das Erreichen des Abbruchkriteriums notwendigen Lernversuche etwa auf ein Drittel.

Die entsprechenden fünf Resultate waren: 174, 180, 144, 119, 155.

Es steht zu erwarten, daß sich das Konzept der mehrdimensionalen Kritiker gerade bei komplexen Umgebungen als überlegen erweist. Ein Beispiel könnte die Trajektoriengenerierung für Industrieroboter liefern. Sowohl die Ausgabemotorik als auch die `Schmerzsensorik' (z. B. für das unerwünschte Anstoßen an Hindernissen) ist dabei i.a. so vielfältig, daß ein starker Bedarf nach `maßgeschneiderten' Reinforcementsignalen besteht.


next up previous contents
Nächste Seite: Einführung eines rekurrenten Kritikers Aufwärts: Multidimensionale adaptive Kritiker Vorherige Seite: Verschmelzen der drei Netze   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite