Wir versuchen uns an dem von Anderson [2] angegebenen Balancierproblem. Das aus Stab und Wagen bestehende physikalische System wurde durch die im Anhang definierten Differentialgleichungen modelliert. Die Aufgabe bestand wieder darin, den Stab solange wie möglich zu balancieren, ohne daß der Wagen an den Begrenzungen der Spur anstieß.
Das einzige Lehrsignal für das Steuernetzwerk
bestand in `Schmerzsignalen' für den
Zeitpunkt
, in dem
der Wagen an einer der Spurbegrenzungen anstieß oder der Stab umkippte.
Letztere Ereignisse bedeuteten gleichzeitig
das Ende der entsprechenden Episode.
Dank der Abwesenheit weiterer Lehrinformation stellte sich
dem System trotz der Markov-Umgebung
also ein schwieriges raum-zeitliches Lernproblem.
Es muß gleich betont werden, daß die Aufgabe (im Gefolge Andersons)
viel schwieriger gestellt war als die ähnliche Aufgabe, die
in Barto, Sutton und Andersons vielzitiertem Artikel von 1983
beschrieben ist [5].
Barto, Sutton und Anderson verwendeten einen vorverdrahteten
Dekoder, der in sorgfältig ausgeklügelter Weise Umgebungszustände
in 160-dimensionale Einheitsvektoren als Eingabevektoren
für das Element übersetzte (siehe
Kapitel 3). Statt dessen verwendete Anderson
reellwertige Zustandsvariablen des Wagen/Stab-Systems als Eingaben
für das Steuernetz. Damit mußte das Steuernetz selbst
nicht-triviale Repräsentationen für die Zustände der
externen Umgebung entwickeln.
Es sei darauf hingewiesen, daß der direkte Gebrauch der physikalischen Zustandsvariablen die Aufgabe vereinfacht. Anderson hat den Grund in der Symmetrie optimaler Strategien für positive und negative Werte der Zustandsvariablen identifiziert: Eine erfolgreiche Balancierstrategie für Fälle, in denen alle Zustandsvariablen im positiven Bereich liegen, bedeutet automatisch auch schon eine erfolgreiche Balancierstrategie für betragsmäßig gleiche negative Werte (und umgekehrt). Daher wurden in den Experimenten sowohl die asymmetrisch skalierten als auch die unskalierten Werte verwendet.
bestand aus 4 Eingabeknoten
für die
im Anhang definierten sichtbaren
Zustandsvariablen
(bzw. die ebenfalls im Anhang definierten asymmetrisch
skalierten Zustandsvariablen
),
einem konstant aktivierten Eingabeknoten der Stärke
(der `wahren' Eingabe),
5 versteckten Knoten mit logistischer Aktivierungsfunktion
,
und einem linearen Ausgabeknoten.
's Ausgabeknoten war probabilistisch
und bestand seinerseits
aus 3 Subknoten, 2 davon zur Mittelwert- und Varianzgenerierung.
Der Beitrag des Varianzknotens zur Aktivation des Ausgabeknotens
bestand in seiner gegenwärtigen Aktivation multipliziert mit
,
wobei
eine gleichverteilte Zufallsvariable mit Werten
zwischen
und 1 war.
Die einzigen Verbindungen von den Eingabeknoten
zu den Ausgabeknoten führten über die versteckten Knoten.
Es gab keine interne Rückkopplung.
Der (ebenfalls azyklische) Modellkritiker bestand aus 5 Eingabeknoten (vier für die Zustandsvariablen, einen für die Steuerausgabe), 5 logistischen versteckten Knoten sowie 4 linearen Ausgabeknoten zur Vorhersage vierer verschiedener möglicher Arten von `Schmerz', je eine für die vier möglichen Fehlersituationen `Wagen bumst gegen rechten Rand', `Wagen bumst gegen linken Rand', `Stab fällt nach links um', und `Stab fällt nach rechts um'. Im Fehlerfall betrug der `Schmerzbeitrag' für die entsprechende Voraussage 1.0. Aus Skalierungsgründen gab es eine fixe Verbindung mit Gewicht 0.1 zwischen dem Ausgabeknoten des Steuernetzes und der entsprechenden Eingabe des Modellkritikers. Diese wurde natürlich in jeder Phase der Fehlerpropagierung (vom Modellkritiker in das Steuernetz) berücksichtigt. Alle linearen Knoten im System hatten die Identitätsabbildung als Aktivierungsfunktion.
Zu Beginn einer Episode wurden die Zustandsvariablen
zufällig innerhalb ihres Wertebereichs
initialisiert.
Zu einem gegebenen Zeitpunkt wurde die Aktivation des Ausgabeknotens
als auf den Wagen auszuübende Kraft (gemessen in Newton) interpretiert.
Im nächsten Zeitschritt änderte sich
's Eingabevektor gemäß einer
Simulation des physikalischen Systems mittels Eulers Methode.
Die zeitliche Distanz zwischen zwei Zeitschritten betrug dabei
0.02 s.
Es galt
. Alle Gewichte wurden
zufällig zwischen -0.05 und 0.05 initialisiert. Es wurden 5 Testläufe
durchgeführt. Dabei wurde jeweils die Anzahl der Episoden
gezählt, die bis zum Erreichen der ersten Episode mit mehr
als 10 Minuten Balancierzeit notwendig waren (jeder Versuch wurde
nach 30.000 Zeitschritten abgebrochen).
(Bei zufälliger Auswahl der Ausgabeaktionen betrug
die durchschnittliche Zeitdauer bis zum Eintritt in einen
Fehlerzustand
ca. 25 Zeitschritte (
Sekunden).)
Die fünf Resultate waren: 713, 486, 536, 614, 513.
In allen durchgeführten Experimenten fand das Netzwerk also in weniger als 800 Versuchen eine befriedigende Lösung []. Damit liegt im Vergleich zu Andersons eindimensionalen Kritiker [2] ein Geschwindigkeitsvorteil im Bereich einer Größenordnung vor. Es war experimentell nicht möglich, mit einem eindimensionalen Kritiker vergleichbare Ergebnisse zu erzielen.
Bei unskalierten Zustandsvariablen sank die Anzahl der für das Erreichen des Abbruchkriteriums notwendigen Lernversuche etwa auf ein Drittel.
Die entsprechenden fünf Resultate waren: 174, 180, 144, 119, 155.
Es steht zu erwarten, daß sich das Konzept der mehrdimensionalen Kritiker gerade bei komplexen Umgebungen als überlegen erweist. Ein Beispiel könnte die Trajektoriengenerierung für Industrieroboter liefern. Sowohl die Ausgabemotorik als auch die `Schmerzsensorik' (z. B. für das unerwünschte Anstoßen an Hindernissen) ist dabei i.a. so vielfältig, daß ein starker Bedarf nach `maßgeschneiderten' Reinforcementsignalen besteht.