next up previous contents
Nächste Seite: Ein Flip-Flop Problem Aufwärts: Grenzen der neuronalen Eimerkette Vorherige Seite: Grenzen der neuronalen Eimerkette   Inhalt

Ein Balancierproblem

Bei dem Balancierproblem ging es darum, zu jedem Zeitschritt auf einen sich auf einer eindimensionalen Spur befindlichen Wagen eine Kraft auszuüben, und zwar dergestalt, daß ein auf dem Wagen montierter und entlang der Bewegungsrichtung des Wagens frei schwingender Stab nicht zu weit ausschlug. Auch durfte der Wagen nicht an die Begrenzung der Spur stoßen. Es wurde nur `verzögerte' Reinforcement-Information zur Verfügung gestellt. Wir übernahmen das Problem, das Anderson in Erweiterung einer von Barto, Sutton und Anderson gestellten Aufgabe [5] formuliert hat [2]. Nur wenn das System in einen Fehlerzustand eintrat (d.h. wenn der Wagen an den Rand stieß oder der Stab umfiel), wurde keine Gewichtssubstanz vergeben.

Die im Anhang beschriebenen Differentialgleichungen wurden zur Modellierung des Wagen/Stab-Systems herangezogen. Die Rechnersimulation beruhte auf der Eulerschen Methode, zwei aufeinanderfolgende Zeitschritte lagen 0.02 Sekunden auseinander. Die vier Netzeingaben, die dem Netzwerk zu einem gegebenen Zeitpunkt die Position des Wagens, den Winkel des Stabes mit der Vertikalen sowie die zeitlichen Ableitungen dieser beiden Größen zugänglich machten, sind ebenfalls im Anhang definiert. Zu Beginn eines Versuchs wurden die vier physikalischen Zustandsvariablen jeweils mit $0$ initialisiert.

Die Aktivationen der Elemente einer aus zwei vollständig miteinander vernetzten Ausgabeknoten bestehenden WTA-Einheit wurden zu jedem Zeitschritt wie folgt interpretiert: War der erste Knoten aktiv, so wurde parallel zur Spur eine Kraft von $10 N$ auf den Schwerpunkt des Wagens ausgeübt. War der zweite Knoten aktiv, so betrug die entsprechende Kraft $-10 N$. Wendete man zu jedem Zeitpunkt eine entweder $10 N$ oder $-10 N$ betragende zufällig gewählte Kraft an, so lag die durchschnittliche Dauer bis zum Eintritt in einen Fehlerzustand bei ca. 20 Zeitschritten.

Zu fast allen Zeitpunkten wurde Gewichtssubstanz an den jeweils gerade aktiven Ausgabeknoten vergeben. Die einzige Ausnahme waren Zeitpunkte, in denen das System in einen Fehlerzustand geriet: In solchen Fällen wurde keine Gewichtssubstanz spendiert.

Die Aufgabe erwies sich als für die neuronale Eimerkette als zu schwierig. Die längste Balancierdauer, die das System unter verschiedensten Bedingungen (Anzahl der versteckten Knoten, Netztopologie) erreichte, betrug 31 Zeitschritte. Bei näherer Betrachtung der Lösung stellte sich folgendes heraus: Die Ausgaben des Netzwerkes waren im wesentlichen unabhängig von den Eingaben. Der simple vom Netz implementierte Algorithmus bestand einfach darin, abwechselnd den ersten und den zweiten Ausgabeknoten zu aktivieren. Das reichte zwar aus, um besser als das Zufallsverfahren abzuschneiden. Als eine befriedigende Lösung kann das aber kaum akzeptiert werden.


next up previous contents
Nächste Seite: Ein Flip-Flop Problem Aufwärts: Grenzen der neuronalen Eimerkette Vorherige Seite: Grenzen der neuronalen Eimerkette   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite