Bei dem Balancierproblem ging es darum, zu jedem Zeitschritt auf einen sich auf einer eindimensionalen Spur befindlichen Wagen eine Kraft auszuüben, und zwar dergestalt, daß ein auf dem Wagen montierter und entlang der Bewegungsrichtung des Wagens frei schwingender Stab nicht zu weit ausschlug. Auch durfte der Wagen nicht an die Begrenzung der Spur stoßen. Es wurde nur `verzögerte' Reinforcement-Information zur Verfügung gestellt. Wir übernahmen das Problem, das Anderson in Erweiterung einer von Barto, Sutton und Anderson gestellten Aufgabe [5] formuliert hat [2]. Nur wenn das System in einen Fehlerzustand eintrat (d.h. wenn der Wagen an den Rand stieß oder der Stab umfiel), wurde keine Gewichtssubstanz vergeben.
Die im Anhang beschriebenen Differentialgleichungen wurden zur
Modellierung des Wagen/Stab-Systems herangezogen. Die
Rechnersimulation beruhte auf der Eulerschen Methode, zwei
aufeinanderfolgende
Zeitschritte lagen 0.02 Sekunden auseinander. Die
vier Netzeingaben, die dem Netzwerk zu einem gegebenen Zeitpunkt
die Position des Wagens, den Winkel des Stabes mit der Vertikalen sowie
die zeitlichen Ableitungen dieser beiden Größen zugänglich machten, sind
ebenfalls im Anhang definiert.
Zu Beginn eines Versuchs wurden
die vier physikalischen Zustandsvariablen jeweils mit initialisiert.
Die Aktivationen der Elemente einer aus zwei vollständig miteinander
vernetzten Ausgabeknoten bestehenden WTA-Einheit
wurden zu jedem Zeitschritt wie folgt interpretiert:
War der erste Knoten aktiv, so wurde parallel zur Spur
eine Kraft von auf
den Schwerpunkt des Wagens ausgeübt. War der zweite Knoten aktiv,
so betrug die entsprechende Kraft
.
Wendete man zu jedem Zeitpunkt eine entweder
oder
betragende zufällig gewählte Kraft an, so lag die
durchschnittliche Dauer bis zum Eintritt in einen
Fehlerzustand bei ca. 20 Zeitschritten.
Zu fast allen Zeitpunkten wurde Gewichtssubstanz an den jeweils gerade aktiven Ausgabeknoten vergeben. Die einzige Ausnahme waren Zeitpunkte, in denen das System in einen Fehlerzustand geriet: In solchen Fällen wurde keine Gewichtssubstanz spendiert.
Die Aufgabe erwies sich als für die neuronale Eimerkette als zu schwierig. Die längste Balancierdauer, die das System unter verschiedensten Bedingungen (Anzahl der versteckten Knoten, Netztopologie) erreichte, betrug 31 Zeitschritte. Bei näherer Betrachtung der Lösung stellte sich folgendes heraus: Die Ausgaben des Netzwerkes waren im wesentlichen unabhängig von den Eingaben. Der simple vom Netz implementierte Algorithmus bestand einfach darin, abwechselnd den ersten und den zweiten Ausgabeknoten zu aktivieren. Das reichte zwar aus, um besser als das Zufallsverfahren abzuschneiden. Als eine befriedigende Lösung kann das aber kaum akzeptiert werden.