Zur Illustration des Subzielgenerierungsprozesses wurde in Zusammenarbeit mit Reiner Wahnsiedler (Diplomand an der TUM) eine in kartesischen Koordinaten definierte zweidimensionale `Miniwelt' konstruiert [139].
Ein `Agent'
kann sich in einer durch -Achse und
-Achse gegebenen
Ebene reeller Zahlenpaare frei bewegen, so daß die
ausgeführte
Trajektorie (seine `Spur') eine ein-dimensionale Mannigfaltigkeit
in
darstellt.
In der Miniwelt existieren allerdings Hindernisse in
Form kreisförmiger `Sümpfe'. Solange sich der
Agent außerhalb der Sümpfe bewegt, entstehen ihm keine
Kosten (in Form negativen reellwertigen Reinforcements).
Der Aufwand, den der Agent zur Querung eines Sumpfes treiben
muß, berechnet sich wie folgt:
Der -te kreisförmige Sumpf
mit
Zentrum
und
Radius
bildet die Basis eines in die
durch die
-Achse definierte dritte Dimension wachsenden
Kegels mit Spitze
.
Bei gegebener Spur
sind die durch
verursachten Kosten gleich
![]() |
(4.16) |
Des Agenten Aufgabe besteht in der `Planung' einer von einem gegebenen
Startpunkt zu einem gegebenen Endpunkt führenden Aktionssequenz
mit minimalen Kosten.
Für die Experimente wurde angenommen, daß die Kosten aller
Unterprogramme, die zu geradlinigen Bewegungen des Agenten
führen, bereits bekannt sind. Für alle derartigen Unterprogramme
ist (4.16) einfach zu berechnen:
Wieder sei der Startpunkt des -ten Unterprogramms
und sein Zielpunkt
.
(4.16) wird damit zur durch den parabelförmigen Kegelschnitt und
der durch den Agenten hinterlassenen Spur definierten
Fläche
![]() |
(4.17) |
![]() |
Als Evaluationsmodul wurde natürlich die bezüglich
Start und Zielpunkt eines Unterprogramms differenzierbare
Summe aller Kosten
![]() |
(4.18) |
Die im folgenden gezeigten Abbildungen basieren
auf Rechnerausdrucken in [139].
Man betrachte Abbildung 4.6. Ein einzelner Sumpf versperrt
dem Agenten den bereits bekannten geradlinigen Weg vom
Start zum Ziel. Für eine saubere kostenfreie Komposition
einer Lösung aus schon bekannten Unterprogrammen stellen sich
zwei Subziele als zweckmäßig heraus. Für einen statischen
Subzielgenerator (Architektur 1) mit 4 Eingabeknoten und
4 Ausgabeknoten (für zwei
Subziele) erwiesen sich bei 4
versteckten Knoten und einer Lernrate von
drei Iterationsschritte
als ausreichend, um eine befriedigende
Subzielkombination zu finden.
![]() |
Der rekurrente Subzielgenerator (Architektur 2) mit 4 Eingabeknoten,
aber nur zwei Ausgabeknoten (dieselben Ausgabeknoten können ja
bei dieser Architektur für verschiedene aufeinanderfolgende
Subziele verwendet werden) stieß
erwartungsgemäß auf etwas größere Schwierigkeiten,
dieselbe Aufgabe zu lösen. Da ein und derselbe Ausgang
von zu verschiedenen Zeitpunkten verschiedene
kontextabhängige
Subzielrepräsentationen emittieren soll, leidet
Architektur 2 stärker unter dem
altbekannten `cross-talk'-Phänomen als Architektur 1.
Diesem Problem kann man durch Erniedrigung der Lernrate
beikommen, wofür man allerdings in Form von mehr
Trainingsiterationen zahlen muß.
Bei 40 versteckten Knoten und
einer Lernrate von
wurden 22 Iterationsschritte
zur Auffindung einer befriedigenden Lösung
benötigt. Siehe hierzu Abbildung 4.7.
Bei mehr als einem Hindernis erwies sich folgende
Initialhilfestellung für den Subzielgenerator
günstiger als eine vorurteilsfreie zufällige
Gewichtsinitialisierung:
Bei gegebener Start/Ziel-Kombination wurde zunächst
ohne Rücksicht auf etwaige im Wege stehende Sümpfe
daraufhin trainiert, äquidistante Subziele auf der
Start und Ziel verbindenden Linie auszugeben.
Erst danach begann die eigentliche kostenminimierende Lernphase.
Abbildung 4.8 zeigt die Evolution der aus 4 Subzielen
bestehenden Ausgabe eines wie oben
initialisierten statischen
Subzielgenerators mit 10 Ausgabeknoten, 40 versteckten Knoten
bei einer Lernrate
von
.
Größere Lernraten führten bei diesem Problem zu schlechterer Performanz. Der Grund liegt in der aufgrund der nahe beieinanderliegenden zahlreichen Hindernisse vergleichsweise komplexen Zielfunktion. Je komplexer die Zielfunktion (je kleiner der Einzugsbereich globaler oder lokaler Minima), desto kleiner muß i.a. die Lernarte gewählt werden, und desto mehr Trainingsiterationen sind i.a. erforderlich. Unglücklicherweise gibt es aufgrund der Problemabhängigkeit geigneter Lernraten keine allgemeine Methode zur optimalen Lernrateneinstellung. Die einfachste (und in dieser Arbeit verwendete) Methode zur Auffindung brauchbarer Lernraten besteht von Fall zu Fall im systematischen Probieren.
![]() |