next up previous contents
Nächste Seite: EXPERIMENTE MIT ADAPTIVEM Aufwärts: EXPERIMENTE ZUR HINDERNISVERMEIDUNG Vorherige Seite: EXPERIMENTE ZUR HINDERNISVERMEIDUNG   Inhalt

EXPERIMENTE MIT NICHT ADAPTIVEM $E$

Zur Illustration des Subzielgenerierungsprozesses wurde in Zusammenarbeit mit Reiner Wahnsiedler (Diplomand an der TUM) eine in kartesischen Koordinaten definierte zweidimensionale `Miniwelt' konstruiert [139].

Ein `Agent' kann sich in einer durch $x$-Achse und $y$-Achse gegebenen Ebene reeller Zahlenpaare frei bewegen, so daß die ausgeführte Trajektorie (seine `Spur') eine ein-dimensionale Mannigfaltigkeit in $R^2$ darstellt. In der Miniwelt existieren allerdings Hindernisse in Form kreisförmiger `Sümpfe'. Solange sich der Agent außerhalb der Sümpfe bewegt, entstehen ihm keine Kosten (in Form negativen reellwertigen Reinforcements). Der Aufwand, den der Agent zur Querung eines Sumpfes treiben muß, berechnet sich wie folgt:

Der $i$-te kreisförmige Sumpf $\Phi_i$ mit Zentrum $(x_i,y_i)$ und Radius $r_i$ bildet die Basis eines in die durch die $z$-Achse definierte dritte Dimension wachsenden Kegels mit Spitze $(x_i,y_i, -h_i)$. Bei gegebener Spur $\omega$ sind die durch $\Phi_i$ verursachten Kosten gleich

\begin{displaymath}
\int_{\omega} g(x,y, \Phi_i)~dx~dy.
\end{displaymath} (4.16)

Hierbei gilt $g(x,y, \Phi_i) = 0$, falls $(x,y)$ außerhalb von $\Phi_i$ liegt, andernfalls ist $g(x,y, \Phi_i)$ gleich dem Abstand zwischen $(x,y)$ und dem Schnittpunkt der zur Miniwelt Senkrechten durch $(x,y)$ mit dem zu $\Phi_i$ korrespondierenden Kegelmantel.

Des Agenten Aufgabe besteht in der `Planung' einer von einem gegebenen Startpunkt zu einem gegebenen Endpunkt führenden Aktionssequenz mit minimalen Kosten. Für die Experimente wurde angenommen, daß die Kosten aller Unterprogramme, die zu geradlinigen Bewegungen des Agenten führen, bereits bekannt sind. Für alle derartigen Unterprogramme ist (4.16) einfach zu berechnen: Wieder sei der Startpunkt des $i$-ten Unterprogramms $s^p(k) = (s_1^p(k), s_2^p(k))$ und sein Zielpunkt $s^p(k+1) = (s_1^p(k+1), s_2^p(k+1))$. (4.16) wird damit zur durch den parabelförmigen Kegelschnitt und der durch den Agenten hinterlassenen Spur definierten Fläche

\begin{displaymath}
F (s_1^p(k), s_2^p(k), s_1^p(k+1), s_2^p(k+1), \Phi_i) .
\end{displaymath} (4.17)

Siehe hierzu Abbildung 4.5.

Abbildung: Ein kreisförmiger Sumpf steht dem Agenten auf seinem geradlinigen Marsch vom START zum ZIEL im Wege. Die Kosten der Querung des Sumpfes ergeben sich zu der grau markierten Fläche.
\begin{figure}\psfig{figure=fig4.5} \end{figure}

Als Evaluationsmodul wurde natürlich die bezüglich Start und Zielpunkt eines Unterprogramms differenzierbare Summe aller Kosten

\begin{displaymath}
eval((s^p(k), s^p(k+1)) =
\sum_i F (s_1^p(k), s_2^p(k), s_1^p(k+1), s_2^p(k+1), \Phi_i)
\end{displaymath} (4.18)

verwendet.

Die im folgenden gezeigten Abbildungen basieren auf Rechnerausdrucken in [139]. Man betrachte Abbildung 4.6. Ein einzelner Sumpf versperrt dem Agenten den bereits bekannten geradlinigen Weg vom Start zum Ziel. Für eine saubere kostenfreie Komposition einer Lösung aus schon bekannten Unterprogrammen stellen sich zwei Subziele als zweckmäßig heraus. Für einen statischen Subzielgenerator (Architektur 1) mit 4 Eingabeknoten und 4 Ausgabeknoten (für zwei Subziele) erwiesen sich bei 4 versteckten Knoten und einer Lernrate von $\eta_S = 0.2$ drei Iterationsschritte als ausreichend, um eine befriedigende Subzielkombination zu finden.

Abbildung 4.6: Ein einzelner Sumpf (Kreis) versperrt den geradlinigen Weg vom START zum ZIEL. Gezeigt ist die Evolution zweier von einem azyklischen Subzielgenerator ausgegebener Subziele.
\begin{figure}\psfig{figure=fig4.6} \end{figure}

Der rekurrente Subzielgenerator (Architektur 2) mit 4 Eingabeknoten, aber nur zwei Ausgabeknoten (dieselben Ausgabeknoten können ja bei dieser Architektur für verschiedene aufeinanderfolgende Subziele verwendet werden) stieß erwartungsgemäß auf etwas größere Schwierigkeiten, dieselbe Aufgabe zu lösen. Da ein und derselbe Ausgang von $S$ zu verschiedenen Zeitpunkten verschiedene kontextabhängige Subzielrepräsentationen emittieren soll, leidet Architektur 2 stärker unter dem altbekannten `cross-talk'-Phänomen als Architektur 1. Diesem Problem kann man durch Erniedrigung der Lernrate beikommen, wofür man allerdings in Form von mehr Trainingsiterationen zahlen muß. Bei 40 versteckten Knoten und einer Lernrate von $\eta_S = 0.03$ wurden 22 Iterationsschritte zur Auffindung einer befriedigenden Lösung benötigt. Siehe hierzu Abbildung 4.7.

Abbildung 4.7: Wie Abbildung 4.6 - allerdings nun mit rekurrentem Subzielgenerator (Architektur 2).
\begin{figure}\psfig{figure=fig4.7} \end{figure}

Bei mehr als einem Hindernis erwies sich folgende Initialhilfestellung für den Subzielgenerator günstiger als eine vorurteilsfreie zufällige Gewichtsinitialisierung: Bei gegebener Start/Ziel-Kombination wurde $S$ zunächst ohne Rücksicht auf etwaige im Wege stehende Sümpfe daraufhin trainiert, äquidistante Subziele auf der Start und Ziel verbindenden Linie auszugeben. Erst danach begann die eigentliche kostenminimierende Lernphase. Abbildung 4.8 zeigt die Evolution der aus 4 Subzielen bestehenden Ausgabe eines wie oben initialisierten statischen Subzielgenerators mit 10 Ausgabeknoten, 40 versteckten Knoten bei einer Lernrate von $\eta_S = 0.002$.

Größere Lernraten führten bei diesem Problem zu schlechterer Performanz. Der Grund liegt in der aufgrund der nahe beieinanderliegenden zahlreichen Hindernisse vergleichsweise komplexen Zielfunktion. Je komplexer die Zielfunktion (je kleiner der Einzugsbereich globaler oder lokaler Minima), desto kleiner muß i.a. die Lernarte gewählt werden, und desto mehr Trainingsiterationen sind i.a. erforderlich. Unglücklicherweise gibt es aufgrund der Problemabhängigkeit geigneter Lernraten keine allgemeine Methode zur optimalen Lernrateneinstellung. Die einfachste (und in dieser Arbeit verwendete) Methode zur Auffindung brauchbarer Lernraten besteht von Fall zu Fall im systematischen Probieren.

Abbildung: Eine ganze Reihe von Sümpfen versperrt den geradlinigen Weg vom START zum ZIEL. Gezeigt ist die Evolution von fünf von einem azyklischen Subzielgenerator emittierten Subzielen.
\begin{figure}\psfig{figure=fig4.8} \end{figure}


next up previous contents
Nächste Seite: EXPERIMENTE MIT ADAPTIVEM Aufwärts: EXPERIMENTE ZUR HINDERNISVERMEIDUNG Vorherige Seite: EXPERIMENTE ZUR HINDERNISVERMEIDUNG   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite