next up previous contents
Nächste Seite: SCHRANKEN DER SUBZIELGENERATOREN Aufwärts: EXPERIMENTE ZUR HINDERNISVERMEIDUNG Vorherige Seite: EXPERIMENTE MIT NICHT ADAPTIVEM   Inhalt

EXPERIMENTE MIT ADAPTIVEM $E$

Die folgenden Untersuchungen wurden von Martin Eldracher und Boris Baginski mit Hilfe von Bernhard Glavinas Robotersimulationsumgebung [30] durchgeführt (siehe auch [22]).

Abbildung 4.9 zeigt einen zweigelenkigen Manipulatorarm in einer Umgebung mit zwei seine Bewegungsfreiheit einschränkenden Wänden als Hindernissen.

Im Gegensatz zu den Experimenten aus dem vorangegangenem Abschnitt war $E$ selbst als vollständig vorwärts vernetztes BP-Netzwerk implementiert (Knoten einer bestimmten Lage entsprangen Verbindungen zu allen Knoten höherer Lagen). $E$ wurde mit BP daraufhin trainiert, vorherzusagen, ob ein zufällig gewählter Startpunkt im Winkelraum (siehe Abbildung 4.10) mit einem zufällig gewählten Zielpunkt durch eine kollisions- und krümmungsfreie Winkelraumtrajektorie verbunden werden kann.

$E$'s Trainingsphase lief wie folgt ab: Die 4-dimensionale Eingabe bestand stets aus einer Start/Zielkombination aus dem Bereich $[0, \ldots, 2 \pi ] \times [0, \ldots, 2 \pi ] \times
[0, \ldots, 2 \pi ] \times [0, \ldots, 2 \pi ]$. Die erste Komponente des Eingabevektors beschrieb dabei den Anstellwinkel des `Oberarms' des Manipulators für die Startposition, die zweite Komponente beschrieb den Anstellwinkel des `Unterarms' (die beiden verbleibenden Komponenten standen in analoger Weise für die Zielposition). $E$'s gewünschte Ausgabe war 1, falls sich durch Ausprobieren in der Robotersimulationsumgebung herausstellte, daß eine geradlinige Verbindung zwischen Start und Ziel im Winkelraum möglich war (Klasse 1), und 0 sonst (Klasse 2).

Für jede der beiden Klassen wurden 50000 Trainingsbeispiele verwendet. Tabelle 4.1 zeigt die Resultate für verschiedene Netzwerktopologien (angegeben ist die Zahl der Knoten in aufeinanderfolgenden Lagen) und `Epochenzahlen', wobei eine Epoche einem Durchlauf durch alle Trainingsbeispiele entspricht. Die angegebenen Prozentsätze beziehen sich auf die Zahl der korrekt klassifizierten Start/Zielkombinationen, wobei eine Evaluatorausgabe $ \ge 1-\varepsilon$ ( $\le \varepsilon$) als korrekte Klassifikation von Klasse 1 (Klasse 2) akzeptiert wurde.

Abbildung: Simulationsumgebung mit zweigelenkigem Manipulator und zwei Wänden als Hindernissen.
figure=el_mau.ps,angle=-90,width=1.48
Abbildung 4.10: Winkelraum: Die durch die Hindernisse verbotenen Bereiche sind schwarz gekennzeichnet. Subziele konzentrieren sich nach dem Training in den grauen Bereichen.
figure=cspace2.eps,width=0.8
Abbildung: Die beiden Zentren der Subzielhäufungen in kartesischen Koordinaten.
figure=2dscene.ps,angle=-90,width=1.2


Tabelle: Prozentsatz korrekter Klassifikationen des Evaluators nach dem Training (für Trainingsdaten bzw. Testdaten).

Netztopologie Epochen Klassifikationssatz
    $\varepsilon = 0.5$ $\varepsilon = 0.1$
    Training Test Training Test
4-25-25-25-1 4,000 99.3% 98.9% 96.8% 96.6%
4-40-40-40-1 2,000 99.3% 98.9% 96.5% 96.2%


Nach Beendigung der Trainingsphase des Evaluators wurde ein statischer, vollständig vorwärts vernetzter Subzielgenerator $S$ mit 4 Eingabeknoten und 2 Ausgabeknoten (zur Ausgabe eines Subziels im Winkelraum) gemäß Abbildung 4.3 mit zwei Evaluatorkopien zusammengeschaltet.

Einzelne Subziele für spezifische Probleme zu lernen, fiel $S$ nun ähnlich leicht wie bei den Experimenten aus dem vorangegangenen Abschnitt. Um jedoch $S$ dazu zu veranlassen, über einen weiten Bereich von Problemstellungen (Start/Zielkombinationen) auf Anhieb brauchbare Ergebnisse zu produzieren, mußte $S$ vergleichsweise langsam trainiert werden:

Tabelle 4.2 zeigt die mit verschiedene Netzwerktopologien und `Epochenzahlen' erhaltenen Resultate. Die angegebenen Prozentsätze beziehen sich auf die Zahl der als `gültig' bewerteten Subziele, wobei ein Subziel als `gültig' angesehen wurde, wenn die entsprechenden Ausgaben beider Evaluatorkopien 0.95 überstiegen. Ein sehr hoher Prozentsatz der `gültigen' Subziele erwies sich in der Simulationsumgebung tatsächlich als brauchbar, wie sich aus der Spalte mit der Überschrift `Güte der generierten Subziele' in Tabelle 4.2 ergibt. Die Mehrheit der ausgegbenen Subziele entsprach dabei einer angewinkelten Manipulatorposition, die auch nach menschlichem Ermessen sinnvoll ist (siehe Abbildungen 4.10 und 4.11 für Veranschaulichungen der Subzielhäufungen). Die Spalte mit dem Titel `Gesamtlösungssatz' in Tabelle 4.2 schließlich zeigt, daß der Subzielgenerator nach dem Training für über 90 Prozent der Testfälle auf Anhieb ein geeignetes Subziel ausgeben konnte (die verbleibenden Fälle erforderten zusätzliche Gradientenabstiegsiterationen).


Tabelle 4.2: Resultate des Subzielgenerators nach dem Training.

Netztopologie Subziele oberhalb der Schwelle Güte der Gesamt-
Epochen generierten Subziele Lösungssatz
1000 2000 3000 test training test training test
4-5-5-5-2 92.9% 93.0% 93.8% 93.2% 99.9% 99.9% 93.8% 93.2%
4-10-10-10-2 93.2% 93.6% 93.7% 93.3% 98.7% 97.9% 91.9% 91.3%
4-20-20-20-2 92.7% 93.5% 93.2% 97.3% 97.1% 91.0% 90.8%


Diese von Eldracher und Baginski durchgeführten Untersuchungen zeigen, daß die Trainingsvorarbeiten für das Subziele generierende System (insbesondere das Trainieren des Evaluators) aufwendig sein können. Nach der Lernphase kann $S$ jedoch in vielen Fällen schnell (auf Anhieb) geeignete Subziele produzieren. Die Beschreibungen weiterer Experimente mit adaptivem $E$ finden sich in [22] und [101].


next up previous contents
Nächste Seite: SCHRANKEN DER SUBZIELGENERATOREN Aufwärts: EXPERIMENTE ZUR HINDERNISVERMEIDUNG Vorherige Seite: EXPERIMENTE MIT NICHT ADAPTIVEM   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite