EXPERIMENTE MIT ADAPTIVEM

Die folgenden Untersuchungen wurden von Martin Eldracher und Boris Baginski mit Hilfe von Bernhard Glavinas Robotersimulationsumgebung [30] durchgeführt (siehe auch [22]).

Abbildung 4.9 zeigt einen zweigelenkigen Manipulatorarm in einer Umgebung mit zwei seine Bewegungsfreiheit einschränkenden Wänden als Hindernissen.

Im Gegensatz zu den Experimenten aus dem vorangegangenem Abschnitt war

selbst als vollständig vorwärts vernetztes BP-Netzwerk implementiert (Knoten einer bestimmten Lage entsprangen Verbindungen zu allen Knoten höherer Lagen).

wurde mit BP daraufhin trainiert, vorherzusagen, ob ein zufällig gewählter Startpunkt im Winkelraum (siehe Abbildung 4.10) mit einem zufällig gewählten Zielpunkt durch eine kollisions- und krümmungsfreie Winkelraumtrajektorie verbunden werden kann.

's Trainingsphase lief wie folgt ab: Die 4-dimensionale Eingabe bestand stets aus einer Start/Zielkombination aus dem Bereich $[0, \ldots, 2 \pi ] \times [0, \ldots, 2 \pi ] \times [0, \ldots, 2 \pi ] \times [0, \ldots, 2 \pi ]$ . Die erste Komponente des Eingabevektors beschrieb dabei den Anstellwinkel des `Oberarms' des Manipulators für die Startposition, die zweite Komponente beschrieb den Anstellwinkel des `Unterarms' (die beiden verbleibenden Komponenten standen in analoger Weise für die Zielposition).

's gewünschte Ausgabe war 1, falls sich durch Ausprobieren in der Robotersimulationsumgebung herausstellte, daß eine geradlinige Verbindung zwischen Start und Ziel im Winkelraum möglich war (Klasse 1), und 0 sonst (Klasse 2).

Für jede der beiden Klassen wurden 50000 Trainingsbeispiele verwendet. Tabelle 4.1 zeigt die Resultate für verschiedene Netzwerktopologien (angegeben ist die Zahl der Knoten in aufeinanderfolgenden Lagen) und `Epochenzahlen', wobei eine Epoche einem Durchlauf durch alle Trainingsbeispiele entspricht. Die angegebenen Prozentsätze beziehen sich auf die Zahl der korrekt klassifizierten Start/Zielkombinationen, wobei eine Evaluatorausgabe $\ge 1-\varepsilon$ ( $\le \varepsilon$ ) als korrekte Klassifikation von Klasse 1 (Klasse 2) akzeptiert wurde.

**Abbildung:** *Simulationsumgebung mit zweigelenkigem Manipulator und zwei Wänden als Hindernissen.*
figure=el_mau.ps,angle=-90,width=1.48

**Abbildung 4.10:** *Winkelraum: Die durch die Hindernisse verbotenen Bereiche sind schwarz gekennzeichnet. Subziele konzentrieren sich nach dem Training in den grauen Bereichen.*
figure=cspace2.eps,width=0.8

**Abbildung:** *Die beiden Zentren der Subzielhäufungen in kartesischen Koordinaten.*
figure=2dscene.ps,angle=-90,width=1.2

Tabelle: Prozentsatz korrekter Klassifikationen des Evaluators nach dem Training (für Trainingsdaten bzw. Testdaten).

Netztopologie	Epochen	Klassifikationssatz
		$\varepsilon = 0.5$		$\varepsilon = 0.1$
		Training	Test	Training	Test
4-25-25-25-1	4,000	99.3%	98.9%	96.8%	96.6%
4-40-40-40-1	2,000	99.3%	98.9%	96.5%	96.2%

Nach Beendigung der Trainingsphase des Evaluators wurde ein statischer, vollständig vorwärts vernetzter Subzielgenerator

mit 4 Eingabeknoten und 2 Ausgabeknoten (zur Ausgabe eines Subziels im Winkelraum) gemäß Abbildung 4.3 mit zwei Evaluatorkopien zusammengeschaltet.

Einzelne Subziele für spezifische Probleme zu lernen, fiel

nun ähnlich leicht wie bei den Experimenten aus dem vorangegangenen Abschnitt. Um jedoch

dazu zu veranlassen, über einen weiten Bereich von Problemstellungen (Start/Zielkombinationen) auf Anhieb brauchbare Ergebnisse zu produzieren, mußte

vergleichsweise langsam trainiert werden:

Tabelle 4.2 zeigt die mit verschiedene Netzwerktopologien und `Epochenzahlen' erhaltenen Resultate. Die angegebenen Prozentsätze beziehen sich auf die Zahl der als `gültig' bewerteten Subziele, wobei ein Subziel als `gültig' angesehen wurde, wenn die entsprechenden Ausgaben beider Evaluatorkopien 0.95 überstiegen. Ein sehr hoher Prozentsatz der `gültigen' Subziele erwies sich in der Simulationsumgebung tatsächlich als brauchbar, wie sich aus der Spalte mit der Überschrift `Güte der generierten Subziele' in Tabelle 4.2 ergibt. Die Mehrheit der ausgegbenen Subziele entsprach dabei einer angewinkelten Manipulatorposition, die auch nach menschlichem Ermessen sinnvoll ist (siehe Abbildungen 4.10 und 4.11 für Veranschaulichungen der Subzielhäufungen). Die Spalte mit dem Titel `Gesamtlösungssatz' in Tabelle 4.2 schließlich zeigt, daß der Subzielgenerator nach dem Training für über 90 Prozent der Testfälle auf Anhieb ein geeignetes Subziel ausgeben konnte (die verbleibenden Fälle erforderten zusätzliche Gradientenabstiegsiterationen).

Tabelle 4.2: Resultate des Subzielgenerators nach dem Training.

Netztopologie	Subziele oberhalb der Schwelle				Güte der		Gesamt-
	Epochen				generierten Subziele		Lösungssatz
	1000	2000	3000	test	training	test	training	test
4-5-5-5-2	92.9%	93.0%	93.8%	93.2%	99.9%	99.9%	93.8%	93.2%
4-10-10-10-2	93.2%	93.6%	93.7%	93.3%	98.7%	97.9%	91.9%	91.3%
4-20-20-20-2	92.7%	93.5%		93.2%	97.3%	97.1%	91.0%	90.8%

Diese von Eldracher und Baginski durchgeführten Untersuchungen zeigen, daß die Trainingsvorarbeiten für das Subziele generierende System (insbesondere das Trainieren des Evaluators) aufwendig sein können. Nach der Lernphase kann

jedoch in vielen Fällen schnell (auf Anhieb) geeignete Subziele produzieren. Die Beschreibungen weiterer Experimente mit adaptivem

finden sich in [22] und [101].