next up previous contents
Nächste Seite: ADAPTIVE SUBZIELGENERIERUNG Aufwärts: ALGORITHMUS Vorherige Seite: ALGORITHMUS   Inhalt

EXPERIMENTE

Das Weltmodellbauprinzip wurde u.a. erfolgreich auf das Problem des sequentiellen Andockens eines rückwärts fahrenden Spielzeuglastwagens mit Anhänger an eine Laderampe angewendet [63]. Zunächst wurde dabei ein Weltmodellnetzwerk $M$ anhand zufällig gewählter Trainingsbeispiele daraufhin trainiert, bei gegebener Lastwagenposition, gegebenem Winkel zwischen Lastwagen und Anhänger, gegebenem Einschlagwinkel des Lenkrades und bei fixer Lastwagengeschwindigkeit die Lastwagenposition zum nächsten diskreten Zeitschritt vorherzusagen. In der zweiten Phase lernte ein Steuernetzwerk $C$ unter Zuhilfenahme von $M$, Sequenzen von Lenksignalen auszugeben, so daß der Anhänger am Ende einer größenordnungsmässig 20 Zeitschritte umfassenden Trajektorie (mit zufällig gewählter Startposition und zufälligem Anfangswinkel zwischen Anhänger und Lastwagen) stets korrekt an der Laderampe andockte.

Eine erfolgreiche Anwendung eines erweiterten Verfahrens auf das Problem des Erlernens zielgerichteter Retinatrajektorien zur selektiven Aufmerksamkeitssteuerung findet sich in [117] (siehe auch [118] und [93]). Das Ziel des Systems bestand darin, ohne Lehrer zu lernen, sequentielle Steurersignale zu erzeugen, so daß die Endposition einer durch die Steuersignale bewegten künstlichen Retina (mit hoher Auflösung im Zentrum und niedriger Auflösung in den peripheren Bereichen) einem zu findenden Objekt in einer visuellen Szene entsprach (dies läßt sich als eine Form gerichteter Aufmerksamkeitssteuerung interpretieren). Motivation war hierbei, die kaum erfolgreichen und ineffizienten rein statischen Ansätze zur Mustererkennung durch einen effizienteren sequentiellen Ansatz zu ersetzen. Dieser Ansatz war inspiriert durch die Beobachtung, daß biologische Systeme den Mustererkennungsprozeß auf sequentielle Augenbewegungen abstützen. In der ersten Phase wurde ein Modellnetzwerk $M$ dabei daraufhin trainiert, bei gegebener zufällig gewählter Retinaeingabe und zufällig gewähltem Steuersignal die Retinaeingabe zum nächsten Zeitschritt möglichst gut vorherzusagen. In der zweiten Phase (nach Einfrieren von $M$'s Gewichten) lernte $C$ im Laufe von größenordnungsmäßig 20000 Trainingsversuchen unter Zuhilfenahme von $M$, Sequenzen von Kombinationen von Retinatranslationen und -rotationen zu erzeugen, und zwar dergestalt, daß die Retinaeingabe am Ende der größenordnungsmässig 20 Zeitschritte umfassenden Trajektorie gleich einer gewünschten finalen Eingabe korrespondierend zu dem zu findenden Objekt war. Kein Lehrer teilte $C$ dabei mit, welche Steuerausgabe es zu welchem Zeitpunkt auszugeben hatte. Die einzige Information über das Ziel bestand aus der gewünschten Eingabe am Ende der Steuersequenz.

Weitere Applikationen (u.a. auf Balancierprobleme in Nicht-Markov-Umgebungen) werden in [108] beschrieben.


next up previous contents
Nächste Seite: ADAPTIVE SUBZIELGENERIERUNG Aufwärts: ALGORITHMUS Vorherige Seite: ALGORITHMUS   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite