next up previous contents
Nächste Seite: Eingeschränkte externe und interne Aufwärts: Der Systemidentifikationsansatz Vorherige Seite: Nur externe Rückkopplung   Inhalt

Zusätzliche Beschränkungen für Ausgabeknoten

Jordan hat das Systemidentifikationsprinzip ebenfalls im Kontext von Steuerungsaufgaben verwendet [21]. In Jordans Anwendungen gibt ein Lehrer für jeden Zeitpunkt einen zu erreichenden Zustand der Umgebung in `Zielknoten' vor (z.B. die gewünschten Positionen eines Roboterarms). Damit entfällt zumindest einmal die zeitliche Komponente des `credit-assignment' Problems.

Ein in einer separaten Phase trainiertes Modellnetzwerk sagt wieder aus den Ausgaben des Steuernetzwerkes Effekte auf die Zielknoten voraus. Das Modellnetzwerk hilft dem Steuernetzwerk, die richtigen Ausgaben zu generieren (wie gehabt). Jordan betont nun die Möglichkeit der Einführung zusätzlicher Einschränkungen für die Ausgabeknoten des Steuerungsnetzes. Ein Roboterarm, der zu vier aufeinanderfolgenden Zeitpunkten vier verschiedene Punkte im zweidimensionalen Raum erreichen soll, verfügt dank seiner Bewegungsmöglichkeiten über mehr Freiheitsgrade, als zur Lösung der Aufgabe notwendig wären. Wie kann man die zusätzlichen Freiheitsgrade sinnvoll ausnützen? Man konstruiert z.B. eine abgewandelte Fehlerfunktion, die zusätzliche Terme beinhaltet, welche die `Glattheit' der Bewegung messen. Das geht ganz einfach: Man addiert zur ursprünglichen Fehlerfunktion Differenzen sukzessiver Ausgaben des Steuernetzwerkes. Die Minimierung der neuen Fehlerfunktion erzwingt `glatte' Trajektorien, nämlich solche, die im Rahmen der vorgegebenen Aufgabe den Gesamtbewegungsaufwand so weit wie möglich reduzieren.

Um die Entscheidung des Steuernetzes zur Zeit $t$ von den Ausgaben zur Zeit $t-1$ abhängig zu machen, benutzt Jordan wie bei seinem schon im Kapitel zum überwachten Lernen beschriebenen Verfahren eine zweigeteilte Eingabelage. Neben den normalen Eingabeknoten gibt es noch die `Zustandsknoten', in die die Aktivationen der Ausgabeknoten des Steuernetzes vom jeweils letzten Zeitschritt kopiert werden. Der resultierende Effekt gleicht dem, den man mit entsprechenden rekurrenten starren Verbindungen mit jeweiligem Gewicht $1$ erreichen würde. Auch von den `Zielknoten' führen Verbindungen zurück auf die Zustandsknoten.


next up previous contents
Nächste Seite: Eingeschränkte externe und interne Aufwärts: Der Systemidentifikationsansatz Vorherige Seite: Nur externe Rückkopplung   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite