next up previous contents
Nächste Seite: Intuitive Erklärung des Grundprinzips Aufwärts: Mehrdimensionale adaptive Kritiker & Vorherige Seite: Mehrdimensionale adaptive Kritiker &   Inhalt

Einführung

Aufbauend auf den bisher dargestellten Grundlagen beschreiben wir in diesem Kapitel eine weitere Klasse von Lernverfahren für Netzwerke mit interner und externer Rückkopplung. Im Gegensatz zu den bisher beschriebenen Methoden bedienen sich die im folgenden vorgestellten Ansätze eines adaptiven Kritikers, um die zeitliche Evolution von Zuständen dynamischer Netzwerke zu beobachten und zu bewerten.

Die Algorithmen können als Reinforcementvergleichsalgorithmen (siehe Kapitel 3) für i. a. zyklische Netze angesehen werden. Dieses Kapitel stellt eine Erweiterung der beiden Ph.-D.-Arbeiten von Sutton und Anderson dar [66][2]. Zwei Arten von Erweiterungen werden angesprochen: Erstens werden unsere Kritiker im allgemeinen multidimensional sein (im Gegensatz zu den bisher verwendeten skalaren Kritikern), und zweitens werden Strategien zur adaptiven Kritik rekurrenter Netze eingeführt werden.

Wichtige Motivation ist wieder die wünschenswerte Lokalität in Zeit und Raum. Zwar ist das generellste der vorgestellten Verfahren nicht räumlich schwach lokal; alle Verfahren sind jedoch zeitlich schwach lokal. Dort, wo wir uns in besonderem Maße von Andersons Arbeit abheben wollen, ist räumliche und zeitliche Lokalität gegeben.

Der wesentliche Beitrag dieses Kapitels besteht in der Demonstration der Anwendbarkeit von TD-Varianten auf rekurrente Netze sowie der Demonstration von Lerngeschwindigkeitsvorteilen mehrdimensionaler Kritiker. Alle vorgestellten Algorithmen basieren im wesentlichen auf zwei interagierenden Netzwerken. Ein statischer oder dynamischer adaptiver Kritiker beobachtet die temporale Evolution eines u.U. vollständig rückgekoppelten ``Steuernetzwerkes'', welches durch seine Ausgaben eine Umgebung manipulieren kann. Der Kritiker lernt, zu jedem Zeitpunkt Voraussagen über den Endeffekt der vom Steuernetzwerk ausgeführten Prozedur zu machen. Unterschiede sukzessiver Voraussagen dienen einerseits dazu, den Kritiker zu verbessern, und andererseits dazu, korrespondierende Transitionen im Steuernetzwerk wahrscheinlicher oder unwahrscheinlicher zu machen, je nachdem, ob sich die Erwartung bezüglich eines gewünschten Endeffekts verbessert oder verschlechtert hat.

Das Kapitel ist wie folgt gegliedert: Nach einer intuitiven Erklärung des allen Verfahren gemeinsamen Prinzips wird zunächst ein auf diesem Prinzip beruhender Algorithmus namens A3 beschrieben. Experimentell wird gezeigt, wie ein linearer Kritiker zur Lösung einer nicht-linearen Aufgabe beitragen kann.

Anschließend werden Varianten des Algorithmus beschrieben. Unter anderem wird gezeigt, wie ein drittes adaptives Netzwerk sinnvoll den Systemidentifikationsansatz mit ins Spiel bringen kann. Eine simplifizierte Version dieser Erweiterung, bei der ein Systemidentifikationsnetz in sinnvoller Weise mit dem adaptiven Kritiker verschmolzen wird, erlaubt im Gegensatz zu bisherigen Methoden die natürliche Einführung vektorwertiger Kritiker. Experimentell wird anhand einer schwierigen Balancieraufgabe gezeigt, daß mehrdimensionale Kritiker höhere Lerngeschwindigkeiten erlauben als Ansätze mit skalaren Kritikern.

Zum Abschluß wird eine Erweiterung auf den Fall eines rekurrenten Kritikers angegeben. Letztere ist zwar nicht mehr lokal im Raum, dafür aber für allgemeine Umgebungsdynamik geeignet, auch wenn letztere nicht vom Markov-Typ ist.


next up previous contents
Nächste Seite: Intuitive Erklärung des Grundprinzips Aufwärts: Mehrdimensionale adaptive Kritiker & Vorherige Seite: Mehrdimensionale adaptive Kritiker &   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite