next up previous contents
Nächste Seite: Zusammenfassung Aufwärts: promotion Vorherige Seite: Kritik und Ausblick   Inhalt

`Rekurrente' Umgebungsmodelle für R-Lernen

Die in diesem Kapitel vorgestellte Klasse von Algorithmen für rekurrente Steuernetzwerke basiert auf Systemidentifikation. Der allen Verfahren zugrundeliegende Algorithmus wird im folgenden A2 genannt. A2 zielt explizit auf die allgemeinste Sorte externer Dynamik: Er beinhaltet eine Komponente, die auch für nicht Markov-artige externe Dynamik einen allgemeinen Performanzgradienten approximiert und diese Approximation für zielgerichtetes Verhalten ausnutzt. Allerdings wird diese Fähigkeit des Algorithmus erkauft durch einen Verlust der räumlichen Lokalität.

A2 stellt eine Erweiterung der im 3. Kapitel beschriebenen Arbeiten von Munro, Jordan, Werbos, Widrow und Robinson dar. Dieses Kapitel ist wie folgt gegliedert: Nach einer Zusammenfassung und einer intuitiven Erklärung des Prinzips wird der Algorithmus mathematisch begründet und anschließend in implementierfähiger Form beschrieben. Zwei Versionen von A2 werden betrachtet: Bei der sequentiellen Version wird zunächst eine Systemidentifikationskomponente daraufhin trainiert, die Umgebung zu simulieren. Danach schließt sich die Lernphase einer Steuerkomponente an. Bei der parallelen Version lernen beide Komponenten gleichzeitig. A2's potentielle Mächtigkeit wird illustriert durch das (nach bestem Wissen des Autors) erste Experiment zum R-Lernen in einer Nicht-Markov-Umgebung.

Danach wird ausgeführt, wie A2 unter Verlust an Effizienz für vorausschauendes adaptives Planen ausgenützt werden kann. Wesentliche Unterschiede zu den adaptiven Kritikern werden dabei besprochen. Gewisse Vorteile des Konzepts der adaptiven Kritiker motivieren das nachfolgende Kapitel.

Die Schlußkritik bezieht sich vor allem auf die nicht vorhandene Kompositionalität des Algorithmus und stellt zusätzliche Motivation für das abschließende 8. Kapitel dar.



Unterabschnitte
next up previous contents
Nächste Seite: Zusammenfassung Aufwärts: promotion Vorherige Seite: Kritik und Ausblick   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite