next up previous contents
Nächste Seite: Reinforcementvergleichsalgorithmen Aufwärts: Modellbildende Verfahren Vorherige Seite: Eingeschränkte externe und interne   Inhalt

Adaptive Kritiker

Der Systemidentifikationsansatz versucht zunächst nur, ausgehend von einem gegebenen Zeitpunkt, Eigenschaften der Umgebung zum nächsten Zeitpunkt durch `Simulation' vorherzusagen. Im Gegensatz dazu versuchen adaptive Kritiker nicht, die Umwelt zu simulieren. Vielmehr werden sie mit geschickt ausgedachten Verfahren darauf trainiert, aus einer unzulänglichen externen Bewertungsfunktion (welche sich oft nur durch zu seltenen Zeiten spärlich verteiltes Reinforcement ausdrückt) eine informiertere interne Bewertungsfunktion zu konstruieren. Es ist die interne Bewertungsfunktion, die zu Gewichtsänderungen in einem Steuernetzwerk führt.

Wir werden adaptive Kritiker aus der Perspektive zweier sehr verwandter Standpunkte begutachten: Da ist zum einen der Standpunkt der Reinforcementvergleichsalgorithmen basierend auf den Methoden der zeitlichen Differenzen, und zum anderen der Standpunkt der dynamischen heuristischen Programmierung.

Es sei angemerkt, daß adaptive Kritiker bisher (abgesehen vom Kapitel 6 dieser Arbeit) nur für den Fall der externen Rückkopplung studiert wurden.



Unterabschnitte

Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite