Nächste Seite: Reinforcementvergleichsalgorithmen
Aufwärts: Modellbildende Verfahren
Vorherige Seite: Eingeschränkte externe und interne
  Inhalt
Der Systemidentifikationsansatz versucht zunächst nur, ausgehend
von einem gegebenen Zeitpunkt, Eigenschaften der
Umgebung zum nächsten Zeitpunkt durch `Simulation' vorherzusagen.
Im Gegensatz
dazu versuchen adaptive Kritiker nicht,
die Umwelt zu simulieren. Vielmehr
werden sie mit geschickt ausgedachten Verfahren
darauf trainiert, aus einer unzulänglichen externen
Bewertungsfunktion (welche sich oft nur durch zu seltenen
Zeiten spärlich verteiltes
Reinforcement ausdrückt) eine informiertere interne
Bewertungsfunktion zu konstruieren. Es ist die interne
Bewertungsfunktion, die zu Gewichtsänderungen in einem
Steuernetzwerk führt.
Wir werden adaptive Kritiker aus der Perspektive
zweier sehr verwandter Standpunkte
begutachten: Da ist zum einen der
Standpunkt der Reinforcementvergleichsalgorithmen
basierend auf den Methoden der zeitlichen Differenzen,
und zum anderen der Standpunkt der dynamischen heuristischen Programmierung.
Es sei angemerkt, daß adaptive Kritiker bisher
(abgesehen vom
Kapitel 6 dieser Arbeit) nur für den Fall der
externen Rückkopplung studiert wurden.
Unterabschnitte
Juergen Schmidhuber
2003-02-20
Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite