next up previous contents
Nächste Seite: Intuitive Erklärung des Algorithmus Aufwärts: `Rekurrente' Umgebungsmodelle für R-Lernen Vorherige Seite: `Rekurrente' Umgebungsmodelle für R-Lernen   Inhalt

Zusammenfassung

Der im folgenden vorgestellte Algorithmus A2 wurde für R-Lernsituationen mit interner und externer Rückkopplung entwickelt. Das Hauptziel des Netzwerkes ist, so viel zeitlich kumulative `Lust' oder so wenig zeitlich kumulativen `Schmerz' wie möglich zu erleben.

A2 basiert auf zwei gekoppelten Netzwerken. Beide Netzwerke sind vollständig zyklisch. Das ``Modellnetzwerk'' dient dazu, die externe Umgebung mittels Voraussagen über die zukünftigen Eingaben des ``Steuernetzwerkes'' zu modellieren. Zu diesen Eingaben gehören u.a. auch spezielle ``Schmerzerlebnisse'' oder ``Lusterlebnisse'', welche durch ``unerwünschte'' bzw. ``erwünschte'' Aktivationen bestimmter Netzknoten realisiert werden. Die Voraussage des Modellnetzwerkes basiert auf vergangenen Eingaben und Ausgaben des Steuernetzwerkes. Die einzige Aufgabe des adaptiven Modellnetzwerkes ist es, die externe Dynamik in einer Form zu repräsentieren, die es erlaubt, ``Schmerz- und Lustgradienten'' für das ebenfalls adaptive Steuernetzwerk zu berechnen. Zumindest im Prinzip sind beliebige Verzögerungen zwischen Aktionen und späteren Konsequenzen erlaubt.



Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite