Nächste Seite: ARCHITEKTUR
Aufwärts: WELTMODELLBAUER
Vorherige Seite: WELTMODELLBAUER
  Inhalt
Nehmen wir an, ein (später noch genauer zu
spezifizierendes) Steuermodul
beantwortet den
-ten Zustandsvektor
aus der Umgebung mit
einem `Aktionsvektor'
.
Die Umgebung berechnet ihrerseits aus einem Zustandsvektor
und
einem Aktionsvektor
mittels einer Evaluationsfunktion
ein Resultat (z.B. einen neuen Zustand, oder einen Reinforcement-Wert,
oder beides)
Setzen wir weiterhin voraus, daß ein `distanziertes Performanzmaß'
bestimmte erwünschte Zustandsvektoren
favorisiert.
(Liefert
beispielsweise `Schmerzsignale' unterschiedlicher
Intensität, so zeichnen sich erwünschte Zustände durch
die Abwesenheit von Schmerz aus.)
Ein sinnvolles derartiges zu minimierendes Performanzmaß ist
mit
Das in diesem Abschnitt zu besprechende Problem
besteht darin, daß
in der Regel unbekannt ist -
man kann aus
nicht sofort durch Differenzieren
einen Lernalgorithmus herleiten.
Wir haben es nicht mit einfachem überwachten
Lernen zu tun.
Eine Lösung des Problems besteht darin,
selbst
durch eine differenzierbare Menge parametrisierter Funktionen
(mit adaptiven Parametern) zu approximieren.
Ein zusätzliches (später noch genauer zu
spezifizierendes) Weltmodell
läßt sich dazu verwenden,
die Konkatenation
der Vektoren
und
mit
einem den zu erwartenden geänderten Umgebungszustand
prophezeihenden `Prediktionsvektor'
zu beantworten.
Für
müssen wir dazu ein zweites Hilfs-Performanzmaß einführen:
Das mit Hilfe von
trainierte Modul
erlaubt uns, wie
bald zu sehen sein wird, die Anwendung der Kettenregel zur
Minimierung der uns eigentlich interessierenden Zielfunktion
.
Nächste Seite: ARCHITEKTUR
Aufwärts: WELTMODELLBAUER
Vorherige Seite: WELTMODELLBAUER
  Inhalt
Juergen Schmidhuber
2003-02-20
Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite