next up previous contents
Nächste Seite: ARCHITEKTUR Aufwärts: WELTMODELLBAUER Vorherige Seite: WELTMODELLBAUER   Inhalt

ZWEI PERFORMANZMASSE

Nehmen wir an, ein (später noch genauer zu spezifizierendes) Steuermodul $C$ beantwortet den $p$-ten Zustandsvektor $x^p$ aus der Umgebung mit einem `Aktionsvektor' $a^p$. Die Umgebung berechnet ihrerseits aus einem Zustandsvektor $x^p$ und einem Aktionsvektor $a^s$ mittels einer Evaluationsfunktion $eval$ ein Resultat (z.B. einen neuen Zustand, oder einen Reinforcement-Wert, oder beides)

\begin{displaymath}
u^{p,s} = eval(x^p, a^s).
\end{displaymath}

Setzen wir weiterhin voraus, daß ein `distanziertes Performanzmaß' bestimmte erwünschte Zustandsvektoren $d^p$ favorisiert. (Liefert $eval$ beispielsweise `Schmerzsignale' unterschiedlicher Intensität, so zeichnen sich erwünschte Zustände durch die Abwesenheit von Schmerz aus.) Ein sinnvolles derartiges zu minimierendes Performanzmaß ist

\begin{displaymath}E_C = \sum_p \frac{1}{2} \sum_i (e^p_i)^2, \end{displaymath}

mit

\begin{displaymath}e^p_i = d^p_i-u_i^{p,p}. \end{displaymath}

Das in diesem Abschnitt zu besprechende Problem besteht darin, daß $eval$ in der Regel unbekannt ist - man kann aus $E_C$ nicht sofort durch Differenzieren einen Lernalgorithmus herleiten. Wir haben es nicht mit einfachem überwachten Lernen zu tun.

Eine Lösung des Problems besteht darin, $eval$ selbst durch eine differenzierbare Menge parametrisierter Funktionen (mit adaptiven Parametern) zu approximieren. Ein zusätzliches (später noch genauer zu spezifizierendes) Weltmodell $M$ läßt sich dazu verwenden, die Konkatenation $x^p \circ a^s$ der Vektoren $x^p$ und $a^s$ mit einem den zu erwartenden geänderten Umgebungszustand prophezeihenden `Prediktionsvektor' $y^{p,s}$ zu beantworten. Für $M$ müssen wir dazu ein zweites Hilfs-Performanzmaß einführen:

\begin{displaymath}E_M = \sum_{p,s} \frac{1}{2} \sum_i (y^{p,s}_i - u^{p,s}_i)^2. \end{displaymath}

Das mit Hilfe von $E_M$ trainierte Modul $M$ erlaubt uns, wie bald zu sehen sein wird, die Anwendung der Kettenregel zur Minimierung der uns eigentlich interessierenden Zielfunktion $E_C$.


next up previous contents
Nächste Seite: ARCHITEKTUR Aufwärts: WELTMODELLBAUER Vorherige Seite: WELTMODELLBAUER   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite