ZWEI PERFORMANZMASSE

Nächste Seite: ARCHITEKTUR Aufwärts: WELTMODELLBAUER Vorherige Seite: WELTMODELLBAUER Inhalt

ZWEI PERFORMANZMASSE

Nehmen wir an, ein (später noch genauer zu spezifizierendes) Steuermodul

beantwortet den

-ten Zustandsvektor

aus der Umgebung mit einem `Aktionsvektor'

. Die Umgebung berechnet ihrerseits aus einem Zustandsvektor

und einem Aktionsvektor

mittels einer Evaluationsfunktion

ein Resultat (z.B. einen neuen Zustand, oder einen Reinforcement-Wert, oder beides)

$\begin{displaymath} u^{p,s} = eval(x^p, a^s). \end{displaymath}$

Setzen wir weiterhin voraus, daß ein `distanziertes Performanzmaß' bestimmte erwünschte Zustandsvektoren

favorisiert. (Liefert

beispielsweise `Schmerzsignale' unterschiedlicher Intensität, so zeichnen sich erwünschte Zustände durch die Abwesenheit von Schmerz aus.) Ein sinnvolles derartiges zu minimierendes Performanzmaß ist

$\begin{displaymath}E_C = \sum_p \frac{1}{2} \sum_i (e^p_i)^2, \end{displaymath}$

mit

$\begin{displaymath}e^p_i = d^p_i-u_i^{p,p}. \end{displaymath}$

Das in diesem Abschnitt zu besprechende Problem besteht darin, daß in der Regel unbekannt ist - man kann aus nicht sofort durch Differenzieren einen Lernalgorithmus herleiten. Wir haben es nicht mit einfachem überwachten Lernen zu tun.

Eine Lösung des Problems besteht darin, selbst durch eine differenzierbare Menge parametrisierter Funktionen (mit adaptiven Parametern) zu approximieren. Ein zusätzliches (später noch genauer zu spezifizierendes) Weltmodell läßt sich dazu verwenden, die Konkatenation $x^p \circ a^s$ der Vektoren und mit einem den zu erwartenden geänderten Umgebungszustand prophezeihenden `Prediktionsvektor' $y^{p,s}$ zu beantworten. Für müssen wir dazu ein zweites Hilfs-Performanzmaß einführen:

$\begin{displaymath}E_M = \sum_{p,s} \frac{1}{2} \sum_i (y^{p,s}_i - u^{p,s}_i)^2. \end{displaymath}$

Das mit Hilfe von trainierte Modul erlaubt uns, wie bald zu sehen sein wird, die Anwendung der Kettenregel zur Minimierung der uns eigentlich interessierenden Zielfunktion .

Nächste Seite: ARCHITEKTUR Aufwärts: WELTMODELLBAUER Vorherige Seite: WELTMODELLBAUER Inhalt

Juergen Schmidhuber 2003-02-20