next up previous contents
Nächste Seite: SUBZIELARCHITEKTUR 1 Aufwärts: ARCHITEKTUR Vorherige Seite: ARCHITEKTUR   Inhalt

DIE GRUNDLEGENDEN MODULE

Ein Unterprogramm $p$ sei eine Sequenz von Aktionen, die von einem Startzustand $s^p$ zu einem Zielzustand $g^p$ führen. Sowohl $s^p$ als auch $g^p$ seien hier reelle Vektoren, die einen möglichen Zustand der Umgebung repräsentieren.

Eines der drei an unserer Gesamtarchitektur beteiligten Module ist der Programmausführer $C$. $C$ kann ein neuronales Netzwerk sein, muß aber nicht. (Tatsächlich stellt $C$ im Kontext der Subzielgenerierung die unbedeutendste Komponente dar.) Zum Zeitpunkt $t$ der Ausführung des $p$-ten Programms produziert $C$ einen Ausgabevektor $o^p(t)$ und nimmt einen Eingabevektor $x^p(t)$ aus der Umgebung wahr. Es sei

\begin{displaymath}dim(x^p(t)) = dim(g^p) = dim(s^p).\end{displaymath}

Daß $C$ das Programm $p$ ausführen soll, erfährt er durch einen zusätzlichen stationären Eingabevektor $s^p \circ g^p$, der Konkatenation des entsprechenden Start- und Zielzustandes.

$g_p$ kann als Aktivationsmuster angesehen werden, welches den finalen gewünschten Zustand beschreibt. $s^p \circ g^p$ läßt sich als `Programmname' betrachten. Wir nehmen an, daß $C$ bereits eine Anzahl von Programmen korrekt ausführen kann. Diese Programme mögen durch einen konventionellen Lernalgorithmus oder durch eine rekursive Anwendung des unten zu beschreibenden Verfahrens erworben worden sein.

Abbildung 4.2 zeigt ein zweites Modul, das Evaluatormodul $E$, dessen Eingabe erneut die Konkatenation $s \circ g$ eines einen Startzustand repräsentierenden Vektors $s$ und eines einen Zielzustand repräsentierenden Vektors $g$ ist. $E$'s eindimensionale Ausgabe $eval(s,g) \in R^+_0$ wird als Vorhersage der Kosten ( $=$ negatives `Reinforcement') interpretiert, die mit dem entsprechenden von $s$ nach $g$ führenden Programm assoziiert sind. Eine Evaluation von 0 bedeutet minimale zu erwartende Kosten.

Abbildung: Der Programmausführer produziert Aktionssequenzen (Programme), deren Namen er durch Eingabe einer START/ZIEL-Kombination erfährt. Das Evaluatormodul liefert Vorhersagen über die für die Ausführung eines gegebenen Programms zu erwartenden Kosten.
\begin{figure}\psfig{figure=fig4.2} \end{figure}

$E$ stellt ein Modell der gegewärtigen Fähigkeiten des Programmausführers dar. Wir wollen auch $E$ hier nicht detailliert spezifizieren - $E$ mag sowohl ein neuronales Netzwerk mit bezüglich der Eingabe differenzierbaren Ausgaben [106] als auch irgendeine andere differenzierbare Abbildung sein.

Das für uns interessanteste der drei Module ist der adaptive Subzielgenerator $S$. $S$ soll lernen, neue Start-Ziel Kombinationen durch eine Liste geeigneter aufeinanderfolgender Subziele zu beantworten.

Das $i$-te vektorwertige Subziel der Subzielliste ( $i=1 \ldots n$) heiße $s^p(i)$, die $j$-te Komponente des Vektors $s^p(i)$ sei wie stets mit $s^p_j(i)$ bezeichnet. Alle $s^p(i)$ haben gleiche Dimension $ dim(s^p(i)) = dim(x^p(t)) = dim(g^p) = dim(s^p).$ Es sei $s^p = s^p(0), g^p = s^p(n+1)$. Im Idealfall sollte die Subzielliste $s^p = s^p(1), s^p(2), ..., s^p(n)=g^p $ nach der Lernphase folgende Bedingung erfüllen:

\begin{displaymath}
eval(s^p(0),s^p(1))=
eval(s^p(1),s^p(2))=
\ldots
=eval(s^p(n),s^p(n+1)) = 0.
\end{displaymath} (4.6)

(4.6) bedeutet, daß es ein kostenfreies Unterprogramm gibt, das vom Startzustand zum ersten Subziel führt, ein weiteres, das vom ersten Subziel zum zweiten Subziel führt, und so fort, bis das Endziel erreicht ist. Wir werfen nun einen näheren Blick auf zwei unterschiedliche Architekturen für $S$.


next up previous contents
Nächste Seite: SUBZIELARCHITEKTUR 1 Aufwärts: ARCHITEKTUR Vorherige Seite: ARCHITEKTUR   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite