DIE GRUNDLEGENDEN MODULE

Nächste Seite: SUBZIELARCHITEKTUR 1 Aufwärts: ARCHITEKTUR Vorherige Seite: ARCHITEKTUR Inhalt

DIE GRUNDLEGENDEN MODULE

Ein Unterprogramm sei eine Sequenz von Aktionen, die von einem Startzustand zu einem Zielzustand führen. Sowohl als auch seien hier reelle Vektoren, die einen möglichen Zustand der Umgebung repräsentieren.

Eines der drei an unserer Gesamtarchitektur beteiligten Module ist der Programmausführer . kann ein neuronales Netzwerk sein, muß aber nicht. (Tatsächlich stellt im Kontext der Subzielgenerierung die unbedeutendste Komponente dar.) Zum Zeitpunkt der Ausführung des -ten Programms produziert einen Ausgabevektor und nimmt einen Eingabevektor aus der Umgebung wahr. Es sei

$\begin{displaymath}dim(x^p(t)) = dim(g^p) = dim(s^p).\end{displaymath}$

Daß

das Programm

ausführen soll, erfährt er durch einen zusätzlichen stationären Eingabevektor $s^p \circ g^p$ , der Konkatenation des entsprechenden Start- und Zielzustandes.

kann als Aktivationsmuster angesehen werden, welches den finalen gewünschten Zustand beschreibt. $s^p \circ g^p$ läßt sich als `Programmname' betrachten. Wir nehmen an, daß bereits eine Anzahl von Programmen korrekt ausführen kann. Diese Programme mögen durch einen konventionellen Lernalgorithmus oder durch eine rekursive Anwendung des unten zu beschreibenden Verfahrens erworben worden sein.

Abbildung 4.2 zeigt ein zweites Modul, das Evaluatormodul , dessen Eingabe erneut die Konkatenation $s \circ g$ eines einen Startzustand repräsentierenden Vektors und eines einen Zielzustand repräsentierenden Vektors ist. 's eindimensionale Ausgabe $eval(s,g) \in R^+_0$ wird als Vorhersage der Kosten ( negatives `Reinforcement') interpretiert, die mit dem entsprechenden von nach führenden Programm assoziiert sind. Eine Evaluation von 0 bedeutet minimale zu erwartende Kosten.

**Abbildung:** Der *Programmausführer* produziert Aktionssequenzen (Programme), deren Namen er durch Eingabe einer START/ZIEL-Kombination erfährt. Das *Evaluatormodul* liefert Vorhersagen über die für die Ausführung eines gegebenen Programms zu erwartenden Kosten.
$\begin{figure}\psfig{figure=fig4.2} \end{figure}$

stellt ein Modell der gegewärtigen Fähigkeiten des Programmausführers dar. Wir wollen auch hier nicht detailliert spezifizieren - mag sowohl ein neuronales Netzwerk mit bezüglich der Eingabe differenzierbaren Ausgaben [106] als auch irgendeine andere differenzierbare Abbildung sein.

Das für uns interessanteste der drei Module ist der adaptive Subzielgenerator . soll lernen, neue Start-Ziel Kombinationen durch eine Liste geeigneter aufeinanderfolgender Subziele zu beantworten.

Das -te vektorwertige Subziel der Subzielliste ( $i=1 \ldots n$ ) heiße , die -te Komponente des Vektors sei wie stets mit bezeichnet. Alle haben gleiche Dimension Es sei . Im Idealfall sollte die Subzielliste nach der Lernphase folgende Bedingung erfüllen:

$\begin{displaymath} eval(s^p(0),s^p(1))= eval(s^p(1),s^p(2))= \ldots =eval(s^p(n),s^p(n+1)) = 0. \end{displaymath}$

(4.6)

(4.6) bedeutet, daß es ein kostenfreies Unterprogramm gibt, das vom Startzustand zum ersten Subziel führt, ein weiteres, das vom ersten Subziel zum zweiten Subziel führt, und so fort, bis das Endziel erreicht ist. Wir werfen nun einen näheren Blick auf zwei unterschiedliche Architekturen für

Nächste Seite: SUBZIELARCHITEKTUR 1 Aufwärts: ARCHITEKTUR Vorherige Seite: ARCHITEKTUR Inhalt

Juergen Schmidhuber 2003-02-20