next up previous contents
Nächste Seite: PERFORMANZMASS Aufwärts: ARCHITEKTUR Vorherige Seite: SUBZIELARCHITEKTUR 1   Inhalt

SUBZIELARCHITEKTUR 2

Ein Nachteil der Subzielarchitektur 1 besteht darin, daß die Anzahl der Subziele pro Problem als konstant angenommen wird. In typischen Umgebungen ist diese Annahme unrealistisch. Im allgemeinen bräuchte ein System basierend auf Subzielarchitektur 1 eine ganze Reihe von Subzielgeneratoren: Einen für Probleme, die nur ein Subziel erfordern, einen weiteren für Probleme, die zwei Subziele erfordern, und so fort.

Subzielarchitektur 2 hingegen gestattet ein und demselben Subzielgenerator $S$, verschieden lange Sequenzen von Subzielen zu produzieren. Dies wird erreicht, indem man $S$' Ausgabe wie folgt auf die eigene Eingabe rückkoppelt:

Bei einer gegebenen durch ein Start/Ziel-Paar $(s^p = s^p(0),g^p=s^p(n+1))$ spezifizierten Aufgabe $p$ ist $S$' Eingabevektor zum 1. Iterationsschritt gleich $s^p \circ s^p(n+1)$. $S$' Ausgabevektor ist $s^p(1)$.

Beim Iterationsschritt $t, 1 < t < n+1 $ wird $S$' Eingabevektor zu $s^p(t-1) \circ s^p(n+1)$, die Ausgabe wird zu $s^p(t)$. Zur Berechnung der Aktivation $o^p_k(t)$ des $k$-ten Nichteingabeknotens in $S$ zum Iterationsschritt $t$ schreiben wir

\begin{displaymath}
net^p_k(t) = \sum_{l \in ~Lagen~ < r} w_{kl}o^p_l(t), ~~
o^p_k(t) = f_k(net^p_k(t)),
\end{displaymath} (4.7)

wobei $f_k$ wie üblich eine differenzierbare Aktivierungsfunktion darstellt.

Wieder verwenden wir das Evaluatormodul $E$ zur Berechnung von $eval(s^p(k-1), s^p(k)), k = 1, \ldots n+1$, aus $s^p(k-1) \circ s^p(k)$. Die Architektur hat sich aber nun gemäß Abbildung 4.4a geändert. Abbildung 4.4b zeigt dieselbe Architektur im zeitlich entfalteten Zustand (nach der Generierung dreier sukzessiver Subziele).

Abbildung: (a) Die Ausgabe des rekurrenten Subzielgenerators $S$ zur Zeit $t$ wird auf seinen eigenen START-Eingang rückgekoppelt. $S$ produziert demnach eine zeitlich gedehnte Sequenz von Subzielen. Der Evaluator $E$ prophezeiht die für zwei aufeinanderfolgende Subziele zu erwartenden Kosten. Die gestrichelte Linie zeigt an, daß $E$ am Ende der Subzielsequenz das eigentliche ZIEL als Eingabe erhalten muß. (b) zeigt die rekurrente Architektur (a) im `zeitlich entfalteten' Zustand (für 2 Subziele).
\begin{figure}\psfig{figure=fig4.4} \end{figure}


next up previous contents
Nächste Seite: PERFORMANZMASS Aufwärts: ARCHITEKTUR Vorherige Seite: SUBZIELARCHITEKTUR 1   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite