ARCHITEKTUR

Nächste Seite: ALGORITHMUS Aufwärts: WELTMODELLBAUER Vorherige Seite: ZWEI PERFORMANZMASSE Inhalt

ARCHITEKTUR

Das Steuernetzwerk sei (zur vereinfachten Darstellung des Prinzips) ein konventionelles azyklisches BP-Netzwerk. Alle Knoten in seien durchnumeriert, die Aktivation des -ten Knotens in Antwort auf den -ten an der Eingabelage anliegenden Eingabevektor sei mit bezeichnet, wobei , falls Eingabeknoten ist. In der -ten Lage von () berechnet sich wie folgt:

$\begin{displaymath} net^p_k = \sum_{l \in ~Lagen~ < r} w_{kl}c^p_l, ~~ c^p_k = f_k(net^p_k), \end{displaymath}$

(4.1)

wobei $w_{kl}$ das Gewicht der gerichteten Verbindung vom Knoten

zum Knoten

darstellt, und

wieder für eine differenzierbare Aktivierungsfunktion steht. Der Ausgabevektor der obersten Lage heiße

Das Weltmodellnetzwerk sei ebenfalls als azyklisches BP-Netzwerk implementiert. 's Eingabe ist die Konkatenation $x^p \circ a^s$ der Vektoren und . Für 's Trainingsphase wird i.a. $p \neq s$ gelten, für 's Trainingsphase hingegen stets . Die Aktivation des -ten Knotens von in Antwort auf $x^p \circ a^s$ wird mit $m^{p,s}_k$ bezeichnet, wobei $m^{p,s}_i$ gleich der -ten Komponente von $x^p \circ a^s$ ist, falls Eingabeknoten ist. In der -ten Lage von () berechnet sich $m^{p,s}_k$ analog zur Aktivationsausbreitung in wie folgt:

$\begin{displaymath} net^{p,s}_k = \sum_{l \in ~Lagen~ < r} w_{kl}m^{p,s}_l, ~~ m^{p,s}_k = f_k(net^{p,s}_k). \end{displaymath}$

(4.2)

Siehe hierzu Abbildung 4.1.

**Abbildung:** Ein Steuernetz reagiert auf den Umgebungszustand mit einem Steuersignal für einen externen Prozeß. Die Abbildung von Kombinationen von Zuständen und Aktionen auf Effekte in der Umgebung wird durch ein zweites adaptives `Modellnetzwerk' modelliert. Letzteres dient auch zur Gradientenberechnung für das Steuernetz.
$\begin{figure}\psfig{figure=fig4.1} \end{figure}$

Nächste Seite: ALGORITHMUS Aufwärts: WELTMODELLBAUER Vorherige Seite: ZWEI PERFORMANZMASSE Inhalt

Juergen Schmidhuber 2003-02-20