next up previous contents
Nächste Seite: Kommentare zum Algorithmus. Aufwärts: Der Algorithmus Vorherige Seite: Der Algorithmus   Inhalt

Einführung probabilistischer Ausgabeknoten

Solange das Modell noch ungenau ist, fungiert $C$ teilweise wie ein Zufallsgenerator, der auf uninformierte Weise Situationen verursacht, die es dem Modell ermöglichen, neue Daten über typische Ereignisabläufe in der Umgebung zu sammeln.

So wie A2 oben beschrieben wurde, stehen dem Steuernetz keine von der Umgebung unabhängigen explorativen Fähigkeiten zur Verfügung. Man könnte sagen, die Zufälligkeit wird aus der Umgebung importiert.

Um $C$'s explorative Fähigkeit von der Umgebung zu emanzipieren, kann man ihm probabilistische Ausgabeknoten verpassen. Williams hat das Konzept des `Back-Propagation durch Zufallsgeneratoren' eingeführt [77]. Er beschrieb Knoten mit einer durch eine kontinuierliche differenzierbare Wahrscheinlichkeitsverteilung gegebenen Aktivierungsfunktion, deren Mittelwert und Varianz durch einen BP-Prozeß adjustiert werden können. Mit solch einem Konzept können unabhängige explorative Möglichkeiten mit A2 konsistent gemacht werden. Dies erfordert im Kontext des IID-Algorithmus allerdings folgende Modifikationen:

Ein probabilistischer Ausgabeknoten $k$ besteht aus einem konventionellen Knoten $k\mu$, der als Mittelwertgenerator fungiert, sowie einem weiteren konventionellen Knoten $k\sigma$, welcher als Varianzgenerator fungiert. Zu einem gegebenen Zeitpunkt wird $ y_{k_{new}} $ berechnet durch

\begin{displaymath}y_{k_{new}} =
y_{k\mu_{new}} + z
y_{k\sigma_{new}}, \end{displaymath}

wobei $z$ beispielsweise eine normalverteilte Zufallsvariable darstellt. Um den gewünschten Gradientenabstieg zu ermöglichen, müssen die korrespondierenden $p_{ij_{new}}^{k}$ nach folgender Regel berechnet werden:


\begin{displaymath}p_{ij_{new}}^{k} \leftarrow
p_{ij_{new}}^{k\mu} +
\frac{ ...
...k\mu_{new}} }
{ y_{k\sigma_{new}} }
p_{ij_{new}}^{k\sigma} .
\end{displaymath}


next up previous contents
Nächste Seite: Kommentare zum Algorithmus. Aufwärts: Der Algorithmus Vorherige Seite: Der Algorithmus   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite