next up previous contents
Nächste Seite: Experimente zum R-Lernen in Aufwärts: Der Algorithmus Vorherige Seite: Einführung probabilistischer Ausgabeknoten   Inhalt

Kommentare zum Algorithmus.

1. A2 ist lokal in der Zeit, aber nicht im Raum. A2's Berechnungsaufwand pro Zeitschritt ist durch


\begin{displaymath}O( \mid W_M + W_C \mid \mid M \mid \mid M \cup I \cup P \cup A \mid +
\mid W_C \mid \mid C \mid \mid I \cup P \cup C \mid ) \end{displaymath}

gegeben.

2. Man beachte, daß die akkumulative Berechnung der $ \frac{\partial y_{k_{new}} }{\partial w_{ij}}$-Variablen für $C$'s Gewichte keine Information über entsprechende Variablen von $M$ benötigt. Allerdings wird Wissen über $M$'s Knotenaktivationen benötigt.

3. Für $C$ wird natürlicherweise kein Lehrerzwang verwendet. Lehrerzwang würde nämlich bedeuten, selbst dann mit Nullaktivation für die R-Knoten fortzufahren, wenn es unerwünschte Aktivationen gab. Die Idee ist hier, daß Lust und Schmerz für den Agenten durchaus informativ sein kann. Lust und Schmerz sollten expliziten Einfluß auf zukünftige Aktionen haben können.

4. A2 in der oben beschriebenen Form geht davon aus, daß sich die Umgebung von einem Zeitschritt zum nächsten stets auf eine Weise ändert, die durch linear separable Abbildungen der internen Repräsentation vergangener Zustände auf die nächsten Eingaben beschreibbar ist. Gehorcht die Umgebung jedoch einem `höheren Grad von Nichtlinearität', muß der Algorithmus so modifiziert werden, daß die Netzwerke mit einer höheren Frequenz `ticken' als die Umgebung. Dies kann auf triviale Weise durch jeweils mehrere Iterationen (pro Zeitschritt) der Schritte 1 und 3 erreicht werden. Theoretisch genügt es in jedem Fall, wenn pro `Umgebungszeitschritt' $4$ `Netzwerkzeitschritte' ablaufen. Das liegt daran, daß $4$-Lagen-Operationen im Prinzip ausreichen, um jede gewünschte nicht-lineare Abbildung mit beliebiger Genauigkeit zu approximieren [24].


next up previous contents
Nächste Seite: Experimente zum R-Lernen in Aufwärts: Der Algorithmus Vorherige Seite: Einführung probabilistischer Ausgabeknoten   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite