2. Man beachte, daß die akkumulative Berechnung der
-Variablen
für
's Gewichte keine Information über entsprechende
Variablen von
benötigt. Allerdings wird Wissen
über
's Knotenaktivationen benötigt.
3. Für wird natürlicherweise kein Lehrerzwang verwendet.
Lehrerzwang würde nämlich bedeuten, selbst
dann mit Nullaktivation für die R-Knoten fortzufahren, wenn es
unerwünschte Aktivationen gab. Die Idee ist hier, daß Lust und Schmerz
für den Agenten durchaus informativ sein kann. Lust und Schmerz sollten
expliziten Einfluß auf zukünftige Aktionen haben können.
4. A2 in der oben beschriebenen Form geht davon aus, daß
sich die Umgebung von einem Zeitschritt zum nächsten stets auf eine
Weise ändert, die durch linear separable Abbildungen
der internen Repräsentation vergangener Zustände auf die nächsten
Eingaben beschreibbar ist. Gehorcht die Umgebung jedoch einem
`höheren Grad von Nichtlinearität', muß der Algorithmus
so modifiziert werden, daß die Netzwerke
mit einer höheren Frequenz `ticken' als die Umgebung. Dies
kann auf triviale Weise durch jeweils mehrere Iterationen (pro Zeitschritt)
der Schritte 1 und 3 erreicht werden. Theoretisch
genügt es in jedem Fall, wenn
pro `Umgebungszeitschritt'
`Netzwerkzeitschritte' ablaufen. Das liegt daran, daß
-Lagen-Operationen im Prinzip ausreichen, um jede
gewünschte nicht-lineare Abbildung mit beliebiger Genauigkeit
zu approximieren [24].