2. Man beachte, daß die akkumulative Berechnung der -Variablen für 's Gewichte keine Information über entsprechende Variablen von benötigt. Allerdings wird Wissen über 's Knotenaktivationen benötigt.
3. Für wird natürlicherweise kein Lehrerzwang verwendet. Lehrerzwang würde nämlich bedeuten, selbst dann mit Nullaktivation für die R-Knoten fortzufahren, wenn es unerwünschte Aktivationen gab. Die Idee ist hier, daß Lust und Schmerz für den Agenten durchaus informativ sein kann. Lust und Schmerz sollten expliziten Einfluß auf zukünftige Aktionen haben können.
4. A2 in der oben beschriebenen Form geht davon aus, daß sich die Umgebung von einem Zeitschritt zum nächsten stets auf eine Weise ändert, die durch linear separable Abbildungen der internen Repräsentation vergangener Zustände auf die nächsten Eingaben beschreibbar ist. Gehorcht die Umgebung jedoch einem `höheren Grad von Nichtlinearität', muß der Algorithmus so modifiziert werden, daß die Netzwerke mit einer höheren Frequenz `ticken' als die Umgebung. Dies kann auf triviale Weise durch jeweils mehrere Iterationen (pro Zeitschritt) der Schritte 1 und 3 erreicht werden. Theoretisch genügt es in jedem Fall, wenn pro `Umgebungszeitschritt' `Netzwerkzeitschritte' ablaufen. Das liegt daran, daß -Lagen-Operationen im Prinzip ausreichen, um jede gewünschte nicht-lineare Abbildung mit beliebiger Genauigkeit zu approximieren [24].