Wie kann man aus einem sowieso schon recht informierten internen vektorwertigen R-Signal des Kritikers ein noch informierteres machen?
Eine Antwort liefert das vorangehende 5. Kapitel: Wir verwenden ein drittes Netzwerk , um Differenzen aufeinanderfolgender Vorhersagen des Kritikers (identisch mit den jeweiligen internen Reinforcementvektoren) in Abhängigkeit von aufeinanderfolgenden Netzwerkzuständen von zu modellieren. Um den Systemidentifikationsansatz vernünftig ins Spiel zu brigen, muß aber der Alles-oder-Nichts-Charakter von 's stochastischer Aktivierungsfunktionen verschwinden (wir brauchen eine kontinuierliche differenzierbare Wahrscheinlichkeitsverteilung für die Ausgaben von ). Zu diesem Zweck definieren wir für jeden Knoten eine neue Aktivierungsfunktion:
Gehorcht z.B. einer Gauß-Verteilung (oder einer anderen differenzierbaren Verteilung), so kann man Williams' Konzept der `Fehlerpropagierung durch Zufallsgeneratoren' anwenden [77]. Dem Systemidentifikationsansatz folgend propagiert man zu jedem Zeitpunkt die Differenz zwischen tatsächlichem und gewünschtem internen Reinforcementvektor durch 's Ausgabeknoten zurück `in die Vergangenheit'. Zu diesem Zweck muß sich gerade so viele vergangene Aktivationen pro Knoten merken, wie die Fehlerrückpropagierungsphase Schritte umfaßt (typischerweise also nur eine Aktivation pro Knoten.) Nur 's Gewichte ändern sich während der Fehlerpropagierung, 's Gewichte bleiben fix.