Wie kann man aus einem sowieso schon recht informierten internen vektorwertigen R-Signal des Kritikers ein noch informierteres machen?
Eine Antwort liefert das vorangehende 5. Kapitel:
Wir
verwenden ein drittes Netzwerk , um Differenzen
aufeinanderfolgender
Vorhersagen des Kritikers (identisch
mit den jeweiligen internen
Reinforcementvektoren)
in Abhängigkeit von aufeinanderfolgenden Netzwerkzuständen
von
zu modellieren. Um den Systemidentifikationsansatz
vernünftig ins Spiel zu brigen, muß aber der
Alles-oder-Nichts-Charakter von
's
stochastischer Aktivierungsfunktionen verschwinden (wir brauchen
eine kontinuierliche differenzierbare Wahrscheinlichkeitsverteilung
für die Ausgaben von
). Zu diesem Zweck definieren wir
für jeden Knoten
eine neue Aktivierungsfunktion:
Gehorcht z.B. einer Gauß-Verteilung (oder einer anderen
differenzierbaren Verteilung), so kann man Williams' Konzept
der `Fehlerpropagierung durch Zufallsgeneratoren' anwenden
[77]. Dem Systemidentifikationsansatz folgend
propagiert man zu jedem Zeitpunkt die Differenz zwischen
tatsächlichem und gewünschtem internen Reinforcementvektor
durch
's Ausgabeknoten
zurück `in die Vergangenheit'. Zu diesem Zweck muß
sich
gerade so viele vergangene Aktivationen pro Knoten merken, wie
die Fehlerrückpropagierungsphase Schritte umfaßt (typischerweise
also nur eine Aktivation pro Knoten.) Nur
's Gewichte ändern
sich während der Fehlerpropagierung,
's Gewichte bleiben fix.