Das möglicherweise vorhandene Autoassoziationsmodul sowie jedes der Prediktonsmodule und der Repräsentationsmodule läßt sich als azyklisches BP-Netzwerk implementieren. Zum Training sind zwei alternierende Phasen vonnöten:
PHASE 1 (Minimierung der Prediktionsfehler):
Wiederhole für eine `hinreichende' Anzahl von `Trainingsepochen':
1. Für alle :
1.1. Berechne alle .
1.2. Berechne alle .
1.3. Berechne für alle Gewichte in mittels BP den Wert
2. Ändere alle Gewichte jedes Prediktors gemäß
wobei die positive Lernrate der Prediktormodule bezeichnet.
PHASE 2:
1. Für alle :
1.1. Berechne alle .
1.2. Berechne alle .
1.3. Falls ein Autoassoziator verwendet wird, berechne .
Die Gewichte der ändern sich also während der zweiten Phase nicht, finden jedoch trotzdem Verwendung, um Gradienten für die Gewichte der Repräsentationsmodule zu berechnen. Fehlersignale für die letzteren werden demgemäß mittels Fehlerpropagierung durch die Eingabeknoten der Prediktoren (welche ja gleichzeitig Ausgabeknoten der Repräsentationsmodule sind) gewonnen. Dies erinnert an die Art und Weise, in der in Kapitel 4 (allerdings in höchst unterschiedlichem Kontext) differenzierbare adaptive `Weltmodelle' zur Berechnung von Gradienten für das eigentlich interessierende `Steuernetzwerk' verwendet werden. Auch der Subzielgenerator desselben Kapitels bedient sich eines vergleichbaren Tricks.
Es sollte erwähnt werden, daß einige oder auch alle der Repräsentationsmodule sich versteckte Knoten teilen dürfen. Dasselbe gilt für die Prediktionsmodule. Prediktoren mit gemeinsamen versteckten Knoten müssen ihre Ausgaben allerdings sequentiell berechnen - kein Repräsentationsknoten darf dazu verwendet werden, seine eigene Aktivität vorherzusagen.
Obiger Algorithmus stellt eine `off-line'-Version dar. Gewichte ändern sich erst nach Präsentation des gesamten Eingabemusterensembles; den Prediktoren wird stets eine `hinreichende' Anzahl von Trainingsbeispielen angeboten, um mit den Repräsentationsmodulen Schritt zu halten. Die `off-line'-Version ist möglicherweise weniger attraktiv als eine `on-line'-Version, bei der (1) Eingabemuster zufällig angeboten werden, (2) Gewichtsänderungen sofort nach jeder Musterpräsentation stattfinden, und (3) Prediktoren und Repräsentationsmodule weitgehend simultan lernen. Bei solch einer `on-line'-Version führen allerdings sowohl die Prediktoren als auch die Repräsentationsmodule Gradientenabstieg in sich ändernden Funktionen durch. Wieviel derartige `on-line'-Interaktion gestattet werden darf, bleibt experimentellen Auswertungen überlassen. Bei den im nächsten Abschnitt zu berichtenden Experimenten verursachte die `on-line'-Version keine größeren Schwierigkeiten.
[104] betrachtet auch den Fall stochastischer Repräsentationsknoten, der uns jedoch im Rahmen dieser Arbeit nicht weiter interessieren soll.