Ein in einer separaten Phase trainiertes Modellnetzwerk sagt wieder aus den Ausgaben des Steuernetzwerkes Effekte auf die Zielknoten voraus. Das Modellnetzwerk hilft dem Steuernetzwerk, die richtigen Ausgaben zu generieren (wie gehabt). Jordan betont nun die Möglichkeit der Einführung zusätzlicher Einschränkungen für die Ausgabeknoten des Steuerungsnetzes. Ein Roboterarm, der zu vier aufeinanderfolgenden Zeitpunkten vier verschiedene Punkte im zweidimensionalen Raum erreichen soll, verfügt dank seiner Bewegungsmöglichkeiten über mehr Freiheitsgrade, als zur Lösung der Aufgabe notwendig wären. Wie kann man die zusätzlichen Freiheitsgrade sinnvoll ausnützen? Man konstruiert z.B. eine abgewandelte Fehlerfunktion, die zusätzliche Terme beinhaltet, welche die `Glattheit' der Bewegung messen. Das geht ganz einfach: Man addiert zur ursprünglichen Fehlerfunktion Differenzen sukzessiver Ausgaben des Steuernetzwerkes. Die Minimierung der neuen Fehlerfunktion erzwingt `glatte' Trajektorien, nämlich solche, die im Rahmen der vorgegebenen Aufgabe den Gesamtbewegungsaufwand so weit wie möglich reduzieren.
Um die Entscheidung des Steuernetzes zur Zeit von den
Ausgaben zur Zeit
abhängig zu machen, benutzt Jordan
wie bei seinem schon im Kapitel zum überwachten Lernen
beschriebenen Verfahren eine zweigeteilte Eingabelage. Neben den
normalen Eingabeknoten gibt es noch die `Zustandsknoten', in die
die Aktivationen der Ausgabeknoten des Steuernetzes vom jeweils
letzten Zeitschritt kopiert werden. Der resultierende Effekt gleicht
dem, den man mit entsprechenden rekurrenten starren Verbindungen
mit jeweiligem Gewicht
erreichen würde. Auch von den
`Zielknoten' führen Verbindungen zurück auf die Zustandsknoten.