1. Als einer der ersten hat Munro das
Systemidentifikationsprinzip im Kontext Reinforcement-lernender
azyklischer Netze beschrieben [31]. Munro verwendet
ein BP-Netzwerk
mit Gewichtsvektor
, um für gegebene Eingabemuster
Ausgaben zu produzieren. Im Kontrast zum normalen BP sind
die gewünschten Ausgaben jedoch nicht bekannt, die einzige
Information über die Güte der Ausgabe wird (wie beim
Reinforcement-Lernen eben üblich) durch einen evaluativen Kritiker
gegeben, der nur einen skalaren Wert
zur Verfügung stellt. Das Ziel des Hauptnetzwerkes
ist, für jedes Eingabemuster
dasjenige Ausgabemuster zu produzieren, welches
maximiert.
Um nun die unbekannte `Lücke' zwischen Netzwerkausgaben
und korrespondierender externer Bewertung zu schließen, trainiert
Munro ein zweites Netzwerk
(eben das Modellnetzwerk) mit Gewichtsvektor
darauf, für gegebene Ein- und Ausgaben von
das
entsprechende Reinforcement vorherzusagen. Die Dimension
von
's Eingabevektor ist also stets
gleich der Summe der Dimensionen der
Ein- und Ausgabevektoren von
.
's Ausgabelage ist
-dimensional.
Das Modellnetzwerk wird in einer ersten Phase anhand zufällig ausgewählter Kombinationen von Ein- und Ausgaben des Hauptnetzwerkes und der von dem externen Kritiker gelieferten zugehörigen Reinforcementsignale trainiert. Das BP-Verfahren dient dabei zur Berechnung von
Sagt das Modellnetzwerk stets gut genug voraus, so werden seine
Gewichte eingefroren und ändern sich von nun an nicht mehr.
Nun findet der zweite Teil der Lernphase statt: Aus dem
Modellnetzwerk und dem (noch untrainierten) Hauptnetzwerk wird
(im wesentlichen durch Konkatenation) ein größeres
Netzwerk bestehend aus den beiden Teilen
und
konstruiert:
erhält seine Eingaben
nun direkt von
's Ein- und Ausgabelagen.
Eingabemuster werden nun bei
's Eingabelage (welche identisch
ist mit
's Eingabelage) angelegt und
produzieren
's skalare Ausgabe
. Der gewünschte Wert
für
ist immer
. Die entsprechenden Fehlersignale werden nun
durch
nach hinten propagiert, sie durchlaufen dabei zuerst
und
dann
. Anschließend
ändern sich
ausschließlich
's Gewichte. Das BP-Verfahren dient dabei also im
wesentlichen zur Berechnung von