1. Als einer der ersten hat Munro das Systemidentifikationsprinzip im Kontext Reinforcement-lernender azyklischer Netze beschrieben [31]. Munro verwendet ein BP-Netzwerk mit Gewichtsvektor , um für gegebene Eingabemuster Ausgaben zu produzieren. Im Kontrast zum normalen BP sind die gewünschten Ausgaben jedoch nicht bekannt, die einzige Information über die Güte der Ausgabe wird (wie beim Reinforcement-Lernen eben üblich) durch einen evaluativen Kritiker gegeben, der nur einen skalaren Wert zur Verfügung stellt. Das Ziel des Hauptnetzwerkes ist, für jedes Eingabemuster dasjenige Ausgabemuster zu produzieren, welches maximiert. Um nun die unbekannte `Lücke' zwischen Netzwerkausgaben und korrespondierender externer Bewertung zu schließen, trainiert Munro ein zweites Netzwerk (eben das Modellnetzwerk) mit Gewichtsvektor darauf, für gegebene Ein- und Ausgaben von das entsprechende Reinforcement vorherzusagen. Die Dimension von 's Eingabevektor ist also stets gleich der Summe der Dimensionen der Ein- und Ausgabevektoren von . 's Ausgabelage ist -dimensional.
Das Modellnetzwerk wird in einer ersten Phase anhand zufällig ausgewählter Kombinationen von Ein- und Ausgaben des Hauptnetzwerkes und der von dem externen Kritiker gelieferten zugehörigen Reinforcementsignale trainiert. Das BP-Verfahren dient dabei zur Berechnung von
Sagt das Modellnetzwerk stets gut genug voraus, so werden seine Gewichte eingefroren und ändern sich von nun an nicht mehr. Nun findet der zweite Teil der Lernphase statt: Aus dem Modellnetzwerk und dem (noch untrainierten) Hauptnetzwerk wird (im wesentlichen durch Konkatenation) ein größeres Netzwerk bestehend aus den beiden Teilen und konstruiert: erhält seine Eingaben nun direkt von 's Ein- und Ausgabelagen.
Eingabemuster werden nun bei 's Eingabelage (welche identisch ist mit 's Eingabelage) angelegt und produzieren 's skalare Ausgabe . Der gewünschte Wert für ist immer . Die entsprechenden Fehlersignale werden nun durch nach hinten propagiert, sie durchlaufen dabei zuerst und dann . Anschließend ändern sich ausschließlich 's Gewichte. Das BP-Verfahren dient dabei also im wesentlichen zur Berechnung von