Wie schon im einführenden Kapitel verdeutlicht wurde, ist für `on-line' Lernen die Lokalität in der Zeit wichtiger als die Lokalität im Raum.
Im Gegensatz zu den bei allen anderen Algorithmen für R-Lernen
verfolgten Ansätzen
betrachten wir Reinforcement im folgenden
als eine weitere Eingabe für ein neuronales Steuernetzwerk .
Die Menge der Eingabeknoten von
wird einfach unterteilt
in zwei Untermengen: Die Menge
der `normalen' perzeptiven Eingabeknoten,
und die Menge
der sogenannten `Schmerzknoten' und
`Lustknoten' (auch `Reinforcement-Knoten' oder `R-Knoten' genannt).
Damit führen wir ein im allgemeinen multidimensionales R-Signal ein und unterscheiden uns damit von anderen Ansätzen, bei denen das Reinforcement stets eine skalare Größe ist. Multidimensionales (oder auch vektorwertiges) Reinforcement entspricht den vielfältigen Schmerz- oder Lustwahrnehmungsmöglichkeiten biolgischer Systeme.
Alle
Eingabeknoten sind mit allen Nicht-Eingabeknoten von
vorwärtsverbunden, die Nicht-Eingabeknoten sind ihrerseits
vollständig bidirektional untereinander vernetzt.
Die Schmerz- und Lustknoten zeichnen sich gegenüber den anderen Eingabeknoten lediglich dadurch aus, daß für sie zu gegebenen Zeitpunkten eine erwünschte Aktivation definiert sein kann. Für unsere Zwecke wird die erwünschte Aktivation eines Schmerzknotens im folgenden zu jedem Zeitpunkt stets gleich Null sein. Die erwünschte Aktivation eines Lustknotens wird zu jedem Zeitpunkt gleich einem vordefinierten positiven Skalar sein. In der Implementation sind `Schmerz' und `Lust' durch entsprechende Skalierung ineinander überführbar.
Für den Fall, daß extern definierte Trainingsintervallgrenzen vorgegeben sind (später werden wir solche Episodengrenzen vermeiden), ist die zu minimierende Größe durch
Falls verschiedene Arten von R-Signalen in einer asymmetrischen Weise gewichtet werden sollen, mag die zu minimierende Größe auch eine nicht-triviale Funktion der Aktivationen verschiedener R-Knoten sein. Ist diese Funktion eine Linearkombination, so kann sie sofort durch einen linearen Knoten implementiert werden, dessen Eingabe zu einem gegebenen Zeitpunkt aus dem gegenwärtigen Aktivationsvektor der R-Knoten besteht, und dessen fixe Synapsen bestimmte Schmerz- oder Lustarten stärker gewichten als andere.
Als ein (utopisches) Beispiel betrachte man wieder einen
autonomen Agenten, dessen Bewegungen durch 's Ausgaben
gesteuert werden. In der physikalischen
Umgebung des Agenten befindet sich eine
Steckdose. Gelingt es dem Agenten, seinen Stecker in die
Steckdose zu stecken, so wird seine Batterie aufgefrischt.
Der Agent kann nun verschiedenartige unliebsame Erfahrungen machen, indem
er zum Beispiel mit einer seiner Extremitäten zu heftig
gegen ein Hindernis stößt. Dies zieht nämlich die Aktivation
bestimmter Schmerzknoten nach sich. Andere Schmerzknoten
werden aktiv, wann immer die Batterieladung unter
einen bestimmten Schwellwert sinkt. Der Agent ist autonom insofern,
als kein intelligenter Lehrer vonnöten ist, um ihn mit
irgendwelchen weiteren Zielen oder Subzielen auszustatten.
Wie schon in den einführenden Kapiteln gesehen, hilft ein purer
überwachter Lernalgorithmus dem Agenten nicht weiter, sein
Ziel zu erreichen (nämlich zu existieren, ohne unerwünschte
Eingaben zu bekommen). Mit dem Systemidentifikationsansatz kann
jedoch ein vollständig rekurrentes Modellnetzwerk trainiert werden,
die Beziehungen zwischen Eingaben von der Umgebung, Ausgaben von
und dem negativen Reinforcement (den unerwünschten Eingaben)
zu modellieren.
hilft schließlich dem
Gesamtsystem, `Schmerz- oder Lustgradienten' für
zu berechnen, um das kumulative Reinforcement zu minimieren.
Da die Gradienten für Schmerz und Lust von
`rückwärts in die Zeit gerichteten durch die Umgebung
führenden Lernpfaden' abhängen, sollte nicht nur die
Aktivationen der
R-Knoten, sondern auch die der normalen Eingabeknoten
vorhersagen. Gute Voraussagen über zukünftiges
Reinforcement hängen im allgemeinen von einer guten Kenntnis
der gesamten externen Dynamik ab. Hier erweitert der
Algorithmus A2 den Ansatz
von Robinson [41][39].
Der Zweck des adaptiven Modellnetzwerkes ist es, die gesamte
sichtbare Dynamik der Umgebung differenzierbar zu machen
[54]
[56]
[58].
Man betrachte Abbildung 6.1. Zu sehen ist ein Steuernetz
mit interner Rückkopplung, welches durch seine Ausgaben einen
Roboter steuern soll. Von dem ebenfalls abgebildeten
rekurrenten Modellnetzwerk wird angenommen,
daß es ein Modell der externen Dynamik repräsentiert und
's neue Eingaben (unter Einschluß von R-Signalen)
aus
's vergangenen Ein- und Ausgaben vorhersagt.
Unter Verwendung von Jordans Terminologie [21](siehe
auch das Einführungskapitel zum R-Lernen) könnte man sagen, daß der Zweck
von 's `Zielknoten' darin besteht, die Aktivationen sowohl der
normalen als auch der R-Knoten vorherzusagen. Nur einige wenige
der Zielknoten, die zu den R-Knoten korrespondierenden nämlich,
`wollen' stets einen Wert von Null voraussagen. Aber alle
Zielknoten tragen zum Lernprozeß bei, wie man im folgenden
sehen wird.
überbrückt die `Lücke' zwischen den Ausgaben und den
späteren Eingaben von
. Da
voll rekurrent ist, ist das durch
repräsentierte Umgebungsmodell potentiell
so vollständig, wie es nur sein kann.
Im Gegensatz zu Robinson und Fallsides Ansatz werden Lernpfade zur
Verfügung gestellt, die von den R-Knoten zurück zu den
Ausgabeknoten und noch weiter zurück zu allen Eingabeknoten usw.
führen. Dies ermöglicht `credit-assignment' für Ausgabeknoten,
die spätere Eingaben hervorriefen, welche ihrerseits neue Ausgaben
zur Folge hatten, die schließlich zu Schmerz oder Lust führten ...
Man beachte, daß auch die `Lücken' schließt, die zwischen
zeitlich varianten Aktivationen der Eingabeknoten selbst klaffen.
So gibt es zum Beispiel `rückwärts durch die Zeit
reichende Lernpfade', die von der Aktivation eines
Eingabeknoten zu einem gegebenen Zeitpunkt zurück zu früheren
Aktivationen anderer Eingabeknoten und von dort weiter
zurück zu Ausgabeknoten
führen. Solche Pfade braucht man, wenn die Umgebung sich verändern
kann, ohne daß die letzten Ausgaben von
dafür verantwortlich
waren.
Im Gegensatz zu den implementierten Ansätzen für adaptive
Kritiker
[5]
[2]
[51]
[27]
sowie zu den implementierten Systemidentifikationsansätzen
[34]
[41]
sind wir nicht auf Markov-artige Umgebungen beschränkt. Präziser
ausgedrückt heißt das, daß das Modellnetzwerk potentiell fähig
ist, die Umgebungsdynamik sogar dann hinreichend zu repräsentieren,
wenn zukünftige Eingaben nicht immer vollständig durch 's
gegenwärtige Ein- und Ausgaben determiniert sind, sondern unter
Berücksichtigung vergangener Ein- und Ausgaben abgeleitet
werden müssen. Dadurch kann das Steuernetzwerk
auch im generellen Fall etwas Vernünftiges lernen.