Intuitive Erklärung des Algorithmus A2

Wie schon im einführenden Kapitel verdeutlicht wurde, ist für `on-line' Lernen die Lokalität in der Zeit wichtiger als die Lokalität im Raum.

Im Gegensatz zu den bei allen anderen Algorithmen für R-Lernen verfolgten Ansätzen betrachten wir Reinforcement im folgenden als eine weitere Eingabe für ein neuronales Steuernetzwerk

. Die Menge der Eingabeknoten von

wird einfach unterteilt in zwei Untermengen: Die Menge

der `normalen' perzeptiven Eingabeknoten, und die Menge

der sogenannten `Schmerzknoten' und `Lustknoten' (auch `Reinforcement-Knoten' oder `R-Knoten' genannt).

Damit führen wir ein im allgemeinen multidimensionales R-Signal ein und unterscheiden uns damit von anderen Ansätzen, bei denen das Reinforcement stets eine skalare Größe ist. Multidimensionales (oder auch vektorwertiges) Reinforcement entspricht den vielfältigen Schmerz- oder Lustwahrnehmungsmöglichkeiten biolgischer Systeme.

Alle Eingabeknoten sind mit allen Nicht-Eingabeknoten von

vorwärtsverbunden, die Nicht-Eingabeknoten sind ihrerseits vollständig bidirektional untereinander vernetzt.

Die Schmerz- und Lustknoten zeichnen sich gegenüber den anderen Eingabeknoten lediglich dadurch aus, daß für sie zu gegebenen Zeitpunkten eine erwünschte Aktivation definiert sein kann. Für unsere Zwecke wird die erwünschte Aktivation eines Schmerzknotens im folgenden zu jedem Zeitpunkt stets gleich Null sein. Die erwünschte Aktivation eines Lustknotens wird zu jedem Zeitpunkt gleich einem vordefinierten positiven Skalar sein. In der Implementation sind `Schmerz' und `Lust' durch entsprechende Skalierung ineinander überführbar.

Für den Fall, daß extern definierte Trainingsintervallgrenzen vorgegeben sind (später werden wir solche Episodengrenzen vermeiden), ist die zu minimierende Größe durch

Falls verschiedene Arten von R-Signalen in einer asymmetrischen Weise gewichtet werden sollen, mag die zu minimierende Größe auch eine nicht-triviale Funktion der Aktivationen verschiedener R-Knoten sein. Ist diese Funktion eine Linearkombination, so kann sie sofort durch einen linearen Knoten implementiert werden, dessen Eingabe zu einem gegebenen Zeitpunkt aus dem gegenwärtigen Aktivationsvektor der R-Knoten besteht, und dessen fixe Synapsen bestimmte Schmerz- oder Lustarten stärker gewichten als andere.

Als ein (utopisches) Beispiel betrachte man wieder einen autonomen Agenten, dessen Bewegungen durch

's Ausgaben gesteuert werden. In der physikalischen Umgebung des Agenten befindet sich eine Steckdose. Gelingt es dem Agenten, seinen Stecker in die Steckdose zu stecken, so wird seine Batterie aufgefrischt. Der Agent kann nun verschiedenartige unliebsame Erfahrungen machen, indem er zum Beispiel mit einer seiner Extremitäten zu heftig gegen ein Hindernis stößt. Dies zieht nämlich die Aktivation bestimmter Schmerzknoten nach sich. Andere Schmerzknoten werden aktiv, wann immer die Batterieladung unter einen bestimmten Schwellwert sinkt. Der Agent ist autonom insofern, als kein intelligenter Lehrer vonnöten ist, um ihn mit irgendwelchen weiteren Zielen oder Subzielen auszustatten.

Wie schon in den einführenden Kapiteln gesehen, hilft ein purer überwachter Lernalgorithmus dem Agenten nicht weiter, sein Ziel zu erreichen (nämlich zu existieren, ohne unerwünschte Eingaben zu bekommen). Mit dem Systemidentifikationsansatz kann jedoch ein vollständig rekurrentes Modellnetzwerk

trainiert werden, die Beziehungen zwischen Eingaben von der Umgebung, Ausgaben von

und dem negativen Reinforcement (den unerwünschten Eingaben) zu modellieren.

hilft schließlich dem Gesamtsystem, `Schmerz- oder Lustgradienten' für

zu berechnen, um das kumulative Reinforcement zu minimieren.

Da die Gradienten für Schmerz und Lust von `rückwärts in die Zeit gerichteten durch die Umgebung führenden Lernpfaden' abhängen, sollte nicht nur die Aktivationen der R-Knoten, sondern auch die der normalen Eingabeknoten vorhersagen. Gute Voraussagen über zukünftiges Reinforcement hängen im allgemeinen von einer guten Kenntnis der gesamten externen Dynamik ab. Hier erweitert der Algorithmus A2 den Ansatz von Robinson [41][39]. Der Zweck des adaptiven Modellnetzwerkes ist es, die gesamte sichtbare Dynamik der Umgebung differenzierbar zu machen [54] [56] [58].

Man betrachte Abbildung 6.1. Zu sehen ist ein Steuernetz mit interner Rückkopplung, welches durch seine Ausgaben einen Roboter steuern soll. Von dem ebenfalls abgebildeten rekurrenten Modellnetzwerk wird angenommen, daß es ein Modell der externen Dynamik repräsentiert und

's neue Eingaben (unter Einschluß von R-Signalen) aus

's vergangenen Ein- und Ausgaben vorhersagt.

**Abbildung:** Abgebildet ist ein rekurrentes Steuernetzwerk mit externer Rückkopplung (durch die `WELT'). Der Übersichtlichkeit halber sind nur ein Eingabeknoten (EIN), ein Ausgabeknoten (AUS), ein Schmerz- oder Lustknoten (R) und ein versteckter Knoten zu sehen. Von dem ebenfalls vollständig rekurrenten Modellnetzwerk sind nur ein versteckter Knoten sowie ein Knoten für die Reinforcementvoraussage () und ein Knoten für die Voraussage der `normalen' Eingabe ( $PRED_{EIN}$ ) abgebildet. Das Modellnetzwerk dient zur Berechnung von Schmerz- bzw. Lustgradienten für das Steuernetzwerk. ( Siehe Text für nähere Erläuterungen.)

Unter Verwendung von Jordans Terminologie [21](siehe auch das Einführungskapitel zum R-Lernen) könnte man sagen, daß der Zweck von

's `Zielknoten' darin besteht, die Aktivationen sowohl der normalen als auch der R-Knoten vorherzusagen. Nur einige wenige der Zielknoten, die zu den R-Knoten korrespondierenden nämlich, `wollen' stets einen Wert von Null voraussagen. Aber alle Zielknoten tragen zum Lernprozeß bei, wie man im folgenden sehen wird.

überbrückt die `Lücke' zwischen den Ausgaben und den späteren Eingaben von

. Da

voll rekurrent ist, ist das durch

repräsentierte Umgebungsmodell potentiell so vollständig, wie es nur sein kann. Im Gegensatz zu Robinson und Fallsides Ansatz werden Lernpfade zur Verfügung gestellt, die von den R-Knoten zurück zu den Ausgabeknoten und noch weiter zurück zu allen Eingabeknoten usw. führen. Dies ermöglicht `credit-assignment' für Ausgabeknoten, die spätere Eingaben hervorriefen, welche ihrerseits neue Ausgaben zur Folge hatten, die schließlich zu Schmerz oder Lust führten ...

Man beachte, daß

auch die `Lücken' schließt, die zwischen zeitlich varianten Aktivationen der Eingabeknoten selbst klaffen. So gibt es zum Beispiel `rückwärts durch die Zeit reichende Lernpfade', die von der Aktivation eines Eingabeknoten zu einem gegebenen Zeitpunkt zurück zu früheren Aktivationen anderer Eingabeknoten und von dort weiter zurück zu Ausgabeknoten führen. Solche Pfade braucht man, wenn die Umgebung sich verändern kann, ohne daß die letzten Ausgaben von

dafür verantwortlich waren.

Im Gegensatz zu den implementierten Ansätzen für adaptive Kritiker [5] [2] [51] [27] sowie zu den implementierten Systemidentifikationsansätzen [34] [41] sind wir nicht auf Markov-artige Umgebungen beschränkt. Präziser ausgedrückt heißt das, daß das Modellnetzwerk potentiell fähig ist, die Umgebungsdynamik sogar dann hinreichend zu repräsentieren, wenn zukünftige Eingaben nicht immer vollständig durch

's gegenwärtige Ein- und Ausgaben determiniert sind, sondern unter Berücksichtigung vergangener Ein- und Ausgaben abgeleitet werden müssen. Dadurch kann das Steuernetzwerk auch im generellen Fall etwas Vernünftiges lernen.