next up previous contents
Nächste Seite: Der Algorithmus Aufwärts: Begründung des Verfahrens Vorherige Seite: Gründe für paralleles Lernen   Inhalt

A2's Abweichen vom reinen Gradientenabstieg

Natürlich muß man bei der Entscheidung zwischen einer `on-line' und einer off-line Prozedur einen `trade-off' berücksichtigen: Man bezahlt für die gewonnene Effizienz mit dem `Grad der mathematischen Exaktheit' des Verfahrens. Um eine `on-line' Lernprozedur zu erhalten, werden wir für den unten beschriebenen Algorithmus A2 in mancher Beziehung vom `wahren' Gradientenabstieg abweichen.

1. Statt Gewichtsänderungsbeiträge zeitlich zu akkumulieren und erst nach den Aktivationsausbreitungsphasen eines Trainingsintervalls die Gewichte tatsächlich zu ändern, ändern wir die Gewichte sofort in jedem Zeitschritt. Dabei folgen wir Williams und Zipser [80] und nehmen an, daß die Lernraten klein genug sind, um Instabilitäten zu vermeiden. In den weiter unten beschriebenen Experimenten bestätigt sich die Zulässigkeit dieser Annahme. Sofortige Gewichtsänderungen ziehen als schöne Konsequenz nach sich, daß man nicht auf von einem externen Lehrer definierte Intervallgrenzen angewiesen ist.

2. Besonders zu Beginn einer On-Line Lernphase wird das Modellnetzwerk, welches ja zur Gradientenbestimmung für $C$'s Gewichte dient, kein perfekter Voraussager sein. Was sind die Konsequenzen?

Man beachte, daß diejenigen Variablen von $M$, welche zur Speicherung von Gradienteninformation bezüglich $E_M$ herangezogen werden müssen, unabhängig von den Variablen von $C$ sind, welche Gradienteninformation bezüglich $E_C$ speichern. Eine Situation, in welcher $C$ `Schmerz' erleidet, $C$'s Gewichte jedoch nur durch ein ungenaues Modellnetzwerk `gerechtfertigt' sind, ist nicht stabil, sofern nicht beide Netzwerke in lokalen Minima ihrer jeweiligen Fehlerfunktionen gefangen sind. Unter der Voraussetzung, daß $M$ stets eine Nullstelle seiner Fehlerfunktion findet, können wir davon ausgehen, daß $C$ nach einiger Zeit einen Gradientenabstieg gemäß einem perfekten Modell der sichtbaren Umgebung durchmacht. (Wie jedoch schon oben ausgeführt, kann sich $C$'s Performanz auch mit einem nicht perfekten $M$ schon verbessern.)

Eine theoretisch nicht geklärte Frage betrifft gerade diese Voraussetzung: Um ein gutes Umgebungsmodell zu bekommen, müssen hinreichend viele Trainingsbeispiele präsentiert werden. Eine mögliche Gefahr für ein parallel lernendes Gesamtsystem besteht darin, daß das Steuernetzwerk irgendwann in ein lokales Minimum relativ zu dem noch nicht perfekten Modellnetzwerk gerät. Dieses Minimum braucht gemessen an einem hypothetischen bereits perfekten Umgebungsmodell gar keines zu sein! Dennoch mag es dazu führen, daß das Steuernetzwerk in gegebenem Kontext stets dieselben Aktionen ausgibt, so daß das Modellnetzwerk keine Chance besitzt, etwas über die Konsequenzen alternativer Aktionen in Erfahrung zu bringen. Dies kann zur Folge haben, daß die Steuerer/Modell-Kombination in einen Zustand gerät, aus dem es kein Entkommen mehr gibt. Die sequentielle Version des unten beschriebenen A2 stellt einen sicheren Weg zur Umgehung zumindest dieses Problems dar, dafür sieht sie sich jedoch mit den in 5.3.2 erwähnten Problemen konfrontiert.

Um dem Problem der gerade beschriebenen möglichen `deadlocks' zu begegnen, werden wir weiter unten probabilistische Ausgabeknoten für $C$ sowie ein dazugehöriges modifiziertes Lernschema einführen.

3. Zusammenfassend kann man folgendes feststellen: Solange $M$ in der parallelen Version von A2 bei den von $C$ ausgesuchten `Unterdomänen' keine akkuraten Voraussagen zu leisten imstande ist, führt $C$ einen Gradientenabstieg in einer sich ändernden Funktion durch. Damit kann keine Garantie für sofortige Konvergenz des Verfahrens gegeben werden. Da jedoch $M$ das Innere von $C$ als eine `Black Box' ansieht, macht es Sinn, darauf zu hoffen, daß $M$ konvergiert (solange sich die Umgebung nicht chaotisch verhält). Eine für den allgemeinen Fall unbeantwortbare Frage lautet natürlich: Wie sieht es aus mit lokalen Minima für $M$? Eine weitere Frage lautet: Besteht ein Potential für Instabilitäten, wenn $M$ schon gelernte Information über bestimmte Situationsfolgen `vergißt', weil $C$'s Aktivitäten in eine neue `Unterdomäne' führen und langsam Gewichte überschrieben werden, die für die Modellierung der alten `Unterdomäne' verantwortlich waren?

Dynamische Instabilitätsprobleme dieser Art scheinen mathematisch kaum angreifbar zu sein, da sie in hohem Maße domänenabhängig sind. Im experimentellen Abschnitt werden wir die Performanz der sequentiellen Version von A2 mit der Performanz der parallelen Version im Rahmen eines Nicht-Markov-Experiments vergleichen.


next up previous contents
Nächste Seite: Der Algorithmus Aufwärts: Begründung des Verfahrens Vorherige Seite: Gründe für paralleles Lernen   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite