Natürlich muß man bei der Entscheidung zwischen einer `on-line' und einer off-line Prozedur einen `trade-off' berücksichtigen: Man bezahlt für die gewonnene Effizienz mit dem `Grad der mathematischen Exaktheit' des Verfahrens. Um eine `on-line' Lernprozedur zu erhalten, werden wir für den unten beschriebenen Algorithmus A2 in mancher Beziehung vom `wahren' Gradientenabstieg abweichen.
1. Statt Gewichtsänderungsbeiträge zeitlich zu akkumulieren und erst nach den Aktivationsausbreitungsphasen eines Trainingsintervalls die Gewichte tatsächlich zu ändern, ändern wir die Gewichte sofort in jedem Zeitschritt. Dabei folgen wir Williams und Zipser [80] und nehmen an, daß die Lernraten klein genug sind, um Instabilitäten zu vermeiden. In den weiter unten beschriebenen Experimenten bestätigt sich die Zulässigkeit dieser Annahme. Sofortige Gewichtsänderungen ziehen als schöne Konsequenz nach sich, daß man nicht auf von einem externen Lehrer definierte Intervallgrenzen angewiesen ist.
2. Besonders zu Beginn einer On-Line Lernphase wird das
Modellnetzwerk, welches ja zur Gradientenbestimmung für 's Gewichte
dient, kein perfekter Voraussager sein. Was sind die Konsequenzen?
Man beachte, daß diejenigen Variablen von ,
welche zur Speicherung von Gradienteninformation
bezüglich
herangezogen werden müssen, unabhängig von den
Variablen von
sind,
welche Gradienteninformation
bezüglich
speichern. Eine Situation, in welcher
`Schmerz'
erleidet,
's Gewichte jedoch nur durch ein ungenaues Modellnetzwerk
`gerechtfertigt' sind, ist nicht stabil, sofern nicht beide
Netzwerke in lokalen Minima ihrer jeweiligen Fehlerfunktionen
gefangen sind. Unter der Voraussetzung, daß
stets eine
Nullstelle seiner Fehlerfunktion findet, können wir davon ausgehen,
daß
nach einiger Zeit einen Gradientenabstieg gemäß einem
perfekten Modell der sichtbaren Umgebung durchmacht.
(Wie jedoch schon oben ausgeführt, kann sich
's Performanz auch
mit einem nicht perfekten
schon verbessern.)
Eine theoretisch nicht geklärte Frage betrifft gerade diese Voraussetzung: Um ein gutes Umgebungsmodell zu bekommen, müssen hinreichend viele Trainingsbeispiele präsentiert werden. Eine mögliche Gefahr für ein parallel lernendes Gesamtsystem besteht darin, daß das Steuernetzwerk irgendwann in ein lokales Minimum relativ zu dem noch nicht perfekten Modellnetzwerk gerät. Dieses Minimum braucht gemessen an einem hypothetischen bereits perfekten Umgebungsmodell gar keines zu sein! Dennoch mag es dazu führen, daß das Steuernetzwerk in gegebenem Kontext stets dieselben Aktionen ausgibt, so daß das Modellnetzwerk keine Chance besitzt, etwas über die Konsequenzen alternativer Aktionen in Erfahrung zu bringen. Dies kann zur Folge haben, daß die Steuerer/Modell-Kombination in einen Zustand gerät, aus dem es kein Entkommen mehr gibt. Die sequentielle Version des unten beschriebenen A2 stellt einen sicheren Weg zur Umgehung zumindest dieses Problems dar, dafür sieht sie sich jedoch mit den in 5.3.2 erwähnten Problemen konfrontiert.
Um dem Problem der gerade beschriebenen möglichen `deadlocks'
zu begegnen, werden wir weiter unten probabilistische
Ausgabeknoten für sowie ein dazugehöriges modifiziertes
Lernschema einführen.
3. Zusammenfassend kann man folgendes feststellen: Solange in der
parallelen Version von A2 bei
den von
ausgesuchten `Unterdomänen' keine akkuraten Voraussagen zu
leisten imstande ist, führt
einen Gradientenabstieg in einer sich
ändernden Funktion durch. Damit kann keine Garantie für
sofortige Konvergenz des Verfahrens gegeben werden.
Da jedoch
das Innere von
als eine `Black Box' ansieht,
macht es Sinn, darauf zu hoffen, daß
konvergiert (solange sich die
Umgebung nicht chaotisch verhält). Eine für den
allgemeinen Fall unbeantwortbare Frage lautet natürlich: Wie sieht
es aus mit lokalen Minima für
? Eine weitere Frage lautet:
Besteht ein Potential für Instabilitäten, wenn
schon gelernte
Information über bestimmte Situationsfolgen `vergißt', weil
's Aktivitäten in eine neue `Unterdomäne' führen und langsam
Gewichte überschrieben werden, die für die Modellierung der
alten `Unterdomäne' verantwortlich waren?
Dynamische Instabilitätsprobleme dieser Art scheinen mathematisch kaum angreifbar zu sein, da sie in hohem Maße domänenabhängig sind. Im experimentellen Abschnitt werden wir die Performanz der sequentiellen Version von A2 mit der Performanz der parallelen Version im Rahmen eines Nicht-Markov-Experiments vergleichen.