Für realistische Anwendungen großen Maßstabs ist paralleles
Training von
und
wünschenswert und wohl geradezu
unvermeidlich:
's
Gewichtsänderungen sollten bereits in Gang gesetzt werden,
wenn die externe Dynamik noch nicht vollständig durch
's Gewichte repräsentiert ist.
sollte sich auf diejenigen
Aspekte der Umgebungsdynamik konzentrieren, die für das
Erreichen von
's Zielen relevant sein könnten. Gerade so
wie Kohonens selbstorganisierende Karten [23]
automatisch mehr Speicherplatz für die detaillierte interne
Repräsentation häufiger Eingaben zur Verfügung stellen,
gerade so sollte
seine Speicherkapazität vorzugsweise in den
Dienst der detaillierten Repräsentation derjenigen Aspekte
der externen Umgebung stellen, die vermutlich relevant für
das Hauptziel des Systems sind (nämlich möglichst `lustvoll'
zu existieren,
ohne `Schmerzen' zu erleiden).
Neben solchen Effizienzgründen gibt es aber auch noch weitere wichtige Gründe, parallele `on-line' -Lernprozeduren zu studieren. Man betrachte das Problem der Evolution von Sprache im Fall zweier kommunizierfähiger Agenten, wobei jeder Agent ein Modell der Bedeutung der Ausgaben des anderen hat (später werden wir ein sich auf diese Situation beziehendes Experiment kurz beschreiben). Soll sich die Kommunizierfähigkeit der Agenten tatsächlich durch Erfahrung verbessern, so heißt das, daß sich die Ausgaben der Agenten sowie ihre Bedeutungen dynamisch verändern müssen. Dies wiederum erfordert, daß sich die jeweiligen Modelle des Gegenübers ändern müssen.
Robinson und Fallsides Ansatz zum parallelen Lernen wurde bereits im Kapitel 3 erwähnt und kritisiert (es sollte noch angemerkt werden, daß der Algorithmus, den sie für ihre Experimente benutzten, nicht lokal in der Zeit war). Im Kontext von Algorithmen für Markov-Umgebungen stellt auch Jordan fest, daß ein Modellnetzwerk nicht `perfekt' sein muß, um Performanzverbesserung für ein Steuernetzwerk zu unterstützen [21].
Ist 's Fehler nicht durch den Unterschied zwischen
's
gewünschter Eingabe (z. B. null Schmerz) und
's Ausgabe gegeben, sondern
durch den Unterschied zwischen
's gewünschter Eingabe und
's
tatsächlicher Eingabe, dann sind die Minima dieses Fehlers immer
noch Fixpunkte des Gewichtsänderungsalgorithmus, solange
bereits
ein lokales Minimum seines Prediktionsfehlers
erreicht hat. Die Nullstellen von
's Fehler
sind sogar dann schon Fixpunkte, wenn
sich noch nicht in einem
lokalen Minimum gefangen hat.
Die Minima von 's Fehler lassen sich finden, wenn
die inneren Produkte der approximierten Gradienten für
's Gewichte
und der exakten (mit einem hypothetischen perfekten Modellnetzwerk
zu berechnenden) Gradienten dazu tendieren, positiv zu sein.