next up previous contents
Nächste Seite: A2's Abweichen vom reinen Aufwärts: Begründung des Verfahrens Vorherige Seite: Mathematische Begründung   Inhalt

Gründe für paralleles Lernen von Modell- und Steuernetz

Das oben ausgeführte Schema setzt voraus, daß $M$ schon gelernt hat, ein perfekter Voraussager zu sein. Bevor $C$'s Training beginnen kann, ist also eine explorative Lernphase für $M$ erforderlich. Die explorative Suche, die für R-Lernsysteme normalerweise durch probabilistische Aktivationsregeln eingeführt wird (siehe Kapitel 3), steckt also in der möglichst erschöpfenden ersten Lernphase. Theoretisch müßten alle möglichen Beziehungen zwischen Ein- und Ausgaben des Kontrollnetzes und zukünftigen Eingaben exploriert werden. Das ist natürlich nicht machbar, denn im allgemeinen ist die Menge dieser potentiellen Beziehungen unendlich groß. Ein alternativer Ansatz würde darin bestehen, dem Modellnetzwerk sorgfältig ausgewählte Beispiele typischer Ereignissequenzen zu präsentieren, in der Hoffnung, daß $M$ korrekt auf unbekannte Ereignissequenzen verallgemeinert. Dazu muß jedoch der externe Lehrer viel klüger sein, als wir ihn voraussetzen wollen.

Für realistische Anwendungen großen Maßstabs ist paralleles Training von $M$ und $C$ wünschenswert und wohl geradezu unvermeidlich: $C$'s Gewichtsänderungen sollten bereits in Gang gesetzt werden, wenn die externe Dynamik noch nicht vollständig durch $M$'s Gewichte repräsentiert ist. $M$ sollte sich auf diejenigen Aspekte der Umgebungsdynamik konzentrieren, die für das Erreichen von $C$'s Zielen relevant sein könnten. Gerade so wie Kohonens selbstorganisierende Karten [23] automatisch mehr Speicherplatz für die detaillierte interne Repräsentation häufiger Eingaben zur Verfügung stellen, gerade so sollte $M$ seine Speicherkapazität vorzugsweise in den Dienst der detaillierten Repräsentation derjenigen Aspekte der externen Umgebung stellen, die vermutlich relevant für das Hauptziel des Systems sind (nämlich möglichst `lustvoll' zu existieren, ohne `Schmerzen' zu erleiden).

Neben solchen Effizienzgründen gibt es aber auch noch weitere wichtige Gründe, parallele `on-line' -Lernprozeduren zu studieren. Man betrachte das Problem der Evolution von Sprache im Fall zweier kommunizierfähiger Agenten, wobei jeder Agent ein Modell der Bedeutung der Ausgaben des anderen hat (später werden wir ein sich auf diese Situation beziehendes Experiment kurz beschreiben). Soll sich die Kommunizierfähigkeit der Agenten tatsächlich durch Erfahrung verbessern, so heißt das, daß sich die Ausgaben der Agenten sowie ihre Bedeutungen dynamisch verändern müssen. Dies wiederum erfordert, daß sich die jeweiligen Modelle des Gegenübers ändern müssen.

Robinson und Fallsides Ansatz zum parallelen Lernen wurde bereits im Kapitel 3 erwähnt und kritisiert (es sollte noch angemerkt werden, daß der Algorithmus, den sie für ihre Experimente benutzten, nicht lokal in der Zeit war). Im Kontext von Algorithmen für Markov-Umgebungen stellt auch Jordan fest, daß ein Modellnetzwerk nicht `perfekt' sein muß, um Performanzverbesserung für ein Steuernetzwerk zu unterstützen [21].

Ist $C$'s Fehler nicht durch den Unterschied zwischen $C$'s gewünschter Eingabe (z. B. null Schmerz) und $M$'s Ausgabe gegeben, sondern durch den Unterschied zwischen $C$'s gewünschter Eingabe und $C$'s tatsächlicher Eingabe, dann sind die Minima dieses Fehlers immer noch Fixpunkte des Gewichtsänderungsalgorithmus, solange $M$ bereits ein lokales Minimum seines Prediktionsfehlers erreicht hat. Die Nullstellen von $C$'s Fehler sind sogar dann schon Fixpunkte, wenn $M$ sich noch nicht in einem lokalen Minimum gefangen hat.

Die Minima von $C$'s Fehler lassen sich finden, wenn die inneren Produkte der approximierten Gradienten für $C$'s Gewichte und der exakten (mit einem hypothetischen perfekten Modellnetzwerk zu berechnenden) Gradienten dazu tendieren, positiv zu sein.


next up previous contents
Nächste Seite: A2's Abweichen vom reinen Aufwärts: Begründung des Verfahrens Vorherige Seite: Mathematische Begründung   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite