next up previous contents
Nächste Seite: Sichtweise: Equilibria unter Einschluß Aufwärts: Experimente zur adaptiven räumlichen Vorherige Seite: Zielverfolgung   Inhalt

Paralleles Lernen von $C$ und $M$

Die oben beschriebenen Experimente gingen von separaten Trainingsphasen für $C$ und $M$ aus. Wie schon im 5. Kapitel ausgeführt, gibt es für den Fall komplexer Umgebungen gewichtige Gründe, $C$ und $M$ parallel lernen zu lassen.

Es wurden einige `On-line'-Experimente durchgeführt. Es stellte sich heraus, daß zwei interagierende konventionelle deterministische Netzwerke für die Aufgabe nicht geeignet waren. Ein deterministisches System fing sich bald in einem Zustand, in dem $C$ den Fokus niemals in Regionen transportierte, die es dem Modellnetzwerk erlaubt hätten, neue relevante Daten über die externe Umgebung zu sammeln. (Das ist der schon im 5. Kapitel beschriebene `deadlock'.) Die aus der Umgebung importierte Zufälligkeit reichte nicht zur Lösung der Aufgabe aus.

Daher wurden einige Modifikationen für das Steuernetz eingeführt, um es mit expliziter Suchfähigkeit auszustatten: Jeder der 4 bzw. 6 Ausgabeknoten wurde durch ein aus zwei Knoten bestehendes kleines Netzwerk ersetzt. Einer dieser Knoten lieferte jeweils den Mittelwert, der andere die Varianz für einen Zufallsgenerator, welcher Zufallszahlen anhand einer stetigen differenzierbaren Wahrscheinlichkeitsverteilung produzierte. (Eine Gaussverteilung wurde dabei durch eine Bernoulliverteilung approximiert.) Gewichtsgradienten wurden mit Hilfe von Williams Konzept des `BP durch Zufallszahlengeneratoren' berechnet [77].

Es stellte sich heraus, daß die parallele Version fähig war, geeignete Fokustrajektorien zu erlernen. Meist wurden dabei weniger als 100.000 Trainingstrajektorien benötigt. Wie erwartet, war das Modellnetzwerk nach dem Training nur in denjenigen Situationen ein relativ guter Prophet, die vom Steuernetzwerk im Verlauf typischer Trajektorien herbeigeführt wurden. Gegen Ende des Trainings ging die Varianz von $C$'s Zufallsgeneratoren wie zu erwarten gegen Null.

Der Trainingsaufwand der parallelen Version war in etwa dem der sequentiellen Version vergleichbar, allerdings waren die Ergebnisse statistisch nicht signifikant genug, um eine eindeutige Aussage zuzulassen. Wie schon im Kapitel 5 ist die wesentliche Erkenntnis aus diesen Experimenten, daß der Ansatz nach Modifikation (Einführung probabilistischer Knoten für $C$) tatsächlich paralleles Lernen erlaubt, was keineswegs von vornherein klar war.


next up previous contents
Nächste Seite: Sichtweise: Equilibria unter Einschluß Aufwärts: Experimente zur adaptiven räumlichen Vorherige Seite: Zielverfolgung   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite