next up previous contents
Nächste Seite: EXPERIMENTE MIT GLEICHVERTEILTEN EINGABEN Aufwärts: VORHERSAGBARKEITSMINIMIERUNG Vorherige Seite: `NEURONALE' IMPLEMENTIERUNG   Inhalt

EXPERIMENTE

Alle im folgenden beschriebenen Experimente basieren auf der Definition von $T = V_C$ (siehe Abschnitt 6.4). Die Repräsentationsknoten versuchen also, dasselbe Performanzmaß zu maximimieren, das die Prediktoren minimieren wollen.

Alle Repräsentationsmodule und Prediktoren wurden als 3-lagige BP-Netze implementiert. Alle versteckten Knoten und alle Ausgabeknoten benutzten eine logistische Aktivierungsfunktion und wiesen zudem eine Verbindung von einem stets mit 1 aktivierten `wahren' Knoten auf. Parameter wie Lernraten und die Anzahl versteckter Knoten wurden nicht systematisch in Bezug auf Lerngeschwindigkeit optimiert - es geht hier vielmehr um die Demonstration, daß Vorhersageminimierung in der Tat praktisch anwendbar ist.

Jeff Rink (Student an der Universität Colorado) und Daniel Prelinger (Diplomand an der TUM) implementierten on-line und `off-line' Versionen des in Abschnitt 6.5 angegebenen Verfahrens (siehe Details in [104]). Der Zweck dieser Sektion besteht nicht darin, die on-line- mit der `off-line'-Version zu vergleichen, sondern zu zeigen, daß beide zu befriedigenden Resultaten führen können.

Bei der `off-line'-Version wurde der Wert 5 als `hinreichend' für die Zahl der in PHASE 1 durchzuführenden Trainingsepochen für die Prediktoren angesehen. Lernraten um 0.3 erwiesen sich sowohl für die Prediktoren als auch für die Repräsentationsmodule als zweckmäßig.

Bei der `off-line'-Version wurden die beiden Lernphasen wie folgt modifiziert: Pro Phase wurde nur ein einziges Eingabemuster aus dem Ensemble präsentiert, dasselbe Muster wurde dabei sowohl in PHASE 1 als auch in PHASE 2 angeboten. In Abschnitten 6.6.1 und 6.6.2 wurde eine zusätzliche Modifikation zur Vermeidung gewisser lokaler Minima eingeführt (siehe [104]). Es galt $\eta_P = 1.0, \eta_R = 0.1$ (die Prediktoren lernten also `10 mal schneller' als die Repräsentationsmodule).

Bei allen Experimenten wurde ein Knoten als binär angesehen, wenn die absolute Differenz zwischen jeder von ihm angenommenen Aktivation und entweder der maximalen oder der minimalen von seiner Aktivierungsfunktion gestatteten Aktivation den Wert 0.05 nie überstieg.

Die nächsten Unterabschnitte beschreiben Experimente mit beiden Versionen. Der Ausdruck `lokale Eingaberepräsentation' soll dabei $dim(x)$ verschiedene binäre Eingabevektoren der Länge 1 implizieren. Der Ausdruck `verteilte Eingaberepräsentation' bedeutet $2^{dim(x)}$ verschiedene binäre Eingabevektoren,

Bei vielen Experimenten stellte sich heraus, daß die Existenz versteckter Knoten in der Tat zu besserer Performanz führt. Der Grund ist leicht einzusehen: Man betrachte den Fall $dim(y)=3$. Angenommen, es existiert eine XOR-artige Beziehung zwischen den Aktivationen der ersten beiden Repräsentationsknoten und der Aktivation des dritten Repräsentationsknotens. Ein linearer Prediktor wäre außerstande, diese Beziehung aufzudecken. Demzufolge sähen die Repräsentationsmodule keine Veranlassung, die nicht-lineare Redundanz zu beseitigen.



Unterabschnitte
next up previous contents
Nächste Seite: EXPERIMENTE MIT GLEICHVERTEILTEN EINGABEN Aufwärts: VORHERSAGBARKEITSMINIMIERUNG Vorherige Seite: `NEURONALE' IMPLEMENTIERUNG   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite