next up previous contents
Nächste Seite: EXPERIMENTE MIT UNGLEICH VERTEILTEN Aufwärts: EXPERIMENTE Vorherige Seite: EXPERIMENTE MIT GLEICHVERTEILTEN EINGABEN   Inhalt

EXPERIMENTE MIT `OCCAMS RASIERMESSER'

Eingangs wurde erwähnt, daß Methoden zum Finden faktorieller Codes automatisch `Occams Rasiermesser' verkörpern, welches `einfache' Umgebungsmodelle komplexeren vorzieht. Das Maß der `Einfachheit' ist in unserem Fall durch die Anzahl der Repräsentationsknoten definiert, die zur eindeutigen Repräsentation der Umgebungseingaben erforderlich sind. Die hier vorgestellten Experimente sollen die Wirksamkeit von Occams Rasiermesser verifizieren.

Es sei darauf hingewiesen, daß bei Musterensembles, die keine faktorielle Codierung besitzen, Vorhersagbarkeitsminimierung die Anzahl der verwendeten Codesymbole reduziert, anstatt (wie Barlow et al.s im vorangegangenen Kapitel erwähnte Methode) die Bitentropiesumme zu minimieren. Dies wird einsichtig, wenn man eine von Mitchison im Appendix von [5] beschriebene Testaufgabe betrachtet. Bei diesem Beispiel läßt sich die Bitentropiesumme durch lokale Repräsentation der Eingaben minimieren. Lokale Repräsentationen maximieren jedoch die wechselseitige Vorhersagbarkeit: Jedes Codesymbol läßt sich aus allen anderen vorhersagen. Vorhersagbarkeitsminimierung versucht gerade, dies durch Kreierung distribuierter nicht-expansiver Codes zu vermeiden.

Experiment 4: `off-line', $dim(y)=3$, $dim(x) = 4$, lokale Eingaberepräsentation (die Kapazität der Repräsentationsknoten überstieg also die in der Umgebung enthaltene Information um ein bit), 3 versteckte Knoten pro Prediktor, 4 allen Repräsentationsmodulen gemeinsame versteckte Knoten. 10 Testläufe mit 10000 Trainingsepochen für die Repräsentationsmodule wurden durchgeführt. In 7 Fällen genügte dies, um einen faktoriellen Binärcode zu finden: Nach dem Training emittierte einer der Repräsentationsknoten stets einen konstanten binären Wert $c$. Der vom entsprechenden Prediktor gelieferte bedingte Erwartungswert war natürlich gleich dem unbedingten Erwartungswert $c$, womit das Kriterium der statistischen Unabhängigkeit auf triviale Weise erfüllt war. In den verbleibenden 3 Fällen war der Code zumindest binär und invertibel.

Experiment 5: `off-line', $dim(y)=3$, $dim(x) = 4$, lokale Eingaberepräsentation (die Kapazität der Repräsentationsknoten überstieg also die in der Umgebung enthaltene Information um zwei bit), 3 versteckte Knoten pro Prediktor, 4 allen Repräsentationsmodulen gemeinsame versteckte Knoten. 10 Testläufe mit 10000 Trainingsepochen für die Repräsentationsmodule wurden durchgeführt. In 5 Fällen genügte dies, um einen faktoriellen Binärcode zu finden: Nach dem Training emittierten zwei der Repräsentationsknoten stets einen konstanten binären Wert. In den verbleibenden 3 Fällen verbrauchte der Code zwar mehr als die minimale Anzahl an Repräsentationsknoten, war jedoch zumindest binär und invertibel.

Experiment 6: on-line, $dim(y) = 4$, $dim(x) = 2$, verteilte Eingaberepräsentation (die Kapazität der Repräsentationsknoten überstieg die in der Umgebung enthaltene Information wieder um zwei bit), 2 versteckte Knoten pro Prediktor, 4 allen Repräsentationsmodulen gemeinsame versteckte Knoten. 10 Testläufe mit 250000 Musterpräsentationen wurden durchgeführt. Dies genügte stets, um einen faktoriellen Binärcode zu entdecken: Nach dem Training emittierten zwei der Repräsentationsknoten stets einen konstanten binären Wert. In 7 der 10 Fälle erwiesen sich weniger als 100000 Musterpräsentationen (dies entspricht 25000 Trainingsepochen) als erforderlich.


next up previous contents
Nächste Seite: EXPERIMENTE MIT UNGLEICH VERTEILTEN Aufwärts: EXPERIMENTE Vorherige Seite: EXPERIMENTE MIT GLEICHVERTEILTEN EINGABEN   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite