Es sei darauf hingewiesen, daß bei Musterensembles, die keine faktorielle Codierung besitzen, Vorhersagbarkeitsminimierung die Anzahl der verwendeten Codesymbole reduziert, anstatt (wie Barlow et al.s im vorangegangenen Kapitel erwähnte Methode) die Bitentropiesumme zu minimieren. Dies wird einsichtig, wenn man eine von Mitchison im Appendix von [5] beschriebene Testaufgabe betrachtet. Bei diesem Beispiel läßt sich die Bitentropiesumme durch lokale Repräsentation der Eingaben minimieren. Lokale Repräsentationen maximieren jedoch die wechselseitige Vorhersagbarkeit: Jedes Codesymbol läßt sich aus allen anderen vorhersagen. Vorhersagbarkeitsminimierung versucht gerade, dies durch Kreierung distribuierter nicht-expansiver Codes zu vermeiden.
Experiment 4:
`off-line',
,
,
lokale Eingaberepräsentation (die Kapazität der Repräsentationsknoten
überstieg also die in der Umgebung enthaltene Information um
ein bit),
3 versteckte Knoten pro Prediktor,
4 allen Repräsentationsmodulen gemeinsame versteckte Knoten.
10 Testläufe mit 10000 Trainingsepochen für die
Repräsentationsmodule wurden durchgeführt.
In 7 Fällen genügte dies, um einen
faktoriellen Binärcode zu finden: Nach dem Training emittierte
einer der Repräsentationsknoten stets einen konstanten binären Wert
.
Der vom entsprechenden Prediktor gelieferte bedingte Erwartungswert
war natürlich gleich dem unbedingten Erwartungswert
, womit
das Kriterium der statistischen Unabhängigkeit auf triviale
Weise erfüllt war.
In den verbleibenden 3 Fällen war der Code zumindest binär
und invertibel.
Experiment 5:
`off-line',
,
,
lokale Eingaberepräsentation (die Kapazität der Repräsentationsknoten
überstieg also die in der Umgebung enthaltene Information um
zwei bit),
3 versteckte Knoten pro Prediktor,
4 allen Repräsentationsmodulen gemeinsame versteckte Knoten.
10 Testläufe mit 10000 Trainingsepochen für die
Repräsentationsmodule wurden durchgeführt.
In 5 Fällen genügte dies, um einen
faktoriellen Binärcode zu finden: Nach dem Training emittierten
zwei der Repräsentationsknoten stets einen konstanten binären Wert.
In den verbleibenden 3 Fällen verbrauchte der Code zwar mehr
als die minimale Anzahl an Repräsentationsknoten, war
jedoch zumindest binär
und invertibel.
Experiment 6:
on-line,
,
,
verteilte Eingaberepräsentation (die Kapazität der Repräsentationsknoten
überstieg die in der Umgebung enthaltene Information wieder um
zwei bit),
2 versteckte Knoten pro Prediktor,
4 allen Repräsentationsmodulen gemeinsame versteckte Knoten.
10 Testläufe mit 250000 Musterpräsentationen
wurden durchgeführt.
Dies
genügte stets, um einen
faktoriellen Binärcode zu entdecken: Nach dem Training emittierten
zwei der Repräsentationsknoten stets einen konstanten binären Wert.
In 7 der 10 Fälle erwiesen sich weniger als 100000
Musterpräsentationen (dies entspricht 25000 Trainingsepochen) als
erforderlich.