Es sei darauf hingewiesen, daß bei Musterensembles, die keine faktorielle Codierung besitzen, Vorhersagbarkeitsminimierung die Anzahl der verwendeten Codesymbole reduziert, anstatt (wie Barlow et al.s im vorangegangenen Kapitel erwähnte Methode) die Bitentropiesumme zu minimieren. Dies wird einsichtig, wenn man eine von Mitchison im Appendix von [5] beschriebene Testaufgabe betrachtet. Bei diesem Beispiel läßt sich die Bitentropiesumme durch lokale Repräsentation der Eingaben minimieren. Lokale Repräsentationen maximieren jedoch die wechselseitige Vorhersagbarkeit: Jedes Codesymbol läßt sich aus allen anderen vorhersagen. Vorhersagbarkeitsminimierung versucht gerade, dies durch Kreierung distribuierter nicht-expansiver Codes zu vermeiden.
Experiment 4: `off-line', , , lokale Eingaberepräsentation (die Kapazität der Repräsentationsknoten überstieg also die in der Umgebung enthaltene Information um ein bit), 3 versteckte Knoten pro Prediktor, 4 allen Repräsentationsmodulen gemeinsame versteckte Knoten. 10 Testläufe mit 10000 Trainingsepochen für die Repräsentationsmodule wurden durchgeführt. In 7 Fällen genügte dies, um einen faktoriellen Binärcode zu finden: Nach dem Training emittierte einer der Repräsentationsknoten stets einen konstanten binären Wert . Der vom entsprechenden Prediktor gelieferte bedingte Erwartungswert war natürlich gleich dem unbedingten Erwartungswert , womit das Kriterium der statistischen Unabhängigkeit auf triviale Weise erfüllt war. In den verbleibenden 3 Fällen war der Code zumindest binär und invertibel.
Experiment 5: `off-line', , , lokale Eingaberepräsentation (die Kapazität der Repräsentationsknoten überstieg also die in der Umgebung enthaltene Information um zwei bit), 3 versteckte Knoten pro Prediktor, 4 allen Repräsentationsmodulen gemeinsame versteckte Knoten. 10 Testläufe mit 10000 Trainingsepochen für die Repräsentationsmodule wurden durchgeführt. In 5 Fällen genügte dies, um einen faktoriellen Binärcode zu finden: Nach dem Training emittierten zwei der Repräsentationsknoten stets einen konstanten binären Wert. In den verbleibenden 3 Fällen verbrauchte der Code zwar mehr als die minimale Anzahl an Repräsentationsknoten, war jedoch zumindest binär und invertibel.
Experiment 6: on-line, , , verteilte Eingaberepräsentation (die Kapazität der Repräsentationsknoten überstieg die in der Umgebung enthaltene Information wieder um zwei bit), 2 versteckte Knoten pro Prediktor, 4 allen Repräsentationsmodulen gemeinsame versteckte Knoten. 10 Testläufe mit 250000 Musterpräsentationen wurden durchgeführt. Dies genügte stets, um einen faktoriellen Binärcode zu entdecken: Nach dem Training emittierten zwei der Repräsentationsknoten stets einen konstanten binären Wert. In 7 der 10 Fälle erwiesen sich weniger als 100000 Musterpräsentationen (dies entspricht 25000 Trainingsepochen) als erforderlich.