Die beiden Eingabetransformatoren und besaßen jeweils 8 Eingabeknoten, 12 versteckte Knoten sowie einen einzigen Ausgabeknoten (da ja die zu extrahierende Eigenschaft (der `shift') ein binäres Merkmal ist). Demgemäß reichte auch ein einziger Prediktor pro Transformer aus, um den Ausgabeknoten (aus einem Knoten mit konstanter Aktivation) vorherzusagen.
Experiment 16: `on-line', Vorhersagbarkeitsmaximierung gemäß (5.15), separate Gewichtssätze für beide Transformatoren, keine versteckten Knoten in den Prediktoren, Lernraten der Prediktoren gleich 1.0, Lernraten der Transformatoren gleich 0.5, 10 Testläufe wurden durchgeführt. In allen Fällen genügten wie bei (Becker und Hinton) 100000 Musterpräsentationen zur Extraktion des `shifts'. Dem entspricht 1 bit wechselseitiger Information zwischen den Ausgaben der Transformatoren.
Im Gegensatz zu Beckers und Hintons Methode waren dabei weder sukzessive `bootstrap'-Trainingszyklen noch Lernratenanpassung oder irgendwelche sonstigen heuristischen Kniffe notwendig.
Experiment 2: Wie Experiment 1, allerdings teilten sich nun beide Transformatoren denselben Gewichtssatz. Dies führte zu einer signifikanten Reduktion der Anzahl der freien Parameter (siehe auch Abschnitt 5.5), was in deutlicher Beschleunigung des Lernvorgangs resultierte. Bei 10 Testläufen genügten zwischen 20000 und 50000 Musterpräsentationen zur Extraktion des `shifts'.