Wir benötigen zwei konventionelle rekurrente Netzwerke: den Automatisierer und den `Chunker' . Zu jedem Zeitschritt sieht die gegenwärtige externe Eingabe. 's Zielfunktion enthält drei Terme: Ein Term zwingt , gewisse von einem externen Lehrer zu bestimmten Zeitpunkten vorgegebene gewünschte Zielwerte auszugeben. Falls solche Zielwerte existieren, werden sie Teil der nächsten Eingabe. Der zweite Term zwingt zu jedem Zeitpunkt, seine Umgebungseingabe (nicht die eventuell durch Zielwerte bestimmte Eingabe) vorherzusagen. Der dritte Term ist der eigentlich interessante und wird im übernächsten Absatz erklärt.
Dann und nur dann, wenn eine nicht zutreffende Voraussage bezüglich des ersten und zweiten Terms seiner Zielfunktion macht, wird die falsch vorhergesagte Eingabe (einschließlich eines möglicherweise vorhandenen gewünschten Zielvektors) zusammen mit einer eindeutigen Repräsentation des gegewärtigen Zeitpunkts als neue Eingabe an weitergeliefert. Bevor sie jedoch zur Aktualisierung von führt, wird daraufhin trainiert, die neue Eingabe aus seinem gegenwärtigen internen Zustand und seiner letzten Eingabe (die vor langer Zeit stattgefunden haben mag) vorherzusagen. Dazu wird einer der konventionellen Algorithmen für rekurrente Netze verwendet (siehe Kapitel 2). Anschließend wird gemäß der gewöhnlichen Aktivationsausbreitungsregeln aktualisiert, was zur Repräsentation der Geschichte aller vergangener Eingaben beiträgt. Man beachte, daß nach dem Prinzip der Geschichtskompression eine eindeutige reduzierte Beschreibung der vergangenen Eingaben gewahrt. (Der Anfang einer Trainingsepisode ist i.a. nicht vorhersagbar, daher muß er ebenfalls an die zweite Ebene weitergeliefert werden).
Da die von 's Lernalgorithmus zu überbrückenden Zeitlücken im Vergleich zu denen von oft kurz sind, wird häufig nützliche interne Repräsentationen früherer unerwarteter Ereignisse entwickeln (hier wieder die Annahme, daß der aus der Umgebung kommende Eingabestrom sowohl lokale als auch globale zeitliche Struktur besitzt). Dank dem dritten Term seiner Fehlerfunktion wird nun gezwungen, 's interne Repräsentationen zu rekonstruieren. Daher wird selbst schon in einer frühen Phase der Verarbeitung einer gegebenen Sequenz nützliche interne Repräsentationen entwickeln können; wird häufig bedeutungstragende Fehlersignale erhalten, lange bevor externe durch den ersten oder zweiten `konventionellen' Term verursachte Fehler auftreten. Diese internen Repräsentationen tragen die diskriminierende Information über 's Zustand. Damit tragen sie auch die diskriminierende Information, die notwendig ist, um 's Vorhersagen auf der niedrigeren Ebene zu verbessern. Demzufolge wird allerdings weniger und weniger Eingaben erhalten, da mehr und mehr Eingaben vom Automatisierer vorhersagbar werden. Dies ist die Kollapsoperation. Im Idealfall wird nach einiger Zeit überflüssig werden.
Die Kollapsoperation ist mit einem Nachteil behaftet. Während bei der inkrementellen Kreierung einer Multiebenenhierarchie keine Ebene Einfluß auf die Vorgänge in einer niedrigeren Ebene ausüben kann (und damit kein Potential für Instabilitäten auftreten kann), ist die Kollapsarchitektur nicht frei von möglichen Fluktuationen. 's interne Repräsentationen führen zur Änderung von 's Gewichten, was seinerseits in der Regel zur Verminderung der Eingaben für und damit meist auch zur Änderung 's interner Repräsentationen führt. Es sind nun Situationen denkbar, in denen aufgrund des dritten Terms seiner Zielfunktion früher gelernte Vorhersagen wieder `verlernt'. Ein ad-hoc Heilmittel bestünde in der sorgfältigen relativen Gewichtung der drei Terme in 's Zielfunktion. In dem weiter unten beschriebenen Experiment war keine relative Gewichtung notwendig.