PRINZIP

$P_i, i = 1, 2, \ldots$ bezeichnet das Prediktornetzwerk der

-ten Ebene. Zur Implementierung von

eignen sich im Prinzip beliebige rekurrente Netze für dynamische Umgebungen (e.g [40], [23], [14], [74], [85], [144], [149], [59], [79], [3], [150], [148], [152], [109], [112], [29], [68], [72], [28], [147], [90], [97]^7.3). Zu jedem Zeitpunkt einer Sequenz

besteht die Eingabe für die unterste Ebene aus

. Wir nehmen an, daß die Umgebung folgender (in allen vernünftigen Fällen erfüllten) Bedingung Genüge leistet:

Bedingung 7.3: Zu jeder reellwertigen Prediktion eines Eingabevektors läßt sich unter allen möglichen Eingabevektoren einer angeben, dessen euklidischer Abstand zur Prediktion minimal ist.

Wann immer ein

daran scheitert, seine eigene nächste Eingabe vorherzusagen (u.a. auch nach einem `nullten' Initialisierungszeitschritt zu Beginn jeder Sequenz), ergibt sich $P_{i+1}$ 's Eingabe durch die Konkatenation der tatsächlich beobachteten Eingabe und einer eindeutigen Repräsentation des entsprechenden Zeitschritts^7.4. Die Aktivationen von $P_{i+1}$ 's versteckten Knoten und Ausgabeknoten werden nur zu den `kritischen' Zeitpunkten der nächstniedrigeren Ebene aktualisiert. Diese Prozedur stellt sicher, daß $P_{i+1}$ ohne Informationsverlust mit einer eindeutigen reduzierten Beschreibung der Sequenz

gefüttert wird^7.5. Das Prinzip der Geschichtskompression liefert hierfür die theoretische Grundlage. Siehe Abbildung 7.1.

**Abbildung:** Ausschnitt aus der Prediktorenhierarchie. Der Prediktor der -ten Stufe versucht, seine eigene nächste Eingabe aus vorangegangenen Eingaben vorherzusagen. Gelingt ihm das irgendwann einmal nicht, so wurde eine informationstragende Eingabe gefunden, welche samt einer eindeutigen Repräsentation des Zeitschrittes, zu welchem sie stattfand, an die nächste Stufe weitergereicht wird.
$\begin{figure}\psfig{figure=fig7.1} \end{figure}$

Im allgemeinen wird $P_{i+1}$ weniger Eingaben pro Zeiteinheit erhalten als

. Nach Sektion 7.1 sollte $P_{i+1}$ damit i.a. weniger Schwierigkeiten als

haben, zu lernen,

's `kritische Eingaben' vorherzusagen. Dies darf man aber nur dann erwarten, wenn der Eingabestrom globale zeitliche Regularitäten enthält, die

noch nicht entdeckt hat. In Umgebungen ohne hierarchische zeitlichen Strukturen bietet das Multiebenensystem keine Vorteile. Typische Eingabeströme scheinen allerdings hierarchisch aufgebaut zu sein - man denke nur an Sprachsignale. (Siehe [77] für einen verwandten ad-hoc Ansatz zur Lösung von Aufgaben aus dem Bereich R-Lernen.)