next up previous contents
Nächste Seite: ARCHITEKTURDETAILS Aufwärts: KOLLAPS DER HIERARCHIE Vorherige Seite: KOLLAPS DER HIERARCHIE   Inhalt

PRINZIP

Hier sei nur die grundlegende Idee beschrieben - die Details finden sich im nächsten Abschnitt.

Wir benötigen zwei konventionelle rekurrente Netzwerke: den Automatisierer $A$ und den `Chunker' $C$. Zu jedem Zeitschritt sieht $A$ die gegenwärtige externe Eingabe. $A$'s Zielfunktion enthält drei Terme: Ein Term zwingt $A$, gewisse von einem externen Lehrer zu bestimmten Zeitpunkten vorgegebene gewünschte Zielwerte auszugeben. Falls solche Zielwerte existieren, werden sie Teil der nächsten Eingabe. Der zweite Term zwingt $A$ zu jedem Zeitpunkt, seine Umgebungseingabe (nicht die eventuell durch Zielwerte bestimmte Eingabe) vorherzusagen. Der dritte Term ist der eigentlich interessante und wird im übernächsten Absatz erklärt.

Dann und nur dann, wenn $A$ eine nicht zutreffende Voraussage bezüglich des ersten und zweiten Terms seiner Zielfunktion macht, wird die falsch vorhergesagte Eingabe (einschließlich eines möglicherweise vorhandenen gewünschten Zielvektors) zusammen mit einer eindeutigen Repräsentation des gegewärtigen Zeitpunkts als neue Eingabe an $C$ weitergeliefert. Bevor sie jedoch zur Aktualisierung von $C$ führt, wird $C$ daraufhin trainiert, die neue Eingabe aus seinem gegenwärtigen internen Zustand und seiner letzten Eingabe (die vor langer Zeit stattgefunden haben mag) vorherzusagen. Dazu wird einer der konventionellen Algorithmen für rekurrente Netze verwendet (siehe Kapitel 2). Anschließend wird $C$ gemäß der gewöhnlichen Aktivationsausbreitungsregeln aktualisiert, was zur Repräsentation der Geschichte aller vergangener Eingaben beiträgt. Man beachte, daß $C$ nach dem Prinzip der Geschichtskompression eine eindeutige reduzierte Beschreibung der vergangenen Eingaben gewahrt. (Der Anfang einer Trainingsepisode ist i.a. nicht vorhersagbar, daher muß er ebenfalls an die zweite Ebene weitergeliefert werden).

Da die von $C$'s Lernalgorithmus zu überbrückenden Zeitlücken im Vergleich zu denen von $A$ oft kurz sind, wird $C$ häufig nützliche interne Repräsentationen früherer unerwarteter Ereignisse entwickeln (hier wieder die Annahme, daß der aus der Umgebung kommende Eingabestrom sowohl lokale als auch globale zeitliche Struktur besitzt). Dank dem dritten Term seiner Fehlerfunktion wird $A$ nun gezwungen, $C$'s interne Repräsentationen zu rekonstruieren. Daher wird $A$ selbst schon in einer frühen Phase der Verarbeitung einer gegebenen Sequenz nützliche interne Repräsentationen entwickeln können; $A$ wird häufig bedeutungstragende Fehlersignale erhalten, lange bevor externe durch den ersten oder zweiten `konventionellen' Term verursachte Fehler auftreten. Diese internen Repräsentationen tragen die diskriminierende Information über $C$'s Zustand. Damit tragen sie auch die diskriminierende Information, die notwendig ist, um $A$'s Vorhersagen auf der niedrigeren Ebene zu verbessern. Demzufolge wird $C$ allerdings weniger und weniger Eingaben erhalten, da mehr und mehr Eingaben vom Automatisierer vorhersagbar werden. Dies ist die Kollapsoperation. Im Idealfall wird $C$ nach einiger Zeit überflüssig werden.

Die Kollapsoperation ist mit einem Nachteil behaftet. Während bei der inkrementellen Kreierung einer Multiebenenhierarchie keine Ebene Einfluß auf die Vorgänge in einer niedrigeren Ebene ausüben kann (und damit kein Potential für Instabilitäten auftreten kann), ist die Kollapsarchitektur nicht frei von möglichen Fluktuationen. $C$'s interne Repräsentationen führen zur Änderung von $A$'s Gewichten, was seinerseits in der Regel zur Verminderung der Eingaben für $C$ und damit meist auch zur Änderung $C$'s interner Repräsentationen führt. Es sind nun Situationen denkbar, in denen $A$ aufgrund des dritten Terms seiner Zielfunktion früher gelernte Vorhersagen wieder `verlernt'. Ein ad-hoc Heilmittel bestünde in der sorgfältigen relativen Gewichtung der drei Terme in $A$'s Zielfunktion. In dem weiter unten beschriebenen Experiment war keine relative Gewichtung notwendig.


next up previous contents
Nächste Seite: ARCHITEKTURDETAILS Aufwärts: KOLLAPS DER HIERARCHIE Vorherige Seite: KOLLAPS DER HIERARCHIE   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite