next up previous contents
Nächste Seite: Experimente zur adaptiven räumlichen Aufwärts: Ein System für das Vorherige Seite: Detaillierte Beschreibung des Verfahrens   Inhalt

Das notwendigerweise nicht perfekte Modellnetzwerk

Man beachte, daß es unter der Voraussetzung zufällig auf der Pixelebene verteilter Objekte für $M$ in der Regel unmöglich ist, exakte Voraussagen über zukünftige Fokuseingaben zu machen. Im Gegensatz zum bekannten `truck backer upper'-Experiment, bei dem eine Handvoll Variabler genügt, um den kompletten Zustand der Umgebung hinreichend zu beschreiben [34], sehen im hier beschriebenen Experiment sowohl $C$ als auch $M$ niemals den gesamten Zustand der Umgebung, sondern immer nur ein paar lokale Details.

Genau dafür jedoch ist gelenkte Aufmerksamkeit gut: Aufmerksamkeit sollte auf diejenigen Teile der visuellen Szene gerichtet werden, welche detailliertere Information über die weitere Strategie für den Zielfindungsprozeß preisgeben können. $M$'s Hauptaufgabe besteht darin, $C$ in diejenigen Regionen der Pixelebene zu leiten, die eine Trajektorienfortführung mit infomierteren Bewegungen gestatten. (Beispiel: Man kann nicht genau vorhersagen, was man sehen wird, wenn man seine Augen auf die Zimmertür richtet. Man schafft allerdings die Voraussetzungen, um mit Hilfe weiterer Augenbewegungen das Gesicht der eintretenden Person zu erkennen.)

Würden die Dinge, auf die man seine Aufmerksamkeit richtet, niemals unerwartete Information liefern, so hätte das ganze Konzept der selektiven Aufmerksamkeit keinen Sinn. Man könnte das auch so formulieren: Wäre die Situation so, daß man $M$ darauf trainieren könnte, stets perfekte Voraussagen zu machen, würde $M$ seine Existenzberechtigung verlieren. Dann würde nämlich schon ein einzelnes Netzwerk ausreichen, die gesamte Information über die Umgebung zu speichern. Für alle interessanten Fälle darf das Modellnetzwerk gar nicht perfekt gemacht werden können.

Im Gegensatz zum `truck backer upper' [34] ist es also nicht beabsichtigt, $M$ zu einem perfekten Vorhersager zu machen, dessen Ausgaben die Eingaben von der Umgebung ersetzen könnten (in diesem Fall würde im Vergleich zum statischen Musterfindungsansatz nicht viel zu gewinnen sein). Vielmehr reicht es aus, wenn die inneren Produkte der auf einem ungenauen Modell beruhenden approximierten Gradienten für $C$ und der auf einem hypothetischen exakten Modell beruhenden exakten Gradienten dazu tendieren, positiv zu sein.

Ein erklärtes Ziel dieses Beitrags ist, zu zeigen, daß ungenaue Modelle zu perfekten Lösungen beitragen können.


next up previous contents
Nächste Seite: Experimente zur adaptiven räumlichen Aufwärts: Ein System für das Vorherige Seite: Detaillierte Beschreibung des Verfahrens   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite