next up previous contents
Nächste Seite: Detaillierte Beschreibung des Verfahrens Aufwärts: Dynamische adaptive selektive Aufmerksamkeit Vorherige Seite: Wie implementiert man adaptive   Inhalt

Ein System für das Lernen von `attentive vision'

Das im folgenden vorgestellte System besitzt (stark limitierte) Fähigkeiten, sich dynamisch zu einem bestimmten Zeitpunkt auf bestimmte Details der Umgebung zu konzentrieren. Es kann selbst Einfluß nehmen auf das, was es von der Umgebung wahrnimmt. Es kann in gewisser Weise lernen, sich mit der Zeit auf die `richtigen' Aspekte der Umgebung zu konzentrieren.

Dynamische Aufmerksamkeit wird in unserem Beispiel durch externe Rückkopplung implementiert: Ein Steuernetzwerk $C$ steuert sequentielle Bewegungen eines `Fokus' auf einer `visuellen' Eingabeebene. Im Gegensatz zu dem im letzten Unterabschnitt beschriebenen allgemeinen Aufmerksamkeitslenker ist der Einfluß, den das System auf seine Eingaben nehmen kann, durch verschiedene Randbedingungen eingeschränkt: Zum Beispiel besteht der Fokus immer aus derselben Anzahl von Eingabeknoten und kann seine Topologie nicht ändern. Allerdings ist die Generalisierung auf den allgemeineren Fall trivial, zumindest was die Beschreibung anbetrifft.

Der Fokus liefert hohe Auflösung in seinem physikalischen Zentrum und niedrige Auflösung im Randbereich. Motorische Aktionen wie `schiebe Fokus 15 Pixel nach rechts' oder `rotiere Fokus um 9 Grad' werden durch lineare Transformationen der Aktivationen von $C$'s Ausgabeknoten gesteuert. Die Aktivationen der Ausgabeknoten zu einem gegebenen Zeitschritt führen also in der Regel zu neuen Aktivationen für die Eingabeknoten zum nächsten Zeitschritt. So kommt die externe Rückkopplung ins Spiel.

Die gewünschte finale Eingabe am Ende einer von $C$ zu generierenden Fokustrajektorie ist ein Aktivationsmuster, das gerade einem zu findenden Ziel in einer durch die Pixelebene gegebenen visuellen Szene entspricht. Die Aufgabe für $C$ besteht also darin, in sequentieller Manier Fokusbewegungen zu erzeugen, und zwar so, daß unabhängig von der Startposition und der Ausgangslage des Fokus stets das Zielobjekt in der Szene gefunden wird. Die Schwierigkeit besteht wieder einmal darin, daß kein Lehrer Aussagen über günstige Aktivationen der `Augenmuskulatur' zu bestimmten Zeitpunkten zur Verfügung stellt. $C$'s einzige Fehlerinformation am Ende eines sequentiellen Erkennungsprozesses ist durch den Unterschied zwischen der gewünschten finalen Eingabe und der tatsächlichen finalen Eingabe gegeben. (Die Regelungstheorie nennt das ein `terminales Steuerproblem'). Die Aufgabe schließt ein komplexes raumzeitliches Lernproblem und ein Aufmerksamkeitslenkungsproblem mit ein.

Zum Lernen verwenden wir eine im Vergleich zu A2 weniger allgemeine, dafür aber vom Berechnungsaufwand her günstigere Implementierung des Systemidentifikationsprinzips. Ein statisches Modellnetzwerk $M$ lernt zunächst, ein Modell der sichtbaren externen Dynamik (erzeugt durch mögliche Fokusbewegungen) zu repräsentieren. Der `unfolding-in-time' Algorithmus für Gradientenabstieg in dynamischen rekurrenten Netzen (hier war er trotz seiner nicht vorhandenen zeitlichen Lokalität anwendbar, siehe auch Kapitel 2) dient zur Berechnung von Gradienten für $C$'s Ausgabeknoten (siehe Kapitel 3).



Unterabschnitte
next up previous contents
Nächste Seite: Detaillierte Beschreibung des Verfahrens Aufwärts: Dynamische adaptive selektive Aufmerksamkeit Vorherige Seite: Wie implementiert man adaptive   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite