next up previous contents
Nächste Seite: Schlußbemerkungen Aufwärts: Dynamische adaptive selektive Aufmerksamkeit Vorherige Seite: Belohnung temporaler Invarianzen   Inhalt

Neugier und Langeweile

Viele biologische Lernsysteme, insbesondere die komplexeren, zeigen ein Wechselspiel zwischen zielgerichtetem und explorativem Lernen. Zusätzlich zu gewissen permanenten Zielen (wie zum Beispiel die Vermeidung von Schmerz) werden auch weitere Ziele generiert, deren direkter Nutzen lediglich darin besteht, das Wissen über die externe Welt zu erhöhen. Bisher wurde dieses Wechselspiel in der konnektionistischen Literatur noch überhaupt nicht beachtet.

Die explorative Seite des Lernens steht mit etwas in Beziehung, das normalerweise `Neugier' genannt wird. Neugier ist nicht völlig ziellos, wie manchmal argumentiert wird. Neugier hilft zu verstehen, wie die Welt funktioniert, was wiederum dem Erreichen bestimmter Ziele dient. Neugier ist eine weitere Form der selektiven Aufmerksamkeit auf bestimmte Aspekte der Umgebung. Die Zielgerichtetheit von Neugier ist jedoch weniger offensichtlich als beispielsweise die Zielgerichtetheit von A2 oder von weniger allgemeinen Algorithmen anderer Autoren.

Neugier hat mit dem zu tun, was man bereits über die Umgebung weiß. Man wird neugierig, wenn man glaubt, daß es etwas gibt, was man nicht weiß. Das Ziel, zu verstehen, wie die Welt funktioniert, wird allerdings von anderen Zielen dominiert: Man weiß nicht genau, wie es sich anfühlt, wenn man die eigene Hand durch den Fleischwolf dreht. Man möchte es aber auch gar nicht wissen.

Neugier macht für ein lernendes System nur dann einen Sinn, wenn es auf das, was es lernt, dynamischen Einfluß nehmen kann. Weiterhin zielt Neugier auf die Minimierung einer dynamisch veränderlichen Größe, nämlich des `Unwissenheitsgrads' über irgend etwas. Daher ist Neugier nur zweckmäßig für `On-line'-Lernsituationen, bei denen in irgendeiner Form dynamische selektive Aufmerksamkeit ins Spiel gebracht werden muß.

Die Vorbedingung von Neugier ist also so etwas wie der `On-line'-Algorithmus A2, oder die Dreinetzwerkversion von A3, oder irgendein anderer modellbildender Algorithmus (z.B. auch Sutton's DYNA-Architektur [68]). Neugier und Langeweile sind Ausdruck selektiver Aufmerksamkeit auf bestimmte Eigenheiten der Umgebung. A2 stellt durch die Möglichkeit der externen Rückkopplung ein Potential für dynamische selektive Aufmerksamkeit zur Verfügung. Weiterhin baut A2 ein `Weltmodell', um es für zielgerichtetes Lernen auszunützen. Das direkte Ziel von Neugier ist, das Weltmodell zu verbessern. Das indirekte Ziel ist, das Erlernen neuer zielgerichteter Aktionssequenzen zu erleichtern. Der Beitrag dieses Abschnitts besteht darin, zu zeigen, wie A2 (oder ähnliche Algorithmen) um Neugier und ihr Gegenstück Langeweile erweitert werden können.

Die zentrale Idee ist einfach [63]: Wir führen einen zusätzlichen Reinforcement-Knoten für $C$ ein. Dieser Knoten, von nun an der Neugierknoten genannt, wird durch einen Prozeß aktiviert, welcher zu jedem Zeitpunkt die Distanz (z.B. die euklidische) zwischen Realität und Modellvorhersage mißt. Die Aktivation des Neugierknotens ist eine Funktion dieser Distanz. Ihr gewünschter vordefinierter Wert ist für alle Zeiten eine zur (weiter unten diskutierten) idealen Diskrepanz zwischen Glauben und Tatsachen korrespondierende relle Zahl. Damit wird Reinforcement unter Umständen gerade dann vergeben, wenn $M$ kein guter Prophet der Umgebungsentwicklung ist. Der im letzten Kapitel detailliert ausgeführte Lernprozeß für $C$ ermutigt demzufolge Aktionssequenzen, die zu einer Wiederholung der Diskrepanz-Situation führen.

Dabei verbessert sich $M$ notgedrungen aufgrund seines eigenen Lernprozesses. Sobald $M$ gelernt hat, in bestimmten Situationen die Umgebungsdynamik korrekt vorherzusagen, werden die zu solchen Situationen führenden Aktionen auch wieder entmutigt. Das liegt natürlich daran, daß die Aktivation des Neugierknotens auf Null zurück geht. Langeweile wird mit den entsprechenden Situationen assoziiert.

Abbildung: Die Zeichnung stimmt weitgehend mit Abbildung 5.1 überein. Die Erweiterung bezieht sich auf den `Neugierknoten' ($CUR$), welcher durch Diskrepanzen zwischen Erwartungen des Modellnetzes und der Realität aktiviert wird. $CUR$ soll seinerseits durch $PRED_{CUR}$ vorhergesagt werden. Das Modellnetzwerk modelliert also unter anderem seine eigene Ignoranz und zeigt damit eine rudimentäre Form introspektiven Verhaltens.

Wichtig ist dabei: Derselbe komplexe Mechanismus, der für `normales' zielgerichtetes Lernen verantwortlich ist, ist auch für adaptives Neugier- bzw. Langeweileverhalten verantwortlich. Es besteht kein Grund, ein separates System zur Verbesserung des Modellnetzes einzuführen. Solch ein Vorgehen steht in starkem Kontrast zu allen nicht-adaptiven Strategien zur Erforschung der Umgebung (wie zum Beispiel exhaustiver Suche, oder dem in DYNA verwendeten fixen Schema, welches sich einfach auf die vergangenen Zeitspannen seit dem letzten Auftreten jedes lokal repräsentierten Zustandes abstützt [68]).

$C$'s Lernprozeß zielt auf den wiederholten Eintritt in Situationen, in denen $M$'s Performanz nicht optimal ist. Man beachte, daß dieser Prozeß selbst auf $M$ angewiesen ist! $M$ muß lernen, unter anderem auch die zeitabhängigen Aktivationen des Neugierknotens vorherzusehen. Damit ist $M$ gezwungen, seine eigene Unwissenheit zu modellieren. $M$ muß lernen zu wissen, daß es gewisse Dinge nicht weiß.

Was ist die oben erwähnte ideale Diskrepanz? In der konventionellen AI gibt es ein geflügeltes Wort, welches besagt, daß ein System nichts lernen kann, was es nicht schon beinahe weiß. Will man sich dieser Ansicht anschließen, so sollte die Diskrepanzen in Reinforcement übersetzende Funktion konsequenterweise keine lineare Funktion sein. Kein Reinforcement sollte im Falle perfekter Voraussagen, hohes Reinforcement im Falle von `near-misses', und wiederum niedriges Reinforcement im Falle großer Diskrepanzen vergeben werden. Diese Idee korrespondiert zu einem Gedanken aus der sogenannten ästhetischen Informationstheorie [32], welche sich bemüht, den Begriff der `Schönheit' zu formalisieren. Ein Ansatz der ästhetischen Informationstheorie erklärt Schönheit durch einen Quotienten aus `Unbekanntem' und `Bekanntem', jeweils auf informationstheoretische Weise gemessen. Dieser Quotient sollte einen gewissen idealen Wert annehmen. Interessanterweise spielt in wenigstens einem dieser Ansätze der Kehrwert der Basis des natürlichen Logarithmus $\frac{1}{e}$ eine entscheidende Rolle als Kandidat für diesen Quotienten. Die genaue Natur einer guten Abbildung von Unterschieden zwischen Erwartung und Realität auf Reinforcement ist im Moment allerdings noch unklar.

Zukünftige Forschungen sollten sich unter anderem folgenden Fragen widmen: Gibt der um Neugierverhalten erweiterte Algorithmus Anlaß zu irgendwelchen dynamischen Instabilitäten? Wie sehen brauchbare Lernraten aus (es wird angenommen, daß $M$ wesentlich schneller als $C$ lernen sollte)? Wie groß sollte die relative Stärke von Neugierreinforcement im Vergleich zum rein zielgerichteten Reinforcement sein? Und was sind die genauen Eigenschaften einer `guten' Abbildung von Diskrepanzen zwischen Erwartung und Realität auf Reinforcement?

Wenn auch eine nicht-lineare derartige Abbildung aus obigen Erwägungen heraus wünschenswert erscheinen mag, so heißt das nicht, daß eine einfache lineare Abbildung sich nicht bereits als vorteilhaft gegenüber gar keiner Abbildung erweisen kann. Tatsächlich wurde in einigen wenigen Experimenten mit einer linearen Abbildung durch Josef Hochreiter bereits demonstriert, daß $M$'s Fehler durch die `On-line'-Generierung von Neugierzielen reduziert werden können.



Unterabschnitte
next up previous contents
Nächste Seite: Schlußbemerkungen Aufwärts: Dynamische adaptive selektive Aufmerksamkeit Vorherige Seite: Belohnung temporaler Invarianzen   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite