Viele biologische Lernsysteme, insbesondere die komplexeren, zeigen ein Wechselspiel zwischen zielgerichtetem und explorativem Lernen. Zusätzlich zu gewissen permanenten Zielen (wie zum Beispiel die Vermeidung von Schmerz) werden auch weitere Ziele generiert, deren direkter Nutzen lediglich darin besteht, das Wissen über die externe Welt zu erhöhen. Bisher wurde dieses Wechselspiel in der konnektionistischen Literatur noch überhaupt nicht beachtet.
Die explorative Seite des Lernens steht mit etwas in Beziehung, das normalerweise `Neugier' genannt wird. Neugier ist nicht völlig ziellos, wie manchmal argumentiert wird. Neugier hilft zu verstehen, wie die Welt funktioniert, was wiederum dem Erreichen bestimmter Ziele dient. Neugier ist eine weitere Form der selektiven Aufmerksamkeit auf bestimmte Aspekte der Umgebung. Die Zielgerichtetheit von Neugier ist jedoch weniger offensichtlich als beispielsweise die Zielgerichtetheit von A2 oder von weniger allgemeinen Algorithmen anderer Autoren.
Neugier hat mit dem zu tun, was man bereits über die Umgebung weiß. Man wird neugierig, wenn man glaubt, daß es etwas gibt, was man nicht weiß. Das Ziel, zu verstehen, wie die Welt funktioniert, wird allerdings von anderen Zielen dominiert: Man weiß nicht genau, wie es sich anfühlt, wenn man die eigene Hand durch den Fleischwolf dreht. Man möchte es aber auch gar nicht wissen.
Neugier macht für ein lernendes System nur dann einen Sinn, wenn es auf das, was es lernt, dynamischen Einfluß nehmen kann. Weiterhin zielt Neugier auf die Minimierung einer dynamisch veränderlichen Größe, nämlich des `Unwissenheitsgrads' über irgend etwas. Daher ist Neugier nur zweckmäßig für `On-line'-Lernsituationen, bei denen in irgendeiner Form dynamische selektive Aufmerksamkeit ins Spiel gebracht werden muß.
Die Vorbedingung von Neugier ist also so etwas wie der `On-line'-Algorithmus A2, oder die Dreinetzwerkversion von A3, oder irgendein anderer modellbildender Algorithmus (z.B. auch Sutton's DYNA-Architektur [68]). Neugier und Langeweile sind Ausdruck selektiver Aufmerksamkeit auf bestimmte Eigenheiten der Umgebung. A2 stellt durch die Möglichkeit der externen Rückkopplung ein Potential für dynamische selektive Aufmerksamkeit zur Verfügung. Weiterhin baut A2 ein `Weltmodell', um es für zielgerichtetes Lernen auszunützen. Das direkte Ziel von Neugier ist, das Weltmodell zu verbessern. Das indirekte Ziel ist, das Erlernen neuer zielgerichteter Aktionssequenzen zu erleichtern. Der Beitrag dieses Abschnitts besteht darin, zu zeigen, wie A2 (oder ähnliche Algorithmen) um Neugier und ihr Gegenstück Langeweile erweitert werden können.
Die zentrale Idee ist einfach [63]: Wir
führen einen zusätzlichen
Reinforcement-Knoten für ein. Dieser Knoten, von nun an
der Neugierknoten genannt, wird durch einen Prozeß aktiviert,
welcher zu jedem Zeitpunkt die Distanz (z.B. die euklidische) zwischen
Realität und Modellvorhersage mißt. Die Aktivation des
Neugierknotens ist eine Funktion dieser Distanz. Ihr gewünschter
vordefinierter Wert ist für alle Zeiten eine zur
(weiter unten diskutierten)
idealen Diskrepanz zwischen Glauben und Tatsachen
korrespondierende relle Zahl. Damit wird Reinforcement unter
Umständen gerade dann vergeben, wenn
kein guter
Prophet der Umgebungsentwicklung ist. Der im letzten
Kapitel detailliert ausgeführte Lernprozeß für
ermutigt
demzufolge Aktionssequenzen, die zu einer Wiederholung der
Diskrepanz-Situation führen.
Dabei verbessert sich notgedrungen aufgrund seines eigenen
Lernprozesses. Sobald
gelernt hat, in bestimmten
Situationen die Umgebungsdynamik korrekt vorherzusagen,
werden die zu solchen Situationen führenden
Aktionen auch wieder entmutigt.
Das liegt natürlich daran, daß die Aktivation des
Neugierknotens auf Null zurück geht. Langeweile
wird mit den entsprechenden Situationen assoziiert.
Wichtig ist dabei: Derselbe komplexe Mechanismus, der für `normales' zielgerichtetes Lernen verantwortlich ist, ist auch für adaptives Neugier- bzw. Langeweileverhalten verantwortlich. Es besteht kein Grund, ein separates System zur Verbesserung des Modellnetzes einzuführen. Solch ein Vorgehen steht in starkem Kontrast zu allen nicht-adaptiven Strategien zur Erforschung der Umgebung (wie zum Beispiel exhaustiver Suche, oder dem in DYNA verwendeten fixen Schema, welches sich einfach auf die vergangenen Zeitspannen seit dem letzten Auftreten jedes lokal repräsentierten Zustandes abstützt [68]).
's Lernprozeß zielt auf den wiederholten Eintritt in Situationen,
in denen
's Performanz nicht optimal ist. Man beachte, daß
dieser Prozeß selbst auf
angewiesen ist!
muß
lernen, unter anderem auch die zeitabhängigen Aktivationen
des Neugierknotens vorherzusehen. Damit ist
gezwungen,
seine eigene Unwissenheit zu modellieren.
muß lernen
zu wissen, daß es gewisse Dinge nicht weiß.
Was ist die oben erwähnte ideale Diskrepanz? In
der konventionellen AI gibt es ein geflügeltes Wort,
welches besagt, daß ein System nichts lernen kann,
was es nicht schon beinahe weiß. Will man sich dieser
Ansicht anschließen, so sollte die Diskrepanzen in
Reinforcement übersetzende Funktion konsequenterweise
keine lineare Funktion sein. Kein Reinforcement sollte
im Falle perfekter Voraussagen, hohes Reinforcement
im Falle von `near-misses', und wiederum niedriges
Reinforcement im Falle großer Diskrepanzen vergeben werden.
Diese Idee korrespondiert zu einem Gedanken aus der
sogenannten ästhetischen Informationstheorie
[32], welche
sich bemüht, den Begriff der `Schönheit' zu formalisieren.
Ein Ansatz der
ästhetischen Informationstheorie
erklärt Schönheit durch einen Quotienten aus `Unbekanntem'
und `Bekanntem', jeweils auf informationstheoretische
Weise gemessen. Dieser Quotient sollte einen gewissen
idealen Wert annehmen. Interessanterweise spielt in
wenigstens einem dieser Ansätze der Kehrwert der Basis
des natürlichen Logarithmus eine entscheidende
Rolle als Kandidat für diesen Quotienten. Die genaue Natur
einer guten Abbildung von Unterschieden zwischen
Erwartung und Realität auf Reinforcement ist
im Moment allerdings noch unklar.
Zukünftige Forschungen sollten sich unter anderem folgenden Fragen
widmen: Gibt der um Neugierverhalten erweiterte Algorithmus
Anlaß zu irgendwelchen dynamischen Instabilitäten? Wie sehen
brauchbare Lernraten aus (es wird angenommen, daß wesentlich
schneller als
lernen sollte)? Wie groß sollte die
relative Stärke von Neugierreinforcement im Vergleich zum rein
zielgerichteten Reinforcement sein? Und was sind die genauen
Eigenschaften einer `guten' Abbildung von Diskrepanzen
zwischen Erwartung und Realität auf
Reinforcement?
Wenn auch eine
nicht-lineare derartige Abbildung aus obigen Erwägungen heraus
wünschenswert erscheinen mag, so heißt das nicht, daß eine
einfache
lineare Abbildung sich nicht bereits als vorteilhaft gegenüber
gar keiner Abbildung erweisen kann.
Tatsächlich wurde in einigen wenigen Experimenten mit einer linearen
Abbildung durch Josef Hochreiter bereits demonstriert, daß 's Fehler durch
die `On-line'-Generierung von Neugierzielen reduziert
werden können.