next up previous contents
Nächste Seite: Kompositionelles Lernen: Das `Teile Aufwärts: Kompositionelles hierarchisches Lernen Vorherige Seite: Kompositionelles hierarchisches Lernen   Inhalt

Wozu selektive zeitliche Aufmerksamkeit ?

Im Rahmen der vorliegenden Arbeit wurde bereits klar, daß es zwei sehr unterschiedliche Klassen von Algorithmen für das Erlernen von raumzeitlichen Steuervorgängen gibt: Die Ansätze der adaptiven Kritiker, und die Systemidentifikationsansätze.

All diesen Algorithmen ist jedoch mindestens eine Eigenschaft gemein: Sie zeigen signifikante Schwächen, wenn der Lernprozeß große zeitliche Lücken zwischen vergangenen Aktionen und späteren Konsequenzen überbrücken muß. Man betrachte das folgende (utopische) Beispiel (welches lediglich der Illustration einiger Probleme dienen soll).

Ein von dynamischen neuronalen Netzen gesteuerter Roboter kommt zu Hause an und sieht sich außerstande, die Tür zu öffnen, weil er seinen Haustürschlüssel nicht dabei hat. Er hat den Schlüssel auf einem Pult der Technischen Universität vergessen. Eine weise (nun vom Lernprozeß zu entdeckende) Aktion hätte darin bestanden, den Schlüssel vor dem Verlassen der Universität einzustecken.

Was würde passieren, wenn der Roboter eine Gradientenabstiegsmethode (z.B. nach dem Systemidentifikationsansatz) für die Schuldzuweisung an vergangene Aktionen verwendete?

Alle vergangenen Aktivationen aller Netzknoten würden zur Berechnung eines Fehlergradienten für den Gewichtsvektor des Roboters beitragen. (Der Fehler könnte durch negatives Reinforcement oder durch die Differenz einer gewünschten finalen Eingabe - sagen wir, dem Anblick einer offenen Tür - und der tatsächlichen finalen Eingabe definiert werden.) Spuren jeder vergangenen Aktion des Roboters, jeden Schrittes auf seinem Heimweg würden für den Lernprozeß in Betracht gezogen werden. Nahezu alle dieser vergangenen Schritte sind jedoch völlig irrelevant im Kontext der gegenwärtigen Aufgabe (welche darin besteht, das Netzwerk so zu verändern, daß so etwas wie die gegenwärtige unliebsame Erfahrung sich in Zukunft nicht wiederholt). Im allgemeinen Fall werden nur einige wenige vergangene Ereignisse potentiell wesentlich für den augenblicklichen Mißerfolg des Roboters gewesen sein, einschließlich der `Entscheidung', die Universität ohne den Schlüssel zu verlassen.

Was geschähe, wenn der Roboter einen adaptiven Kritiker für seinen Lernprozeß beschäftigen würde?

Zunächst würden nur die kürzlichst durchlaufenen internen Zustände des Roboters mit einer modifizierten Erwartung des unerwünschten Ereignisses versehen werden. Der Roboter müßte denselben Fehler immer wieder aufs Neue wiederholen, um relevante Entscheidungen zu Beginn jedes vom Mißerfolg gekrönten Versuches mit in den Lernprozeß einzubeziehen.

Für den Fall, daß der Roboter dank früherem Training schon eine Menge nützlicher Handlungssequenzen beherrscht (wie zum Beispiel das Greifen nach Schlüsseln, oder das Nach-Hause-Marschieren), hinterlassen beide Ansätze den Eindruck überwältigender Verkorkstheit. Bei beiden Ansätzen schreitet das `credit assignment' von `Zeitschritt zu Zeitschritt' voran, anstatt auf einem höheren, abstrakteren Niveau `Sprünge durch die Zeit' zuzulassen. Beide Ansätze tendieren dazu, Unterprogramme statt Aufrufbedingungen für Unterprogramme zu modifizieren. Keiner der Ansätze besitzt auch nur das Konzept eines `Unterprogramms'. Reine Gradientenabstiegsmethoden ziehen ohne Rücksicht auf vergangene Erfahrungen immer alle vergangenen Ereignisse für den Lernprozeß in Betracht. Adaptive Kritiker ziehen ohne Rücksicht auf vergangene Erfahrungen immer nur die kürzlichst vergangenen Ereignisse in Betracht. Beide tendieren dazu, in solchen Situationen wie oben zunächst die falschen vergangenen Ereignisse zu betrachten.

Es gibt also ein offensichtliches Bedürfnis nach Lernverfahren, die nur solche vergangenen Ereignisse berücksichtigen, welche wahrscheinlich relevant für den Lernprozeß sind. Dies erfordert dynamische zeitliche Aufmerksamkeit. Adaptive dynamische zeitliche Aufmerksamkeit zielt darauf, zu lernen, im Kontext bestimmter Zielvorgaben relevante vergangene Ereignisse zu isolieren.


next up previous contents
Nächste Seite: Kompositionelles Lernen: Das `Teile Aufwärts: Kompositionelles hierarchisches Lernen Vorherige Seite: Kompositionelles hierarchisches Lernen   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite