next up previous contents
Nächste Seite: Sichtweise: Ziele nach Programmen Aufwärts: Abschließende Bemerkungen Vorherige Seite: Abschließende Bemerkungen   Inhalt

Umgebungsmodelle zum Planen von Handlungssequenzen

`Planen' und `planende Vorausschau' galt bis vor kurzem als etwas, das im Rahmen des maschinellen Lernens höchstens `symbolorientierten' AI-Programmen vorbehalten war. In diesem Abschnitt werden wir jedoch kurz ausführen, wie mindestens ein `konnektionistischer' Lernalgorithmus (nämlich A2) zum Planen von Handlungssequenzen verwendet werden kann. (Ein ganz unterschiedlicher, aber weniger allgemeiner Ansatz zur planenden Vorausschau findet sich in [68]).

Obwohl A2 normalerweise zum Zeitschritt $t$ nur eine Voraussage für den Zeitschritt $t+1$ leistet, ist die Kombination aus $C$ und $M$ auch für beliebig weit in die Zukunft reichende Vorausschau nützlich. Die Zukunft kann durch den leicht modifizierten A2 `mental' simuliert werden. Man braucht nur $C$'s Eingabeknoten von der Umgebung abzukoppeln und die Umwelteingaben durch die jeweiligen Voraussagen des die Umwelt simulierenden Modellnetzwerkes zu ersetzen. Läßt eine mentale Simulation Schmerz erwarten, so kann A2 Gradientenabstieg im simulierten Schmerz durchführen, ohne daß der Agent tatsächlich Schmerz erleidet. Es kann eine sofortige Entscheidung über die Änderung zukünftigen Verhaltens getroffen werden.

Man sieht, daß planende Vorausschau und rückwirkendes Lernen sehr viel miteinander gemeinsam haben. Die Ähnlichkeit zwischen diesen Prozessen ist so groß, daß sie im wesentlichen als verschiedene Aspekte ein und desselben Prozesses angesehen werden dürfen.

Beim `on-line' Lernen besteht das Problem mit der planenden Vorausschau darin, daß eine große Spitzenberechnungskapazität zur Extraktion von Information über zukünftige Ereignisse vonnöten ist. Nehmen wir zum Beispiel an, daß der Agent zu bestimmten Zeitpunkten 10 Zeitschritte in die Zukunft blickt, so konsumiert er $10 * m$ soviel Berechnungszeit, als wenn er auf mentale Simulation verzichten würde. ($m$ ist hierbei die Anzahl sukzessiver Simulationswiederholungen, die für die Konvergenz der Gradientenabstiegsprozedur notwendig sind.)

Die Methode der adaptiven Kritiker (siehe das nachfolgende Kapitel) ist da in einem gewissen Sinne sympathischer: Adaptive Kritiker repräsentieren kein perfektes Modell aller möglichen Umgebungsereignisse, sondern lediglich ein Modell gewisser relevanter Aspekte von Umgebungsereignissen. Während aufeinanderfolgender Trainingszyklen versuchen sie, Erwartungen über unter Umständen weit in der Zukunft liegende Ereignisse `zurück in die Vergangenheit zu schieben'.

Ein Problem der adaptiven Kritiker ist natürlich, daß sie in der Regel viele aufeinanderfolgende Trainingszyklen brauchen, bis Erwartungen über die Qualität zukünftiger Ereignisse dort sitzen, wo sie sitzen sollen. Außerdem müssen die relevanten Ereignisse vom Programmierer vordefiniert werden. (Im vorangegangen Kapitel bestand der modellierte Aspekt der Umgebung stets im kumulativen über die Zeit hinweg zu erwartenden Reinforcement. Sutton und Pinette [69] haben in verwandter Weise modelliert, wie oft ein Markov-Prozeß in jeden seiner möglichen Zustände eintreten wird.) Das nächste Kapitel versucht unter anderem, Vorteile der adaptiven Kritiker mit Vorteilen des Systemidentifikationansatzes zu verschmelzen.

Im allgemeinen Fall erhebt sich das Problem, welche zukünftigen Ereignisse fürs Planen relevant sind und welche nicht. Damit sind wir auch bei konnektionistischen Algorithmen beim altbekannten frame-problem aus der konventionellen AI.


next up previous contents
Nächste Seite: Sichtweise: Ziele nach Programmen Aufwärts: Abschließende Bemerkungen Vorherige Seite: Abschließende Bemerkungen   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite