Obwohl A2 normalerweise zum Zeitschritt nur eine Voraussage
für den Zeitschritt
leistet, ist die Kombination aus
und
auch für beliebig weit in die Zukunft reichende
Vorausschau nützlich.
Die Zukunft kann durch den leicht
modifizierten A2 `mental' simuliert werden.
Man braucht nur
's Eingabeknoten
von der Umgebung abzukoppeln und die Umwelteingaben
durch die jeweiligen Voraussagen des die Umwelt simulierenden
Modellnetzwerkes zu ersetzen. Läßt eine mentale Simulation
Schmerz erwarten, so kann A2 Gradientenabstieg im simulierten
Schmerz durchführen, ohne daß der Agent tatsächlich Schmerz
erleidet. Es kann eine sofortige Entscheidung über die Änderung
zukünftigen Verhaltens getroffen werden.
Man sieht, daß planende Vorausschau und rückwirkendes Lernen sehr viel miteinander gemeinsam haben. Die Ähnlichkeit zwischen diesen Prozessen ist so groß, daß sie im wesentlichen als verschiedene Aspekte ein und desselben Prozesses angesehen werden dürfen.
Beim `on-line' Lernen besteht das Problem mit der planenden
Vorausschau darin, daß eine große Spitzenberechnungskapazität
zur Extraktion von Information über zukünftige Ereignisse
vonnöten ist. Nehmen wir zum Beispiel an, daß der Agent zu
bestimmten Zeitpunkten 10 Zeitschritte in die Zukunft blickt, so
konsumiert er soviel Berechnungszeit, als wenn er auf
mentale Simulation verzichten würde. (
ist hierbei die Anzahl
sukzessiver Simulationswiederholungen, die für die Konvergenz
der Gradientenabstiegsprozedur notwendig sind.)
Die Methode der adaptiven Kritiker (siehe das nachfolgende Kapitel) ist da in einem gewissen Sinne sympathischer: Adaptive Kritiker repräsentieren kein perfektes Modell aller möglichen Umgebungsereignisse, sondern lediglich ein Modell gewisser relevanter Aspekte von Umgebungsereignissen. Während aufeinanderfolgender Trainingszyklen versuchen sie, Erwartungen über unter Umständen weit in der Zukunft liegende Ereignisse `zurück in die Vergangenheit zu schieben'.
Ein Problem der adaptiven Kritiker ist natürlich, daß sie in der Regel viele aufeinanderfolgende Trainingszyklen brauchen, bis Erwartungen über die Qualität zukünftiger Ereignisse dort sitzen, wo sie sitzen sollen. Außerdem müssen die relevanten Ereignisse vom Programmierer vordefiniert werden. (Im vorangegangen Kapitel bestand der modellierte Aspekt der Umgebung stets im kumulativen über die Zeit hinweg zu erwartenden Reinforcement. Sutton und Pinette [69] haben in verwandter Weise modelliert, wie oft ein Markov-Prozeß in jeden seiner möglichen Zustände eintreten wird.) Das nächste Kapitel versucht unter anderem, Vorteile der adaptiven Kritiker mit Vorteilen des Systemidentifikationansatzes zu verschmelzen.
Im allgemeinen Fall erhebt sich das Problem, welche zukünftigen Ereignisse fürs Planen relevant sind und welche nicht. Damit sind wir auch bei konnektionistischen Algorithmen beim altbekannten frame-problem aus der konventionellen AI.