next up previous contents
Nächste Seite: Aufgabenstellungen und Terminologie Aufwärts: Einführung Vorherige Seite: Einführung   Inhalt

Allgemeine Einführung

Man stelle sich einen autonomen Roboter vor, dessen Bewegungen durch ein adaptives Steuersystem kontrolliert werden. Durch seine Bewegungen ändert der Roboter den Zustand der Umgebung, wodurch sich im allgemeinen auch seine sensorische Wahrnehmung der Umgebung ändert. Im Badezimmer befindet sich eine Steckdose. Gelingt es dem Roboter, seinen Stecker in die Steckdose zu stecken, so wird seine Batterie aufgefrischt. In der Abstellkammer befindet sich ein Ölkännchen, mit dessen Hilfe der Roboter seine Gelenke schmieren kann. Der Roboter kann nun verschiedenartige `unangenehme' Erfahrungen machen, indem er zum Beispiel mit einer seiner Extremitäten zu heftig gegen ein Hindernis stößt. Weitere unangenehme Erfahrungen bestehen darin, daß die Batterieladung unter einen bestimmten Schwellwert sinkt, oder daß die Gelenke anfangen zu rosten. Im allgemeinen können beliebige zeitliche Verzögerungen zwischen bestimmten Aktionssequenzen und ihren späteren Konsequenzen auftreten. Die Aufgabe des Roboters ist es, unangenehmen Situationen aus dem Weg zu gehen.

Der Roboter ist autonom insofern, als kein intelligenter Lehrer vonnöten ist, um ihn mit irgendwelchen weiteren Zielen oder Subzielen auszustatten. Das Problem des Roboters besteht darin, herauszufinden und zu lernen, wie er sich verhalten soll, um unliebsame Erlebnisse zu vermeiden. Gerät der Roboter in unerwünschte Situationen, so wird er mit Minskys fundamentalem Lernproblem (`basic credit-assignment problem' [28]) konfrontiert: Was hätte er wann anders machen müssen, um Mißerfolge zu vermeiden? Da die Umgebung in der Regel nicht pausiert, um dem Roboter irgendwelche beliebig aufwendigen Adaptionsprozesse zu gestatten, verschärft sich sein Lernproblem noch: Er muß es in Echtzeit lösen.

Der Roboter in dem oben angegebenen (zugegebenermaßen reichlich utopischen) Beispiel steht für einen beliebigen zu steuernden Prozeß, etwa für einen Bestückungsautomaten in einer Fabrik, für eine Maschinerie, die eine chemische Reaktion im Gleichgewicht halten soll, oder für einen Theorembeweiser. Genauso kann man ihn als ein Modell eines adaptiven biologischen Organismus ansehen. Wichtig ist in allen Fällen, daß in der Regel kein Lehrer existiert, der schon im voraus weiß, wie die jeweiligen in Frage kommenden Prozesse zu steuern sind. Das adaptive System ist gezwungen, selbst Techniken für die Lösung seiner Aufgaben zu entwickeln. Das dabei auftretende Problem der `Adaption in Echtzeit' ist damit von einer sehr allgemeinen Natur, in komplexen Umgebungen kann es sich in beliebig komplizierter Form stellen. Im folgenden wird es des öfteren auch als die allgemeine Problemstellung referenziert werden. Diese Arbeit versucht, der allgemeinen Problemstellung durch einige neuartige Echtzeit-Lernalgorithmen für dynamische neuronale Netze zu begegnen.

Was haben neuronale Netzwerke (NN) überhaupt mit dem fundamentalen Lernproblem zu tun? Gegenwärtig beschränken sich noch nahezu alle Arbeiten zum Thema `adaptive neuronale Netzwerke' auf das Erlernen statischer Musterassoziation. Die dabei auftauchenden, teilweise noch ungelösten Probleme sind im Vergleich zu der allgemeinen Aufgabe unseres autonomen Roboters scheinbar geradezu trivial. Es fragt sich: Ist die Zeit überhaupt schon reif für die Untersuchung des generellen Falls? Gibt es nicht genügend offene Fragen schon für viel einfachere Probleme? (Ein paar Beispiele für gern gestellte Fragen: Wie generalisiert ein gegebenes statisches Netzwerk von einer Auswahl vorgegebener Trainingsbeispiele auf ungesehene Muster aus derselben Verteilung? Welche Aussagen kann man über die Konvergenz des statischen Netzwerkes X machen?)

Die Antwort lautet: Das sind oft teilweise irrelevante Fragen, zumindest tritt ihre Bedeutung in den Hintergrund, wenn man aufhört, die bisher im Rahmen der NN-Forschung kaum beachtete zeitliche Dimension weiterhin zu ignorieren. (So verliert zum Beispiel die oben erwähnte Frage zur Generalisierung ihren Sinn, wenn das Netzwerk einen dynamischen Einfluß darauf nehmen kann, was es lernt.)

Diese Arbeit konzentriert sich auf den zeitlichen Aspekt neuronalen Lernens, ohne dabei den strukturellen Aspekt zu vernachlässigen. Es wird gezeigt werden, daß man die Untersuchungen zur allgemeinen Problemstellung schon heute sinnvoll anwenden kann: Untersuchungen für den generellen Fall erlauben Anwendungen, die manche mit dem statischen Fall assoziierten Probleme erst gar nicht aufkommen lassen (ein Beispiel liefert Kapitel 7 im Kontext `attentive vision'). Es wird gezeigt werden, daß die explizite Beachtung der essentiellen Dimension Zeit manche Probleme vereinfachen kann.

Wir werden in dieser Einführung nicht die vollständige in dieser Arbeit gebräuchliche Terminologie vorstellen. Vielmehr wird in jedem Kapitel die lokal benötigte Notation dort eingeführt werden, wo sie gebraucht wird. Einige wesentliche Begriffe und Aufgabenstellungen werden allerdings immer wieder auftauchen, sie seien deshalb im folgenden in einer einführenden gegliederten Übersicht zusammengestellt.


next up previous contents
Nächste Seite: Aufgabenstellungen und Terminologie Aufwärts: Einführung Vorherige Seite: Einführung   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite