next up previous contents
Nächste Seite: Danksagung Aufwärts: Einführung Vorherige Seite: Starke Lokalität   Inhalt

Gliedernde Übersicht der Arbeit

Zwar konzentrieren sich nahezu alle bisherigen Arbeiten zu adaptiven NN auf überwachte Lernalgorithmen für statische Umgebung. NN bieten jedoch Möglichkeiten, auch das fundamentale raumzeitliche Lernproblem anzugreifen. In dieser Arbeit wird die bisher meist vernachlässigte zeitliche Komponente des allgemeinen Lernproblems betont.

Die allgemeine Problematik wird bei allen folgenden Kapiteln stets dieselbe bleiben. Die vorgestellten Algorithmen werden sich auf verschiedene Aspekte des allgemeinen Problems beziehen. Mit der Vorstellung jeder Algorithmenklasse ist eine experimentelle Demonstration ihrer Fähigkeiten (oder Grenzen) verbunden.

Zwar wird das fundamentale raumzeitliche Lernproblem am Ende nicht vollständig und in jeder Hinsicht befriedigend gelöst sein. Einige substantielle Beiträge dieser Arbeit bieten jedoch ermutigende Perspektiven für weiterführende Arbeiten. Die Dissertation ist wie folgt gegliedert:

Im 2. Kapitel wird Vorwissen zum überwachten Lernen zur Verfügung gestellt: Was ist bereits möglich? Der Schwerpunkt liegt dabei natürlich auf den wenigen existierenden Lernmethoden für algorithmische Dynamik. Es wird eingegangen auf den Gradientenabstieg in beliebigen azyklischen Netzwerken, in zyklischen Equilibriumsnetzen mit stationären Ein- und Ausgaben, und schließlich in dynamischen Netzen. Weiterhin werden die Methoden der zeitlichen Differenzen vorgestellt, welche als eine Generalisierung des Gradientenabstiegs angesehen werden können. Alle diese Ansätze sind in sinnvoller Weise in R-lernende System einbettbar, woraus dieses Kapitel auch seine Existenzberechtigung zieht.

Im 3. Kapitel wird Vorwissen zum R-Lernen zur Verfügung gestellt: Hierbei wird unterschieden zwischen auf Modellbildung basierenden R-Algorithmen (diese konstruieren adaptive Modelle bestimmter Aspekte der Umgebung) und solche ohne Umgebungsmodelle (Generate-and-Test-Verfahren). Die Generate-and-Test-Verfahren umfassen relevante nicht-neuronale Ansätze (Genetische Algorithmen, Dynamische Programmierung, etc. ) sowie `pures' neuronales R-Lernen in nicht-reaktiver Umgebung. Verschieden schwierige Unterfälle werden beleuchtet: Netzwerke ohne Rückkopplung und solche mit interner Rückkopplung. Die Motivation für den ersten eigenständigen Beitrag (die neuronale Eimerkette) wird gegeben.

Bei den modellbildenden Algorithmen werden zwei grundverschiedene Arten der Modellbildung getrennt: Einerseits kann man Modelle für Erwartungen an den jeweils nächsten Zeitschritt konstruieren, andererseits auch Modelle für kumulativ meßbare zeitlich gedehnte Ereignisse. In sehr unterschiedlicher Weise sind diese beiden Modellarten für die zielgerichtete Anpassung eines zentralen `Steuernetzwerkes' ausnützbar.

In das zweite und das dritte Kapitel eingearbeitet finden sich Hinweise auf bisher ungelöste Probleme: Bisher gab es keine stark lokalen Algorithmen, und vor allem gab es keine R-Algorithmen für interne und externe Rückkopplung.

Im 4. Kapitel wird eine Klasse stark lokaler Lernalgorithmen beschrieben. Im 5. und 6. Kapitel werden nacheinander unterschiedliche Klassen von Lernalgorithmen für R-lernende Systeme mit interner und externer Rückkopplung beschrieben.

Das erste Schema zeigt auf konstruktive Weise: Zielgerichtetheit und völlig lokales Lernen mit `versteckten Knoten' sind kompatibel.

Das zweite Schema zeigt, wie man das fundamentale Lernproblem mittels Systemidentifikation und Gradientenabstieg in zwei vollständig rekurrenten interagierenden Netzen angreifen kann.

Das dritte Schema zeigt: `Methoden der zeitlichen Differenzen' lassen sich auch auf Netze mit interner Rückkopplung anwenden. Unter Einbezug des zweiten Algorithmus lassen sich ferner in vorteilhafter Weise mehrdimensionale adaptive Kritiker konstruieren.

Die Anwendbarkeit der verschiedenen Methoden wird durch die Beschreibung mehrerer Experimente gezeigt. Dazu gehören u.a. klassische Experimente der nicht-linearen Art. Mit dem zweiten Verfahren wird erstmals ein Experiment zum Reinforcement-Lernen in Nicht-Markov-Umgebungen durchgeführt. Die Anwendung eines Verfahrens aus der dritten Algorithmenklasse zeigt anhand eines schwierigen Balancierproblems, daß das Konzept der mehrdimensionalen adaptiven Kritiker zu beträchtlichen Effizienzgewinnen (im Vergleich mit konkurrierenden Ansätzen) führen kann.

Im 7. Kapitel wird am Beispiel `attentive vision' gezeigt, daß das unüberwachte Erlernen selektiver räumlicher Aufmerksamkeit möglich ist.

Weitere Motivation ist bei diesem Beitrag, die kaum erfolgreichen und ineffizienten rein statischen Ansätze zur visuellen Mustererkennung durch einen effizienten, mehr sequentiellen Ansatz zu ersetzen, um damit die Vorteile der Beachtung der zeitlichen Dimension auch für scheinbar statische Probleme zu illustrieren. Dieser Ansatz ist inspiriert durch die Beobachtung, daß biologische Systeme den Mustererkennungsprozeß auf sequentielle Augenbewegungen abstützen. Ein aus zwei interagierenden Netzwerken bestehendes System soll lernen, sequentielle Fokustrajektorien zu erzeugen, so daß die finale Position eines durch `Augenmuskulatur' bewegten Fokus einem zu findenden Objekt in einer visuellen Szene entspricht. Die einzige Zielinformation besteht aus einer zu dem zu findenden Objekt korrespondierenden gewünschten finalen Eingabe. Trotz der Komplexität des zugehörigen `temporal credit-assignment problem' wird gezeigt, daß es möglich ist, korrekte Sequenzen von Fokusbewegungen unter Einschluß von Translationen und Rotationen lernen zu lassen.

Im Rahmen der Untersuchungen zur selektiven Aufmerksamkeit finden sich weiterhin einige Betrachtungen zum Thema Neugier und Langeweile. Die Motivation ist das für lernende Systeme oft notwendige Wechselspiel zwischen Exploration und Zielgerichtetheit. Die Wichtigkeit dieses Wechselspiels wird betont, und es wird ausgeführt, wie sich modellbildenden Algorithmen in natürlicher und sinnvoller Weise `Neugierverhalten' bzw. `Langeweileverhalten' einbauen läßt.

Das 8. Kapitel kritisiert alle vorangegangenen Kapitel. Trotz ihrer Allgemeinheit und ihrer experimentell unter Beweis gestellten Fähigkeit zur adaptiven Performanzverbesserung sind die dort vorgestellten Algorithmen nämlich in verschiedener Hinsicht immer noch unbefriedigend. Keiner dieser Algorithmen (und auch kein Algorithmus irgendeines anderen Autors) ermöglicht selektive raumzeitliche Aufmerksamkeit und kompositionelles Lernen.

Daher wird mit dem ersten adaptiven neuronalen Subzielgenerator auf konstruktive Weise gezeigt, daß das Erlernen des hierarchischen Aufstellens von Subzielen und das Erlernen von selektiver zeitlicher Aufmerksamkeit und von `Teile und herrsche' Strategien möglich ist. Ein Experiment zeigt, wie Subzielgenerierung gelernt werden kann.

Damit ergibt sich zum ersten Mal eine Möglichkeit, einen sogenannten `higher-level-process' (in diesem Fall zeitüberbrückende Planung) adaptiv zu machen. Der abschließende Ausblick weist auf perspektivenreiche Möglichkeiten für introspektive neuronale Lernalgorithmen hin. Einige Grundzüge für neuronales Meta-Lernen werden skizziert, im Rahmen der Dissertation allerdings nicht mehr implementiert.

Im Appendix schließlich finden sich verschiedene mathematische Details, die für die wesentlichen Aussagen dieser Arbeit nicht von zentraler Bedeutung sind.


next up previous contents
Nächste Seite: Danksagung Aufwärts: Einführung Vorherige Seite: Starke Lokalität   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite