next up previous contents
Nächste Seite: Mathematische Details Aufwärts: Kompositionelles hierarchisches Lernen Vorherige Seite: Das `Teile'-Problem und adaptive   Inhalt

Schlußwort und Ausblick

Die vorliegende Arbeit lieferte Beiträge für die Lösung gewisser Aspekte des `fundamentalen raumzeitlichen Lernproblems' in zeitlich variierenden reaktiven Umgebungen.

Nicht angesprochen wurde das Problem des `Meta-Lernens'. `Meta-Lernen' sollte darauf abzielen, die Art und Weise, wie gelernt wird, selbst weitgehend adaptiv zu machen. Langfristig will man nicht auf einem bestimmten vorgegebenen Lernverfahren (Gradientenabstieg mit Systemidentifikation, oder adaptive Kritiker mit TD-Methoden etc.) beharren, sondern das Lernverfahren selbst abhängig vom Umgebungskontext sinnvoller Modifikation zugänglich machen.

In diesem Zusammenhang sei ein sehr interessanter Aspekt des Konzepts der `Modellnetzwerke' erwähnt. Ein Modellnetzwerk kann nicht nur (wie bei A2) dazu benützt werden, die Eingaben eines Steuernetzwerkes vorherzusagen. Es kann auch zur Modellierung der zu erwartenden Ausgaben herangezogen werden. Ein perfektes Modellnetzwerk dieser Sorte modelliert auf indirekte Weise unter anderem auch die internen Gewichtsänderungen des Steuernetzwerkes. Es modelliert die Evolution des Steuernetzwerkes, und damit auch die Effekte der Gradientenabstiegsprozedur selbst. Der Aktivationsfluß in solch einem Modellnetzwerk beschreibt also die Gewichtsänderungen im Steuernetz.

Das hat viel mit Meta-Lernen zu tun: Beim Meta-Lernen geht es unter anderem darum, zu lernen, Aussagen über die Effekte von Lernprozeduren selbst zu machen. Besitzt ein lernendes System ein gutes Modell der Effekte seiner eigenen Lernprozeduren, so liegt der Gedanke an den nächsten Schritt nahe: Solch ein System sollte sein Modell auch dazu verwenden, zu lernen, in sinnvoller Weise Einfluß zu nehmen auf die Art und Weise, in der es unter bestimmten Umständen überhaupt erst gewisse Lernmechanismen in Gang setzt. Es wurden bereits Arbeiten an einer Architektur begonnen, die es dem lernenden System selbst erlauben soll, mit Hilfe interner Aktionen die Art und Weise zu manipulieren, in der es Assoziationen kreiert, Aufmerksamkeit lenkt und Subzielgeneration triggert. Introspektive Module sollen dabei lernen, Vorhersagen über die Effekte der Lernprozeduren selbst zu machen. Diese Vorhersagen sollen mit Hilfe der oben beschriebenen Kausalitätsdetektoren zur adaptiven Adjustierung der internen Aktionen dienen.

Obwohl neuronale Systeme mit introspektiven Fähigkeiten schon für sich selbst genommen interessant sind und langfristig vielleicht geradezu notwendig sein werden [48], sei ihre Untersuchung auf weiterführende Arbeiten verschoben.


next up previous contents
Nächste Seite: Mathematische Details Aufwärts: Kompositionelles hierarchisches Lernen Vorherige Seite: Das `Teile'-Problem und adaptive   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite