next up previous contents
Nächste Seite: Kompositionelles hierarchisches Lernen Aufwärts: Neugier und Langeweile Vorherige Seite: Neugier und Langeweile   Inhalt

Schlußbemerkungen

Wie schon erwähnt, ist die Idee zur Implementierung von Neugier und Langeweile nicht auf A2 beschränkt. Jeder modellbildende Algorithmus kann von demselben Prinzip Gebrauch machen. Eine Hauptmotivation hierfür ist: Statt einen separaten Ad-Hoc-Mechanismus zur Verbesserung der Umweltmodellierung einzusetzen, wollen wir uns die wachsenden Fähigkeiten des zielgerichtet lernenden Systems selbst zunutze machen.

Der interessante Seiteneffekt für Algorithmen wie A2 ist der folgende: Da der Lernalgorithmus sich auf das Modellnetz abstützt, muß dieses eine Vorhersage über seine eigenen gegenwärtigen Vorhersagefähigkeiten treffen. Die Aktivationen des Modellnetzes werden (teilweise) interpretiert als eine Aussage über den Zustand seiner Gewichte. Man beachte, daß dies bereits eine rudimentäre Form von introspektivem Verhalten ist. Erweiterungen solcher introspektiver neuronaler Algorithmen könnten den Schlüssel zu Lernsystemen darstellen, die bis zu einem gewissen Grade lernen, wie man lernt. Hier könnte möglicherweise ein entscheidender Schritt in der Entwicklung von NN-Algorithmen getan werden.



Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite