next up previous contents
Nächste Seite: ARCHITEKTUR Aufwärts: DISTANZIERTE PERFORMANZMASSE Vorherige Seite: EXPERIMENTE   Inhalt

ADAPTIVE SUBZIELGENERIERUNG

Alle bisher behandelten Algorithmen betreiben stets sturen Gradientenabstieg im Performanzmaß, wobei jede Aktion zu jedem Zeitpunkt in gleichberechtigter Weise zur Berechnung des Gradienten herangezogen wird. Dieser Ansatz ist zwar allgemein, verzichtet jedoch auf möglichen Effizienzgewinn im folgenden Sinne: In vielen typischen Umgebungen lassen sich Lösungen für neu auftretende Probleme in hierarchischer Weise aus Lösungen für weniger komplexe, schon bekannte Probleme zusammensetzen. In solchen Fällen wäre es in der Tat Zeit- und Ressourcenverschwendung, jedes Detail einer bisher unbekannten umfangreichen Aktionssequenz aufs Neue zu lernen, wenn es statt dessen irgendwie möglich wäre, auf höherem Niveau denselben Effekt durch das geeignete Zusammensetzen bereits existierender `Unterprogramme' zu erlernen ($\rightarrow$ teile und herrsche!).

Im folgenden untersuchen wir eine hierarchische Architektur, die auf derartige Situationen zugeschnitten ist. Statt Aktionen zu beliebigen Zeitpunkten zu betrachten, konzentriert sich der problemlösende Teil der Architektur auf das Finden geeigneter Schnittstellen (den Subzielen) zwischen u.U. langen Aktionsuntersequenzen (den Unterprogrammen).

Wie im letzten Abschnitt beruht die Architektur auf einem differenzierbaren Modell der Effekte bestimmter Netzausgaben auf ein `distanziertes Performanzmaß'. Ein- und Ausgaben dieses Modells werden jedoch mit einer im Vergleich zum letzten Abschnitt sehr unterschiedlichen Interpretation belegt. Sie lassen sich in von Abschnitt 4.1 abweichender Weise zur Gradientenbestimmung heranziehen.

Wie immer leiten wir nach der Definition von Architektur und Zielfunktion mittels Kettenregel den Lernalgorithmus (diesmal einen für adaptive Subzielgenerierung) ab. Experimente zur adaptiven Hindernisvermeidung illustrieren schließlich die Arbeitsweise des Verfahrens.



Unterabschnitte
next up previous contents
Nächste Seite: ARCHITEKTUR Aufwärts: DISTANZIERTE PERFORMANZMASSE Vorherige Seite: EXPERIMENTE   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite