Alle bisher behandelten Algorithmen
betreiben stets sturen Gradientenabstieg im Performanzmaß,
wobei jede Aktion zu jedem Zeitpunkt in gleichberechtigter
Weise zur Berechnung des Gradienten herangezogen wird.
Dieser Ansatz ist zwar allgemein, verzichtet jedoch auf
möglichen Effizienzgewinn im folgenden Sinne: In vielen typischen
Umgebungen lassen sich Lösungen für neu auftretende Probleme
in hierarchischer Weise aus Lösungen für weniger
komplexe, schon bekannte Probleme zusammensetzen. In solchen Fällen
wäre es in der Tat Zeit- und Ressourcenverschwendung,
jedes Detail einer bisher unbekannten umfangreichen Aktionssequenz
aufs Neue zu lernen, wenn es statt dessen irgendwie möglich wäre,
auf höherem Niveau denselben Effekt durch das geeignete Zusammensetzen
bereits existierender `Unterprogramme' zu erlernen ( teile und herrsche!).
Im folgenden untersuchen wir eine hierarchische Architektur, die auf derartige Situationen zugeschnitten ist. Statt Aktionen zu beliebigen Zeitpunkten zu betrachten, konzentriert sich der problemlösende Teil der Architektur auf das Finden geeigneter Schnittstellen (den Subzielen) zwischen u.U. langen Aktionsuntersequenzen (den Unterprogrammen).
Wie im letzten Abschnitt beruht die Architektur auf einem differenzierbaren Modell der Effekte bestimmter Netzausgaben auf ein `distanziertes Performanzmaß'. Ein- und Ausgaben dieses Modells werden jedoch mit einer im Vergleich zum letzten Abschnitt sehr unterschiedlichen Interpretation belegt. Sie lassen sich in von Abschnitt 4.1 abweichender Weise zur Gradientenbestimmung heranziehen.
Wie immer leiten wir nach der Definition von Architektur und Zielfunktion mittels Kettenregel den Lernalgorithmus (diesmal einen für adaptive Subzielgenerierung) ab. Experimente zur adaptiven Hindernisvermeidung illustrieren schließlich die Arbeitsweise des Verfahrens.