next up previous contents
Nächste Seite: UNÜBERWACHTES LERNEN: ZIELFUNKTIONEN Aufwärts: EXPERIMENTE ZUR HINDERNISVERMEIDUNG Vorherige Seite: EXPERIMENTE MIT ADAPTIVEM   Inhalt

SCHRANKEN DER SUBZIELGENERATOREN

Der oben beschriebene Ansatz vertraut auf differenzierbare (möglicherweise adaptive) Modelle der mit bereits bekannten Aktionssequenzen assoziierten Kosten. In diesen Modellen (den Evaluationsmodulen) residiert das Domänenwissen - letzteres wird durch den Subzielgenerierungsprozeß extrahiert. Es lassen sich jedoch Domänen finden, für die differenzierbare Evaluationsmodule entweder ungeeignet oder aber nur mit Schwierigkeiten oder mit vergleichsweise großem Aufwand (wie im letzten Abschnitt) zu erstellen sind. Für solche Fälle werden sich möglicherweise gewisse neuartige Ideen zum hierarchischen Reinforcement-Lernen ohne differenzierbare Kostenmodelle als hilfreich erweisen [128][140][21].



Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite