Nächste Seite: UNÜBERWACHTES LERNEN: ZIELFUNKTIONEN
Aufwärts: EXPERIMENTE ZUR HINDERNISVERMEIDUNG
Vorherige Seite: EXPERIMENTE MIT ADAPTIVEM
  Inhalt
Der oben beschriebene Ansatz vertraut auf differenzierbare (möglicherweise
adaptive) Modelle der mit bereits bekannten Aktionssequenzen
assoziierten Kosten. In diesen Modellen (den Evaluationsmodulen)
residiert das Domänenwissen - letzteres wird durch den
Subzielgenerierungsprozeß extrahiert. Es lassen sich jedoch Domänen
finden, für die differenzierbare Evaluationsmodule entweder ungeeignet oder
aber nur mit Schwierigkeiten oder mit vergleichsweise
großem Aufwand (wie im letzten
Abschnitt) zu erstellen sind.
Für solche Fälle werden sich möglicherweise gewisse neuartige
Ideen zum hierarchischen Reinforcement-Lernen
ohne differenzierbare Kostenmodelle
als hilfreich erweisen [128][140][21].
Juergen Schmidhuber
2003-02-20
Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite