next up previous contents
Nächste Seite: Neugier und Langeweile Aufwärts: Zukünftige Untersuchungen Vorherige Seite: Szenen mit mehreren Objekten   Inhalt

Belohnung temporaler Invarianzen

Um die Fehlerfunktion des Systems zu glätten und unter Umständen die Konvergenz zu beschleunigen, kann man versuchen, den Eingabeknoten zusätzliche zeitliche Beschränkungen aufzuerlegen. Dies kann dadurch erreicht werden, daß man eine neue Fehlerfunktion konstruiert, indem man zur alten Fehlerfunktion Terme addiert, welche die Differenzen aufeinanderfolgender Fokuseingaben ausdrücken. Der Ansatz erinnert an Jordans Arbeit [21]. Man beachte jedoch, daß es bei Jordan die Ausgabeknoten sind, denen zeitliche Beschränkungen auferlegt werden.

Der zu erwartende Effekt besteht darin, daß das System eine Vorliebe für zeitliche Invarianzen im Eingaberaum entwickelt. Solche Invarianzen können zum Beispiel durch Fokusbewegungen entlang von Kanten verursacht werden. Damit fließt ein unüberwachtes Element (eine Suche nach `Regelmäßigkeiten') in den Lernprozeß mit ein. Triviale zeitliche Invarianzen, die das System z.B. durch einen Fokusstop erzielen könnte, werden durch den zielgerichteten Teil der Fehlerfunktion ausgeschlossen.



Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite