next up previous contents
Nächste Seite: Abschließende Bemerkungen Aufwärts: Einführung eines rekurrenten Kritikers Vorherige Seite: Rekurrente Kritiker und der   Inhalt

Beschreibung einer verwandten Idee für lokales überwachtes Lernen

In [57] wurde unter anderem eine Idee zum lokalen überwachten Lernen beschrieben. Dabei bestand die Ausgabe des Kritikers in einem durch überwachtes Lernen gewonnenen Fehlervektor. Des jeweiligen Fehlervektors Dimensionalität war gleich der Anzahl der Nicht-Eingabeknoten eines dynamischen rekurrenten Netzes $C$ und wurde mittels eines statischen überwachten Netzwerkes $A$ mit den jeweiligen Zuständen von $C$ assoziiert. Zu einem gegebenen Zeitpunkt $t$ wurde $A$'s auf $C$'s gegenwärtigem Zustand beruhende Ausgabe als eine Schätzung desjenigen Fehlervektors interpretiert, der normalerweise durch einen konventionellen nicht-lokalen BP-Prozeß zustandegekommenen wäre. Der geschätzte Fehlervektor wurde durch $C$ einen Schritt `in die Vergangenheit' propagiert (das war eine lokale Operation), wobei die Summe des daraus resultierenden neuen Fehlervektors und des von einem Lehrer definierten externen Fehlers mittels $A$ assoziiert wurde mit $C$'s letztem Zustandsvektor. Die vom Lehrer gelieferten Fehlersignale für $C$'s Ausgabeknoten beendeten die in obiger Ausführung implizite Rekursion.



Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite