Nächste Seite: Gründe für paralleles Lernen
Aufwärts: Begründung des Verfahrens
Vorherige Seite: Begründung des Verfahrens
  Inhalt
Wir nehmen zunächst an, daß erst und dann trainiert wird,
und daß alle Gewichte sich nicht während, sondern erst nach
einer Trainingsepisode ändern.
Dann bekommen wir zwar kein `on-line' Verfahren, dafür aber
eine mathematische Rechtfertigung der Methode. Bei der
Implementierung
des praktischen Algorithmus werden wir dann aus
pragmatischen Gründen in verschiedener Hinsicht
wieder vom off-line Ansatz abweichen und
dieses Vorgehen nachträglich durch Experimente rechtfertigen.
Für 's Lernphase wird in diesem Abschnitt angenommen, daß
die Ausgaben von zufällig gewählt werden.
In 's Ausgabeknoten werden zu jedem Zeitpunkt durch
konventionelle Aktivationsausbreitung (in ) die
Voraussagen für 's neue Eingaben (hervorgerufen durch
die externe Rückkopplung oder durch von den Effektoren unabhängige
Umgebungsänderungen) berechnet.
Wir betrachten den Fall vorgegebener Trainingsintervallgrenzen.
's zu minimierende Fehlerfunktion ist
wobei
die Aktivation des ten vorhersagenden Knotens von zur
Zeit ist,
die Aktivation
des entsprechenden vorhergesagten Knotens von ist und
über alle Zeitschritte eines Trainingsintervalls rangiert.
Jedes Gewicht von ändert sich dabei proportional zu
Ist 's Lernphase abgeschlossen, so werden seine Gewichte
eingefroren. und werden zu einem einzigen großen
Netzwerk konkateniert, wobei 's Ausgabeknoten mit
's Eingabeknoten identifiziert werden. Jetzt beginnt 's
Lernphase.
's zu minimierende Fehlerfunktion ist
Dabei ist
die Aktivation des ten R-Knotens zur Zeit , und seine
unveränderliche gewünschte Aktivation.
Für die mathematische Begründung wird angenommen,
daß nur noch von und abhängt,
nicht mehr jedoch von der Umgebung.
(Das ist der Systemidentifikationsansatz in seiner allgemeinsten
Form.)
Um Gradientenabstieg zu bekommen, muß ein Gewicht
von
sich proportional zu
ändern, und zwar
unter der konstanten Nebenbedingung . Abgesehen von einigen
sehr plausiblen, langfristig geradezu notwendigen, im
folgenden ausgeführten
Abweichungen implementiert A2 unter Verwendung des IID-Algorithmus
gerade den Gradientenabstieg
in .
Nächste Seite: Gründe für paralleles Lernen
Aufwärts: Begründung des Verfahrens
Vorherige Seite: Begründung des Verfahrens
  Inhalt
Juergen Schmidhuber
2003-02-20
Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite