next up previous contents
Nächste Seite: Brauchbare Ad-Hoc Lösungen für Aufwärts: Grundlagen: Überwachtes Lernen Vorherige Seite: Dynamik von der trivialen   Inhalt

Interne Rückkopplung: Dynamische Netzwerke

Im folgenden beschreiben wir Algorithmen für den allgemeinsten Fall überwachten Lernens. Ein- und Ausgaben brauchen nicht mehr stationär zu sein, Eingaben zu bestimmten Zeitpunkten sollen unter Umständen Ausgaben zu beliebigen späteren Zeitpunkten beeinflussen können. Dazu braucht man interne Rückkopplung. Erst seit kurzem kennt man funktionstüchtige Lernalgorithmen für das auftretende raumzeitliche `credit-assignment problem'.

Die Aufgabe für einen solchen Lernalgorithmus stellt sich im allgemeinen wie folgt: Gegeben eine Sequenz von Eingabevektoren $i_{t}$, eine Sequenz von gewünschten Ausgabevektoren $d_{t}$, und eine Fehlerfunktion, typischerweise $ \sum_{t} \Vert d_{t}-x_{t} \Vert^{2}$. Minimiere die Fehlerfunktion!

(Dabei ist $x_{t}$ der aktuelle Ausgabevektor zur Zeit $t$, und $t$ durchläuft alle Zeitschritte eines Trainingsintervalls.)

Man beachte, daß die Aufgabenstellung allgemein genug ist, um zeitliche Abhängigkeiten beliebiger Natur zuzulassen. Dies bedeutet einen qualitativen Sprung von der `Dynamik der trivialen Art' hin zur `algorithmischen Dynamik'. Wer obige Fehlerfunktion minimieren kann, kann nicht nur sequentielle Assoziationen, sondern im Prinzip auch Algorithmen im weitesten Sinn lernen lassen.

Alle bekannten Ansätze zielen nun darauf ab, den Gradienten der Fehlerfunktion bezüglich der Gewichtsmatrix zu berechnen oder zu approximieren:


\begin{displaymath}\triangle w^T = -\eta
\frac{\partial \sum_{t} \Vert d_{t}-x_{t} \Vert^{2}}{\partial w}.
\end{displaymath}

Dabei ist $w$ der Gewichtsvektor des Netzes, $\triangle w$ ist die von der Lernregel induzierte Gewichtsänderung, und $\eta$ ist eine positive Lernrate.

Wer den Gradienten obiger Fehlerfunktion bestimmen kann, kann auch den Gradienten einer Summe derartiger Fehlerfunktionen bestimmen (der Gradient der Summe ist die Summe der Gradienten). Damit können mehrere Sequenzen oder Algorithmen in überlagerter Form in das Netzwerk eingespeichert werden.



Unterabschnitte
next up previous contents
Nächste Seite: Brauchbare Ad-Hoc Lösungen für Aufwärts: Grundlagen: Überwachtes Lernen Vorherige Seite: Dynamik von der trivialen   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite