next up previous contents
Nächste Seite: PERFORMANZMASS Aufwärts: AUSBLICK: `SELBSTREFERENTIELLE' NEURONALE NETZE Vorherige Seite: MÄCHTIGKEIT DER KLASSE DER   Inhalt

ALGORITHMUS FÜR ÜBERWACHTES LERNEN

Um nützliche `selbst-modifizierende' Gewichtsänderungsalgorithmen zu finden, bedarf es eines vorverdrahteten Gewichtsänderungsalgorithmus. Wir müssen sicherstellen, daß gewisse Aspekte des Gewichtsänderungsalgorithmus unveränderbar bleiben. Wir können uns nicht erlauben, alles adaptiv zu machen: So muß man beispielsweise von Beginn an gewährleisten, daß zu `wünschenswerten' Evaluationen führende Gewichtsmatrizen den Vorzug vor anderen Gewichtsmatrizen erhalten. Dem System darf nicht erlaubt werden, diese zentrale Spielregel zu ändern. Die vorverdrahteten Aspekte des Lernalgorithmus müssen `introspektive' Gewichtsänderungsalgorithmen begünstigen, die sich selbst in `wünschenswerter' Weise manipulieren. Der Begriff `wünschenswert' wird im folgenden wie stets durch eine geeignete Zielfunktion spezifiziert werden.

[114] beschreibt u.a. einen nicht gradienten-basierten vorverdrahteten Reinforcement-Lernalgorithmus. Um den Rahmen dieser Schrift nicht zu sprengen, will ich mich hier jedoch auf durch Anwendung der Kettenregel herleitbare Lernalgorithmen beschränken. Als exemplarisches Beispiel soll der folgende vorverdrahtete Algorithmus für `selbstreferentielles' überwachtes Lernen dienen.

Bei nicht quantisierten Variablen wird im folgenden angenommen, daß sie über ihren gesamten Belegungsbereich rangieren. Für $o_k(t)$ mag zum Zeitpunkt $t$ ein Zielwert $d_k(t)$ vorgegeben sein. Obwohl es keinerlei Bedeutung für die formale Herleitung des Lernalgorithmus hat, sei angenommen, daß Zielwerte $d_k(t)$ nur am Ende eines der $n_s$ Blöcke mit $n_r$ Zeitschritten auftreten können (um die temporalen Ressourcen des Netzes nicht unnötig zu beschränken). Wir setzen $n_{eval} = n_o$. Es gibt also ebensoviele Evalknoten wie `normale' Ausgabeknoten. Es sei angenommen, daß Eingaben und Zielwerte nicht von früheren Ausgaben (via Rückkopplung durch die Umgebung) abhängen - siehe [114] für einen Lernalgorithmus für die allgemeinere Situation des `Reinforcement'-Lernens.

Zusammenfassend schreiben wir zunächst in kompakter Form die Systemdynamik nieder:

\begin{displaymath}
net_{y_k}(1)=0,
~~\forall t \geq 1:~~x_k(t)\leftarrow Umgebung,~~
y_k(t) = f_{y_k}(net_{y_k}(t)),
\end{displaymath}


\begin{displaymath}
\forall t>1:~~
net_{y_k}(t) = \sum_l w_{y_kl}(t-1)l(t-1),
\end{displaymath} (8.8)


\begin{displaymath}
~~\forall t \geq 1:~~
w_{ij}(t+1) = w_{ij}(t) +
\bigtriangleup(t)~g[~ \Vert adr(w_{ij}) - mod(t) \Vert^2~ ],
\end{displaymath} (8.9)


\begin{displaymath}
val(1) = 0,~~\forall t\geq 1:~
val(t+1) = \sum_{i,j}g[ \Vert ana(t) - adr(w_{ij}) \Vert^2]w_{ij}(t),
\end{displaymath} (8.10)

Der folgende Aspekt der Systemdynamik ist für überwachtes Lernen spezifisch und wurde daher in den vorangehenden Abschnitten noch nicht definiert. Wie stets beim überwachten Lernen vermitteln die $eval(t)$ Information über erwünschte Ausgaben zu bestimmten Zeitpunkten:
\begin{displaymath}
eval_k(1) = 0,~~\forall t \geq 1:
eval_k(t+1) = d_k(t) - o_k(t),~falls~d_k(t)~existiert,~und~0~sonst.
\end{displaymath} (8.11)



Unterabschnitte
next up previous contents
Nächste Seite: PERFORMANZMASS Aufwärts: AUSBLICK: `SELBSTREFERENTIELLE' NEURONALE NETZE Vorherige Seite: MÄCHTIGKEIT DER KLASSE DER   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite