next up previous contents
Nächste Seite: `NEURONALE' IMPLEMENTIERUNG Aufwärts: VORHERSAGBARKEITSMINIMIERUNG Vorherige Seite: EIN NACHTEIL OBIGER VERFAHREN   Inhalt

LOKALE BEDINGTE VARIANZMAXIMIERUNG

Im folgenden stelle ich das von mir bevorzugte Verfahren zur Implementierung des Prinzips der Vorhersagbarkeitsminimierung vor. Es leidet nicht unter dem soeben in Abschnitt 6.3.7 erwähnten Parameterwahlproblem. Außerdem weist die Methode eine bemerkenswerte Symmetrie zwischen `sich bekämpfenden' Modulen (vorhersagenden Prediktoren sowie den Vorhersagen ausweichenden Repräsentationsmodulen) auf.

Wir definieren

\begin{displaymath}
V_C = \frac{1}{2} \sum_i \sum_p (P^p_i - y^p_i)^2 = E_P.
\end{displaymath} (6.8)

Zur Erinnerung: Es wird angenommen, daß $P^p_i = E(y_i \mid \{y^p_k, k \neq i \})$. Man beachte die formale Äquivalenz von $V_C$ und der Summe der Zielfunktionen der Prediktoren $\sum_i E_{P_i}$ (vergleiche (6.2)).

Wie in Abschnitt 6.3.6 wird auf den Autoassoziator verzichtet. Nun definieren wir die Gesamtzielfunktion $T$ der Repräsentationsknoten wie folgt um:


\begin{displaymath}
T = V_C - \gamma H.
\end{displaymath} (6.9)

Ich will nun die (nicht restlos bewiesene) Vermutung aufstellen, daß man in (6.9) sogar auf den für das Unabhängigkeitskriterium zugeschnittenen $H$-Term verzichten (also $\gamma = 0$ setzen) darf:



Vermutung 6.4.1. Existiert für ein gegebenes Ensemble von Eingabemustern unter den möglichen reellwertigen Codierungen ein quasi-binärer faktorieller Code, so ist das Gesamtperformanzmaß

\begin{displaymath}
T = V_C
\end{displaymath} (6.10)

genau dann maximal, wenn die Repräsentationsmodule einen derartigen Code gefunden haben. Es genügt also, wenn alle Repräsentationsmodule versuchen, dieselbe Zielfunktion zu maximieren, welche von den Prediktoren minimiert wird.

Für den allgemeinen Fall bleibt diese Vermutung unbewiesen. Im Appendix zu diesem Kapitel wird sie allerdings für gewisse Spezialfälle mathematisch gerechtfertigt. Der Appendix bietet auch etwas intuitive Rechtfertigung für den allgemeinen Fall. Schließlich liefert der Appendix eine auf Peter Dayan und Richard Zemel zurückgehende Argumentation dafür, daß das Verfahren aus Abschnitt 6.3.6 und Vorhersagbarkeitsminimerung gemäß Abschnitt 6.4 für $\alpha = 1, \gamma =1$ Kraft im wesentlichen äquivalent sind.

Außerdem haben sich Algorithmen, die ausschließlich auf der Maximierung von (6.10) beruhen, auch in den später zu beschreibenden Experimenten bewährt.


next up previous contents
Nächste Seite: `NEURONALE' IMPLEMENTIERUNG Aufwärts: VORHERSAGBARKEITSMINIMIERUNG Vorherige Seite: EIN NACHTEIL OBIGER VERFAHREN   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite