next up previous contents
Nächste Seite: EXPERIMENTE MIT BUCHSTABENBILDERN MIT Aufwärts: EXPERIMENTE Vorherige Seite: EXPERIMENTE MIT `OCCAMS RASIERMESSER'   Inhalt

EXPERIMENTE MIT UNGLEICH VERTEILTEN EINGABEN

Das im vorliegenden Unterabschnitt betrachtete Eingabeensemble besteht aus 4 verschiedenen Mustern: $x_a$, $x_b$, $x_c$, und $x_d$. Die jeweiligen Wahrscheinlichkeiten ihres Auftretens sind

\begin{displaymath}
P(x^a) = \frac{1}{9},
P(x^b) = \frac{2}{9},
P(x^c) = \frac{2}{9},
P(x^d) = \frac{4}{9}.
\end{displaymath}

Die dergestalt definierte Trainingsumgebung erlaubt binäre faktorielle Codes; einer davon ist der folgende

Code $F$: $y^a = (1,1)^T$, $y^b = (0,1)^T$, $y^c = (1,0)^T$, $y^d = (0,0)^T$.

Code $F$ erfüllt das Unabhängigkeitskriterium, denn die unbedingten Erwartungswerte jedes Repräsentationsknotens gleichen den entsprechenden bedingten Erwartungswerten:

\begin{displaymath}
E(y_1) = \frac{2}{3} =
E(y_1 \mid y_2 = 1) =
E(y_1 \mid y_2 = 0),
\end{displaymath}


\begin{displaymath}
E(y_2) = \frac{2}{3} =
E(y_2 \mid y_1 = 1) =
E(y_2 \mid y_1 = 0).
\end{displaymath}

Code $F$'s totales Performanzmaß $V_C$ ist gleich $V^F_C = 2$.

Ein nicht faktorieller (wohl aber reversibler und damit informationserhaltender) Code ist der folgende

Code $B$: $y^a = (0,1)^T$, $y^b = (0,0)^T$, $y^c = (1,0)^T$, $y^d = (1,1)^T$.

Code $B$ erfüllt das Unabhängigkeitskriterium nicht, denn nicht alle bedingten Erwartungswerte jedes Repräsentationsknotens gleichen seinem unbedingten Erwartungswert:

\begin{displaymath}
E(y_1 \mid y_2 = 0) = \frac{1}{2} \neq
E(y_1) = \frac{2}{3} \neq
E(y_1 \mid y_2 = 1) = \frac{4}{5},
\end{displaymath}


\begin{displaymath}
E(y_2 \mid y_1 = 1) = \frac{2}{3} \neq
E(y_2) = \frac{5}{9} \neq
E(y_2 \mid y_1 = 0) = \frac{1}{3}.
\end{displaymath}

Code $B$'s totales Performanzmaß $V_C$ ist gleich $V^B_C = \frac{19}{10}$, ein Wert, der nur um $ \frac{1}{10}$ unterhalb von $V^F_C$ liegt. Dies zeigt bereits, daß gewisse lokale Maxima der Zielfunktion der Repräsentationsknoten den gesuchten globalen Maxima sehr nahe kommen können. Diese Tatsache spiegelt sich in manchen der folgenden Experimente wieder.

Experiment 7: `off-line', $dim(y) = 2$, $dim(x) = 2$, verteilte Eingaberepräsentation mit $x^a = (0,0)^T$, $x^b = (0,1)^T$, $x^c = (1,0)^T$, $x^d = (1,1)^T$, 1 versteckter Knoten pro Prediktor, 2 allen Repräsentationsmodulen gemeinsame versteckte Knoten. 10 Testläufe mit 2000 Trainingsepochen für die Repräsentationsmodule wurden durchgeführt. Eine Epoche bestand dabei aus der Präsentation von 9 Mustern: $x_a$ wurde einmal präsentiert, $x_b$ wurde zweimal präsentiert, $x_c$ wurde zweimal präsentiert, $x_d$ wurde viermal präsentiert. In 7 Fällen fand das System einen zu einem globalen Maximum von $V_C$ korrespondierenden faktoriellen Code.

Experiment 8 (Occams Rasiermesser): Wie Experiment 7, jedoch mit $dim(y)=3$. In 9 von 10 Testläufen fand das System einen faktoriellen Code (mit einem unbenutzten Repräsentationsknoten, der stets denselben konstanten Wert lieferte). Beim verbleibenden Testlauf erwies sich der resultierende Code zumindest als informationserhaltend.

Experiment 9: Wie Experiment 7, jedoch lokale Eingaberepräsentation, 3 versteckte Knoten pro Prediktor, 4 allen Repräsentationsmodulen gemeinsame versteckte Knoten. 10 Testläufe mit 10000 Trainingsepochen für die Repräsentationsmodule wurden durchgeführt. In 5 Fällen fand das System einen zu einem globalen Maximum von $V_C$ korrespondierenden faktoriellen Code. In 2 weiteren Fällen erwies sich der Code als invertibel, in den 3 verbleibenden Fällen nicht.

Wie schon des öfteren erwähnt, ist die wohl einfachste Strategie gegen lokale Maxima folgende: Wiederhole das Experiment unter verschiedenen Initialisierungsbedingungen, bis ein befriedigendes Ergebnis erreicht wird. Jedes neue Experiment entspricht einer neuen lokalen Suche im Suchraum.

Experiment 10 (Occams Rasiermesser): Wie Experiment 9, aber mit $dim(y)=3$. In 2 aus 10 Testläufen fand das System einen faktoriellen Code (mit einem unbenutzten Repräsentationsknoten, der stets denselben konstanten Wert lieferte). In den verbleibenden 8 Testläufen wurden stets invertible Codes entdeckt. Dies reflektiert einen `trade-off' zwischen Redundanz und Reversibilität: Überflüssige Freiheitsgrade unter den Repräsentationsknoten vermögen zwar einerseits die Wahrscheinlichkeit der Auffindung informationserhaltender Codes zu erhöhen, können aber andererseits die Wahrscheinlichkeit der Entdeckung eines faktoriellen Codes drücken.


next up previous contents
Nächste Seite: EXPERIMENTE MIT BUCHSTABENBILDERN MIT Aufwärts: EXPERIMENTE Vorherige Seite: EXPERIMENTE MIT `OCCAMS RASIERMESSER'   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite