next up previous contents
Nächste Seite: ÄQUIVALENZ VON UND Aufwärts: APPENDIX Vorherige Seite: EINE NICHT PREDIKTORBASIERTE ZIELFUNKTION   Inhalt

ZUR VERMUTUNG 6.4.1

Die Maximierung von $V_C$ aus Abschnitt 6.4 ist äquivalent zur Maximierung von

\begin{displaymath}
Q_C = \sum_i \sum_p P(x^p) (P^p_i - y^p_i)^2 =
E [ E(y_i \mid \{y_k, k \neq i \}) - y_i ]^2,
\end{displaymath} (6.15)

wobei $p$ über alle unterschiedlichen Muster (statt über alle Muster) rangiert, und wobei wieder angenommen wird, daß $P^p_i = E(y_i \mid \{y^p_k, k \neq i \})$ gilt.

Definieren wir nun $\alpha^i_j$ als das $j$-te unterschiedliche Ereignis der Form $\{y_k, k \neq i \}$. Es ist

\begin{displaymath}
E [ E(y_i \mid \{y_k, k \neq i \}) - y_i ]^2
\leq
E \left[ E(y_i) - y_i \right]^2,
\end{displaymath} (6.16)

wobei das Gleichheitszeichen nur dann gilt, wenn der folgende Ausdruck wahr ist:

\begin{displaymath}
\forall i, j: ~~ E(y_i \mid \alpha^i_j) = E(y_i).
\end{displaymath}

Im Falle eines quasi-binären Codes läßt sich $Q_C$ wie folgt umformen:

\begin{displaymath}
Q_C = \sum_{i} \sum_p P(x^p) (P^p_i - y^p_i)^2 =
\end{displaymath}


\begin{displaymath}
=
\sum_{i: \forall p:~ y^p_i = E(y_i) = const.} \sum_j P(\alpha^i_j)
(E(y_i \mid \alpha^i_j) - E(y_i))^2
~~+
\end{displaymath}


\begin{displaymath}
+
\sum_{i~bin\uml {a}r} \sum_j P(\alpha^i_j)
\left[
\sum_{p...
...{p: y^p_i =0} P(x^p) (E(y_i \mid \alpha^i_j) - 0)^2
\right]
=
\end{displaymath}


\begin{displaymath}
=
0~~ +
\sum_{i~bin\uml {a}r} \sum_j P(\alpha^i_j)
\left[
(...
...(y_i \mid \alpha^i_j))^2
\sum_{p: y^p_i =0} P(x^p)
\right]
=
\end{displaymath}


\begin{displaymath}
=
\sum_{i~bin\uml {a}r} \sum_j P(\alpha^i_j)
\left[
(E(y_i ...
...y_i \mid \alpha^i_j))^2
(1- E(y_i \mid \alpha^i_j))
\right]
=
\end{displaymath}


\begin{displaymath}
=
\sum_{i~bin\uml {a}r,~j}
P(\alpha^i_j)
E(y_i \mid \alpha^i_j)
(1 - E(y_i \mid \alpha^i_j)).
\end{displaymath} (6.17)

Ist der quasi-binäre Code faktoriell, so wird (6.13) zu6.3
\begin{displaymath}
\sum_i E(y_i)(1 - E(y_i)).
\end{displaymath} (6.18)

Die Maximierung von $Q_C$ ermutigt quasi-binäre Codes. Betrachten wir einen quasi-binären faktoriellen Code $F$. Es ist

\begin{displaymath}
Q^F_C= \sum_{i~bin\uml {a}r} E^F(y_i)(1 - E^F(y_i)),
\end{displaymath}

wobei zusätzliche hochgestellte Indices die Zugehörigkeit zu einem bestimmten Code bezeichnen. Jeder Code $B$ mit

\begin{displaymath}
\sum_{i~bin\uml {a}r} E^B(y_i)(1 - E^B(y_i)) \leq Q^F_C
\end{displaymath}

kann aufgrund von (6.12) und (6.14) keinen größeren Gesamtprediktionsfehler als $F$ verursachen.

Was aber, wenn

\begin{displaymath}
\sum_{i~bin\uml {a}r} E^B(y_i)(1 - E^B(y_i)) > Q^F_C ~~?
\end{displaymath}

Intuitiv scheint dies nahezulegen, daß die Codekapazität die im Eingabeensemble enthaltene Entropie übersteigt, was intra-repräsentationelle Redundanz nach sich zieht, was wiederum kleineres $Q^B_C$ zur Folge hat. Es wurde zwar versucht, auch letzteren Fall unter Ausnützung von

\begin{displaymath}
E(y_i \mid \alpha^i_j) =
\frac{P(\alpha^i_j \mid y_i =1)}
{P(\alpha^i_j)}
E(y_i),
\end{displaymath}

formal zu fassen, die Vermutung 6.4.1 bleibt allerdings für den allgemeinen Fall unbewiesen.


next up previous contents
Nächste Seite: ÄQUIVALENZ VON UND Aufwärts: APPENDIX Vorherige Seite: EINE NICHT PREDIKTORBASIERTE ZIELFUNKTION   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite