next up previous contents
Nächste Seite: EXPERIMENTE ZUR VORHERSAGBARKEITSMAXIMIERUNG Aufwärts: EXTRAKTION VORHERSAGBARER KONZEPTE Vorherige Seite: VORHERSAGBARKEITSMINIMIERUNG   Inhalt

BEZUG ZU FRÜHEREN ARBEITEN: IMAX

Becker und Hinton (1989) lösen symmetrische Probleme durch Maximierung der wechselseitigen Information zwischen den Ausgaben von $T_1$ und $T_2$ (IMAX). Dies dient ebenfalls zur Auffindung informativer und dennoch wechselseitig vorhersagbarer Eingabeklassifikationen.

Die zu maximierende Zielfunktion ist

\begin{displaymath}
<ln~P(y^{p,1}, y^{p,2})>
-<ln~P(y^{p,1})>
-<ln~P(y^{p,2})> ,
\end{displaymath} (5.17)

wobei $P(y^{p,k})$ die Wahrscheinlichkeit dafür bezeichnet, daß die Ausgabe von $T_k$ den Wert $y^{p,k}$ annimmt ($< ... >$ steht wieder für den Ensemblemittelwert).

Ist die Ausgabe jedes Klassifikators eindimensional, so wird (5.17) unter gewissen vereinfachenden Gaussschen Annahmen zu

\begin{displaymath}
R = \frac{1}{2}ln (\frac{VAR(y^1)}{VAR(y^1 - y^2)} ).
\end{displaymath}

Becker und Hinton berichten allerdings, daß ihr mit probabilistischen Ausgabeknoten ausgestattetes System die oben beschriebenen Stereoaufgabe nur dann zu lösen imstande war, wenn der Algorithmus in sukzessiven `bootstrap'-Stufen angewendet wurde. Auch mußte die Lernrate während der Lernphase geeignet adjustiert werden. Schließlich erwies sich eine obere Schranke für die maximale Gewichtsänderung pro Gradientenanstiegsiteration als erforderlich.

Keine derartigen Tricks waren notwendig, um dieselbe Aufgabe mit unserem alternativen System (siehe Abschnitte 5.5.3 und 6.6.5) zu lösen.

In [35] wird nur der Fall eindimensionaler Ausgaben beider Klassifikatoren betrachtet. In [155] beschäftigen sich Zemel und Hinton hingegen mit der Möglichkeit, daß jeder Klassifikator über mehr als einen Ausgabeknoten verfügt. Es wird zunächst von neuem die einschränkende Annahme Gauss-verteilter Signale gemacht. Dann läßt sich (5.17) wieder umformulieren - zu maximieren bleibt

\begin{displaymath}
R = \frac{1}{2}ln (\frac{Det(Q(y^1 + y^2))}
{Det(Q(y^1 - y^2))},
\end{displaymath} (5.18)

wobei $Q(z)$ wieder die Kovarianzmatrix der einzelnen Komponenten von $z$ bezeichnet [124]. Zemel und Hinton berechnen explizit die partiellen Ableitungen von $Det(Q(.))$ bezüglich aller $y_i$, was wie Linskers Methode (Abschnitt 5.2.1) aufwendig (und auch vom Standpunkt des Biologen her unplausibel) ist.


next up previous contents
Nächste Seite: EXPERIMENTE ZUR VORHERSAGBARKEITSMAXIMIERUNG Aufwärts: EXTRAKTION VORHERSAGBARER KONZEPTE Vorherige Seite: VORHERSAGBARKEITSMINIMIERUNG   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite