next up previous contents
Nächste Seite: EXPERIMENTE ZUR KOMBINATION VON Aufwärts: EXPERIMENTE Vorherige Seite: EXPERIMENTE MIT UNGLEICH VERTEILTEN   Inhalt

EXPERIMENTE MIT BUCHSTABENBILDERN MIT UNTERSCHIEDLICHEN AUFTRETENSWAHRSCHEINLICHKEITEN

Um die Skalierungseigenschaften des Verfahrens zu testen, wurden in Zusammenarbeit mit Stefanie Lindstädt (University of Colorado at Boulder) auch aufwendigere Experimente zur Kodierung von Buchstabenbildern (mit den der englischen Sprache entsprechenden Auftretenswahrscheinlichkeiten) durchgeführt.

82 verschiedene Zeichen (Kleinbuchstaben, Großbuchstaben, Ziffern und Sonderzeichen) wurden jeweils durch ein aus $10 \times 15$ Pixeln bestehendes Bild repräsentiert (die Bilder entstammten dem DEC courier Datensatz). Jedes Pixel war entweder schwarz oder weiß. Damit ließen sich die Buchstabenbilder als 150-dimensionale Binärvektoren darstellen, deren $n$-te Komponente gleich 1 war, falls das entsprechende Pixel schwarz war, und 0 sonst. Die 82 Binärvektoren dienten als die Eingabevektoren $x^p$ für die Repräsentationsmodule. Ihre Auftretenswahrscheinlichkeiten sind in Tabelle 6.1 aufgelistet (siehe auch [5]).


Tabelle: 82 im Experiment verwendete Zeichen und ihre Auftretenswahrscheinlichkeiten in englischsprachigen Texten.
Wahrsch. Zeichen Wahrsch. Zeichen Wahrsch. Zeichen
0.17595 `Blank' 0.00014 ! 0.00070 "
0.00005 # 0.00002 % 0.00028 '
0.00150 ( 0.00171 ) 0.00012 $+$
0.00753 , 0.00122 - 0.00490 .
0.00047 / 0.00061 0 0.00117 1
0.00096 2 0.00014 3 0.00009 4
0.00007 5 0.00019 6 0.00002 7
0.00007 8 0.00007 9 0.00033 :
0.00098 ; 0.00002 $<$ 0.00016 $=$
0.00007 $>$ 0.00009 ? 0.00108 A
0.00117 B 0.00063 C 0.00028 D
0.00045 E 0.00042 F 0.00014 G
0.00026 H 0.00195 I 0.00002 J
0.00007 K 0.00026 L 0.00028 M
0.00253 N 0.00066 O 0.00129 P
0.00019 Q 0.00056 R 0.00117 S
0.00195 T 0.00012 U 0.00148 V
0.00019 W 0.00009 X 0.00002 [
0.00002 ] 0.05791 a 0.01768 b
0.02610 c 0.02345 d 0.09843 e
0.01953 f 0.01231 g 0.03604 h
0.06272 i 0.00054 j 0.00251 k
0.03050 l 0.01796 m 0.05773 n
0.06214 o 0.01768 p 0.00176 q
0.04375 r 0.05620 s 0.07817 t
0.02610 u 0.00943 v 0.01023 w
0.00181 x 0.01032 y 0.00021 z
0.00052 |        


Um die Performanz der Methode zur Redundanzreduktion zu analysieren, wurden folgende Maße verwendet:

1. Maß der Informationstransmission: Um zu messen, wieviel Information über das Eingabeensemble nach dem Training durch das Netzwerk an die (binären) Repräsentationsknoten übermittelt wird, mißt man die wechselseitige Information zwischen Eingabe und Codierung

\begin{displaymath}
{\cal I} (x,y) = {\cal H}(x) + {\cal H}(y) - {\cal H}(x,y),
\end{displaymath} (6.11)

wobei

\begin{displaymath}
{\cal H}(z) = - \sum_{p} P(z^p) log P(z^p)
\end{displaymath}

die Entropie von $z$ bezeichnet. Da die von den Repräsentationsmodulen geleistete Abbildung deterministisch ist, vereinfacht sich (6.11) zu
\begin{displaymath}
{\cal I} (x,y) = {\cal H}(y).
\end{displaymath} (6.12)

${\cal I} (x,y)$ kann die Entropie des Eingabeensembles, welche sich aus Tabelle 6.1 zu 4.34 bit errechnet, nicht übersteigen.

2. Abhängigkeitsmaß: Um zu messen, wie sehr die Codekomponenten nach dem Training voneinander abhängen, berechnet man

\begin{displaymath}
{\cal D} = \sum_{i,p} P(x^p) \left(y_i^p -
E\left[y_i\vert\left\{y_j^p, j \neq i\right\}\right]\right)^2.
\end{displaymath} (6.13)

3. Redundanzmaß: Schließlich definieren wir das Maß der Redundanz $R$ einer Binärcodierung durch die Differenz zwischen der tatsächlichen Entropie des Codes und der maximal möglichen Entropie eines Binärcodes mit ebensovielen Komponenten:

\begin{displaymath}
{\cal R} =
\frac{
-{\cal H}(y) +
\sum_i P(y^i = 1) log P(y...
... 1) + (1- P(y^i = 1)) log (1 - P(y^i = 1))
}
{
{\cal H}(y)
}.
\end{displaymath} (6.14)

Betrachten wir unser Eingabeensemble (bestehend aus 82 150-dimensionalen binären Eingabevektoren) als seine eigene Codierung, so ist die Redundanz des Codes hoch - sie beträgt 1341 Prozent.

Die folgenden Experimente zeigen die Performanz des Systems in Abhängigkeit von der Anzahl der Codekomponenten (der Anzahl der Repräsentationsknoten):

Experiment 11: `on-line', 150 Eingabeknoten, ein zusätzlicher Eingabeknoten mit konstanter Aktivation 1.0 (der `bias'-Knoten), 8 Repräsentationsknoten, keine versteckten Knoten für die Repräsentationsmodule, ebensoviele versteckte Knoten pro Prediktor wie Prediktoreingabeknoten, Prediktorenlernrate 1.0, Repräsentationsmodullernrate 0.1, Verzicht auf Fehlerrückpropagierung durch Prediktoreneingabeknoten. 10 Testläufe mit je 10000 Musterdarbietungen (gemäß den Auftretenswahrscheinlichkeiten aus Tabelle 6.1) wurden durchgeführt. Resultate: Durchschnittliche Informationstransmission ${\cal I} (x,y) = 4.12$ bit (das theoretische Maximum liegt, wie bereits erwähnt, bei 4.34 bit), durchschnittliche Redundanz ${\cal R} = 0.82$, durchschnittliche Abhängigkeit ${\cal D} = 1.27$.

Experiment 12: Wie Experiment 11, aber mit 10 Repräsentationsknoten. Resultate: ${\cal I} (x,y) = 4.25$ bit, ${\cal R} = 1.1$, ${\cal D} = 1.8$.

Experiment 13: Wie Experiment 12, aber mit 12 Repräsentationsknoten. Resultate: ${\cal I} (x,y) = 4.26$ bit, ${\cal R} = 1.6$, ${\cal D} = 2.15$.

Experiment 14: Wie Experiment 13, aber mit 14 Repräsentationsknoten. Resultate: ${\cal I} (x,y) = 4.29$ bit, ${\cal R} = 2.05$, ${\cal D} = 2.4$.

Experiment 15: Wie Experiment 14, aber mit 16 Repräsentationsknoten. Resultate: ${\cal I} (x,y) = 4.28$ bit, ${\cal R} = 2.5$, ${\cal D} = 2.6$.

Aus den Experimenten 12 bis 15 ist ersichtlich, daß sich mit steigender Anzahl der Repräsentationsknoten die Informationsübertragung dem theoretischen Maximum annähert, während gleichzeitig die Redundanz innerhalb des Codes und auch die statistische Abhängigkeit der Codesymbole untereinander zunimmt. Dies verdeutlicht erneut den `trade-off' zwischen Informationstransmission und Redundanz: Optimale faktorielle Codierungen des Eingabeensembles wurden praktisch nie erreicht, hohe Informationsübertragung wurde durch den Verlust an Kompaktheit und statistischer Unabhängigkeit der Codekomponenten erkauft.

Dennoch wurde in allen Fällen eine bedeutende Redundanzreduktion erreicht (von 1341 Prozent Redundanz im Eingabeensemble auf deutlich unter 300 Prozent).

Eine der für die Reduktion der im DEC courier-Datensatz enthaltenen Redundanz brauchbarsten getesteten Vorgehensweisen war die folgende: Mit 16 Repräsentationsknoten (wie in Experiment 14) wurde das System solange mehrmals hintereinander von neuem zufällig initialisiert und daraufhin durch je 3000 Musterpräsentationen trainiert, bis das theoretische Optimum der Informationstransmission erreicht wurde (da in den Experimenten 12 - 14 Durchschnitte anhand von 10 Testläufen gebildet wurden, taucht die maximal mögliche wechselseitige Information zwischen Ein- und Ausgabe dort nie auf). Dieses Vorgehen entspricht der einfachsten Strategie zur Behandlung lokaler Maxima und erforderte meist nicht mehr als 5 sukzessive Läufe.

Zusätzliche Addition von uniform verteiltem Rauschen im Intervall $[-1, +1]$ auf die Aktivationen der Eingabeknoten während der Trainingsphase erwies sich ebenfalls zur Vermeidung lokaler Maxima als zweckmäßig.

Welcher Art sind die `Objekte', die durch Vorhersagbarkeitsminimierung aus dem Eingabeensemble extrahiert werden? Abbildung 6.3 veranschaulicht die Gewichte der Verbindungen zwischen den $10 \times 15$ Eingabeknoten und jedem der 16 Repräsentationsknoten nach dem Training. Die 3. Matrix in der 2. Reihe von oben steht beispielsweise für die Eingangsgewichte des 7. Repräsentationsknotens (das einzelne Feld unterhalb jeder Gewichtsmatrix steht für die Stärke der jeweiligen Verbindung vom `bias'-Knoten). Je positiver ein Gewicht, desto größer das entsprechende weiße Quadrat. Je negativer ein Gewicht, desto größer das entsprechende schwarze Quadrat.

Abbildung: Veranschaulichung der Verbindungsgewichte zwischen den $10 \times 15$ Eingabeknoten und jedem der 16 Repräsentationsknoten nach dem Training mit dem Buchstabenbilderdatensatz. Je exzitatorischer ein Gewicht, desto größer das entsprechende weiße Quadrat. Je inhibierender ein Gewicht, desto größer das entsprechende schwarze Quadrat.
\begin{figure}\centerline{\psfig{figure=fig6.3,width=0.7\textwidth}} \end{figure}

Aus Abbildung 6.3 geht hervor, daß die zur Redundanzminderung aus dem Datensatz extrahierten `Objekte' keine für menschliche Anschauung offensichtliche Interpretation besitzen, obwohl die Strukturen gewisse Regelmäßigkeiten aufweisen und gelegentlich bestimmte häufig auftretende Buchstabenteile eine Entsprechung in stark positiven oder stark negativen Eingangsgewichten finden (siehe beispielsweise die Matrix Nummer 13).


next up previous contents
Nächste Seite: EXPERIMENTE ZUR KOMBINATION VON Aufwärts: EXPERIMENTE Vorherige Seite: EXPERIMENTE MIT UNGLEICH VERTEILTEN   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite