next up previous contents
Nächste Seite: VORHERSAGBARE DISTRIBUIERTE REPRÄSENTATIONEN Aufwärts: EXPERIMENTE ZUR VORHERSAGBARKEITSMAXIMIERUNG Vorherige Seite: EXPERIMENTE ZUR VORHERSAGBARKEITSMAXIMIERUNG   Inhalt

VORHERSAGBARE LOKALE KLASSENREPRÄSENTANTEN

Aufgabe 1. Motiviert durch Beispiel 3, Abschnitt 5.5 wurde ein einfacher `Satzgenerator' konstruiert, welcher aus 2 Symbolen bestehende `Sätze' ausgeben konnte. Jede Alternative in der folgenden Grammatik kam dabei mit gleicher Wahrscheinlichkeit vor. $S$ diente als Startsymbol, Kleinbuchstaben als Terminalzeichen und Großbuchstaben als Nichtterminalzeichen.

\begin{displaymath}
S \rightarrow A \vert B \vert C \vert D,~~
A \rightarrow a a...
...tarrow c c^1 \vert c c^2,~~
D \rightarrow d d^1 \vert d d^2.~~
\end{displaymath}

Während des Trainings sah $T_1$ das erste Symbol eines zufällig gewählten legalen Satzes, während $T_1$ das zweite Symbol wahrnahm. $T_1$ benötigte hierzu 2 Eingabeknoten für seine 4 möglichen durch 2-dimensionale binäre Vektoren repräsentierten Eingaben, $T_2$ benötigte 3 Eingabeknoten für seine 8 möglichen durch 3-dimensionale binäre Vektoren repräsentierten Eingaben.

Sowohl $T_1$ als auch $T_2$ besaßen 4 versteckte Knoten und 6 Ausgabeknoten - zwei mehr als notwendig, um die 4 vorhersagbaren Klassen

\begin{displaymath}
\{ a^1, a^2 \},~~
\{ b^1, b^2 \},~~
\{ c^1, c^2 \},~~
\{ d^1, d^2 \}
\end{displaymath}

lokal zu repräsentieren.

10 Testläufe mit $\epsilon = 0.25, \lambda = 1$, Vorhersagbarkeitsmaximierung gemäß (5.13) und (5.14), $D_2$ definiert durch beschränkte Varianzmaximierung gemäß (5.5) und (5.6), einer Lernrate von 1.0, und 15000 Musterpräsentationen wurden durchgeführt. Alle Experimente waren erfolgreich - stets emittierte $T_2$ nach dem Training 4 lokale Klassenrepräsentanten in Antwort auf Elemente der 4 vorhersagbaren Klassen, wobei die beiden überflüssigen Ausgabeknoten immer ausgeschaltet blieben.

Es wurden keine Versuche unternommen, den Lernvorgang zu beschleunigen.

Obiges Experiment zeigt eine Anwendung der Methode auf den asymmetrischen Fall. Das folgende Experiment zeigt eine Anwendung der Methode auf den symmetrischen Fall (wie beim Stereoexperiment).

Aufgabe 2. Zwei Eigenschaften eines 4-dimensionalen binären Eingabevektors sind die Wahrheitswerte folgender Ausdrücke:

1. Die `rechte' Hälfte des Eingabevektors enthält mehr Einsen als die `linke' Hälfte.

2. Der Eingabevektor verfügt über mehr Einsen als Nullen.

Eingabevektoren mit gleich viel Einsen und Nullen sowie Eingabevektoren mit gleicher Anzahl von Einsen auf beiden Seiten seien ausgeschlossen. Es verbleiben 2 mögliche Eingabevektoren für jede mögliche Eigenschaftskombination. Das Ziel besteht in der Generierung unterschiedlicher Repräsentationen der 4 möglichen wechselseitig vorhersagbaren Eigenschaftskombinationen. Außer diesen Eigenschaftskombinationen soll nichts repräsentiert werden.

Während einer Trainingsiteration nahm $T_1$ einen zufällig gewählten legalen Eingabevektor wahr. Ein weiterer legaler Eingabevektor, zufällig gewählt aus der Menge derjenigen Vektoren mit der Eigenschaftskombination des ersten, wurde $T_2$ dargeboten. $T_1$ und $T_2$ besaßen einen gemeinsamen Gewichtssatz (siehe auch 5.5.2) sowie 4 Eingabeknoten und 4 Ausgabeknoten.

10 Testläufe mit $\epsilon = 0.25, \lambda = 1$, Vorhersagbarkeitsmaximierung gemäß (5.15), $D_2$ definiert durch beschränkte Varianzmaximierung gemäß (5.5) und (5.6), einer Lernrate von 1.0, und 5000 Musterpräsentationen wurden durchgeführt. Alle Experimente waren erfolgreich - stets emittierten sowohl $T_1$ als auch $T_2$ nach dem Training 4 lokale Klassenrepräsentanten in Antwort auf die 4 vorhersagbaren Eigenschaftskombinationen.

Wie schon erwähnt, besteht der Nachteil lokaler Repräsentationen in der mangelhaften Ausnutzung vorhandener Speicherkapazität (Vorteil ist jdeoch u.a. die einfache Interpretierbarkeit der Ergebnisse). Folgender Test soll demonstrieren, daß sich Vorhersagbarkeitsmaximierung bei entsprechender Umdefinition von $D_l$ (mit Hilfe eines Autoassoziators) auch zur Extraktion distribuierter Repräsentationen mehr als einer Eingabeeigenschaft eignet.


next up previous contents
Nächste Seite: VORHERSAGBARE DISTRIBUIERTE REPRÄSENTATIONEN Aufwärts: EXPERIMENTE ZUR VORHERSAGBARKEITSMAXIMIERUNG Vorherige Seite: EXPERIMENTE ZUR VORHERSAGBARKEITSMAXIMIERUNG   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite