next up previous contents
Nächste Seite: EXPERIMENTE MIT SEQUENZEN Aufwärts: VORHERSAGBARKEITSMINIMIERUNG Vorherige Seite: DISTRIBUIERTE REPRÄSENTATIONEN   Inhalt

VORHERSAGBARKEITSMINIMIERUNG UND ZEIT

Wir wollen nun noch kurz auf Eingabesequenzen (im Gegensatz zu stationären Eingaben) eingehen. Dieser Abschnitt beschreibt eine völlig lokale Methode zum Auffinden eindeutiger, nicht-redundanter, reduzierter Sequenzbeschreibungen. Das nächste Kapitel wird verwandte Methoden allerdings wesentlich ausführlicher behandeln.

Der Anfangszustandsvektor $y^p(0)$ der Repräsentationsknoten sei für alle Sequenzen $p$ der gleiche. Der Eingabevektor zur Zeit $t >0 $ der Sequenz $p$ sei die Konkatenation $x^p(t) \circ y^p(t-1)$ der Eingabe $x^p(t)$ und des vorangegangenen internen Zustands $y^p(t-1)$. Die Repräsentation des bis zum Zeitpunkt $t$ beobachteten Sequenzpräfixes sei durch $y^p(t)$ selbst gegeben.

Wir minimieren und maximieren im wesentlichen dieselben Zielfunktionen wie im stationären Fall. Für den $i$-ten Repräsentationsknoten, dem nun rekurrente Verbindungen zu sich selbst und zu den anderen Modulen entspringen (siehe Abbildung 6.4), gibt es wieder einen adaptiven Prediktor $P_i$, der seinerseits nicht rekurrent zu sein braucht. $P_i$'s Eingabe zur Zeit $t$ ist die Konkatenation der Ausgaben $y^p_k(t)$ aller Repräsentationsknoten $k \neq i$. $P_i$'s eindimensionale Ausgabe $P^p_i(t)$ wird gemäß der Zielfunktion

\begin{displaymath}
\frac{1}{2}
\sum_p \sum_t (P^p_i(t) - y^p_i(t))^2
\end{displaymath}

daraufhin trainiert, sich $E(y_i \mid \{y_k(t), k \neq i \})$ anzugleichen. Die Repräsentationsknoten versuchen ihrerseits, das Performanzmaß

\begin{displaymath}
\bar{E} = \sum_t T(t)
\end{displaymath}

zu maximieren, wobei $T(t)$ analog zu den entsprechenden stationären Fällen definiert ist.

Abbildung: Ein rekurrentes Netz mit zwei Eingabeknoten (grau) und 3 vollständig vernetzten internen Knoten (weisse Kreise mit dem Durchmesser der grauen Kreise). Einer von drei Prediktoren mit 4 Knoten (kleine schwarze Kreise, ein versteckter Knoten) versucht, einen internen Knoten des rekurrenten Netzes aus den beiden anderen vorherzusagen. Das rekurrente Netz versucht seinerseits, derartige Vorhersagbarkeit zu minimieren.
\begin{figure}\psfig{figure=fig6.4} \end{figure}

Die einzige Möglichkeit, die ein Repräsentationsknoten wahrnehmen kann, um sich selbst vor auf den übrigen Repräsentationsknoten beruhenden Voraussagen zu schützen, besteht darin, mittels rekurrenter Verbindungen Eigenschaften der Eingabesequenzen zu speichern, die von den von den übrigen Knoten gespeicherten Aspekten statistisch unabhängig sind.

Um angemessene Gewichtsänderungen zu bestimmen, wird lediglich Information über den Zustand zum lezten Zeitschritt benötigt. Dies hat einen (im Gegensatz zu den ersten drei Methoden aus Kapitel 2) lokalen Algorithmus zur Folge. Trotzdem erlaubt das Verfahren theoretisch, eindeutige Repräsentationen beliebig langer Sequenzen und all ihrer Untersequenzen zu finden - wie sich durch Induktion über die Länge der längsten Eingabesequenz sehen läßt:

1. $y$ kann eindeutige Repräsentationen der Anfänge aller Sequenzen lernen.

2. Angenommen, alle Sequenzen und Untersequenzen der Länge $<k$ sind bereits eindeutig in $y$ repräsentiert. Auch wenn zu jedem Zeitpunkt nur der letzte Zustand, nicht aber frühere Zustände berücksichtigt werden, kann $y$ eindeutige Repräsentationen aller Sequenzen und Subsequenzen der Länge $k$ lernen.

Obige Gedankenführung vernachlässigt allerdings mögliche `cross-talk'-Effekte. Die Experimente des nächsten Abschnittes zeigen jedoch die Anwendbarkeit der Methode.



Unterabschnitte
next up previous contents
Nächste Seite: EXPERIMENTE MIT SEQUENZEN Aufwärts: VORHERSAGBARKEITSMINIMIERUNG Vorherige Seite: DISTRIBUIERTE REPRÄSENTATIONEN   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite