DETAILS: EINE SERIE VON ZIELFUNKTIONEN

Nächste Seite: EXPERIMENTE MIT PREDIKTORENHIERARCHIEN Aufwärts: EINE SELBSTORGANISIERENDE PREDIKTORENHIERARCHIE Vorherige Seite: PRINZIP Inhalt

DETAILS: EINE SERIE VON ZIELFUNKTIONEN

Wie bereits erwähnt, wird $P_{i+1}$ i. a. auf einer `langsameren' Zeitskala als arbeiten; die Zeitskala der Ebene wird durch die von nicht korrekt vorhergesagten Eingaben definiert. Der -te Zeitschritt der zur -ten Ebene gehörigen Zeitskala sei mit oder auch mit bezeichnet. aktualisiert die Aktivationen seiner Knoten ausschließlich zu den Zeitpunkten $t_i, t = 0, 1, \ldots$ . Bei gegebener Sequenz stehe $x^{p,i}(t_i)$ für 's Eingabevektor zum Zeitpunkt . Der Ausgabevektor trage den Namen $z^{p,i}(t_i)$ . Wir nehmen an, daß Bedingung 7.3 erfüllt ist. Als aktuelle Vorhersage $\bar{z}^{p,i}(t_i)$ wird derjenige der möglichen Eingabevektoren angesehen, der den geringsten euklidischen Abstand zu $z^{p,i}(t_i)$ aufweist (siehe Bedingung 7.3). Gibt es mehrere derartige Eingabevektoren, so wird derjenige mit der kleinsten Nummer (bei beliebiger Ordnung auf der Menge der möglichen Eingabevektoren) herausgepickt. So erhalten wir eine eindeutige deterministische Vorhersage. Wir gehen inkrementell vor: Zunächst wird trainiert, nach 's Trainingsphase werden alle Gewichte in `eingefroren' und 's Trainingsphase beginnt, etc.

's Zielfunktion ist gleich

$\begin{displaymath} E_i= \frac{1}{2} \sum_p \sum_{t_i} \sum_k (z_k^{p,i}(t_i) - (x_k^{p,i}((t+1)_i))^2. \end{displaymath}$

(7.4)

Für die unterste Ebene gilt dabei

$\begin{displaymath} \forall t: t_1 = t, x^{p,1}(t_1) = x^p(t), \end{displaymath}$

wobei

wie stets der

-te Eingabevektor der Sequenz

ist. Jeder Sequenz

wird dabei eine für alle Sequenzen gleichbleibende Initialisierungseingabe

vorangestellt.

Ist (höhere Level), so gilt

$\begin{displaymath} x^{p,i}(t_i) = x^{p,i-1}(t_{i-1}) \circ rep(t_{i-1}) , \end{displaymath}$

wobei

auf der

-ten Zeitskala den Zeitpunkt des

-ten unerwarteten Ereignisses der Form

$\begin{displaymath} \bar{z}^{p,i-1}((t-1)_{i-1}) \neq x^{p,i-1}(t_{i-1}) \end{displaymath}$

bezeichnet und

eine eindeutige vektorwertige Repräsentation von

(oder der seit

verstrichenen Zeitspanne) darstellt.

Falls die Menge der potentiellen Eingabevektoren überabzählbar unendlich viele Elemente enthält (z. B. alle möglichen reellen Vektoren mit der Dimension des Eingaberaums), so macht es Sinn, sich ein `Epsilon' $\epsilon$ definieren, welches `akzeptable Vorhersagefehler' definiert: Gilt

$\begin{displaymath} \sum_k (z_k^{p,i}(t_i) - (x_k^{p,i}((t+1)_i)))^2 < \epsilon, \end{displaymath}$

so wird die Vorhersage als korrekt angesehen. Dies ist allerdings eine Heuristik, die auf der (häufig gemachten) Annahme basiert, daß eng benachbarte Eingabevektoren `ähnliche' Bedeutung besitzen.

Nächste Seite: EXPERIMENTE MIT PREDIKTORENHIERARCHIEN Aufwärts: EINE SELBSTORGANISIERENDE PREDIKTORENHIERARCHIE Vorherige Seite: PRINZIP Inhalt

Juergen Schmidhuber 2003-02-20