next up previous contents
Nächste Seite: PERFORMANZMASSE FÜR DIE DREI Aufwärts: VORHERSAGBARKEITSMINIMIERUNG Vorherige Seite: PROBLEMFORMULIERUNG   Inhalt

GRUNDPRINZIP UND GRUNDLEGENDE ARCHITEKTUR

Für jeden Repräsentationsknoten $i = 1, \ldots, n$ führen wir ein zusätzliches azyklisches adaptives (im allgemeinen nicht-lineares) Prediktornetzwerk $P_i$ ein. Beim $p$-ten Eingabevektor $x^p$ ist $P_i$'s Eingabevektor die $(n-1)$-dimensionale Konkatenation aller Ausgaben $y^p_k$ aller Repräsentationsknoten $k \neq i$. $P_i$ sieht also alle Repräsentationsknoten außer dem von $P_i$ vorherzusagenden Knoten mit Nummer $i$. Siehe Abbildung 6.1. $P_i$'s ein-dimensionale Ausgabe $P^p_i$ wird mittels BP daraufhin trainiert, sich dem bedingten Erwartungswert $E(y_i \mid \{y^p_k, k \neq i \})$ anzugleichen. Dieses Ziel kann dadurch erreicht werden, daß man $P_i$ die altbekannte Zielfunktion

\begin{displaymath}
E_{P_i} = \frac{1}{2}\sum_p (P^p_i - y^p_i)^2
\end{displaymath} (6.2)

minimieren läßt6.1.

Abbildung: Die $n$ Repräsentationsknoten (schwarz) liefern eine Codierung der gegewärtigen Eingabe. Jeder der $n$ Prediktoren (in der Abbildung ist nur einer zu sehen (graue Knoten)) bemüht sich, aus je $n-1$ Repräsentationsknoten den verbleibenden vorherzusagen. Die Repräsentationsknoten ihrerseits wehren sich unter Ausnutzung der Eingabestatistik durch geeignete Gewichtsänderungen gegen Vorhersagbarkeit.
\begin{figure}\psfig{figure=fig6.1} \end{figure}

Das ist schon die grundlegende Topologie, die für alle im Rest dieses Kapitels auftretenden Performanzmaße und Algorithmen gleichbleiben wird. Die $n$ Prediktoren dienen dazu, die Redundanz unter den Repräsentationsknoten zu messen. Mit Hilfe der $n$ (bezüglich ihrer Eingaben differenzierbaren) Prediktoren lassen sich nun zusätzliche differenzierbare Zielfunktionen für die Repräsentationsknoten definieren (siehe Abschnitte 6.3 und 6.4), so daß diese gedrängt werden, den drei Kriterien aus Abschnitt 6.1 Genüge zu tun und faktorielle Eingabecodierungen zu entdecken. Allen diesen zusätzlichen Zielfunktionen für die Repräsentationsmodule ist eines gemeinsam: Sie zwingen die Codeknoten, die wechselseitige Vorhersagbarkeit durch die Prediktoren zu minimieren.

Jeder Repräsentationsknoten versucht dabei, aus der Umgebung irgendwelche Eigenschaften zu extrahieren, so daß keine Kombination von $n-1$ Knoten Information (im Shannonschen Sinne) über den verbleibenden Knoten trägt. Mit anderen Worten: Keine auf der Kombination von $n-1$ Repräsentationsknoten basierende Vorhersage des verbleibenden Knotens sollte höhere Qualität aufweisen als eine Vorhersage, die ohne Wissen über die $n-1$ Knoten auskommt. Im folgenden werde ich dieses Prinzip das Prinzip der intra-repräsentationellen Vorhersagbarkeitsminimierung oder kürzer das Prinzip der Vorhersagbarkeitsminimierung nennen.

Dem Prinzip der Vorhersagbarkeitsminimierung folgend versucht jeder Repräsentationsknoten, die statistischen Eigenschaften der Umgebung dergestalt auszunützen, daß er sich selbst vor Vorhersagbarkeit schützt. Jedes Repräsentationsmodul `will' sich auf Aspekte der Umgebung konzentrieren, die unabhängig von denjenigen abstrakten Umgebungseigenschaften sind, auf die sich die Aufmerksamkeit der restlichen Module lenkt.


next up previous contents
Nächste Seite: PERFORMANZMASSE FÜR DIE DREI Aufwärts: VORHERSAGBARKEITSMINIMIERUNG Vorherige Seite: PROBLEMFORMULIERUNG   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite