GRUNDPRINZIP UND GRUNDLEGENDE ARCHITEKTUR

Für jeden Repräsentationsknoten $i = 1, \ldots, n$ führen wir ein zusätzliches azyklisches adaptives (im allgemeinen nicht-lineares) Prediktornetzwerk

ein. Beim

-ten Eingabevektor

ist

's Eingabevektor die

-dimensionale Konkatenation aller Ausgaben

aller Repräsentationsknoten $k \neq i$ .

sieht also alle Repräsentationsknoten außer dem von

vorherzusagenden Knoten mit Nummer

. Siehe Abbildung 6.1.

's ein-dimensionale Ausgabe

wird mittels BP daraufhin trainiert, sich dem bedingten Erwartungswert $E(y_i \mid \{y^p_k, k \neq i \})$ anzugleichen. Dieses Ziel kann dadurch erreicht werden, daß man

die altbekannte Zielfunktion

$\begin{displaymath} E_{P_i} = \frac{1}{2}\sum_p (P^p_i - y^p_i)^2 \end{displaymath}$

(6.2)

**Abbildung:** Die Repräsentationsknoten (schwarz) liefern eine Codierung der gegewärtigen Eingabe. Jeder der Prediktoren (in der Abbildung ist nur einer zu sehen (graue Knoten)) bemüht sich, aus je Repräsentationsknoten den verbleibenden vorherzusagen. Die Repräsentationsknoten ihrerseits wehren sich unter Ausnutzung der Eingabestatistik durch geeignete Gewichtsänderungen gegen Vorhersagbarkeit.
$\begin{figure}\psfig{figure=fig6.1} \end{figure}$

Das ist schon die grundlegende Topologie, die für alle im Rest dieses Kapitels auftretenden Performanzmaße und Algorithmen gleichbleiben wird. Die

Prediktoren dienen dazu, die Redundanz unter den Repräsentationsknoten zu messen. Mit Hilfe der

(bezüglich ihrer Eingaben differenzierbaren) Prediktoren lassen sich nun zusätzliche differenzierbare Zielfunktionen für die Repräsentationsknoten definieren (siehe Abschnitte 6.3 und 6.4), so daß diese gedrängt werden, den drei Kriterien aus Abschnitt 6.1 Genüge zu tun und faktorielle Eingabecodierungen zu entdecken. Allen diesen zusätzlichen Zielfunktionen für die Repräsentationsmodule ist eines gemeinsam: Sie zwingen die Codeknoten, die wechselseitige Vorhersagbarkeit durch die Prediktoren zu minimieren.

Jeder Repräsentationsknoten versucht dabei, aus der Umgebung irgendwelche Eigenschaften zu extrahieren, so daß keine Kombination von

Knoten Information (im Shannonschen Sinne) über den verbleibenden Knoten trägt. Mit anderen Worten: Keine auf der Kombination von

Repräsentationsknoten basierende Vorhersage des verbleibenden Knotens sollte höhere Qualität aufweisen als eine Vorhersage, die ohne Wissen über die

Knoten auskommt. Im folgenden werde ich dieses Prinzip das Prinzip der intra-repräsentationellen Vorhersagbarkeitsminimierung oder kürzer das Prinzip der Vorhersagbarkeitsminimierung nennen.

Dem Prinzip der Vorhersagbarkeitsminimierung folgend versucht jeder Repräsentationsknoten, die statistischen Eigenschaften der Umgebung dergestalt auszunützen, daß er sich selbst vor Vorhersagbarkeit schützt. Jedes Repräsentationsmodul `will' sich auf Aspekte der Umgebung konzentrieren, die unabhängig von denjenigen abstrakten Umgebungseigenschaften sind, auf die sich die Aufmerksamkeit der restlichen Module lenkt.