ARCHITEKTURDETAILS

Das hier beschriebene System sollte als on-line Repräsentant einer Menge von Variationen des in Abschnitt 7.5.1 beschriebenen Prinzips angesehen werden.

Tabelle 7.1 liefert einen Überblick über verschiedene zeitabhängige Aktivationsvektoren, die für die Beschreibung von Architektur und Algorithmus relevant sind. $\delta_d(t) =1$ , falls ein externer Lehrer zur Zeit

einen Zielvektor

bereitstellt, und 0 sonst. Falls $\delta_d(t) = 0$ gilt, nimmt

einen `Defaultwert' an, z.B. den Nullvektor.

Tabelle: Definitionen von Symbolen, die zeitabhängige Aktivationsvektoren bezeichnen. und basieren auf vergangenen Eingaben und werden ohne Wissen über und berechnet.

Vektor	Beschreibung (bzgl. Zeitpunkt )	Dimension
	`normale' Umgebungseingabe
	Zielvektor (vom Lehrer definiert)
$i_A(t)= x(t) \circ d(t)$	A's Eingabe
	A's versteckte Aktivationen	$n_{H_A}$
	A's Vorhersage von
	A's Vorhersage von
	eindeutige Repräsentation von	$n_{time}$
	C's versteckte Aktivationen	$n_{H_C}$
	C's Vorhersage von 's nächster Zieleingabe
	C's Vorhersage von 's nächster `normalen' Eingabe
	C's Vorhersage von 's nächster `time' Eingabe	$n_{time}$
	$d_C(t) \circ p_C(t) \circ s_C(t)$	$n_{O_C} = n_{D} + n_{I} + n_{time}$
	A's Vorhersage von $h_C(t) \circ o_C(t)$	$n_{H_C}+n_{O_C}$
	$d_A(t) \circ p_A(t) \circ q_A(t)$	$n_{O_A} = n_{D} + n_{I} + n_{H_C} + n_{O_C}$

A besitzt $n_{I}+ n_D$ Eingabeknoten, $n_{H_A}$ versteckte Knoten, und $n_{O_A}$ Ausgabeknoten (siehe Tabelle 7.1). Bei reinen Vorhersageproblemen ist

. C verfügt über $n_{H_C}$ versteckte Knoten und $n_{O_C}$ Ausgabeknoten. Alle Nichtausgabeknoten von

weisen gerichtete Verbindungen zu allen Nichteingabeknoten von

auf.

's Eingabeknoten besitzen gerichtete Verbindungen zu allen Nichteingabeknoten von

. Dies ermöglicht

's Eingabeknoten, zu bestimmten (kritischen) Zeitpunkten als Eingabeknoten für

zu fungieren. Weitere $n_{time}$ Eingabeknoten für

dienen zur eindeutigen Repräsentation `kritischer' Zeitschritte. Diesen zusätzlichen Eingabeknoten entspringen gerichtete Verbindungen zu allen Nichteingabeknoten von

. Schließlich sind alle versteckten Knoten von

Quellen gerichteter Verbindungen zu allen Nichteingabeknoten von

. Siehe Abbildung 7.2.

**Abbildung:** Zur Illustration der 2-Netz-Architektur: Der `Automatisierer' und der `Chunker' . Der besseren Übersichtlichkeit halber (sowie aus ästhetischen Gründen) sind nicht alle Verbindungen eingezeichnet. Siehe nähere Erläuterungen im Text.
$\begin{figure}\psfig{figure=fig7.2} \end{figure}$

Falls $\delta_d(t) =1$ gilt, versucht

, seine Vorhersage

dem Wert

anzugleichen. Weiterhin bemüht sich

zu erreichen und damit

vorherzusagen. Hierbei sehen wir das Zielvorhersageproblem wieder als speziellen Fall eines Eingabevorhersageproblems an. Ist $\delta_d(t) =1$ und konnte

nicht korrekt vorhersagen, so versucht

zu erreichen.

legt es weiterhin darauf an, $p_C(t) \circ s_C(t)$ der nächsten nicht vom Lehrer definierten Eingabe für

gleichzusetzen. Diese Eingabe mag unter Umständen noch weit in der Zukunft liegen. Schließlich versucht

, $q_A(t) = h_C(t) \circ o_C(t)$ zu erreichen und damit den Zustand von

zu rekonstruieren. Dies ermöglicht die Kollapsoperation. Die Aktivationen von

's Ausgabeknoten werden dabei als Teil von

's Zustand angesehen.

Sowohl

als auch

werden gleichzeitig durch einen konventionellen Algorithmus für rekurrente Netze trainiert. Häufig (siehe z.B. das in Abschnitt 7.4.1 besprochene Experiment) bietet sich `abgeschnittenes BPTT' an (siehe Kapitel 2).

Die (inzwischen geläufige) Aktualisierungsprozedur für jedes der beteiligten rekurrenten Netze sieht wie folgt aus:

$\textstyle \parbox{12.5cm}{{\em 1. F\uml {u}r jeden Nichteingabeknoten $j$\ aus... .... F\uml {u}r alle Nichteingabeknoten $j$: Setze $a_j \leftarrow \hat a_j $. } }$

Nun die Details des Ein-/Ausgabeverhaltens und der zu minimierenden Zielfunktionen (in pseudo-algorithmische Form gefaßt):

$\textstyle \parbox{12.5cm}{{\em INITIALISIERUNG: Alle Gewichte werden zuf\uml {... ...ern, und aktualisiere $C$, um $h_C(t+1)$\ und $o_C(t+1)$\ zu erhalten. \par }}$