REKURSIVE AUTO-ASSOZIATIVE GEDÄCHTNISSE

Nächste Seite: AUCH RAAMS HABEN PROBLEME Aufwärts: KONTINUIERLICHE GESCHICHTSKOMPRESSION MIT RAAMs Vorherige Seite: KONTINUIERLICHE GESCHICHTSKOMPRESSION MIT RAAMs Inhalt

REKURSIVE AUTO-ASSOZIATIVE GEDÄCHTNISSE

Ein noch zu spezifizierender `Autoassoziator' wird daraufhin trainiert, jede Eingabesequenz sowie all ihre Anfangssequenzen in eindeutiger Weise zu repräsentieren (dies ist eine Form der Quellenkodierung). Ein zusätzliches überwacht lernendes azyklisches Netzwerk erhält 's eindeutige Repräsentationen als Eingabe und lernt, ein durch allgemeine Fehlertrajektorien definiertes Performanzmaß zu minimieren^7.6.

Wir fokussieren uns hier auf den Autoassoziator . 's einziges Ziel besteht in der Kreierung unterschiedlicher interner Zustandsvektoren in Antwort auf unterschiedliche Eingabesequenzen.

Architektur und Zielfunktion. Es gibt drei Klassen von Knoten: Eingabeknoten, `versteckte' Knoten, und Ausgabeknoten. Alle Eingabeknoten von sind mit allen versteckten Knoten verbunden. Alle versteckten Knoten weisen Verbindungen zu allen Ausgabeknoten auf. 's interner Zustandsvektor ist der Aktivationsvektor seiner versteckten Knoten zum Zeitpunkt der sich über Zeitschritte erstreckenden Sequenz . 's Eingabe zur Zeit ist $h^p(t-1) \circ x^p(t)$ . Für alle nimmt der interne Initialzustand zum Zeitpunkt 0 einen `Defaultwert' an, z.B. den Nullvektor. Zur Zeit $0<t \leq n_p$ , berechnet

$\begin{displaymath}h^p(t) = g ( x^p(t), h^p(t-1)), \end{displaymath}$

wobei

durch die konventionellen Aktivationsausbreitungsregeln für BP-Netze definiert ist (siehe Kapitel 1).

's Ausgabevektor

wird aus

ebenfalls gemäß der BP-Aktivationsausbreitungsregeln bestimmt. Die Anzahl von

's Ausgabeknoten ergibt sich zur Summe der Anzahlen seiner Eingabeknoten und versteckten Knoten.

wird nun als `Rekonstruktion' von $x^p(t) \circ h^p(t-1)$ interpretiert. Siehe Abbildung 2.5.

**Abbildung:** Ein rekursives auto-assoziatives Gedächtnis assoziiert die Kombination des letzten internen Zustands und der neuen Eingabe mit sich selbst - dadurch wird eine Beschreibung der bisher beobachteten Eingabesequenz in den neuen internen Zustand `hineinkomprimiert'.
$\begin{figure}\psfig{figure=fig7.3} \end{figure}$

Durch konventionelles BP wird so modifiziert, daß die Werte annehmen, die es erlauben, und zu rekonstruieren. 's Zielfunktion zur Zeit der Sequenz ist dabei

$\begin{displaymath} E_A(t) = \frac{1}{2} \left[ x^p(t) \circ h^p(t-1) - z^p(t)\right]^T \left[x^p(t) \circ h^p(t-1) - z^p(t)\right]. \end{displaymath}$

Zur Minimierung von wird nicht etwa wie bei BPTT bis zum Beginn der gegenwärtig behandelten Sequenz zurückpropagiert, sondern lediglich bis zu . Damit bekommen wir zwar keinen exakten Gradientenabstieg in $E_A = \sum E_A(t)$ , wohl aber einen Algorithmus, (im wesentlichen den von Pollack vorgeschlagenen^7.7), dessen Berechnungskomplexität pro Verbindung und Zeitschritt unabhängig von der Netzgröße konstant ist. Warum sollte dieser Algorithmus dazu zwingen, eindeutige interne Zustände für theoretisch beliebig lange Sequenzen und all ihre Subsequenzen zu generieren?

Die Antwort läßt sich leider nur informell durch Induktion über die Länge der längsten Trainingssequenz sehen (hier haben wir ein Beispiel für einen Lernalgorithmus, der nicht allein aus der Kettenregel gerechtfertigt werden kann):

1. Nehmen wir an, es gibt verschiedene Trainingssequenzen $1, \ldots, s$ . Die Länge der Sequenz beträgt . Für alle $p = 1, \ldots, s$ wird daraufhin trainiert, die Rekonstruktion von und zu ermöglichen. Demzufolge werden die Anfänge aller Sequenzen eindeutig in repräsentiert sein.

2. Setzen wir nun voraus, daß alle Sequenzen und Subsequenzen der Länge bereits eindeutige Repräsentationen in verursachen. Für alle Sequenzen und Subsequenzen mit Länge zwingen wir , die Rekonstruktion von and zu ermöglichen. Damit werden alle Sequenzen und Subsequenzen mit Länge eindeutige Repräsentationen in nach sich ziehen. $\Box$

Obiges Argument vernachlässigt allerdings ein Potential für sogenannten `crosstalk', z.B. die durch den zweiten Schritt eröffnete Möglichkeit, daß Sequenzen der Länge durch Eintrainieren der Sequenzen der Länge wieder `vergessen' werden. In Experimenten zeigt sich jedoch, daß RAAMs zur Sequenzcodierung durchaus geeignet sind.

Nächste Seite: AUCH RAAMS HABEN PROBLEME Aufwärts: KONTINUIERLICHE GESCHICHTSKOMPRESSION MIT RAAMs Vorherige Seite: KONTINUIERLICHE GESCHICHTSKOMPRESSION MIT RAAMs Inhalt

Juergen Schmidhuber 2003-02-20