Ein noch zu spezifizierender `Autoassoziator'
wird daraufhin trainiert,
jede Eingabesequenz sowie all ihre Anfangssequenzen
in eindeutiger Weise zu repräsentieren (dies ist eine
Form der Quellenkodierung). Ein zusätzliches überwacht
lernendes azyklisches Netzwerk erhält
's eindeutige
Repräsentationen als Eingabe und lernt,
ein durch allgemeine Fehlertrajektorien definiertes
Performanzmaß zu minimieren7.6.
Wir fokussieren uns hier auf den Autoassoziator .
's einziges Ziel besteht in der Kreierung unterschiedlicher
interner Zustandsvektoren in Antwort auf unterschiedliche
Eingabesequenzen.
Architektur und Zielfunktion.
Es gibt drei Klassen von Knoten: Eingabeknoten, `versteckte' Knoten,
und Ausgabeknoten.
Alle Eingabeknoten von sind mit allen versteckten Knoten
verbunden. Alle versteckten Knoten weisen Verbindungen zu
allen Ausgabeknoten auf.
's interner Zustandsvektor
ist der Aktivationsvektor seiner versteckten Knoten zum
Zeitpunkt
der sich über
Zeitschritte erstreckenden
Sequenz
.
's Eingabe zur Zeit
ist
.
Für alle
nimmt der interne Initialzustand
zum Zeitpunkt 0 einen `Defaultwert' an, z.B. den Nullvektor.
Zur Zeit
, berechnet
![]() |
Durch konventionelles BP wird so modifiziert,
daß die
Werte annehmen, die es erlauben,
und
zu rekonstruieren.
's Zielfunktion zur Zeit
der Sequenz
ist dabei
Zur Minimierung von wird nicht
etwa wie bei BPTT bis zum Beginn der gegenwärtig behandelten
Sequenz zurückpropagiert, sondern lediglich bis zu
. Damit bekommen wir zwar keinen
exakten Gradientenabstieg in
, wohl aber
einen Algorithmus,
(im wesentlichen den von Pollack
vorgeschlagenen7.7),
dessen Berechnungskomplexität pro Verbindung
und Zeitschritt unabhängig von der
Netzgröße konstant ist.
Warum sollte dieser Algorithmus
dazu zwingen, eindeutige interne Zustände für theoretisch
beliebig lange
Sequenzen und all ihre Subsequenzen zu generieren?
Die Antwort läßt sich leider nur informell durch Induktion über die Länge der längsten Trainingssequenz sehen (hier haben wir ein Beispiel für einen Lernalgorithmus, der nicht allein aus der Kettenregel gerechtfertigt werden kann):
1. Nehmen wir an, es gibt
verschiedene Trainingssequenzen
. Die
Länge der Sequenz
beträgt
.
Für alle
wird
daraufhin trainiert, die Rekonstruktion
von
und
zu ermöglichen.
Demzufolge werden die Anfänge aller
Sequenzen eindeutig in
repräsentiert sein.
2. Setzen wir nun voraus, daß alle Sequenzen und Subsequenzen
der Länge
bereits eindeutige Repräsentationen
in
verursachen. Für alle
Sequenzen und Subsequenzen
mit Länge
zwingen wir
, die Rekonstruktion von
and
zu ermöglichen.
Damit werden alle
Sequenzen und Subsequenzen
mit Länge
eindeutige Repräsentationen in
nach sich ziehen.
Obiges Argument vernachlässigt allerdings ein Potential
für sogenannten `crosstalk', z.B. die durch den
zweiten Schritt eröffnete Möglichkeit, daß Sequenzen
der Länge durch Eintrainieren der Sequenzen der
Länge
wieder `vergessen' werden.
In Experimenten zeigt sich jedoch, daß RAAMs zur Sequenzcodierung
durchaus geeignet sind.