In Kapitel 2, Abschnitt 6 haben wir u. a. durch die Experimente mit der Standardaufgabe gesehen, daß herkömmliche gradientenbasierte rekurrente Netze in der Praxis Schwierigkeiten bekommen, wenn alle Trainingssequenzen so gestaltet sind, daß sie lange zeitliche Verzögerungen zwischen Eingabeereignissen und korrelierten gewünschten Ausgabeereignissen beinhalten. Es stellte sich heraus, daß es rekurrenten Netzen bei regelmäßigen Verzögerungen von 20 Zeitschritten schlechterdings unmöglich ist, die Standardaufgabe bei vertretbarem Zeitaufwand zu lösen. Zwei Probleme mit existierenden gradientenbasierten sequenzverabeitenden Netzen wurden identifiziert:
1. Je mehr Zeit zwischen dem Auftreten eines Ereignisses und der Generierung eines durch dieses Ereignis bedingten Fehlersignals verstreicht, desto stärker wird das Fehlersignal i.a. auf seiner `Reise in die Vergangenheit' gestreut, und desto unsignifikanter werden die durch den Fehler hervorgerufenen Gewichtsänderungen.
2. Aktivationen jedes Eingabeknotens werden zu jedem Zeitpunkt in unspezifischer Weise gleich stark berücksichtigt, um das Problem des `temporal credit assignment's [55] zu lösen. Keiner der bisher behandelten Algorithmen versucht in irgendeiner Weise, die von einem Eingabesignal übermittelte Information zu messen. Keiner der bekannten (oder bisher in dieser Arbeit behandelten) Algorithmen lernt, unsignifikante (redundante) Eingaben von potentiell signifikanten Eingaben zu unterscheiden und sich selektiv auf informationstragende Ereignisse zu konzentrieren, um so Zeit und Ressourcen zu sparen.
[60], [61] and [80] haben ansatzweise das erste Problem angegriffen, nicht jedoch das zweite. [62] und [77] haben ansatzweise in höchst unterschiedlichen Kontexten auch das zweite Problem behandelt, den von ihnen verwendeten ad-hoc Methoden fehlt jedoch die solide theoretische Grundlage.
Es erheben sich folgende Fragen: Kann ein sequenzverarbeitendes System in theoretisch zu rechtfertigender Weise in unüberwachter Manier selbst lernen, seine Aufmerksamkeit auf relativ wenige signifikante Ereignisse im Eingabestrom zu lenken und `unwichtige' Ereignisse zu ignorieren? Läßt sich dadurch seine Performanz bei Sequenzklassifikationsaufgaben entscheidend verbessern?
In (realistischen) Umgebungen, die einen Eingabestrom
mit gewissen kausalen Abhängigkeiten produzieren, sind
obige Fragen zu bejahen.
Bei der Trainingsgrammatik aus Abschnitt 2.6 fällt zum Beispiel
auf, daß die Sequenz
eine Kausalkette darstellt: Das
zweite Element der Kette kann aus dem ersten vorhergesagt
werden, das dritte aus dem zweiten, und so fort. In
gewisser noch zu präzisierender Weise trägt nur
der Anfang einer Kausalkette nicht-redundante Information.
Dies gibt Anlaß zu reduzierten Sequenzbeschreibungen, die,
wie wir sehen werden, die Lösung mancher Klassifikationsaufgabe
überhaupt erst ermöglichen.
Der Schwerpunkt dieses Kapitels liegt auf der unüberwachten Filterung redundanter Information aus nicht-deterministischen Eingabeströmen. Das allen Architekturen dieses Kapitels zugrundeliegende zentrale (und doch einfache) Prinzip ist