Nächste Seite: DAS PRINZIP DER GESCHICHTSKOMPRESSION Aufwärts: UNÜBERWACHTE GESCHICHTSKOMPRESSION Vorherige Seite: UNÜBERWACHTE GESCHICHTSKOMPRESSION Inhalt

NACHTEILE DER REINEN GRADIENTENABSTIEGSVERFAHREN

In Kapitel 2, Abschnitt 6 haben wir u. a. durch die Experimente mit der Standardaufgabe gesehen, daß herkömmliche gradientenbasierte rekurrente Netze in der Praxis Schwierigkeiten bekommen, wenn alle Trainingssequenzen so gestaltet sind, daß sie lange zeitliche Verzögerungen zwischen Eingabeereignissen und korrelierten gewünschten Ausgabeereignissen beinhalten. Es stellte sich heraus, daß es rekurrenten Netzen bei regelmäßigen Verzögerungen von 20 Zeitschritten schlechterdings unmöglich ist, die Standardaufgabe bei vertretbarem Zeitaufwand zu lösen. Zwei Probleme mit existierenden gradientenbasierten sequenzverabeitenden Netzen wurden identifiziert:

1. Je mehr Zeit zwischen dem Auftreten eines Ereignisses und der Generierung eines durch dieses Ereignis bedingten Fehlersignals verstreicht, desto stärker wird das Fehlersignal i.a. auf seiner `Reise in die Vergangenheit' gestreut, und desto unsignifikanter werden die durch den Fehler hervorgerufenen Gewichtsänderungen.

2. Aktivationen jedes Eingabeknotens werden zu jedem Zeitpunkt in unspezifischer Weise gleich stark berücksichtigt, um das Problem des `temporal credit assignment's [55] zu lösen. Keiner der bisher behandelten Algorithmen versucht in irgendeiner Weise, die von einem Eingabesignal übermittelte Information zu messen. Keiner der bekannten (oder bisher in dieser Arbeit behandelten) Algorithmen lernt, unsignifikante (redundante) Eingaben von potentiell signifikanten Eingaben zu unterscheiden und sich selektiv auf informationstragende Ereignisse zu konzentrieren, um so Zeit und Ressourcen zu sparen.

[60], [61] and [80] haben ansatzweise das erste Problem angegriffen, nicht jedoch das zweite. [62] und [77] haben ansatzweise in höchst unterschiedlichen Kontexten auch das zweite Problem behandelt, den von ihnen verwendeten ad-hoc Methoden fehlt jedoch die solide theoretische Grundlage.

Es erheben sich folgende Fragen: Kann ein sequenzverarbeitendes System in theoretisch zu rechtfertigender Weise in unüberwachter Manier selbst lernen, seine Aufmerksamkeit auf relativ wenige signifikante Ereignisse im Eingabestrom zu lenken und `unwichtige' Ereignisse zu ignorieren? Läßt sich dadurch seine Performanz bei Sequenzklassifikationsaufgaben entscheidend verbessern?

In (realistischen) Umgebungen, die einen Eingabestrom mit gewissen kausalen Abhängigkeiten produzieren, sind obige Fragen zu bejahen. Bei der Trainingsgrammatik aus Abschnitt 2.6 fällt zum Beispiel auf, daß die Sequenz $b_1 \ldots b_{100}$ eine Kausalkette darstellt: Das zweite Element der Kette kann aus dem ersten vorhergesagt werden, das dritte aus dem zweiten, und so fort. In gewisser noch zu präzisierender Weise trägt nur der Anfang einer Kausalkette nicht-redundante Information. Dies gibt Anlaß zu reduzierten Sequenzbeschreibungen, die, wie wir sehen werden, die Lösung mancher Klassifikationsaufgabe überhaupt erst ermöglichen.

Der Schwerpunkt dieses Kapitels liegt auf der unüberwachten Filterung redundanter Information aus nicht-deterministischen Eingabeströmen. Das allen Architekturen dieses Kapitels zugrundeliegende zentrale (und doch einfache) Prinzip ist

Nächste Seite: DAS PRINZIP DER GESCHICHTSKOMPRESSION Aufwärts: UNÜBERWACHTE GESCHICHTSKOMPRESSION Vorherige Seite: UNÜBERWACHTE GESCHICHTSKOMPRESSION Inhalt

Juergen Schmidhuber 2003-02-20