next up previous contents
Nächste Seite: NACHTEILE DER REINEN GRADIENTENABSTIEGSVERFAHREN Aufwärts: NETZWERKARCHITEKTUREN, ZIELFUNKTIONEN UND KETTENREGEL Vorherige Seite: ÄQUIVALENZ VON UND   Inhalt

UNÜBERWACHTE GESCHICHTSKOMPRESSION

Alle mir bekannten in der Literatur bisher aufgetauchten unüberwachten Performanzmaße wurden im wesentlichen für statische Umgebungen entworfen. Auch die beiden vorangegangenen Kapitel befaßten sich schwerpunktmäßig mit unüberwachtem Lernen bei stationären Eingaben. Die Vorteile unüberwachter Performanzmaße kommen allerdings erst in dynamisch veränderlichen, nicht-stationären Umgebungen voll zum Ausdruck.

Das vorliegende Kapitel (der sechste bedeutende originäre Beitrag dieser Arbeit) zeigt an den Beispielen Sequenzrepräsentation und Sequenzklassifikation, daß die Algorithmen aus Kapitel 2 in gewissen typischen dynamischen Umgebungen durch Einführung zusätzlicher unüberwachter Performanzmaße und Architekturen zur Entdeckung kausaler Regelmäßigkeiten im Eingabestrom enorm beschleunigt werden können.

Zunächst wird zur Motivation an die praktischen Probleme der bisher besprochenen Algorithmen für den Fall erinnert, daß alle Trainingssequenzen lange zeitliche Lücken zwischen relevanten korrelierten Ereignissen aufweisen (siehe auch Kapitel 2).

Daraufhin wird ein einfaches und dennoch neuartiges Prinzip zum unüberwachten Finden eindeutiger reduzierter Darstellungen ausgedehnter Sequenzen angegeben. Dieses allgemeine Prinzip der Geschichtskompression benötigt zur Erklärung weder die Kettenregel noch eine spezifische Architektur. Es beruht auf der Einsicht, daß nur unvorhersagbare Eingaben nicht-redundante Information enthalten - erwartete Eingaben dürfen im wesentlichen ignoriert werden.

Aufbauend auf dem Prinzip der Geschichtskompression wird eine hierarchische Netzwerkarchitektur und eine zugehörige Serie von Performanzmaßen konstruiert. Ziel ist dabei das informationsverlustfreie unüberwachte Finden kompakter Repräsentationen eventuell im Eingabestrom vorhandener `kausaler Regularitäten'. Diese kompakten Repräsentationen können Aufgaben wie Sequenzklassifikation gewaltig erleichtern, wie auch experimentell gezeigt wird. In der Tat ist es mit der neuartigen Architektur möglich, Sequenzen korrekt einzuordnen, bei denen die konventionelleren `neuronalen' Algorithmen trotz ihrer theoretischen Allgemeinheit in der Praxis vollständig scheitern.

Die Kettenregel kommt dabei nur lokal auf jeder Ebene der Hierarchie ins Spiel. In der Tat ist das System ein Beispiel dafür, daß Lernalgorithmen wie die bisher behandelten, die ausschließlich durch sture rekursive Anwendung der Kettenregel in einer differenzierbaren Architektur hergeleitet wurden, nicht unbedingt das allein selig machende Hilfsmittel zum Entwurf neuronaler Lernalgorithmen sind. Um entsprechender Kritik gleich im voraus vorzubeugen, sei hier bemerkt, daß die Grundlage vorliegender Schrift durch diese Aussage nicht in Frage gestellt wird. Im Gegenteil: Neue Einsichten können Anlaß zu neuen Architekturen geben, in deren Untermodulen die Kettenregel den ihr angemessenen Platz finden kann. Das Entwerfen von solchen neuartigen, gewisse hilfreiche Prinzipien verkörpernden Architekturen und Zielfunktionen ist aus der von dieser Arbeit vertretenen Perspektive der eigentlich kreative, (zumindest im Moment) nicht automatisierbare Prozeß.

Ein weiterer Beitrag dieses Kapitels besteht in einer auf informationstheoretischen Erwägungen basierenden Modifikation der hierarchischen Prediktorenarchitektur.

Der Rest des Kapitels beschäftigt sich schließlich mit Architekturen (samt zugehörigen Zielfunktionen), die das Multiebenensystem mit der Zeit in ein einzelnes rekurrentes Netz kollabieren. Diese Kollabiermethoden stellen die einzigen `schmutzigen' Verfahren dieser Arbeit dar - schmutzig insofern, als sie Gradientenabstieg in einer sich langsam ändernden Funktion betreiben und damit mathematischer Exaktheit entbehren. Ich brachte es nicht übers Herz, diese Methoden zu ignorieren, vor allem deswegen, weil sie eine schöne Analogie zu antropomorphen Konzepten wie `Bewußtsein' und `Unterbewußtsein' bieten. Experimente illustrieren die Arbeitsweise der Verfahren und erweisen in gewissen Fällen eine mindestens 1000-fache Überlegenheit auch der `schmutzigen' neuartigen Methoden über `konventionellere' Algorithmen.

Ein Nebenprodukt der experimentellen Untersuchungen ist ein neuartiges, hybrides, gegenwärtig noch in der Erprobung befindliches Textkompressionsverfahren, welches bei gewissen Zeitungstexten bereits zu besserer Datenverdichtung führte als der weitverbreitete, in einem gewissen informationstheoretischen Sinne optimale Lempel-Ziv Textkompressionsalgorithmus, der u.a. auch die Grundlage der compress-Funktion des Betriebssytems UNIX bildet.



Unterabschnitte
next up previous contents
Nächste Seite: NACHTEILE DER REINEN GRADIENTENABSTIEGSVERFAHREN Aufwärts: NETZWERKARCHITEKTUREN, ZIELFUNKTIONEN UND KETTENREGEL Vorherige Seite: ÄQUIVALENZ VON UND   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite