next up previous contents
Nächste Seite: WIEDERKEHRENDE NOTATION Aufwärts: EINFÜHRUNG Vorherige Seite: DAS STANDARDBEISPIEL: `BACK-PROPAGATION'.   Inhalt

GLIEDERUNG DER ARBEIT

Kapitel 2 beginnt mit der Untersuchung einer potentiell sehr mächtigen (im Prinzip Turingmaschinen-äquivalenten) Klasse von Netzwerkarchitekturen - den dynamischen, vollständig rückgekoppelten sequenzverarbeitenden Netzen. Nach Definition eines geeigneten Performanzmaßes für überwachtes Lernen beliebiger Mustersequenzen werden mittels Kettenregel drei verschiedene Lernalgorithmen abgeleitet, die allerdings alle exakt denselben Gradienten berechnen und sich lediglich in ihrer Komplexität unterscheiden (was nahelegt, daß auch der dritte Schritt der grundlegenden Vorgehensweise (Abschnitt 1.3) nicht notwendigerweise rein automatisch abläuft, da man die Kettenregel offenbar mehr oder weniger geschickt zum Einsatz bringen kann). Der originäre Beitrag dieses Kapitels besteht aus dem dritten Verfahren (mit Komplexität $O(n^3)$), welches das bisher häufig verwendete zweite Verfahren (mit Komplexität $O(n^4)$) in Proportion zur Anzahl $n$ der Knoten im Netz beschleunigt. Experimente zur Erlernung des Zustandsübergangsdiagramms einer klammerbalanzierenden Turingmaschine sowie zur Extraktion regulärer Grammatiken aus zeitlich variierenden Eingabeströmen verdeutlichen sowohl die Funktionstüchtigkeit als auch die praktischen Schranken der Algorithmen.

Kapitel 3 (ein weiterer originärer Beitrag) behält das allgemeine Performanzmaß aus Kapitel 1 bei, verwendet jedoch eine Architektur, die auf zwei Netzwerken ohne zyklische Verbindungen beruht. Um im Eingabestrom auftretende Ereignisse temporär abspeichern zu können, verwendet eines der Netze die unkonventionellen von v. d. Malsburg vorgeschlagenen dynamischen Verbindungen, deren Gewichte sich innerhalb kürzester Zeit dramatisch ändern können. Die Gewichtsänderungen selbst werden durch die Ausgaben des zweiten Netzwerks gesteuert, dessen Lernalgorithmus wieder mit der Kettenregel hergeleitet wird. Das resultierende System zeigt, daß rekurrente Netze nicht die einzige Möglichkeit zur `neuronalen' Sequenzverarbeitung darstellen. Wie auch experimentell demonstriert wird, weist die Methode weiterhin ein natürliches Potential für das Erlernen temporärer Variablenbindungen auf (Kritiker haben den KNN in der Vergangenheit (wie man sieht, fälschlicherweise) die Fähigkeit zur Variablenbindung abgesprochen).

Kapitel 4 beschäftigt sich mit Performanzmaßen, die keinen expliziten Lehrer erfordern, der die gewünschten Netzausgaben (hier Steuersignale genannt) schon im voraus kennt. Statt dessen bewertet eine Evaluierungsfunktion die `Güte' der (von den Steuersignalen mitverursachten) Umgebungszustände. Der erste Beitrag des Kapitels beschreibt ein Standardverfahren, welches demonstriert, wie ein Hilfsnetzwerk mit separatem Performanzmaß dazu veranlaßt werden kann, ein differenzierbares Modell der Abbildung von `Steuersignalen' auf Evaluationen von Umgebungszuständen zu bilden, und wie sich dieses Hilfsnetzwerk dergestalt mit dem eigentlich interessierenden Steuernetzwerk zusammenschalten läßt, so daß mittels Kettenregel ein Performanzgradient für die Programme des Steuernetzwerkes herleitbar wird. Der zweite (originäre) Beitrag vertieft die Analyse differenzierbarer Modelle der Effekte von Steuerprogrammen und beschreibt sowohl azyklische als auch rekurrente neuronale `Subzielgeneratoren'. Letztere sind Netzwerke, die mittels Kettenregel lernen, als Antwort auf eine Kombination des gegenwärtigen Umgebungszustandes und eines gewünschten Zielzustandes eine Liste geeigneter Subziele auszugeben. Mit Hilfe adaptiver Subzielgeneratoren werden experimentell Pfadfindungsprobleme in zweidimensionalen Welten mit Hindernissen gelöst.

Nachdem Kapitel 2, 3, und 4 sich mit zielgerichtetem Lernen beschäftigten, konzentriert sich Kapitel 5 auf Performanzmaße für unüberwachtes Lernen. Beschrieben werden verschiedene in der Literatur aufgetauchte Lernregeln für stationäre Umgebungen (z.B. zur Maximierung der Informationstransmission zwischen Eingaben und ihren internen Repräsentationen, zur Dekorrelation der Repräsentationskomponenten etc.). Dabei werden wieder nur solche Lernverfahren berücksichtigt, die aus einem sinnvollen Performanzmaß herleitbar sind. Gerechtfertigt werden Methoden für unüberwachtes Lernen durch ihr Potential zur Unterstützung zielgerichteten Lernens. An geeigneter Stelle werden verschiedene eigene Beiträge eingeflochten. Experimente schließen die unüberwachte Extraktion von Stereoinformation aus einfachen Zufallsstereogrammen mit ein - eine neuartige Methode erweist sich hierbei für diese Aufgabenstellung als günstiger als ein älteres, informationstheoretisch begründetes Verfahren.

Kapitel 6 (ein weiterer originärer Beitrag) beschäftigt sich mit dem vielleicht ambitioniertesten Ziel unüberwachten Lernens - der Entdeckung `faktorieller' Codierungen der Umgebungseingaben. Das sind höchst vorteilhafte Repräsentationen, die sich dadurch auszeichnen, daß ihre einzelnen Komponenten statistisch voneinander unabhängig sind. Erstmalig wird eine aus zwei `miteinander streitenden' Arten von Untermodulen bestehende Netzarchitektur samt zugehörigen Performanzmaßen präsentiert, die die kettenregelmäßige Herleitung von Algorithmen zum Finden binärer faktorieller Codes ermöglicht. Zahlreiche Experimente (unter anderem zur unüberwachten Kodierung von Buchstaben mit unterschiedlichen Auftretenswahrscheinlichkeiten) belegen die Anwendbarkeit der Verfahren zur Redundanzreduktion in Eingabemustern und Eingabemustersequenzen.

Kapitel 7 (ein weiterer originärer Beitrag) untersucht die enormen Vorteile, die sich aus unüberwachtem Lernen in dynamischen Umgebungen ergeben können. Grundlage des Kapitels ist das durch theoretische Überlegungen zu rechtfertigende einfache und dennoch neuartige Prinzip der Geschichtskompression, welches im wesentlichen besagt, daß nur unerwartete Ereignisse im Eingabestrom nicht-redundante Information tragen. Erwartete Eingaben dürfen im wesentlichen ignoriert werden. Aufbauend auf dem Prinzip der Geschichtskompression werden selbstorganisierende hierarchische Architekturen samt zugehörigen Zielfunktionen entworfen, die kausale Abhängigkeiten im Eingabestrom widerspiegeln und eindeutige reduzierte Sequenzbeschreibungen ermöglichen. Letztere können die Aufgaben zusätzlicher zielgerichteter Lerner gewaltig erleichtern. Experimente zum Erlernen regulärer Grammatiken zeigen, daß auf dem Prinzip der Geschichtskompression basierende Systeme in gewissen Fällen mindestens 1000 mal schneller lernen können als die in Kapitel 2 beschriebenen, ohne zusätzliche unüberwachte Performanzmaße auskommenden, sequenzverarbeitenden Algorithmen. Weitere Experimente mit natürlichsprachlichen Texten weisen Schranken der Methode auf. Ein Nebenprodukt der experimentellen Untersuchungen ist ein neuartiges Textkompressionsverfahren, welches bei gewissen Zeitungstexten bereits zu besserer Datenkompression führte als der weitverbreitete, in einem gewissen informationstheoretischen Sinne optimale Lempel-Ziv Algorithmus, der u.a. auch die Grundlage der compress-Funktion des Betriebssytems UNIX bildet.

Kapitel 8 (der letzte originäre Beitrag) schließlich liefert (im Rahmen eines Gedankenexperiments) einen theoretischen Ausblick auf `introspektives' maschinelles Lernen. Ein wesentlicher Unterschied zwischen `menschlichem' Lernen und existierenden Methoden für maschinelles Lernen besteht darin, daß Menschen über ihr eigenes Lernverhalten reflektieren und ihre Lernstrategien gegebenenfalls ändern können, um sie den von der Umgebung typischerweise gestellten Lernaufgaben anzupassen. Kapitel 8 geht daher über alle vorangegangenen Kapitel hinaus, in dem es fragt, ob sich Gewichtsänderungsalgorithmen selbst so repräsentieren lassen, daß sie sinnvoller Manipulation zugänglich sind. Um die Frage konstruktiv zu beantworten, wird das erste `selbst-referentielle' rekurrente neuronale Netzwerk präsentiert. Dieses verfügt zum einen über die Fähigkeit, seine eigenen Erfolge und Mißerfolge zu beobachten. Zum anderen besitzt es spezielle Eigenschaften, die es ihm erlauben, alle eigenen Gewichtsparameter zu analysieren und explizit zu manipulieren, und zwar einschließlich derjenigen Parameter, die für die Analysier- und Manipulierprozesse zuständig sind. Dank der Allgemeinheit der Architektur existieren keine theoretischen Begrenzungen für die Komplexität der im Netzwerk implementierbaren, zur Selbstmodifikation fähigen Gewichtsänderungsalgorithmen (abgesehen von unvermeidbaren durch die Endlichkeit der Architektur verursachten Zeit und Speicherbegrenzungen). Theoretisch kann das Netz nicht nur seinen eigenen Gewichtsänderungsalgorithmus ändern, sondern auch die Art und Weise, in der es seinen eigenen Gewichtsänderungsalgorithmus ändert, sowie die Art und Weise, in der es den Algorithmus ändert, der seinen eigenen Gewichtsänderungsalgorithmus ändert, und so fort ad infinitum. Mittels Kettenregel wird ein `vorverdrahteter' Gewichtsänderungsalgorithmus zur Auffindung `sinnvoller' selbst-modifizierender Gewichtsänderungsalgorithmen hergeleitet.


next up previous contents
Nächste Seite: WIEDERKEHRENDE NOTATION Aufwärts: EINFÜHRUNG Vorherige Seite: DAS STANDARDBEISPIEL: `BACK-PROPAGATION'.   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite