next up previous contents
Nächste Seite: WELTMODELLBAUER Aufwärts: NETZWERKARCHITEKTUREN, ZIELFUNKTIONEN UND KETTENREGEL Vorherige Seite: SCHLUSSBEMERKUNGEN   Inhalt

DISTANZIERTE PERFORMANZMASSE

In den beiden vorangegangenen Kapiteln wurden Fehlertrajektorien und Zielfunktionen durch bekannte Zielwerte für Ausgabeknoten definiert. Im Kontext des Erlernens motorischer Bewegungsabläufe entspricht dies der Annahme, daß die angemessene Aktivation jedes gewisse Muskelkontraktionen steuernden Neurons zu jedem Zeitpunkt von vornherein bekannt ist. Solche Annahmen sind unrealistisch, wenn es um die Erklärung der Lernvorgänge in biologischen Systemen geht. Auch das ambitionierte Ziel der Konstruktion von Robotern, die ohne Lehrer aus Versuch und Irrtum zielgerichtete Verhaltensweisen lernen, läßt sich mit den bisher beschriebenen überwachten Lernverfahren alleine nicht erreichen.

Wir betrachten daher nun den Fall, daß die gewünschten Ausgaben nicht von vornherein bekannt sind, sondern lediglich eine die durch Aktionen eines `Steuermoduls' hervorgerufenen Umgebungszustände bewertende Evaluierungsfunktion gegeben ist. Aufgrund der zwischen Ausgabe des Steuermoduls und Evaluierung zwischengeschalteten Umgebungsdynamik nennen wir die Evaluierungsfunktion ein distanziertes Performanzmaß. Im gleichen Sinne sprechen wir von einem distanzierten Lehrer (`distal teacher', [41]).

Ein Beispiel liefert das sogenannte Lernen durch `Reinforcement', im folgenden auch R-Lernen genannt (unglücklicherweise existiert für R-Lernen kein passender deutscher Name). Beim R-Lernen teilt die Umgebung einem lernenden Agenten mittels ihrer (meist sehr einfachen) Evaluierungsfunktion mit, ob der gegenwärtige Zustand der Umgebung `gut' oder `schlecht' ist, oft erlaubt das Performanzmaß auch Zwischenabstufungen wie `mittelgut' etc... Die Ausgabe der Evaluierungsfunktion kann als Schmerz- oder Lustsignal interpretiert werden. Die Schwierigkeit beim R-Lernen besteht darin, daß keine Information geliefert wird, die sich sofort in einen Gradienten für die Ausgabeknoten (und damit mittels Kettenregel in einen Gradienten für die versteckten Knoten) ummünzen ließe. Ob ein bestimmter Ausgabeknoten zu einem gegebenen Zeitpunkt mehr oder weniger aktiv sein soll, ist (im Gegensatz zu den in den Kapiteln 2 und 3 beschriebenen Verfahren) aus dem Performanzmaß alleine nicht sofort ersichtlich.

Dieses Kapitel beschäftigt sich im ersten Beitrag mit Situationen, in denen Grund zur Annahme besteht, daß die Abbildung von Netzwerkausgaben auf Performanzmaß in differenzierbarer Weise modelliert werden kann4.1. Das Modell läßt sich seinerseits durch ein separates adaptives Netzwerk mittels eines separaten Hilfsperformanzmaßes erstellen. Das Hilfsmodul dient zur Überbrückung der zwischen Netzausgaben und Zielfunktion klaffenden `Differenzierbarkeitslücke'. Seine Existenz ermöglicht die Anwendung der Kettenregel zur Berechnung des Gradienten für das uns eigentlich interessierende Steuermodul.

Im zweiten (originären) Beitrag vertiefen wir die Analyse differenzierbarer Modelle von Steuerprogrammeffekten und beschreiben sowohl azyklische als auch rekurrente neuronale `Subzielgeneratoren'. Letztere sind Netze, die mittels Kettenregel lernen, als Antwort auf eine Kombination des gegenwärtigen Umgebungszustandes und eines gewünschten Zielzustandes eine Liste geeigneter Subziele auszugeben. Mit Hilfe dieser Subzielgeneratoren werden experimentell Pfadfindungsprobleme in zweidimensionalen Welten mit Hindernissen gelöst.



Unterabschnitte
next up previous contents
Nächste Seite: WELTMODELLBAUER Aufwärts: NETZWERKARCHITEKTUREN, ZIELFUNKTIONEN UND KETTENREGEL Vorherige Seite: SCHLUSSBEMERKUNGEN   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite