next up previous contents
Nächste Seite: Kritik und Ausblick Aufwärts: Abschließende Bemerkungen Vorherige Seite: Umgebungsmodelle zum Planen von   Inhalt

Sichtweise: Ziele nach Programmen differenzieren

Im letzten Abschnitt wurde gesehen, daß man mit konnektionistischen Algorithmen bereits in Bereiche vorstoßen kann, die bis vor kurzem noch konventioneller AI vorbehalten schienen. Hier stellen wir nun einige Betrachtungen zu den Unterschieden zwischen konventionellen AI-Methoden und den oben vorgestellten Methoden an.

Man betrachte ein Netzwerk mit vorgegebener Topologie und vorgegebenen Aktivierungsfunktionen als einen Rechner. Sein Programm ist die Gewichtsmatrix. Eine der interessantesten Eigenheiten vieler neuronaler Netze besteht darin, daß die Netzausgaben nach der Gewichtsmatrix differenzierbar sind. Damit sind also Programmausgaben nach Programmen differenzierbar. Ein einfacher Programmgenerator, nämlich die Gradientenabstiegsprozedur, erlaubt die Generierung zunehmend erfolgreicherer Programme, falls die gewünschten Netzausgaben bekannt sind.

In für R-Lernen typischen Situationen ist die Umgebung nicht a priori in differenzierbarer Form repräsentiert. A2 zieht seine Existenzberechtigung aus seiner Fähigkeit, die Umgebung durch ein differenzierbares Umgebungsmodell zu ersetzen. Die Gewichtsmatrix des Umgebungsmodells dient ihrerseits als Programm, dessen Eingaben die Ein- und Ausgaben des zu verbessernden `Hauptprogramms' (der Steuermatrix) sind. Mit Hilfe des Umgebungsmodells (und der Kettenregel) werden sogar gewisse Programmeingaben nach dem Steuerprogramm differenzierbar. Das differenzierbare Umgebungsmodell erlaubt also dem Programmgenerator eine informierte Suche nach zunehmend besseren Programmen. (Im 8. Kapitel gehen wir sogar noch einen Schritt weiter, dort machen wir Programmeingaben differenzierbar in Bezug auf Programmnamen.)

Der Grad der Informiertheit dieser Suche ist der gewichtigste Unterschied zwischen A2's Arbeitsweise und den Arbeitsweisen anderer Algorithmen für R-Lernen. A2 braucht zwar mehr Spitzenberechnungsaufwand als zum Beispiel die völlig lokale neuronale Eimerkette. Dank seiner informierteren Suche nach adäquaten Programmen kann von A2 jedoch erwartet werden, daß er weniger Gesamtberechnungsaufwand für viele nicht-triviale Probleme benötigt. Z.B. war das von A2 gelöste Flip-Flop-Problem von der neuronalen Eimerkette überhaupt nicht lösbar.


next up previous contents
Nächste Seite: Kritik und Ausblick Aufwärts: Abschließende Bemerkungen Vorherige Seite: Umgebungsmodelle zum Planen von   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite