next up previous contents
Nächste Seite: Drei interagierende Netzwerke Aufwärts: Mehrdimensionale adaptive Kritiker & Vorherige Seite: Kompliziertere statische Kritiker, kompliziertere   Inhalt

Multidimensionale adaptive Kritiker

Durch den adaptiven Kritiker verbessert sich die Aussagekraft des effektiven Reinforcementsignals im Vergleich zu Systemen ohne interne Bewertungsfunktionsgeneratoren ganz gewaltig. Allerdings sind A3's Kritiker sowie die von allen anderen Autoren verwendeten Kritiker eindimensional. Ihre Voraussage bezieht sich stets auf einen skalaren Wert, wie z.B. das kumulative zu erwartende Reinforcement. In globaler Weise wird ein und dasselbe interne R-Signal zur recht pauschalen Änderung aller Gewichte im Steuernetz herangezogen. Das R-Signal wirkt also zu einem gegebenen Zeitpunkt immer noch unspezifisch auf alle Netzwerkverbindungen ein. Es gibt keine `individuell maßgeschneiderten Reinforcementsignale' [77]. Kein Unterschied wird z.B. zwischen verschiedenen Arten von Reinforcement getroffen. Dies scheint im Kontrast zur Funktionsweise biologischer Organismen zu stehen: Letzere verfügen i.a. über verschiedenartigste Schmerz- bzw. Lustsensoren und scheinen diese Reinforcementvielfalt nicht in einen einzigen skalaren Wert zu kollabieren.

Was sind die zu erwartenden Vorteile multidimensionaler R-Voraussagen? Intuitiv würde man erhoffen: Ein verfeinertes Modell der zu erwartenden Vor- und Nachteile bestimmter Handlungsweisen sollte auch eine informiertere Modifikation erfolgloser Handlungen ermöglichen. Weiß man, wie stark welcher Ausgabeknoten zu welchen Komponenten des internen Reinforcementvektors beitrug, so kann man maßgeschneiderte Gewichtsänderungen für das Steuernetz generieren. Weiterhin kann es sein, daß eine Abbildung von Eingaben auf vektorwertiges Reinforcement leichter zu erlernen ist als die entsprechende Abbildung auf skalares Reinforcement.

Ein verfeinertes Modell bekommt man allerdings nicht einfach durch Erweiterung der Ausgabedimensionalität des Kritikers zur Vorhersage verschiedener Arten von Reinforcement. Zusätzlicher Aufwand muß für die sinnvolle Umsetzung der internen Voraussagen in Steuernetzänderungen getrieben werden. Im folgenden wird ein 3-Netzwerk-Schema zur Berechnung informierter Gewichtsänderungen aus einem u.U. vektorwertigen internen R-Signal vorgestellt.



Unterabschnitte
next up previous contents
Nächste Seite: Drei interagierende Netzwerke Aufwärts: Mehrdimensionale adaptive Kritiker & Vorherige Seite: Kompliziertere statische Kritiker, kompliziertere   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite