Nächste Seite: Drei interagierende Netzwerke Aufwärts: Mehrdimensionale adaptive Kritiker & Vorherige Seite: Kompliziertere statische Kritiker, kompliziertere Inhalt

Multidimensionale adaptive Kritiker

Durch den adaptiven Kritiker verbessert sich die Aussagekraft des effektiven Reinforcementsignals im Vergleich zu Systemen ohne interne Bewertungsfunktionsgeneratoren ganz gewaltig. Allerdings sind A3's Kritiker sowie die von allen anderen Autoren verwendeten Kritiker eindimensional. Ihre Voraussage bezieht sich stets auf einen skalaren Wert, wie z.B. das kumulative zu erwartende Reinforcement. In globaler Weise wird ein und dasselbe interne R-Signal zur recht pauschalen Änderung aller Gewichte im Steuernetz herangezogen. Das R-Signal wirkt also zu einem gegebenen Zeitpunkt immer noch unspezifisch auf alle Netzwerkverbindungen ein. Es gibt keine `individuell maßgeschneiderten Reinforcementsignale' [77]. Kein Unterschied wird z.B. zwischen verschiedenen Arten von Reinforcement getroffen. Dies scheint im Kontrast zur Funktionsweise biologischer Organismen zu stehen: Letzere verfügen i.a. über verschiedenartigste Schmerz- bzw. Lustsensoren und scheinen diese Reinforcementvielfalt nicht in einen einzigen skalaren Wert zu kollabieren.

Was sind die zu erwartenden Vorteile multidimensionaler R-Voraussagen? Intuitiv würde man erhoffen: Ein verfeinertes Modell der zu erwartenden Vor- und Nachteile bestimmter Handlungsweisen sollte auch eine informiertere Modifikation erfolgloser Handlungen ermöglichen. Weiß man, wie stark welcher Ausgabeknoten zu welchen Komponenten des internen Reinforcementvektors beitrug, so kann man maßgeschneiderte Gewichtsänderungen für das Steuernetz generieren. Weiterhin kann es sein, daß eine Abbildung von Eingaben auf vektorwertiges Reinforcement leichter zu erlernen ist als die entsprechende Abbildung auf skalares Reinforcement.

Ein verfeinertes Modell bekommt man allerdings nicht einfach durch Erweiterung der Ausgabedimensionalität des Kritikers zur Vorhersage verschiedener Arten von Reinforcement. Zusätzlicher Aufwand muß für die sinnvolle Umsetzung der internen Voraussagen in Steuernetzänderungen getrieben werden. Im folgenden wird ein 3-Netzwerk-Schema zur Berechnung informierter Gewichtsänderungen aus einem u.U. vektorwertigen internen R-Signal vorgestellt.

Unterabschnitte

Nächste Seite: Drei interagierende Netzwerke Aufwärts: Mehrdimensionale adaptive Kritiker & Vorherige Seite: Kompliziertere statische Kritiker, kompliziertere Inhalt

Juergen Schmidhuber 2003-02-20