Assoziative Stochastische Lernautomaten (der Begriff
stammt von Williams [78])
sind für uns wesentlich interessanter, da sie zumindest schon
einmal Reaktionen auf Eingaben von der Umgebung erlauben.
Von den assoziativen stochastischen Lernautomaten interessiert
uns zunächst die quasilineare stochastische Einheit.
Die Wahrscheinlichkeit, daß
solch eine Einheit (im folgenden auch `Knoten' genannt)
mit der Nummer
die Ausgabe
produziert, hängt von einer
Wahrscheinlichkeitsverteilung ab, deren Dichtefunktion
nur einen Parameter
besitzt.
Dabei ist
die
-te Komponente des
Gewichtsvektors
des Knotens
,
die
-te Komponente seines Eingabevektors
,
und
eine mit
assoziierte sigmoide Funktion.
Als Spezialfall erwähnen wir den quasilinearen
Bernoulliknoten
: Für ihn ist
, mit
und
.
Barto und Anandan
[3] nennen Lernaufgaben, bei denen es
dem lernenden System möglich ist, Aktionen mit kontextueller
Zusatzinformation (gewonnen aus Eingaben von der
Umgebung) zu assoziieren, assoziative Reinforcement
Lernaufgaben (associative reinforcement learning tasks).
Barto und Anandan entwarfen den Assoziativen
Belohnungs-/Bestrafungsalgorithmus
(associative reward-penalty algorithm) für den Fall
binären Reinforcements
:
Williams setzte mehrere quasilineare Knoten zu einem azyklischen Netzwerk zusammen. Eine Aktivationsausbreitungsphase in solch einem Netz läuft analog zu der Aktivationsausbreitungsphase in einem Back-Propagation Netz ab. Der wesentliche Unterschied besteht in der stochastischen Natur der Aktivierungsfunktionen.
Das Reinforcementsignal ist wieder ein - diesmal allen
Knoten zugänglicher - skalarer Wert.
Vorausgesetzt wird nun, daß
für alle
(der Menge aller möglichen Ausgaben
von
)
Unter diesen Voraussetzungen bewies Williams eine interessante sich auf die Performanzverbesserung solcher Netzwerke beziehende Aussage [78]: Das innere Produkt
Was bedeutet dieses Resultat? Es zeigt, daß man für eine große Klasse von Lernalgorithmen im Mittel erwarten kann, daß sich die Gewichte in Richtung des Gradienten des Erwartungswerts des Reinforcements ändern.
Das ist ein sehr allgemeines und sehr wünschenswertes Ergebnis. Allerdings sind die von Williams so getauften `REINFORCE'-Algorithmen (`REward Increment = Nonnegative Factor * Offset Reinforcement * Characteristic Eligibility') nur dann zweckmäßig, wenn die Umgebung außer Reinforcementsignalen keine Zusatzinformation über wünschenswerte Ausgaben bereitstellt. Zwar sind REINFORCE-Algorithmen bei weitem allgemeiner als etwa Back-Propagation. Wo jedoch beide Paradigmen anwendbar sind, zieht man überwachte Gradientenabstiegsverfahren wegen ihrer erfahrungsgemäß weit schnelleren Konvergenz vor.
Die Lernregel für die REINFORCE-Algorithmen erlaubt eingeschränkte Lokalität in Zeit und Raum: Kein Analogon zur Fehlerpropagierungsphase beim überwachten Lernen ist notwendig. Jeder Knoten erhält nach der Aktivationsausbreitung dasselbe Reinforcementsignal. Allerdings müssen auch bei REINFORCE-Algorithmen Aktivationsausbreitung und Gewichtsänderung durch eine globale Instanz zeitlich getrennt werden.