next up previous contents
Nächste Seite: Kritik und Ausblick Aufwärts: Vergleich mit anderen Ansätzen Vorherige Seite: Bezug zu `Competitive Learning'   Inhalt

Bezug zu TD-Methoden

Es ist unwahrscheinlich, daß die neuronale Eimerkette einen Gradientenabstieg in einem vernünftigen globalen Performanzmaß durchführt. Möglicherweise bieten jedoch Suttons in Kapitel 2 beschriebene TD-Methoden [67] einen Rahmen für die Analyse der Konvergenzeigenschaften des Verfahrens [61] (TD-Methoden sind ja als eine Verallgemeinerung des Gradientenabstiegs anzusehen):

Sutton skizzierte einige Beziehungen zwischen TD-Methoden und Hollands `bucket brigade' für regelbasierte Systeme [67]. Betrachtet man Suttons Skizze im Lichte der Konzepte dieses Kapitels, so bietet sich folgende Sichtweise an: Zu einem gegebenen Zeitpunkt kann man das Gewicht $w_{ij}$ einer zu einem aktiven Knoten $j$ führenden Verbindung (oder ihren Wetteinsatz $\alpha w_{ij}$) als eine Voraussage der Gewichtssubstanz interpretieren, die diese Verbindung erhalten wird. Diese Vorraussage hängt rekursiv von den Voraussagen derjenigen Gewichte ab, die zu späteren Zeitpunkten Aktivierungsbeiträge leisten werden. Daher macht $w_{ij}$ auch eine Voraussage über die vom externen Kritiker zu vergebende Gewichtssubstanz, welche die Rekursion beendet. Ein dynamisches Equilibrium des Gewichtsflusses bedeutet, daß Voraussagen stets in Erfüllung gehen.

Unglücklicherweise gelang es aufgrund des durch die WTA-Einheiten eingeführten kompetitiven Elements nicht, eine Konvergenzanalyse der neuronalen Eimerkette durchzuführen. Ähnliches gilt allerdings für die etablierten Klassifikatorsysteme: Bis jetzt hat noch niemand ein Theorem bewiesen, welches aussagt, daß der `bucket brigade algorithm' für regelbasierte Systeme immer wie gewünscht funktionieren muß.


next up previous contents
Nächste Seite: Kritik und Ausblick Aufwärts: Vergleich mit anderen Ansätzen Vorherige Seite: Bezug zu `Competitive Learning'   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite