next up previous contents
Nächste Seite: Sequenzerkennung Aufwärts: Die Experimente Vorherige Seite: Varianten der Dekodierprobleme   Inhalt

Sequenzgenerierung

Die hier beschriebene Aufgabe erfordert das oszillierende Verhalten gewisser Ausgabeknoten als Antwort auf eine stationäre Eingabe.

Zwei Eingabeknoten wurden mit einer aus drei Ausgabeknoten bestehenden WTA-Einheit `vorwärtsverbunden'. Die Ausgabeknoten waren untereinander bidirektional vollständig vernetzt. Die Aufgabe war es, den ersten und den zweiten Ausgabeknoten in alternierender Weise an- bzw. auszuschalten, solange der erste Eingabeknoten aktiv war. Der zweite Eingabeknoten diente der Wahrnehmung eines Stopsignals: Seine Aktivation mußte mit einer stationären Ausgabe des dritten Ausgabeknotens beantwortet werden.

Die Lehrmethode für dieses Problem demonstriert, wie ohne nennenswerten Aufwand ein `Lehrerzwang' (teacher forcing, ein im Zusammenhang mit einem ganz anderen überwachten Lernalgorithmus von Williams und Zipser geprägter Begriff [80]) eingeführt weden kann: Statt die tatsächlichen Aktivationen der Ausgabeknoten zur Zeit $t$ zur Berechnung der Ausgaben zur Zeit $t+1$ heranzuziehen, verwendet man einfach die gewünschten Aktivationen zur Zeit $t$.

Während das rekurrente Netzwerk ohne Vorgabe irgendwelcher Trainingsintervallgrenzen `vor sich hintickte', wurden die binären Eingabeaktivationen zu jedem Zeitpunkt zufällig gewählt. Zu einem gegebenen Zeitpunkt war genau ein Eingabeknoten aktiv. Dabei war die Wahrscheinlichkeit der Aktivierung des ersten Eingabeknotens gleich 75 Prozent, die Wahrscheinlichkeit der Aktivierung des zweiten Eingabeknotens betrug also 25 Prozent. Gewichtssubstanz wurde immer dann vergeben, wenn die `richtige' Ausgabeeinheit angeschaltet war. Innerhalb von meist weniger als 30 Zeitschritten fand das Netzwerk eine zufriedenstellende stabile Lösung seiner Aufgabe. Gerade wie bei Williams' und Zipsers Experimenten mit einem ganz ähnlichen Problem (und einem nicht lokalen Algorithmus) konnte die Aufgabe ohne Lehrerzwang nicht immer gelernt werden.


next up previous contents
Nächste Seite: Sequenzerkennung Aufwärts: Die Experimente Vorherige Seite: Varianten der Dekodierprobleme   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite