next up previous contents
Nächste Seite: Gleichungen für diskrete Zeit Aufwärts: Der grundlegende Algorithmus Vorherige Seite: Zusammenfassung   Inhalt

Intuitive Erklärung

Wir wollen das Eimerkettenprinzip für regelbasierte Systeme (siehe letztes Kapitel) transformieren und so auf neuronale Netzwerke anwenden, daß der resultierende Lernalgorithmus lokal in Raum und Zeit ist.

Wir gehen aus von einem willkürlich gewählten (möglicherweise zyklischen) gerichteten Graphen, der uns die Netztopologie definiert. Jeder Knoten entspricht einer neuronenähnlichen konventionellen Prozessoreinheit. Zu jeder Kante gehört ein mit einem positiven Wert initialisiertes reelles Gewicht. Manche der Knoten dienen als Eingabeknoten, andere als Ausgabeknoten. Aktivierungen von Ausgabeknoten werden interpretiert als Steuersignale für Effektoren, die den Zustand der Umgebung beeinflussen können. Damit mag sich auch die Aktivierung der Eingabeknoten zum nächsten Zeitpunkt ändern. Also sind sowohl interne als auch externe Rückkopplung prinzipiell erlaubt (Abb. 4.1).

Abbildung: Von der Umgebung im Erfolgsfall vergebene Gewichtssubstanz fließt durch einen lernenden autonomen Agenten, der in einer veränderlichen manipulierbaren Umgebung lebt. Die Richtung des von den Perzeptoren ausgehenden Aktivationsstromes ist der Richtung des den Ausgabeeinheiten entspringenden Gewichtsstromes entgegengesetzt. Ausschließlich lokale Berechnungen dienen der Anpassung des Agenten. (Nähere Erläuterungen im Text.)

Zunächst brauchen wir ein Analogon zu dem Prozeß des `Gewinnens' bei Klassifikatorensystemen.

Das Element des wechselseitigen Wettbewerbs kann bei neuronalen Netzen in traditioneller Art durch laterale Inhibition der Netzknoten eingeführt werden. Um statt globalen Wettbewerbs einen lokalen zu bekommen, partitionieren wir die Menge der Nicht-Eingabeknoten des Netzwerkes in disjunkte Untermengen, von nun an als WTA-Einheiten (`WTA' für `winner-take-all') bezeichnet. Zu einem gegebenen Zeitpunkt hemmen sich alle Knoten einer WTA-Einheit gegenseitig proportional zur Stärke ihrer gegenwärtigen Eingabe von anderen Knoten. Zunächst nehmen wir an, daß nur der `Sieger' selbst aktiv wird, und die `Verlierer schweigen'. Eine WTA-Einheit mit $n$ Knoten kann also nur $n$ verschiedene Zustände haben. Jede WTA-Einheit muß demnach mindestens zwei Knoten enthalten, um überhaupt Sinn zu machen.

Zunächst nehmen wir an, daß alle Knoten dem `sofortigen Aktivationsschwund' unterliegen: Einem gegenwärtig aktiven Knoten gelingt es noch, seine Aktivationsbeiträge für Aktivationen von anderen Knoten zum nächsten Zeitpunkt zu verschicken. Danach wird er sofort `ausgeschaltet'.

Der Lernvorgang für Ausgabeknoten ist nun trivial: Ein externer Kritiker beurteilt die Effekte der Aktionen des Gesamtsystems. Ist der Kritiker zufrieden, so stärkt er die Gewichte aller Verbindungen auf die gegenwärtig aktiven Knoten proportional zu dem jeweiligen `Beitrag', den diese Verbindung zuletzt geliefert hat. Der Beitrag ist einfach das Produkt des entsprechenden Gewichtes und der entsprechenden Aktivation.

Um auch diejenigen Gewichte am Lernprozeß zu beteiligen, die zu früheren Zeitpunkten überhaupt erst die Voraussetzungen für den späteren Erfolg schufen, brauchen wir jetzt noch ein Analogon zu dem Prozeß des `Bietens' und des `Verteilens von Stärke' bei Klassifikatorensystemen.

Dazu gehen wir wie folgt vor: Alle von einem zur Zeit $t$ aktiven Netzknoten $k$ ausgehenden Verbindungen (falls vorhanden), die zu einem zur Zeit $t+1$ aktiven Netzknoten führen, opfern einen Teil ihrer Gewichtssubstanz. Diese Gewichtssubstanz wird unter denjenigen Verbindungen (falls vorhanden) proportional zu ihren jeweiligen Beiträgen verteilt, die durch die Weiterleitung von Aktivationen des Zeitpunkts $t-1$ die Aktivation von $k$ auslösten.

Da die Gewichte die kontextabhängige Aktivation von Knoten bestimmen, werden `Gewinner' somit dafür `bezahlt', ihren Nachfolgern das Privileg der Aktivierung zu gestatten. Eingabeknoten haben keine eingehenden Verbindungen, die sie stärken könnten, sie werden nur durch die Umgebung aktiviert. Daher repräsentieren die Eingabeknoten Löcher, durch welche Gewichtssubstanz auf Nimmerwiedersehen verschwindet.

Abgesehen von der Gewichtssubstanz, die das Netzwerk durch die Eingabeknoten verläßt, und von der, die durch die Ausgabeknoten in das Netzwerk hineinfließt, bleibt die Gesamtmenge aller sich im System befindlichen Gewichtssubstanz offensichtlich konstant.

Damit bekommen wir ein dissipatives System, welches von der Umgebung zur Verfügung gestellte Gewichtssubstanz konsumiert. Die einzige Möglichkeit für das System, sein Konsumverhalten aufrecht zu erhalten oder gar den Durchsatz zu erhöhen, besteht in der Ausführung von erfolgreichen Aktionssequenzen.


next up previous contents
Nächste Seite: Gleichungen für diskrete Zeit Aufwärts: Der grundlegende Algorithmus Vorherige Seite: Zusammenfassung   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite