Wir gehen aus von einem willkürlich gewählten (möglicherweise zyklischen) gerichteten Graphen, der uns die Netztopologie definiert. Jeder Knoten entspricht einer neuronenähnlichen konventionellen Prozessoreinheit. Zu jeder Kante gehört ein mit einem positiven Wert initialisiertes reelles Gewicht. Manche der Knoten dienen als Eingabeknoten, andere als Ausgabeknoten. Aktivierungen von Ausgabeknoten werden interpretiert als Steuersignale für Effektoren, die den Zustand der Umgebung beeinflussen können. Damit mag sich auch die Aktivierung der Eingabeknoten zum nächsten Zeitpunkt ändern. Also sind sowohl interne als auch externe Rückkopplung prinzipiell erlaubt (Abb. 4.1).
Zunächst brauchen wir ein Analogon zu dem Prozeß des `Gewinnens' bei Klassifikatorensystemen.
Das Element des wechselseitigen Wettbewerbs kann bei
neuronalen Netzen in traditioneller Art durch laterale Inhibition
der Netzknoten eingeführt werden. Um statt globalen Wettbewerbs
einen lokalen zu bekommen, partitionieren wir die Menge der
Nicht-Eingabeknoten des Netzwerkes in
disjunkte Untermengen, von nun an als WTA-Einheiten (`WTA' für
`winner-take-all') bezeichnet.
Zu einem gegebenen Zeitpunkt hemmen sich alle Knoten einer
WTA-Einheit gegenseitig proportional zur Stärke ihrer
gegenwärtigen Eingabe von anderen Knoten. Zunächst
nehmen wir an, daß nur der `Sieger' selbst
aktiv wird, und die `Verlierer schweigen'.
Eine WTA-Einheit mit
Knoten kann also nur
verschiedene Zustände haben.
Jede WTA-Einheit muß demnach
mindestens zwei Knoten enthalten, um überhaupt Sinn zu machen.
Zunächst nehmen wir an, daß alle Knoten dem `sofortigen Aktivationsschwund' unterliegen: Einem gegenwärtig aktiven Knoten gelingt es noch, seine Aktivationsbeiträge für Aktivationen von anderen Knoten zum nächsten Zeitpunkt zu verschicken. Danach wird er sofort `ausgeschaltet'.
Der Lernvorgang für Ausgabeknoten ist nun trivial: Ein externer Kritiker beurteilt die Effekte der Aktionen des Gesamtsystems. Ist der Kritiker zufrieden, so stärkt er die Gewichte aller Verbindungen auf die gegenwärtig aktiven Knoten proportional zu dem jeweiligen `Beitrag', den diese Verbindung zuletzt geliefert hat. Der Beitrag ist einfach das Produkt des entsprechenden Gewichtes und der entsprechenden Aktivation.
Um auch diejenigen Gewichte am Lernprozeß zu beteiligen, die zu früheren Zeitpunkten überhaupt erst die Voraussetzungen für den späteren Erfolg schufen, brauchen wir jetzt noch ein Analogon zu dem Prozeß des `Bietens' und des `Verteilens von Stärke' bei Klassifikatorensystemen.
Dazu gehen wir wie folgt vor: Alle von einem
zur Zeit aktiven Netzknoten
ausgehenden Verbindungen (falls
vorhanden), die zu einem
zur Zeit
aktiven Netzknoten führen, opfern einen Teil
ihrer Gewichtssubstanz. Diese Gewichtssubstanz wird unter denjenigen
Verbindungen (falls vorhanden) proportional zu ihren jeweiligen Beiträgen
verteilt, die durch die Weiterleitung von
Aktivationen des Zeitpunkts
die Aktivation von
auslösten.
Da die Gewichte die kontextabhängige Aktivation von Knoten bestimmen, werden `Gewinner' somit dafür `bezahlt', ihren Nachfolgern das Privileg der Aktivierung zu gestatten. Eingabeknoten haben keine eingehenden Verbindungen, die sie stärken könnten, sie werden nur durch die Umgebung aktiviert. Daher repräsentieren die Eingabeknoten Löcher, durch welche Gewichtssubstanz auf Nimmerwiedersehen verschwindet.
Abgesehen von der Gewichtssubstanz, die das Netzwerk durch die Eingabeknoten verläßt, und von der, die durch die Ausgabeknoten in das Netzwerk hineinfließt, bleibt die Gesamtmenge aller sich im System befindlichen Gewichtssubstanz offensichtlich konstant.
Damit bekommen wir ein dissipatives System, welches von der Umgebung zur Verfügung gestellte Gewichtssubstanz konsumiert. Die einzige Möglichkeit für das System, sein Konsumverhalten aufrecht zu erhalten oder gar den Durchsatz zu erhöhen, besteht in der Ausführung von erfolgreichen Aktionssequenzen.