Man betrachte Abbildung 7.1. Eine
visuelle Szene ist durch ein
schwarzes Objekt vor weißem Hintergrund oder ein weißes
Objekt vor schwarzem Hintergrund gegeben, welches
auf einem 512 x 512 Pixel umfassenden Pixelfeld plaziert ist.
Sowohl während des Trainings als auch in der Testphase
wurde die Position
des Objektes für
jeden neuen `Versuch' zufällig
gewählt.
Statt (wie im einfachsten statischen Ansatz )
Hunderttausende von Eingabeknoten zu verwenden, wurden nur 40 Eingabeknoten
benötigt. Zum Ausgleich saßen diese
dafür auf dem beweglichen Fokus, welcher im
wesentlichen einer zweidimensionalen Retina nachgebildet war.
Der Fokusdurchmesser war ungefähr gleich
dem Objektdurchmesser. Die `rezeptiven Felder' der
40 Eingabeknoten sind in der ersten Abbildung durch
Kreise mit entsprechendem Radius
symbolisiert. Zu einem gegebenen Zeitpunkt wurde
die Aktivation eines Eingabeknotens
durch die durchschnittlichen Werte (Schwarz = 1, weiß = 0)
aller im zugehörigen rezeptiven Feld liegenden Pixel berechnet.
Auch die Position des Fokus relativ
zum Objekt wurde zu Beginn jeder Fokustrajektorie
zufällig gewählt, allerdings so, daß eine teilweise Überlappung
des Objektes durch die rezeptiven Felder des Fokus gegeben war.
Auf den Abbildungen (z.B. Abbildung 7.2)
wird die Position des Fokuszentrum
für verschiedene Zeitpunkte jeweils
durch einen Pfeil symbolisiert. Der
Fokus wurde im Laufe eines Versuches
durch die Aktivationen von 4 Ausgabeknoten des
Steuernetzwerkes bewegt. Diese waren für
horizontale und vertikale Bewegungen zuständig: Für jede der
Richtungen `Nord', `Süd', `Ost' und `West' gab es einen
Ausgabeknoten.
Zu jedem Zeitschritt
wurde die Aktivation jedes Ausgabeknotens durch eine
einfache Multiplikationsoperation in den
Bereich zwischen 0 Pixeldurchmessern und 20 Pixeldurchmessern
transformiert. Das
Resultat wurde als die Länge eines Vektors in der dem
jeweiligen Ausgabeknoten entsprechenden
Richtung interpretiert. Schließlich wurde die
Fokusbewegung durch Addition der vier entsprechenden
Vektoren errechnet.
besaß 20 versteckte Knoten.
verfügte
über 40+4 Eingabeknoten sowie 40 Ausgabeknoten und
40 versteckte Knoten. Alle Nicht-Eingabeknoten verwendeten
die logistische Aktivierungsfunktion
.
Sowohl
als auch
waren intern
vollständig vorwärtsvernetzt.
Zu Beginn der Lernphasen wurden alle Gewichte zufällig mit
Zahlen aus dem Intervall
vorbesetzt.
Bei der zuerst getesteten sequentiellen Version
des Algorithmus wurde zunächst
anhand von 50.000 zufällig
gewählten Situations/Aktions-Paaren trainiert. Daraufhin
lernte
anhand von 10.000 Trainingstrajektorien.
Während
's Lernphase galt
.
Dies entspricht
Netzlagen in dem
räumlich entfalteten dynamischen Netzwerk. Während der Arbeitsphase
wurden 50 Zeitschritte pro Trajektorie gestattet.
Der Wert 0.1 erwies sich als günstige Lernrate
für sowohl
als auch
.
Die Experimente zeigten, daß das System in der Lage ist, ohne Lehrer korrekte Sequenzen von Fokusbewegungen zu erlernen, obwohl das Modellnetzwerk häufig falsche Voraussagen liefert [64]. Voraussetzung war dabei, daß das Objekt zu Beginn einer Trajektorie wenigstens teilweise durch den Einzugsbereich der Retina überlappt wurde. Am Ende einer Trajektorie pflegte der Fokus dergestalt auf dem Zieldetail des Objektes zu sitzen, daß die finale Eingabe der gewünschten entsprach. Dabei war die Genauigkeit der Zielfindung nahezu optimal: Die finale Abweichung von der gewünschten Position betrug nie mehr als ein oder zwei Pixel.
Jede der abgebildeten 50-schrittigen Trajektorien benötigte auf einer SUN SPARC station etwa eine Sekunde Echtzeit (samt Graphikausgabe). Hätte man einen voll parallelen statischen Ansatz für dasselbe Zielfindungsproblem verwendet (indem man alle Pixel auf einmal betrachtet hätte), so hätte der Effizienzverlust Größenordnungen betragen. (Es ist auch anzunehmen, daß viel mehr Trainingsbeispiele vonnöten gewesen wären, dies konnte allerdings aus Mangel an Rechenzeit nicht getestet werden.)