next up previous contents
Nächste Seite: Ein Netz für mehrere Aufwärts: Experimente zur adaptiven räumlichen Vorherige Seite: Experimente zur adaptiven räumlichen   Inhalt

Zielerkennung ohne Rotationen

Man betrachte Abbildung 7.1. Eine visuelle Szene ist durch ein schwarzes Objekt vor weißem Hintergrund oder ein weißes Objekt vor schwarzem Hintergrund gegeben, welches auf einem 512 x 512 Pixel umfassenden Pixelfeld plaziert ist. Sowohl während des Trainings als auch in der Testphase wurde die Position des Objektes für jeden neuen `Versuch' zufällig gewählt. Statt (wie im einfachsten statischen Ansatz ) Hunderttausende von Eingabeknoten zu verwenden, wurden nur 40 Eingabeknoten benötigt. Zum Ausgleich saßen diese dafür auf dem beweglichen Fokus, welcher im wesentlichen einer zweidimensionalen Retina nachgebildet war. Der Fokusdurchmesser war ungefähr gleich dem Objektdurchmesser. Die `rezeptiven Felder' der 40 Eingabeknoten sind in der ersten Abbildung durch Kreise mit entsprechendem Radius symbolisiert. Zu einem gegebenen Zeitpunkt wurde die Aktivation eines Eingabeknotens durch die durchschnittlichen Werte (Schwarz = 1, weiß = 0) aller im zugehörigen rezeptiven Feld liegenden Pixel berechnet. Auch die Position des Fokus relativ zum Objekt wurde zu Beginn jeder Fokustrajektorie zufällig gewählt, allerdings so, daß eine teilweise Überlappung des Objektes durch die rezeptiven Felder des Fokus gegeben war. Auf den Abbildungen (z.B. Abbildung 7.2) wird die Position des Fokuszentrum für verschiedene Zeitpunkte jeweils durch einen Pfeil symbolisiert. Der Fokus wurde im Laufe eines Versuches durch die Aktivationen von 4 Ausgabeknoten des Steuernetzwerkes $C$ bewegt. Diese waren für horizontale und vertikale Bewegungen zuständig: Für jede der Richtungen `Nord', `Süd', `Ost' und `West' gab es einen Ausgabeknoten. Zu jedem Zeitschritt wurde die Aktivation jedes Ausgabeknotens durch eine einfache Multiplikationsoperation in den Bereich zwischen 0 Pixeldurchmessern und 20 Pixeldurchmessern transformiert. Das Resultat wurde als die Länge eines Vektors in der dem jeweiligen Ausgabeknoten entsprechenden Richtung interpretiert. Schließlich wurde die Fokusbewegung durch Addition der vier entsprechenden Vektoren errechnet. $C$ besaß 20 versteckte Knoten. $M$ verfügte über 40+4 Eingabeknoten sowie 40 Ausgabeknoten und 40 versteckte Knoten. Alle Nicht-Eingabeknoten verwendeten die logistische Aktivierungsfunktion $f(x)=\frac{1}{1+e^{-x}}$. Sowohl $M$ als auch $C$ waren intern vollständig vorwärtsvernetzt.

Zu Beginn der Lernphasen wurden alle Gewichte zufällig mit Zahlen aus dem Intervall $\left[-0.1, 0.1 \right]$ vorbesetzt. Bei der zuerst getesteten sequentiellen Version des Algorithmus wurde zunächst $M$ anhand von 50.000 zufällig gewählten Situations/Aktions-Paaren trainiert. Daraufhin lernte $C$ anhand von 10.000 Trainingstrajektorien. Während $C$'s Lernphase galt $k=5$. Dies entspricht $5*(2+2)=20$ Netzlagen in dem räumlich entfalteten dynamischen Netzwerk. Während der Arbeitsphase wurden 50 Zeitschritte pro Trajektorie gestattet. Der Wert 0.1 erwies sich als günstige Lernrate für sowohl $C$ als auch $M$.

Die Experimente zeigten, daß das System in der Lage ist, ohne Lehrer korrekte Sequenzen von Fokusbewegungen zu erlernen, obwohl das Modellnetzwerk häufig falsche Voraussagen liefert [64]. Voraussetzung war dabei, daß das Objekt zu Beginn einer Trajektorie wenigstens teilweise durch den Einzugsbereich der Retina überlappt wurde. Am Ende einer Trajektorie pflegte der Fokus dergestalt auf dem Zieldetail des Objektes zu sitzen, daß die finale Eingabe der gewünschten entsprach. Dabei war die Genauigkeit der Zielfindung nahezu optimal: Die finale Abweichung von der gewünschten Position betrug nie mehr als ein oder zwei Pixel.

Jede der abgebildeten 50-schrittigen Trajektorien benötigte auf einer SUN SPARC station etwa eine Sekunde Echtzeit (samt Graphikausgabe). Hätte man einen voll parallelen statischen Ansatz für dasselbe Zielfindungsproblem verwendet (indem man alle Pixel auf einmal betrachtet hätte), so hätte der Effizienzverlust Größenordnungen betragen. (Es ist auch anzunehmen, daß viel mehr Trainingsbeispiele vonnöten gewesen wären, dies konnte allerdings aus Mangel an Rechenzeit nicht getestet werden.)


next up previous contents
Nächste Seite: Ein Netz für mehrere Aufwärts: Experimente zur adaptiven räumlichen Vorherige Seite: Experimente zur adaptiven räumlichen   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite