next up previous contents
Nächste Seite: ABSCHLIESSENDE BEMERKUNGEN Aufwärts: VORHERSAGBARKEITSMINIMIERUNG UND ZEIT Vorherige Seite: VORHERSAGBARKEITSMINIMIERUNG UND ZEIT   Inhalt

EXPERIMENTE MIT SEQUENZEN

Die folgenden Experimente zur Kodierung von sequentiell (buchstabenweise) dargebotenen Wörtern mit gleichen Endungen sowie von in einem visuellen Feld wandernden Balken (durchgeführt in Zusammenarbeit mit Stefanie Lindstädt, CU) zeigen die prinzipielle Anwendbarkeit des in Abschnitt 6.7 vorgestellten Verfahrens auf einfache Quellencodierungsprobleme.

Der erste verwendete Datensatz bestand aus den 4 englischen Wörtern `main', `vain', `rain', und `pain'. Diese zeichnen sich durch gleiche Endungen aus und unterscheiden sich lediglich im jeweils ersten Buchstaben. Um nach der sequentiellen Beobachtung eines Wortes eine eindeutige Sequenzrepräsentation liefern zu können, muß das System also lernen, 4 Zeitschritte in die Vergangenheit zu blicken.

Da der Datensatz 16 Subsequenzen erlaubt (welche alle eindeutig repräsentiert werden müssen), ergab sich die Eingabeentropie zu 4 bit. Da die Eingabecodierung der Buchstaben dem 7 bit ASCII-Code entsprach, betrug die Redundanz 2.08.

Experiment 18: `on-line', 7 Eingabeknoten, 8 rekurrente Repräsentationsknoten, keine versteckten Knoten für die Repräsentationsmodule, ebensoviele versteckte Knoten pro Prediktor wie Prediktoreingabeknoten, Verzicht auf Fehlerrückpropagierung durch Prediktoreneingabeknoten, Prediktorenlernrate 1.0, Repräsentationsmodullernrate 0.1. 5 Testläufe mit je 5000 zufällig gewählten Sequenzdarbietungen wurden durchgeführt. Resultate: Durchschnittliche Informationstransmission ${\cal I} (x,y) = 2.6$ bit (das theoretische Maximum liegt, wie bereits erwähnt, bei 4.00 bit), durchschnittliche statistische Abhängigkeit der Codesymbole ${\cal D} = 0.6$.

Experiment 19: Wie Experiment 18, aber mit 6 Repräsentationsknoten. Resultate: ${\cal I} (x,y) = 3.0$ bit, ${\cal D} = 1.25$.

Experiment 20: Wie Experiment 19, aber mit 8 Repräsentationsknoten. Resultate: ${\cal I} (x,y) = 3.8$ bit, ${\cal D} = 1.65$.

Experiment 21: Wie Experiment 20, aber mit 14 Repräsentationsknoten. Resultate: ${\cal I} (x,y) = 4.00$ bit (theoretisches Maximum), ${\cal D} = 3.00$.

Erneut wird der `trade-off' zwischen Informationstransmission und statistischer Abhängigkeit der Codesymbole deutlich. Bei 14 Repräsentationsknoten fand das System schließlich immer eine eindeutige Codierung aller Sequenzen und Subsequenzen, was einer deutlichen Redundanzminderung entspricht - $4 \times 7$ bit sind doppelt soviel wie 14 bit.

Der zweite verwendete Datensatz ergab sich durch Sequenzen von Eingabevektoren, welche dadurch erzeugt wurden, daß Balken vierer verschiedener Orientierungen nach einer der beiden zum Balken senkrechten Richtungen sequentiell quer über ein aus $8 \times 8$ Pixeln bestehendes Pixelfeld wanderten. Die Breite eines Balkens betrug ein Pixel, seine Enden ragten während seiner Wanderung stets über das Pixelfeld hinaus. Die vier möglichen Balkenorientierungen waren: 0 Grad, 45 Grad, 90 Grad und 135 Grad. Zu jedem gegebenen Zeitpunkt war genau ein Balken sichtbar. Diese Versuchsanordnung zieht 64 mögliche beobachtbare Subsequenzen nach sich, welche alle eindeutig zu repräsentieren sind. Die Eingabeentropie beträgt demnach 6.0 bit. Man beachte, daß jeder Eingabevektor in zwei verschiedenen Sequenzen auftaucht - es kommt zur Disambiguierung also auf den zeitlichen Kontext an. Die Redundanz ist aufgrund der zahlreichen unterschiedlichen denkbaren, sich über 8 Zeitschritte erstreckenden Sequenzen sehr hoch.

Experiment 22: `on-line', 64 Eingabeknoten, 6 rekurrente Repräsentationsknoten, keine versteckten Knoten für die Repräsentationsmodule, ebensoviele versteckte Knoten pro Prediktor wie Prediktoreingabeknoten, Prediktorenlernrate 1.0, Repräsentationsmodullernrate 0.1. 5 Testläufe mit je 10000 zufällig gewählten Sequenzdarbietungen wurden durchgeführt. Resultate: Durchschnittliche Informationstransmission ${\cal I} (x,y) = 5.4$ bit (das theoretische Maximum liegt bei 6.00 bit), durchschnittliche statistische Abhängigkeit der Codesymbole ${\cal D} = 0.5$.

Experiment 23: Wie Experiment 22, aber mit 14 Repräsentationsknoten. Resultate: ${\cal I} (x,y) = 6.00$ bit (theoretisches Maximum), ${\cal D} = 3.2$.

Bei 14 Repräsentationsknoten fand das System erneut fast immer eine eindeutige Codierung aller Sequenzen und Subsequenzen, was wiederum eine deutlichen Redundanzminderung zur Folge hat - $8 \times 64 $ bit sind ein Vielfaches von 14 bit.

Trotz ihrer prinzipiellen Anwendbarkeit ist die in Abschnitt 6.7 vorgestellte Methode allerdings gelegentlich weniger brauchbar wie die Verfahren des nächsten Kapitels, welches tiefer in das unüberwachte Lernen eindeutiger Sequenzrepräsentationen einsteigen wird.


next up previous contents
Nächste Seite: ABSCHLIESSENDE BEMERKUNGEN Aufwärts: VORHERSAGBARKEITSMINIMIERUNG UND ZEIT Vorherige Seite: VORHERSAGBARKEITSMINIMIERUNG UND ZEIT   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite