Die folgenden Experimente zur Kodierung von sequentiell (buchstabenweise) dargebotenen Wörtern mit gleichen Endungen sowie von in einem visuellen Feld wandernden Balken (durchgeführt in Zusammenarbeit mit Stefanie Lindstädt, CU) zeigen die prinzipielle Anwendbarkeit des in Abschnitt 6.7 vorgestellten Verfahrens auf einfache Quellencodierungsprobleme.
Der erste verwendete Datensatz bestand aus den 4 englischen Wörtern `main', `vain', `rain', und `pain'. Diese zeichnen sich durch gleiche Endungen aus und unterscheiden sich lediglich im jeweils ersten Buchstaben. Um nach der sequentiellen Beobachtung eines Wortes eine eindeutige Sequenzrepräsentation liefern zu können, muß das System also lernen, 4 Zeitschritte in die Vergangenheit zu blicken.
Da der Datensatz 16 Subsequenzen erlaubt (welche alle eindeutig repräsentiert werden müssen), ergab sich die Eingabeentropie zu 4 bit. Da die Eingabecodierung der Buchstaben dem 7 bit ASCII-Code entsprach, betrug die Redundanz 2.08.
Experiment 18:
`on-line',
7 Eingabeknoten,
8 rekurrente Repräsentationsknoten,
keine versteckten Knoten für die Repräsentationsmodule,
ebensoviele versteckte Knoten pro Prediktor wie Prediktoreingabeknoten,
Verzicht auf Fehlerrückpropagierung durch Prediktoreneingabeknoten,
Prediktorenlernrate 1.0,
Repräsentationsmodullernrate 0.1.
5 Testläufe mit je 5000 zufällig gewählten Sequenzdarbietungen
wurden durchgeführt.
Resultate:
Durchschnittliche Informationstransmission
bit
(das theoretische Maximum liegt, wie bereits erwähnt, bei 4.00 bit),
durchschnittliche statistische Abhängigkeit der Codesymbole
.
Experiment 19:
Wie Experiment 18, aber mit 6 Repräsentationsknoten.
Resultate:
bit,
.
Experiment 20:
Wie Experiment 19, aber mit 8 Repräsentationsknoten.
Resultate:
bit,
.
Experiment 21:
Wie Experiment 20, aber mit 14 Repräsentationsknoten.
Resultate:
bit (theoretisches Maximum),
.
Erneut wird der `trade-off' zwischen Informationstransmission
und statistischer Abhängigkeit der Codesymbole deutlich.
Bei 14 Repräsentationsknoten fand das System schließlich immer eine
eindeutige
Codierung aller Sequenzen und Subsequenzen, was einer deutlichen
Redundanzminderung entspricht - bit sind doppelt
soviel wie 14 bit.
Der zweite verwendete Datensatz ergab sich durch Sequenzen
von Eingabevektoren, welche dadurch erzeugt wurden, daß
Balken vierer verschiedener Orientierungen
nach einer der beiden zum Balken senkrechten Richtungen
sequentiell quer über ein aus Pixeln
bestehendes Pixelfeld wanderten.
Die Breite eines Balkens betrug ein Pixel, seine Enden
ragten während seiner Wanderung stets über das Pixelfeld hinaus.
Die vier möglichen Balkenorientierungen waren:
0 Grad, 45 Grad, 90 Grad und 135 Grad.
Zu jedem gegebenen Zeitpunkt war
genau ein Balken sichtbar.
Diese Versuchsanordnung zieht 64 mögliche beobachtbare Subsequenzen
nach sich, welche alle eindeutig zu repräsentieren sind.
Die Eingabeentropie beträgt demnach 6.0 bit.
Man beachte, daß jeder Eingabevektor in zwei verschiedenen
Sequenzen auftaucht - es kommt zur Disambiguierung also
auf den zeitlichen Kontext an.
Die Redundanz ist aufgrund der zahlreichen unterschiedlichen
denkbaren, sich über 8 Zeitschritte erstreckenden
Sequenzen sehr hoch.
Experiment 22:
`on-line',
64 Eingabeknoten,
6 rekurrente Repräsentationsknoten,
keine versteckten Knoten für die Repräsentationsmodule,
ebensoviele versteckte Knoten pro Prediktor wie Prediktoreingabeknoten,
Prediktorenlernrate 1.0,
Repräsentationsmodullernrate 0.1.
5 Testläufe mit je 10000 zufällig gewählten Sequenzdarbietungen
wurden durchgeführt.
Resultate:
Durchschnittliche Informationstransmission
bit
(das theoretische Maximum liegt bei 6.00 bit),
durchschnittliche statistische Abhängigkeit der Codesymbole
.
Experiment 23:
Wie Experiment 22, aber mit 14 Repräsentationsknoten.
Resultate:
bit (theoretisches Maximum),
.
Bei 14 Repräsentationsknoten fand das System erneut fast immer eine
eindeutige
Codierung aller Sequenzen und Subsequenzen, was wiederum eine deutlichen
Redundanzminderung zur Folge hat - bit sind ein Vielfaches
von 14 bit.
Trotz ihrer prinzipiellen Anwendbarkeit ist die in Abschnitt 6.7 vorgestellte Methode allerdings gelegentlich weniger brauchbar wie die Verfahren des nächsten Kapitels, welches tiefer in das unüberwachte Lernen eindeutiger Sequenzrepräsentationen einsteigen wird.