Ich möchte die Aufmerksamkeit des Lesers nun zunächst auf die Tatsache lenken, daß beispielsweise die `lernbare' Reber-Grammatik unter anderem auch sehr kurze (nur 5 Zeitschritte umfassende) Trainingssequenzen erlaubt. Damit ist gemeint, daß durch die zufällige Auswahl von Trainingssequenzen immer wieder welche vorkommen, bei denen die zeitlichen Abstände zwischen korrelierten Ereignissen so kurz werden, daß das rekurrente Netz lediglich ein paar Zeitschritte `in die Vergangenheit blicken' muß, um den entsprechenden Zusammenhang zu entdecken. Bei einer solch kleinen Zahl von Zeitschritten ist es für einen gradientenbasierten Algorithmus gewöhnlich relativ einfach, die Gewichte dergestalt zu adjustieren, daß das Netz relevante Ereignisse solange abspeichern kann, bis sie etwas später für die korrekte Ausgabe zum richtigen Zeitpunkt benötigt werden. Hat das Netz einmal gelernt, sich Eingaben aus kurzen Trainingssequenzen in geeigneter Weise zu merken, fällt es ihm im allgemeinen leicht, auf lange Ereignissequenzen derselben Art (d.h. mit denselben relevanten Ereignissen, nun aber durch größere zeitliche Lücken getrennt) zu `generalisieren'. Alle mir bekannten Experimente, so beeindruckend sie auf den ersten Blick auch erscheinen mögen, profitieren solcherart von kurzen Trainingssequenzen. Dies soll im folgenden detaillierter ausgeführt werden.
Bei gegebener Grammatik mag
die Aufgabe des Systems
z.B. darin bestehen, einen Strom von
Terminalsymbolen (ein Symbol pro Zeitschritt)
zu beobachten und schließlich zu beurteilen, ob die
beobachtete
Zeichenreihe ein Satz von
ist oder nicht.
Um das System zu trainieren, definiert man zweckmäßigerweise
eine zweite Grammatik
, die sogenannte Trainingsgrammatik.
dient dazu, Beispiele und Gegenbeispiele für von
produzierte Zeichenreihen zu liefern.
definiert damit die Lernumgebung des lernenden Systems.
Im folgenden bezeichnen Großbuchstaben wie
und
Nichtterminalsymbole, während Kleinbuchstaben
wie
Terminalzeichen denotieren.
wird stets als Startsymbol verwendet.
Die folgende sehr einfache reguläre Grammatik
produziert nur einen einzigen Satz. Damit ist sie
von der Komplexität her
wesentlich einfacher als die Reber-Grammatik, dennoch
reicht sie aus, um eine fundamentale Schwierigkeit
zu illustrieren:
Definieren wir nun die Trainingsgrammatik
als
produziert nur 2 Traininssequenzen, nämlich
und
.
In Experimenten stellt sich nun heraus, daß es den
gradientenbasierten Algorithmen für rekurrente Netze
bei typischer zufälliger
Gewichtsinitialisierung (im Bereich
)
schlechterdings unmöglich ist, innerhalb
von
Trainingssequenzen zu lernen,
die erste legale Zeichenreihe zu akzeptieren und die
zweite illegale Zeichenreihe abzulehnen.
Zwar könnte man nun die Aufgabe vereinfachen, indem
man durch
und
durch
ersetzt:
Im allgemeinen darf man jedoch nicht davon ausgehen, daß die Umgebung hilfreiche kurze Trainingssequenzen zur Verfügung stellt. Die folgenden Experimente erzählen uns etwas über die Grenzen der praktischen Anwendbarkeit rekurrenter Netze.