Für einige der in späteren Kapiteln vorgestellten Problembereiche bieten sich Methoden der zeitlichen Differenzen an, um bestimmte Eigenschaften einer dynamischen Umgebung zu modellieren. Das durch TD-Methoden gewonnene Modell dieser Eigenschaften kann für die adaptive Konstruktion zielgerichteter Programme ausgenützt werden. Dieser Abschnitt liefert die nötigen Grundlagen.
Es liege eine Sequenz von Beobachtungen eines dynamischen Systems zu aufeinanderfolgenden Zeitpunkten vor. Das Problem besteht darin, zu jedem Zeitpunkt eine Vorhersage über den finalen Zustand zu treffen. Purer Gradientenabstieg würde bedeuten:
Dabei ist wieder der Gewichtsvektor des Netzes, eine positive Lernrate, und die von der Lernregel induzierte Gewichtsänderung.
TD-Methoden werden im Gegensatz dazu nun wie folgt definiert:
Hierbei ist ein `Schwundfaktor', welcher bestimmt, wie stark vergangene Voraussageänderungen in die Gewichtsänderung mit einfließen.
Bei den TD-Methoden handelt es sich um eine Generalisierung des Gradientenabstiegs. Für ergibt sich mit etwas Hin- und Herschaufeln von Indizes nämlich exakt der pure Gradientenabstieg.
Für allerdings bekommt man etwas, was kein Gradientenabstieg ist. Ist das, was man da erhält, nun gut, oder ist es schlecht? Es läßt sich zeigen, daß TD mit zumindest für spezielle Arten von dynamischen Systemen bessere Voraussagen ermöglicht als der pure Gradientenabstieg TD: Unter der Voraussetzung, daß das vorherzusagende System sich als ein absorbierender Markov-Prozeß beschreiben läßt, konnte Sutton demonstrieren, daß lineare TD zu den optimalen Voraussagen (im Sinne der `maximum likelihood estimates') konvergiert [67]. (Wiederholung: Ein Markov-Prozeß ist ein Prozeß, bei dem die Weiterevolution von einem gegebenen Zustand zur Zeit nicht von früheren Zuständen abhängt. Ein absorbierender Markov-Prozeß ist einer, bei dem die Wahrscheinlichkeit der Terminierung ist.)
Ein weiterer wichtiger Vorteil der TD-Methoden ist ihre Zugänglichkeit für inkrementelle Gewichtsänderungen und dem damit verbundenen niedrigen Spitzenberechnungsaufwand. Am deutlichsten wird das für den Fall, der uns im weiteren am meisten interessieren soll, nämlich TD. Man führt für jeden Zeitpunkt einen Wert ein, welcher sich wie folgt berechnet:
liefert die Gesamtgewichtsänderung, welche stattfindet, nachdem alle Beobachtungen gemacht wurden. Schon während das dynamische System beobachtet wird, kann man in akkumulativen Variablen die Summe der bisher berechneten Gewichtsänderungen für jedes Gewicht inkrementell auf den neuesten Stand bringen. Daher ist der Spitzenberechnungsaufwand pro Zeitschritt und Gewicht .
Will man ein Verfahren, das komplett `on-line' arbeitet, so kann man jede Gewichtsänderung in dem Moment durchführen, in dem sie berechnet wird. Für den TD-Fall bedeutet das:
Dabei ist die entsprechende Voraussage basierend auf und .
Auch für Voraussagen kumulativer Art sind TD-Methoden geeignet.
Später wird es zum Beispiel darauf ankommen, zu jedem
Zeitpunkt eine Summe noch ausstehender Reinforcementsignale
zu allen späteren Zeitpunkten
vorherzusagen. Nach der Lernphase soll für alle gelten:
Hierbei kann für angemessenes
unendlich sein, denn
ist
wieder eine `Discountrate', welche
bestimmt, wie stark Erwartungen über verschieden weit in
der Zukunft liegende Ereignisse die
Gewichtsänderung mit beeinflussen sollen.
Da nach obiger Gleichung
Für den `on-line' Fall muß man Voraussagen wiederum mit Indizes versehen, die Gewichtsvektoren zu verschiedenen Zeitpunkten anzeigen.
Man sollte nicht vergessen, daß die vorausgesetzte Markov-Eigenschaft in der Praxis oft nicht gegeben ist. Für den Fall, daß die Umgebung (oder zumindest die für ein lernendes System wahrnehmbare Umgebung) nicht vom Markov-Typ ist, kann man allerdings TD-Methoden und generelle Gradientenabstiegsverfahren für rekurrente Netze in sinnvoller Weise kombinieren, wie sich in Kapitel 6 zeigen wird.