next up previous contents
Nächste Seite: Zielgerichtetes Lernen Aufwärts: Die Art der verwendeten Vorherige Seite: Statische und dynamische Lernalgorithmen   Inhalt

Markov-Prozesse

Schränkt man sich auf geeignete Umgebungen ein, so vermindert sich die Bürde des fundamentalen Lernproblems unter Umständen ganz erheblich. Die wenigen Ansätze zum Lernen in reaktiver Umgebung beschränkten sich bisher auf Markov-artige Umgebungen.

Ein sogenannter diskreter $n$-stufiger Prozeß ist ein Prozeß, bei dem der Zustand des Prozesses durch $n$ aufeinanderfolgende `Entscheidungen' (Aktionen) geändert wird. Ein diskreter $n$-stufiger Prozeß hat die Markov-Eigenschaft, wenn nach $k$ Entscheidungen der Effekt der ausstehenden $n-k$ Entscheidungen auf eine den `Nutzen' von Entscheidungsfolgen bestimmende Kostenfunktion nur noch von dem Zustand des Systems nach der $k$-ten Entscheidung und den folgenden Entscheidungen abhängt.

Viele deterministische Prozesse sind Markov-Prozesse. Beispiele sind nahezu alle Brettspiele: Es kommt nicht darauf an, wie man zu einem Spielzustand gekommen ist. Zu jedem Zeitpunkt ist alle Information, die man zum Weiterspielen braucht, in dem gegenwärtigen Zustand enthalten. Auch das oben erwähnte Balancierproblem kann zu einem Markov-Problem vereinfacht werden, wenn der Roboter zu jedem Zeitpunkt die zeitlichen Ableitungen der Stabposition als zusätzliche Eingabe bekommt.

Viele Prozesse sind jedoch keine Markov-Prozesse. Insbesondere für biologische Systeme typische Handlungsweisen hängen oft nicht nur vom gegenwärtig wahrnehmbaren Zustand der Umgebung ab, sondern auch von vergangenen Perzeptionen. Wir unterscheiden daher im folgenden zwischen Markov-Umgebungen und Nicht-Markov-Umgebungen und beziehen uns dabei auf die Natur der Schnittstelle zwischen Umgebung und Lernsystem: In einer Markov-Umgebung reicht stets die letzte Eingabe zur Voraussage der nächsten Eingabe aus. In Nicht-Markov-Umgebungen sind unter Umständen beliebig weit zurückliegende vergangene Ereignisse mit zu berücksichtigen.


next up previous contents
Nächste Seite: Zielgerichtetes Lernen Aufwärts: Die Art der verwendeten Vorherige Seite: Statische und dynamische Lernalgorithmen   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite