next up previous contents
Nächste Seite: Unüberwachtes Lernen Aufwärts: Zielgerichtetes Lernen Vorherige Seite: Überwachtes Lernen   Inhalt

R-Lernen

Ein Lernproblem ist ein Reinforcement-Lernproblem (ab jetzt auch oft `R-Lernproblem' genannt), wenn ein evaluativer Prozeß zu isolierten Zeitpunkten der Aktivationsausbreitungsphase eines Netzwerkes lediglich feststellt, ob das System sich in einem wünschenswerten Zustand befindet oder nicht. Keine Information über Strategien zum Erreichen wünschenswerter Zustände wird bereitgestellt. Während der Trainingsphase wird vom Netzwerk erwartet, daß es selbst Ausgabeaktionen entdeckt, die letztlich zu wünschenswerten Zuständen führen. Vom Standpunkt des R-Lerners aus ist die Natur der externen Rückkopplung in hohem Maße relevant für das Erreichen seiner Ziele. Offensichtlich ist R-Lernen viel schwieriger als überwachtes Lernen.

R-Lernen und adaptive Regelung haben viel gemeinsam: Bei der adaptiven Regelung ist in der Regel einige Information über gewünschte Umgebungszustände vorhanden. Gerade wie beim R-Lernen ist aber nicht von vornherein bekannt, welche Ausgabesequenzen zur Erzielung gewünschter Umgebungszustände geeignet sind.

Von den drei Arten konnektionistischen Lernens (überwachtes Lernen, R-Lernen, unüberwachtes Lernen) ist R-Lernen diejenige, die am meisten mit dem aus der Biologie bekannten Lernverhalten zu tun hat: Simple Evaluierungsfunktionen generieren abhängig von den Aktionen des Lernsystems Eingaben wie Schmerz, Lust etc... Trotz ihrer Einfachheit `wollen' simple Bewertungsfunktionen im allgemeinen komplizierte Aktionssequenzen erzwingen.

Als Beispiel verwenden wir wieder unser Balancierproblem. Ein guter R-Algorithmus sollte imstande sein, dieses Problem (unter bestimmten jetzt nicht so wichtigen Zusatzbedingungen) auch dann schon zu lösen, wenn die einzige von der Umgebung zur Verfügung gestellte Lehrinformation in dem beim Umfallen des Stabes geäußerten Hinweis besteht: `Das war schlecht'. Die schwierige Aufgabe des R-Algorithmus ergibt sich aus der zeitlichen Komponente des Lernproblems: Welche der vergangenen Aktionen war denn verantwortlich für den Mißerfolg?


next up previous contents
Nächste Seite: Unüberwachtes Lernen Aufwärts: Zielgerichtetes Lernen Vorherige Seite: Überwachtes Lernen   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent neural networks - Subgoal learning - Reinforcement learning and POMDPs - Reinforcement learning economies - Selective attention
Deutsche Heimseite