next up previous contents
Nächste Seite: DIE KETTENREGEL Aufwärts: NÄHERER BLICK AUF DAS Vorherige Seite: GRUNDBAUSTEINE DES NETZWERKARCHITEKTEN   Inhalt

SINNVOLLE ZIELFUNKTIONEN

Wodurch zeichnet sich ein sinnvolles Performanzmaß aus? Um dieser Frage auf den Grund zu gehen, vollziehen wir die gemeinhin gemachte Unterscheidung zwischen drei verschiedenen Arten des Lernens. In allen drei Fällen reagiert ein lernendes KNN mit (in der Regel zeitlich variierenden) Ausgaben auf (in der Regel zeitlich variierende) Eingaben.

(1) Überwachtes Lernen. Ein externer Lehrer definiert zu bestimmten Zeitpunkten gewünschte Ausgaben. Eine geeignete zu minimierende differenzierbare Zielfunktion besteht in der Summe aller von den verschiedenen Eingabesequenzen eines `Trainingensembles' verursachten Abweichungen zwischen erwünschten und tatsächlichen Ausgaben (mit diesem Fall beschäftigen sich Kapitel 2 und 3).

(2) `Reinforcement-Lernen' (mangels aussagekräftiger deutscher Bezeichnung ab jetzt R-Lernen genannt). Kein externer Lehrer kennt zu irgendeinem Zeitpunkt die gewünschte Ausgabe bereits im voraus. Die Umgebungsdynamik übersetzt die (als Steuersignale für Muskelmotorik vorstellbaren) Ausgaben jedoch in Änderungen des Umgebungszustandes - eine (oft sehr primitive) Evaluierungsfunktion liefert dem lernenden System eine Rückmeldung (das `Reinforcement', z.B. ein Schmerzsignal) über die `Güte' des erreichten Zustandes. Kapitel 4 zeigt u.a., wie sich unter der Annahme, daß die Abbildung von Steuersignalen auf `Reinforcement' differenzierbar ist, eine Hilfszielfunktion für ein Hilfsmodul (das sogenannte Umgebungsmodell) definieren läßt, welches das eigentlich interessante Performanzmaß, definiert durch eine Summe von Reinforcementsignalen, bezüglich der Steuersignale differenzierbar macht.

Überwachtes Lernen und R-Lernen werden unter dem Oberbegriff zielgerichtetes Lernen zusammengefaßt, wobei die Ziele von externen Prozessen vorgegeben werden.

(3) Unüberwachtes Lernen. Die Motivation unüberwachten Lernens erwächst aus dem Wunsch, Repräsentationen der Umgebungseingaben zu finden, die zielgerichtetes Lernen vereinfachen oder beschleunigen, ohne daß die Ziele von vornherein genau bekannt sind. Oft erweisen sich z.B. unüberwachte Performanzmaße (basierend auf informationstheoretischen Erwägungen) für die Ausfilterung statistischer Redundanz in den Eingaben zur Erstellung kompakter Eingabekodierungen und zur Beschleunigung zielgerichteter Lernalgorithmen als zweckmäßig. Unüberwachte Performanzmaße haben in der jüngsten Literatur viel Aufmerksamkeit erfahren und stellen einen bedeutenden Schwerpunkt dieser Arbeit dar (Kapitel 5, 6, 7).


next up previous contents
Nächste Seite: DIE KETTENREGEL Aufwärts: NÄHERER BLICK AUF DAS Vorherige Seite: GRUNDBAUSTEINE DES NETZWERKARCHITEKTEN   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite