next up previous contents
Nächste Seite: DAS INFOMAX-PRINZIP Aufwärts: UNÜBERWACHTES LERNEN: ZIELFUNKTIONEN Vorherige Seite: UNÜBERWACHTES LERNEN: ZIELFUNKTIONEN   Inhalt

UNÜBERWACHTES LERNEN: WOZU?

Wir betrachten ein System, das Eingaben aus einer unbekannten Umgebung intern repräsentieren soll. Wir konzentrieren uns auf den Fall, daß die interne Repräsentation des $p$-ten externen Eingabevektors $x^p$ ein $n$-dimensionaler Vektor $y^p$ ist.

Im Gegensatz zu den bisher behandelten zielgerichteten Verfahren (für überwachtes Lernen und R-Lernen) fragt man im Kontext des unüberwachten Lernens: Lassen sich bei einer gegebenen Umgebung nützliche zielunabhängige interne Repräsentationen der Eingaben konstruieren? Die beiden kritischen Wörtchen sind hier die scheinbar widersprüchlichen Adjektive `nützlich' und `zielunabhängig'.

Die Eigenschaften `nützlich' und `zielunabhängig' sind in dem Maße kompatibel, in dem Umgebungseingaben dergestalt transformierbar sind, daß sich die durch die Transformationen gewonnenen internen Repräsentationen als Eingaben für zielgerichtete Lernsysteme (mit nicht von vornherein bekannten Zielen) gegenüber den untransformierten `rohen' Eingaben durch irgendwelche Vorteile auszeichnen. Solche Vorteile können dabei z.B. durch Zeit- und Ressourcenersparnis beim zielgerichteten Lernen definiert sein. Unüberwachtes Lernen für sich allein macht keinen Sinn. Es ist dann berechtigt, wenn es den Lernvorgang erleichternde `Präprozessoren' für die Eingaben zielgerichteter Systeme ermöglicht.

Genau genommen gibt es kein allgemeines unüberwachtes Lernverfahren, welches das Erlernen beliebiger Ziele vereinfacht - falls nämlich beispielsweise die Probleme eines zielgerichteten Lerners nichts mit den Umgebungseingaben zu tun haben, ist es sinnlos, Aufwand zur Kreierung interner Repräsentationen zu treiben. In allen realistischen Fällen sind vernünftige Ziele jedoch in irgendeiner Weise mit den Umgebungszuständen verknüpft: Häufig sucht man beispielsweise Abbildungen von die Umgebungszustände repräsentierende Eingaben auf geeignete zielgerichtete Aktionen. Mit unüberwachten Lernalgorithmen kann man in derartigen Fällen versuchen, `Regularitäten' aus den Eingaben zu extrahieren und geeignet zu repräsentieren, so daß ohne detailliertes Vorwissen über später zu lösende Aufgaben Effizienzgewinne erwartet werden können.

Wie definiert man `Regularitäten'? Normalerweise geht man diese Frage vom Standpunkt des Statistikers aus an5.1. Es wurden in der Literatur mehrere Performanzkriterien zur Fassung statistischer Regularitäten vorgeschlagen, die verschiedenartige Vorteile eröffnen. Wir unterscheiden 5 Kategorien unüberwachter Ziele, die allerdings bis auf Kategorie 4 alle etwas mit der Entdeckung statistischer Abhängigkeiten zwischen den Eingabekomponenten zu tun haben:

(1) Redundanzminimierung. Typischerweise enthalten die einzelnen Komponenten der `rohen' Umgebungseingaben redundante Information. Zielfunktionen zur Redundanzelimination ermöglichen kompakte Repräsentationen und damit Speicherplatzreduktion sowie ein Potential für erhöhte Generalisierungsfähigkeit [10].

(2) Informationsmaximierung. Abbildungen mit maximaler Informationstransmission vom Eingaberaum zum Raum interner Repräsentationen sind insbesondere bei beschränkter Repräsentationskapazität unter der Annahme verrauschter Eingaben nicht äquivalent zu Identitätsabbildungen. Dies liefert Motivation für nicht-triviale Zielfunktionen zur Informationsmaximierung.

(3) Dekorrelation zur Beschleunigung überwachter Lernvorgänge. Liefert man einem überwacht lernenden linearen Netzwerk $L$ als Eingaben Musterrepräsentationen mit unkorrelierten Komponenten, so ist die Hessematrix

\begin{displaymath}
\bigtriangledown_{w_L} \bigtriangledown_{w_L} E_L
\end{displaymath}

von $L$'s (als zweimal differenzierbar vorausgesetzter) Fehlerfunktion $E_L$ diagonal ($w_L$ bezeichnet hier $L$'s Gewichtsvektor). Damit läßt sich die Krümmung der Fehlermannigfaltigkeit durch Verfahren berechnen, welche dieselbe Komplexität aufweisen wie gewöhnliche Gradientenberechnung. Dies zieht effiziente Methoden zweiter Ordnung zur Beschleunigung des Lernvorgangs in $L$ nach sich. Nichtlineare Netze sollten in ähnlicher Weise profitieren.

(3b) Kausaldetektion in Eingabeströmen. Diese neuartige Methode für dynamische Umgebungen kann enorme Ressourceneinsparungen für überwacht lernende sequenzverarbeitende Netze bieten, ihre detaillierte Ausführung bleibt aber dem 7. Kapitel überlassen (das vorliegende Kapitel beschränkt sich auf stationäre Umgebungen).

(4) Klassifizierung. Oft reicht es, Eingaben unter Informationsverlust geeignet zu klassifizieren und mit den Klassenrepräsentanten (statt mit den rohen Eingabedaten) weiterzuarbeiten. Die meisten Klassifikationsalgorithmen ordnen (im euklidischen Sinne) benachbarte Eingaben vorzugsweise in die gleiche Klasse ein. Implizite Voraussetzung ist dabei die Gleichwertigkeit `semantischer' und `syntaktischer' Ähnlichkeit.

(5) Extraktion vorhersagbarer nicht-trivialer Mustereigenschaften. Zielfunktionen zur Kreierung vorhersagbarer und dennoch (soweit als möglich) informationstragender Mustertransformationen können ebenfalls zur Bildung sinnvoller Eingabeklassen führen. In Abschnitt 5.5 werden wir beispielsweise sehen, wie durch Extraktion vorhersagbarer nicht-trivialer Mustereigenschaften aus Zufallsstereogrammen in unüberwachter Weise Information über `stereoskopische Tiefe' gewonnen werden kann.


next up previous contents
Nächste Seite: DAS INFOMAX-PRINZIP Aufwärts: UNÜBERWACHTES LERNEN: ZIELFUNKTIONEN Vorherige Seite: UNÜBERWACHTES LERNEN: ZIELFUNKTIONEN   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite