next up previous contents
Nächste Seite: METHODEN ZUR DEFINITION VON Aufwärts: UNÜBERWACHTES LERNEN: ZIELFUNKTIONEN Vorherige Seite: MINIMIERUNG VON BITENTROPIESUMMEN   Inhalt

EXTRAKTION VORHERSAGBARER KONZEPTE

Viele Lernverfahren (u. a. auch die Weltmodellbauer aus Kapitel 4) basieren auf Untermodulen, die gewisse Muster aus anderen Mustern vorhersagen sollen. Häufig sind perfekte Vorhersagen jedoch prinzipiell unmöglich.

Informationstragende Musterklassifikationen hingegen mögen sehr wohl prophezeihbar sein. Unüberwachte Extraktion vorhersagbarer Konzepte (im folgenden auch Vorhersagbarkeitsmaximierung genannt - ein weiterer größerer originärer Beitrag dieser Arbeit, siehe auch [121] ) beschäftigt sich mit dem Problem, möglichst spezifische vorhersagbare Musterklassifikationen zu finden.

Die folgenden vier Beispiele sollen dies näher erläutern.

Beispiel 1: Man gehe in den Tierpark, um sich den Elefanten anzuschauen. Es ist unmöglich, von vornherein alle Details wie z.B. seinen genauen Aufenthaltsort, sein exaktes Gewicht und die Schattierung seiner Hautfarbe vorherzusagen. Man kann sich jedoch darauf verlassen, daß sich der Elefant auf dem Boden befinden wird (statt in der Luft zu schweben) und daß er eher grau als pinkfarben sein wird. Eine nützliche Klassifikation wird die von beliebigen Elefanten verursachten Eingaben auf eine einzige vorhersagbare interne Repräsentation abbilden, die sich von der internen Repräsentation beliebiger Nilpferde unterscheidet (und damit informationstragend ist5.3).

Beispiel 2: Man werfe einen Spielwürfel. Die Fläche, auf der er zu liegen kommen wird, läßt sich gewöhnlich nicht vorhersagen - wohl aber die Tatsache, daß der Würfel, nachdem er zur Ruhe gekommen ist, nicht in der Luft hängen wird oder auf einer Ecke balancieren wird. Das Resultat einer Abbildung, die alle zur Ruhe gekommene Würfel auf dieselbe Klassenrepräsentation abbildet, ist vorhersagbar. Es sollte sich unterscheiden von vorhersagbaren Repräsentanten von, sagen wir, zur Ruhe gekommenen Kugelschreibern.

Beispiel 3: Sind die ersten beiden Wörter des Satzes `Henrietta ißt Gemüse' bekannt, so läßt sich vorhersagen, daß das dritte Wort wohl für etwas Eßbares stehen wird, nicht aber, für welches Nahrungsmittel. Die Klasse des dritten Wortes ist aus den beiden vorangegangenen Wörtern prophezeihbar - die spezielle Instanz der Klasse ist es nicht. Die Klasse `Eßbares' ist nicht nur vorhersagbar, sondern auch spezifisch in dem Sinne, daß sie nicht alles mögliche umfaßt - `Ferdinand' ist beispielsweise keine Instanz von `Eßbares'.

Das Problem besteht darin, Muster so zu klassifizieren, daß sie sowohl vorhersagbar als auch nicht zu allgemein sind, um solcherart in der Umgebung verborgene Regelmäßigkeiten zu extrahieren. Eine allgemeine Lösung für dieses Problem wäre beispielsweise nützlich für die Entdeckung von Struktur in von unbekannten Grammatiken generierten Sätzen (wie im letzten Beispiel). Eine weitere wichtige Anwendung wäre die unüberwachte Klassifizierung von zur gleichen Klasse gehörigen Mustern, wie im folgenden erläutert werden soll.

Gegeben sei eine Menge von Paaren von Eingabemustern. Wir wissen, daß beide Muster eines Paares zur selben Klasse gehören. Wir wissen jedoch nichts über die Klassen selbst, wieviele Klassen es gibt, oder welche Muster zu welcher Klasse gehören. Das Ziel sei die Erstellung einer Abbildung von Eingabemustern auf Klassenrepräsentanten dergestalt, daß Muster, die zur selben Klasse gehören, auf gleiche Weise repräsentiert werden, während Muster, die zu verschiedenen Klassen gehören, auf unterschiedliche Weise repräsentiert werden. Wir wollen den Sinn dieses Ziels an einem weiteren praktischen Beispiel verdeutlichen:

Beispiel 4 (Stereoproblem, nach Becker und Hinton, 1989): Becker und Hinton beschreiben eine `Stereoaufgabe', bei der es darum geht, aus zwei getrennten Pixelfeldern Stereoinformation zu extrahieren [11]. Eines der Pixelfelder wird mit einem zufällig generierten Bild belegt, während das andere Pixelfeld dasselbe Bild in um ein Pixel nach links oder rechts verschobener Position darstellt (siehe Abbildung 5.2). Pixel, die über den rechten Rand des Eingabefeldes hinausgeschoben werden, erscheinen auf der linken Seite des Feldes wieder (und umgekehrt). Zweideutige `shifts' werden ausgeschlossen. 8-dimensionale Eingabemuster werden durch Konkatenation eines 4-dimensionalen Streifens des linken Bildes mit dem entsprechenden 4-dimensionalen Streifens des rechten Bildes generiert. Betrachten wir nun Paare solcherart konstruierter, nicht überlappender Eingabemuster. Kennt man das erste Muster eines Paars, so kann man eine nicht-triviale Aussage über das zweite Muster machen (und umgekehrt), denn beiden Mustern ist etwas gemeinsam, nämlich die Information über die `stereoskopische Tiefe'. Diese ist gleichzeitig die einzige nicht-triviale Eigenschaft, die beiden Eingaben zu eigen ist. Das Ziel besteht darin, ohne irgendetwas über das Konzept `stereoskopische Tiefe' erzählt zu bekommen, diese einzige nicht-triviale wechselseitig vorhersagbare Eigenschaft zu finden und Eingabemuster mit gleicher stereoskopischer Tiefe auf dieselbe Klasse abzubilden, während Eingabemuster mit unterschiedlicher stereoskopischer Tiefe auf unterschiedliche Klassen abzubilden sind.

Die Beispiele $1-3$ sind Vertreter des sogenannten asymmetrischen Falles, während Beispiel 4 eine Instanz des sogenannten symmetrischen Falles darstellt. Welche Architekturen und Zielfunktionen eignen sich nun zum Finden möglichst informativer und doch gleichzeitig vorhersagbarer Eingabetransformationen?

Abbildung: Ein Zufallsstereogramm, bestehend aus zwei Bildern zu je $4 \times 9$ Pixeln. Das linke Bild wird zufällig generiert, das rechte Bild ergibt sich aus dem linken durch Verschiebung um ein Pixel nach rechts. Pixel, die über den rechten Rand des rechten Bildes hinausgeschoben werden, erscheinen auf der linken Seite des Feldes wieder.
\begin{figure}\psfig{figure=fig5.1a} \end{figure}

Im einfachsten Fall basiert der hier vorgeschlagene Ansatz zur unüberwachten Extraktion vorhersagbarer Klassifikationen auf zwei neuronalen Netzwerken $T_1$ und $T_2$. Beide lassen sich als BP-Netze implementieren [143][46][66][85] (siehe auch Kapitel 1). $T_1$ sieht bei einem gegebenen Paar von Eingabemustern das erste Muster, $T_2$ sieht das zweite Muster. Konzentrieren wir uns zunächst auf den asymmetrischen Fall: Im Falle des Beispiels 3 sieht $T_1$ beispielsweise eine Repräsentation der Wörter `Henrietta ißt', während $T_2$ eine Repräsentation des Wortes `Gemüse' als Eingabe bekommt. $T_2$'s Aufgabe besteht darin, seine Eingabe zu klassifizieren. $T_2$'s Aufgabe besteht nicht etwa darin, $T_2$'s rohe Eingabe zu prophezeihen, sondern statt dessen $T_2$'s Ausgabe.

Beide Netze besitzen $q$ Ausgabeknoten. $p \in \{1, \ldots, m\}$ indiziere die Trainingsmuster. $T_2$ beantwortet einen Eingabevektor $x^{p,2} $ durch die Klassifikation $y^{p,2} \in [0, \ldots, 1]^q$. $T_1$ beantwortet einen Eingabevektor $x^{p,1}$ durch die Vorhersage $y^{p,1} \in [0, \ldots, 1]^q$ der Klassifikation $y^{p,2}$.

Wir sehen uns zwei miteinander im Konflikt stehenden Zielen gegenüber: (A) Alle Vorhersagen $y^{p,1}$ sollen den entsprechenden Klassifikationen $y^{p,2}$ gleichkommen. (B) Die $y^{p,2}$ sollen diskriminierend sein - verschiedene Eingaben $x^{p,2} $ sollen verschiedene Klassifikationen $y^{p,2}$ nach sich ziehen.

Wir drücken den Konflikt zwischen (A) und (B) durch zwei gegensätzliche Zielfunktionen aus, welche gleichzeitig minimiert werden sollen.

(A) wird durch einen Fehlerterm $M$ (für `Match') ausgedrückt:

\begin{displaymath}
M = \sum_{p=1}^m
\Vert y^{p,1} - y^{p,2} \Vert^2 .
\end{displaymath} (5.12)

(B) wird durch einen zusätzlichen Fehlerterm $D_2$ (für `Diskriminierung') repräsentiert, welchen (im asymmetrischen Fall) nur $T_2$ zu minimieren braucht. Im nächsten Unterabschnitt werden wir $D_2$ so wählen, daß signifikante Euklidische Abstände zwischen Klassifikationen unterschiedlicher Eingabemuster ermutigt werden. Es gibt mehr als einen vernünftigen Weg, $D_2$ zu definieren - der nächste Unterabschnitt wird vier alternative Möglichkeiten mit verschiedenen Vor- und Nachteilen erwähnen.

$T_2$'s zu minimierende Zielfunktion ist

\begin{displaymath}
\epsilon M
+
(1-\epsilon) D_2,
\end{displaymath} (5.13)

wobei wobei $0 < \epsilon < 1$ eine positive Konstante bezeichnet.

Im asymmetrischen Fall ist $T_1$'s zu minimierende Zielfunktion

\begin{displaymath}
\epsilon M.
\end{displaymath} (5.14)

Die Zielfunktionen werden wie üblich durch Gradientenabstieg minimiert. Dies zwingt einerseits die Klassifikationen, sich den Vorhersagen anzugleichen, und andererseits in symmetrischer Weise die Vorhersagen, sich den Klassifikationen anzugleichen, während die Klassifikationen gleichzeitig ermutigt werden, möglichst aussagekräftig zu sein. Abbildung 5.1 zeigt ein entsprechendes aus einem Prediktor und einem Klassifikator bestehendes System, welches sich zur Implementierung von $D_2$ eines Autoassoziators bedient (siehe auch den folgenden Unterabschnitt 5.5.1).

Abbildung: Ein Autoassoziator findet Verwendiung, um eine möglichst informationstragende Eingabeklassifikation in den schwarzen Knoten zu erzielen. Ein Prediktornetz versucht, aus einer unterschiedlichen (z.B. früheren) Eingabe in seiner Ausgabe (graue Knoten) die interne Klassifikation möglichst gut vorherzusagen, während sich die Klassifikation gleichzeitig möglichst weitgehend der Vorhersage anpaßt.
\begin{figure}\psfig{figure=fig5.2} \end{figure}

Gelegentlich (siehe das Stereoexperiment aus Beiapiel 4) ist es angebracht, $T_1$ und $T_2$ in symmetrischer Manier zu behandeln. In solchen Fällen dienen beide Netzwerke als Klassifikatoren. Jeder der beiden Klassifikatoren `sieht' ein Eingabemuster eines Paars. Die Klassifikatoren sollen ohne Lehrer lernen, die nicht-trivialen wechselseitig vorhersagbaren Eigenschaften in ihren Ausgaben zu repräsentieren. Um solchen symmetrischen Problemen in natürlicher Weise zu begegnen, brauchen wir $T_1$'s Zielfunktion nur leicht durch Einführung eines zusätzlichen `Diskriminationsterm' $D_1$ für $T_1$ zu modifizieren: Beide $T_l, l = 1,2$ minimieren5.4nun

\begin{displaymath}
\epsilon M
+
(1-\epsilon) D_l,
\end{displaymath} (5.15)

wobei vier alternative Möglichkeiten zur Definition von $D_l$ im nächsten Unterabschnitt aufgelistet werden.

Gewichtsteilung. Sollen beide Klassifikatoren gleiche Eingaben mit gleichen Ausgaben beantworten (dies gilt z. B. für obige Stereoaufgabe), so läßt sich das Verfahren weiter vereinfachen. Dann genügt es nämlich, für beide Klassifikatoren dieselben Gewichtsparameter zu verwenden - dies reduziert die Anzahl der freien Parameter und erhöht demzufolge die Generalisierungsperformanz [10].



Unterabschnitte
next up previous contents
Nächste Seite: METHODEN ZUR DEFINITION VON Aufwärts: UNÜBERWACHTES LERNEN: ZIELFUNKTIONEN Vorherige Seite: MINIMIERUNG VON BITENTROPIESUMMEN   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite