next up previous contents
Nächste Seite: MINIMIERUNG VON BITENTROPIESUMMEN Aufwärts: UNÜBERWACHTES LERNEN UND STATISTISCHE Vorherige Seite: G-MAX   Inhalt

FAKTORIELLE CODES

Das vielleicht ambitionierteste Ziel unüberwachten Lernens besteht in der Entdeckung sogenannter faktorieller Codes der Umgebungseingaben (auch faktorielle Repräsentationen genannt). Die an faktorielle Codes gestellten Anforderungen gehen über die vom Infomaxprinzip geforderten Bedingungen hinaus, indem sie außer Informationsmaximierung auch noch statistische Unabhängigkeit der Codesymbole fordern. Was genau ist ein faktorieller Code?

Wir setzen eine deterministische Abbildung von Eingabemustern $x^p$ auf Repräsentationsvektoren $y^p$ voraus. Jede Komponente $y_i$ der Repräsentation $y$ nimmt bei einem gegebenen Eingabeensemble mit Wahrscheinlichkeit $P(y_i = a)$ den Wert $a$ an.

Bei einem faktoriellen Code ist die Wahrscheinlichkeit eines bestimmten Eingabemusters gleich dem Produkt der Wahrscheinlichkeiten der Komponenten des entsprechenden Repräsentationsvektors [4](daher die Bezeichnung `faktoriell'):

\begin{displaymath}
\forall p: ~~ P(x^p) = \prod_i P(y_i = y^p_i).
\end{displaymath} (5.9)

Ist ein auf deterministischem Wege gewonnener Code reversibel (also informationserhaltend), so ist die Abbildung von $x^p$ auf $y^p$ bijektiv und es gilt $\forall p: ~~ P(x^p) = P(y^p)$. (5.9) läßt sich dann umformulieren:

\begin{displaymath}
\forall p: ~~ P(y^p) = \prod_{k} P(y_k = y^p_k).
\end{displaymath} (5.10)

Die einzelnen Komponenten von $y$ müssen also statistisch voneinander unabhängig sein.

Man beachte, daß die Bedingung der statistischen Unabhängigkeit weit stärker ist als die von bisher besprochenen Performanzmaßen erzwungene Dekorrelationsbedingung. Statistische Unabhängigkeit der Codesymbole zieht automatisch ihre Dekorrelation nach sich - die umgekehrte Richtung gilt nicht.

Vorteile faktorieller Codes. Welche Vorteile bietet die statistische Unabhängigkeit der Repräsentationskomponenten?

(1) Verbesserung traditioneller statistischer Klassifikationsmethoden. Viele in der Praxis verwendeten Klassifikationsalgorithmen machen aus Effizienzgründen die Annahme, daß die Komponenten der Eingabesignale statistisch voneinander unabhängig sind (e.g. [19], [25], [132]). Je weniger diese Annahme zutrifft, desto schlechter die Performanz dieser Verfahren (e.g. [25]). Eine effiziente Methode zur Erstellung (nahezu) faktorieller Codes aus nicht-faktoriellen Eingaben wäre demzufolge interessant als Präprozessor für derartige traditionelle Verfahren.

(2) Eingabesegmentierung. Man stelle sich ein System vor, das visuelle `retinale' Eingaben $x^p$ aus der Umgebung erhält. Die $x^p$ seien dabei Pixelvektoren, welche zweidimensionale Projektionen von Straßenszenen darstellen. Die $x^p$ sind typischerweise aus `Primitiven' wie Ecken, Kanten (auf höherer Ebene Autos) zusammengesetzt, deren Unterkomponenten in hohem Maße korreliert sind. So reicht z.B. ein kleiner Teil der von einem bestimmten Automobil verursachten Eingabekomponenten bereits aus, um mit überdurchschnittlicher Trefferwahrscheinlichkeit vom selben Fahrzeug verursachte physikalisch benachbarte Eingabekomponenten vorhersagen zu können. Ist das Heck blau, so sind vermutlich auch die Farbwerte der den Bug repräsentierenden Eingabepixel blau. Auf der anderen Seite mögen z.B. die Positionen zweier verschiedener Fahrzeuge wenig miteinander zu tun haben; Fahrzeugpositionen stellen damit in stärkerem Maße unabhängige Eigenschaften der Eingaben dar.

Statt nun bei einer Bildinterpretation eine alle Unterkomponenten umfassende Suche anzuwerfen, will man durch sinnvolle Segmentierung die Eingabekomponenten so gruppieren, daß der Berechnungsaufwand möglichst drastisch reduziert wird. Dies ist das treibende Motiv aller Segmentierungsalgorithmen. So macht es wenig Sinn, einen bestimmten Aspekt einer Eingabe zu repräsentieren, wenn dieser Aspekt nur redundante Information enthält, da er aus bereits repräsentierten Eingabeeigenschaften ableitbar ist.

Korrelationen zwischen Eingabekomponenten repräsentieren also entdeckenswerte `Regularitäten'. Faktorielle Codes segmentieren nun die Umgebung in einer in gewissem Sinne optimalen Weise. Sie repräsentieren die Umgebung so, daß die möglichen Eingaben in statistisch voneinander unabhängige Eigenschaften (Abstraktionen, Konzepte) zerlegt werden. Will man einem Netzwerk beibringen, zu `teilen und zu herrschen', so stellen Algorithmen zur Erlernung faktorieller Codes etwas Erstrebenswertes dar.

(3) Occam's Rasiermesser. In gewissem Sinne verkörpern faktorielle Codes automatisch `Occam's Rasiermesser', welches `einfache' Umgebungsmodelle komlexeren vorzieht. Das Maß der `Einfachheit' ist hier durch die Anzahl der Codesymbole definiert, die zur Repräsentation der Umgebung durch statistisch unabhängige Konzepte vonnöten sind. Ist die Umgebung faktoriell codierbar, und übersteigt $y$'s Repräsentationskapazität die Umgebungsentropie (die in den Umgebungseingaben enthaltene Shannon-Information), so erzwingt das Unabhängigkeitskriterium `unbenützte' Codekomponenten, welche auf jedes beliebige Eingabemuster stets mit einem mit Wahrscheinlichkeit 1 vorhersagbaren konstanten Wert reagieren.

(4)Schnelles Lernen. Liefert man einem überwacht lernenden linearen Netzwerk $L$ Repräsentationen als Eingaben, deren Komponenten statistisch unabhängig sind, so ist die Hessematrix von $L$'s Fehlerfunktion diagonal. Dies zieht effiziente Methoden zweiter Ordnung zur Beschleunigung des Lernvorgangs in $L$ nach sich.

(5)Neuigkeitsentdeckung. Wie Barlow et. al [5] ausführen, bedeutet das plötzliche Auftreten statistischer Abhängigkeiten zweier bislang unabhängiger Codekomponenten die Entdeckung einer bisher unbekannten Assoziation (`novelty detection').

Der bis vor kurzem einzige mir bekannte nicht-triviale Ansatz zur Entdeckung faktorieller Codes besteht in Heuristiken zur



Unterabschnitte
next up previous contents
Nächste Seite: MINIMIERUNG VON BITENTROPIESUMMEN Aufwärts: UNÜBERWACHTES LERNEN UND STATISTISCHE Vorherige Seite: G-MAX   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite