Wir setzen eine deterministische Abbildung von Eingabemustern auf Repräsentationsvektoren voraus. Jede Komponente der Repräsentation nimmt bei einem gegebenen Eingabeensemble mit Wahrscheinlichkeit den Wert an.
Bei einem faktoriellen Code ist
die Wahrscheinlichkeit eines bestimmten
Eingabemusters gleich dem Produkt der
Wahrscheinlichkeiten der
Komponenten des entsprechenden Repräsentationsvektors
[4](daher die Bezeichnung `faktoriell'):
(5.9) |
Ist ein auf deterministischem Wege gewonnener Code
reversibel (also informationserhaltend), so
ist die Abbildung von auf bijektiv und es
gilt
.
(5.9) läßt sich dann umformulieren:
(5.10) |
Man beachte, daß die Bedingung der statistischen Unabhängigkeit weit stärker ist als die von bisher besprochenen Performanzmaßen erzwungene Dekorrelationsbedingung. Statistische Unabhängigkeit der Codesymbole zieht automatisch ihre Dekorrelation nach sich - die umgekehrte Richtung gilt nicht.
Vorteile faktorieller Codes. Welche Vorteile bietet die statistische Unabhängigkeit der Repräsentationskomponenten?
(1) Verbesserung traditioneller statistischer Klassifikationsmethoden. Viele in der Praxis verwendeten Klassifikationsalgorithmen machen aus Effizienzgründen die Annahme, daß die Komponenten der Eingabesignale statistisch voneinander unabhängig sind (e.g. [19], [25], [132]). Je weniger diese Annahme zutrifft, desto schlechter die Performanz dieser Verfahren (e.g. [25]). Eine effiziente Methode zur Erstellung (nahezu) faktorieller Codes aus nicht-faktoriellen Eingaben wäre demzufolge interessant als Präprozessor für derartige traditionelle Verfahren.
(2) Eingabesegmentierung. Man stelle sich ein System vor, das visuelle `retinale' Eingaben aus der Umgebung erhält. Die seien dabei Pixelvektoren, welche zweidimensionale Projektionen von Straßenszenen darstellen. Die sind typischerweise aus `Primitiven' wie Ecken, Kanten (auf höherer Ebene Autos) zusammengesetzt, deren Unterkomponenten in hohem Maße korreliert sind. So reicht z.B. ein kleiner Teil der von einem bestimmten Automobil verursachten Eingabekomponenten bereits aus, um mit überdurchschnittlicher Trefferwahrscheinlichkeit vom selben Fahrzeug verursachte physikalisch benachbarte Eingabekomponenten vorhersagen zu können. Ist das Heck blau, so sind vermutlich auch die Farbwerte der den Bug repräsentierenden Eingabepixel blau. Auf der anderen Seite mögen z.B. die Positionen zweier verschiedener Fahrzeuge wenig miteinander zu tun haben; Fahrzeugpositionen stellen damit in stärkerem Maße unabhängige Eigenschaften der Eingaben dar.
Statt nun bei einer Bildinterpretation eine alle Unterkomponenten umfassende Suche anzuwerfen, will man durch sinnvolle Segmentierung die Eingabekomponenten so gruppieren, daß der Berechnungsaufwand möglichst drastisch reduziert wird. Dies ist das treibende Motiv aller Segmentierungsalgorithmen. So macht es wenig Sinn, einen bestimmten Aspekt einer Eingabe zu repräsentieren, wenn dieser Aspekt nur redundante Information enthält, da er aus bereits repräsentierten Eingabeeigenschaften ableitbar ist.
Korrelationen zwischen Eingabekomponenten repräsentieren also entdeckenswerte `Regularitäten'. Faktorielle Codes segmentieren nun die Umgebung in einer in gewissem Sinne optimalen Weise. Sie repräsentieren die Umgebung so, daß die möglichen Eingaben in statistisch voneinander unabhängige Eigenschaften (Abstraktionen, Konzepte) zerlegt werden. Will man einem Netzwerk beibringen, zu `teilen und zu herrschen', so stellen Algorithmen zur Erlernung faktorieller Codes etwas Erstrebenswertes dar.
(3) Occam's Rasiermesser. In gewissem Sinne verkörpern faktorielle Codes automatisch `Occam's Rasiermesser', welches `einfache' Umgebungsmodelle komlexeren vorzieht. Das Maß der `Einfachheit' ist hier durch die Anzahl der Codesymbole definiert, die zur Repräsentation der Umgebung durch statistisch unabhängige Konzepte vonnöten sind. Ist die Umgebung faktoriell codierbar, und übersteigt 's Repräsentationskapazität die Umgebungsentropie (die in den Umgebungseingaben enthaltene Shannon-Information), so erzwingt das Unabhängigkeitskriterium `unbenützte' Codekomponenten, welche auf jedes beliebige Eingabemuster stets mit einem mit Wahrscheinlichkeit 1 vorhersagbaren konstanten Wert reagieren.
(4)Schnelles Lernen. Liefert man einem überwacht lernenden linearen Netzwerk Repräsentationen als Eingaben, deren Komponenten statistisch unabhängig sind, so ist die Hessematrix von 's Fehlerfunktion diagonal. Dies zieht effiziente Methoden zweiter Ordnung zur Beschleunigung des Lernvorgangs in nach sich.
(5)Neuigkeitsentdeckung. Wie Barlow et. al [5] ausführen, bedeutet das plötzliche Auftreten statistischer Abhängigkeiten zweier bislang unabhängiger Codekomponenten die Entdeckung einer bisher unbekannten Assoziation (`novelty detection').
Der bis vor kurzem einzige mir bekannte nicht-triviale Ansatz zur Entdeckung faktorieller Codes besteht in Heuristiken zur