Wir setzen eine deterministische Abbildung von
Eingabemustern auf
Repräsentationsvektoren
voraus.
Jede Komponente
der Repräsentation
nimmt bei einem gegebenen Eingabeensemble
mit Wahrscheinlichkeit
den Wert
an.
Bei einem faktoriellen Code ist
die Wahrscheinlichkeit eines bestimmten
Eingabemusters gleich dem Produkt der
Wahrscheinlichkeiten der
Komponenten des entsprechenden Repräsentationsvektors
[4](daher die Bezeichnung `faktoriell'):
![]() |
(5.9) |
Ist ein auf deterministischem Wege gewonnener Code
reversibel (also informationserhaltend), so
ist die Abbildung von auf
bijektiv und es
gilt
.
(5.9) läßt sich dann umformulieren:
![]() |
(5.10) |
Man beachte, daß die Bedingung der statistischen Unabhängigkeit weit stärker ist als die von bisher besprochenen Performanzmaßen erzwungene Dekorrelationsbedingung. Statistische Unabhängigkeit der Codesymbole zieht automatisch ihre Dekorrelation nach sich - die umgekehrte Richtung gilt nicht.
Vorteile faktorieller Codes. Welche Vorteile bietet die statistische Unabhängigkeit der Repräsentationskomponenten?
(1) Verbesserung traditioneller statistischer Klassifikationsmethoden. Viele in der Praxis verwendeten Klassifikationsalgorithmen machen aus Effizienzgründen die Annahme, daß die Komponenten der Eingabesignale statistisch voneinander unabhängig sind (e.g. [19], [25], [132]). Je weniger diese Annahme zutrifft, desto schlechter die Performanz dieser Verfahren (e.g. [25]). Eine effiziente Methode zur Erstellung (nahezu) faktorieller Codes aus nicht-faktoriellen Eingaben wäre demzufolge interessant als Präprozessor für derartige traditionelle Verfahren.
(2) Eingabesegmentierung. Man stelle sich
ein System vor, das visuelle `retinale' Eingaben aus der
Umgebung erhält. Die
seien dabei Pixelvektoren,
welche zweidimensionale Projektionen von Straßenszenen darstellen.
Die
sind typischerweise aus `Primitiven'
wie Ecken, Kanten (auf höherer Ebene Autos)
zusammengesetzt, deren Unterkomponenten in hohem
Maße korreliert sind.
So reicht z.B. ein kleiner Teil
der von einem bestimmten Automobil verursachten Eingabekomponenten
bereits aus, um mit überdurchschnittlicher
Trefferwahrscheinlichkeit
vom selben Fahrzeug
verursachte
physikalisch benachbarte
Eingabekomponenten vorhersagen zu können.
Ist das Heck blau, so sind vermutlich auch
die Farbwerte der den Bug repräsentierenden Eingabepixel blau.
Auf der anderen Seite mögen z.B.
die Positionen zweier verschiedener Fahrzeuge
wenig miteinander zu tun haben; Fahrzeugpositionen stellen damit
in stärkerem Maße unabhängige Eigenschaften der Eingaben dar.
Statt nun bei einer Bildinterpretation eine alle Unterkomponenten umfassende Suche anzuwerfen, will man durch sinnvolle Segmentierung die Eingabekomponenten so gruppieren, daß der Berechnungsaufwand möglichst drastisch reduziert wird. Dies ist das treibende Motiv aller Segmentierungsalgorithmen. So macht es wenig Sinn, einen bestimmten Aspekt einer Eingabe zu repräsentieren, wenn dieser Aspekt nur redundante Information enthält, da er aus bereits repräsentierten Eingabeeigenschaften ableitbar ist.
Korrelationen zwischen Eingabekomponenten repräsentieren also entdeckenswerte `Regularitäten'. Faktorielle Codes segmentieren nun die Umgebung in einer in gewissem Sinne optimalen Weise. Sie repräsentieren die Umgebung so, daß die möglichen Eingaben in statistisch voneinander unabhängige Eigenschaften (Abstraktionen, Konzepte) zerlegt werden. Will man einem Netzwerk beibringen, zu `teilen und zu herrschen', so stellen Algorithmen zur Erlernung faktorieller Codes etwas Erstrebenswertes dar.
(3) Occam's Rasiermesser.
In gewissem Sinne verkörpern
faktorielle Codes
automatisch `Occam's Rasiermesser', welches `einfache' Umgebungsmodelle
komlexeren vorzieht. Das Maß der
`Einfachheit' ist hier
durch die Anzahl der Codesymbole definiert, die zur
Repräsentation der Umgebung durch statistisch
unabhängige Konzepte vonnöten sind.
Ist die Umgebung faktoriell codierbar, und
übersteigt 's Repräsentationskapazität
die Umgebungsentropie (die in den Umgebungseingaben enthaltene
Shannon-Information), so erzwingt das Unabhängigkeitskriterium
`unbenützte' Codekomponenten, welche auf jedes
beliebige Eingabemuster stets mit einem mit
Wahrscheinlichkeit 1 vorhersagbaren konstanten Wert
reagieren.
(4)Schnelles Lernen. Liefert man einem überwacht
lernenden linearen Netzwerk
Repräsentationen
als Eingaben, deren Komponenten statistisch unabhängig sind,
so ist die Hessematrix
von
's
Fehlerfunktion
diagonal.
Dies zieht effiziente Methoden zweiter
Ordnung zur Beschleunigung des Lernvorgangs in
nach sich.
(5)Neuigkeitsentdeckung. Wie Barlow et. al [5] ausführen, bedeutet das plötzliche Auftreten statistischer Abhängigkeiten zweier bislang unabhängiger Codekomponenten die Entdeckung einer bisher unbekannten Assoziation (`novelty detection').
Der bis vor kurzem einzige mir bekannte nicht-triviale Ansatz zur Entdeckung faktorieller Codes besteht in Heuristiken zur