Vorteile lokaler Repräsentationen sind: (1) Orthogonalität: Jeder Repräsentationsvektor steht auf jedem anderen senkrecht (siehe auch [65][87][126]). (2) `Sparsame Codierung': Wie auch häufig in biologischen Systemen beobachtet, ist i.a. nur ein geringer Bruchteil der Nichteingabeknoten aktiv. (1) und (2) ermöglicht einem zusätzlichen zielgerichteten Lerner schnelles Lernen. (3) Verständlichkeit: Im Gegensatz zu distribuierten Repräsentationen bereitet es einem menschlichen Beobachter nach der Lernphase i.a. keine Schwierigkeiten, die internen Repräsentationen zu analysieren.
Der schwerwiegende Nachteil lokaler Repräsentationen ist die mangelhafte Ausnützung der vorhandenen Ressourcen: Distribuierte Repräsentationen gestatten wesentlich höhere Repräsentationskapazität.
Zielfunktion.
Wir maximieren die halbe Varianz
![]() |
(5.5) |
![]() |
(5.6) |
Es läßt sich zeigen, daß (5.5) unter der Nebenbedingung (5.6)
genau dann maximal ist, wenn jede Klasse lokal durch genau eine
Ecke des -dimensionalen, von allen möglichen reellen
Ausgabevektoren aufgespannten Hyperwürfels repräsentiert wird
(falls genügend Ausgabeknoten vorhanden sind).
Um dies intuitiv einzusehen, beachte man,
daß alle möglichen Ausgabevektoren sowie ihr Mittelwert
innerhalb dieses Hyperwürfels auf einer
-dimensionalen Hyperebene liegen, welche
durch jene Ecken definiert wird, deren Distanz zum Ursprung
gleich 1 ist [120]
(siehe [75] für Details).
Bedingung (5.6) läßt sich dadurch erzwingen, daß man
Um eine gleichmäßige Verteilung der Eingabemuster
zwischen den verschiedenen Klassenrepräsentanten
zu erzielen, addieren wir einen zusätzlichen Term zu
und maximieren
![]() |
(5.7) |
Man beachte die bedeutsamen Unterschiede zu Linskers Algorithmus der Varianzmaximierung eines einzelnen Knotens (Abschnitt 5.2). Das Verfahren weist jedoch eine gewisse Verwandtschaft zu Bridles und MacKays Verfahren auf [16]. Während sie die normalisierten Ausgabeaktivationen eines Knotens als Wahrscheinlichkeit interpretieren, daß die Eingabe in der entsprechenden Klasse liegt, maximieren Bridle und MacKay die Entropie des Ausgabemittelwerts minus dem Mittelwert der Ausgabeentropien. Ihre Zielfunktion favorisiert ebenfalls lokale Klassenrepräsentationen mit gleichmäßiger Verteilung verschiedener Eingaben zwischen den Klassen.
Experimente. [120] und [75] enthalten die Details verschiedener Experimente zur bedingten Varianzmaximierung. Wir werden die Methode in den Experimenten des Abschnitts 5.5.3 verwenden.