next up previous contents
Nächste Seite: UNÜBERWACHTES LERNEN UND STATISTISCHE Aufwärts: UNÜBERWACHTES LERNEN: ZIELFUNKTIONEN Vorherige Seite: MEHRDIMENSIONALE AUSGABEN   Inhalt

UNÜBERWACHTE BILDUNG LOKALER REPRÄSENTATIONEN

Dieser Unterabschnitt (ein kleiner originärer Beitrag dieser Arbeit) beschreibt eine Zielfunktion zur unüberwachten Bildung lokal in $y$ repräsentierter Klassen von Eingabevektoren. Jeder Eingabevektor $x^p$ soll dabei nach der Trainingsphase auf einen Binärvektor $y^p$ mit einer einzigen Komponente $\neq 0$ abgebildet werden. Aus der Zielfunktion kann mit Hilfe der Kettenregel ein Lernverfahren abgeleitet werden, das mit herkömmlichen kompetitiven unüberwachten Lernverfahren (e.g. [153][42][31][86]) verwandt ist: Nur ein einziger Repräsentationsknoten (der `Sieger') wird in Antwort auf die Präsentation eines Eingabemusters aktiviert. Es ist gerade die mathematische Herleitbarkeit der gradientenbasierten Methode, die sie im Rahmen der vorliegenden Arbeit interessant macht.

Vorteile lokaler Repräsentationen sind: (1) Orthogonalität: Jeder Repräsentationsvektor steht auf jedem anderen senkrecht (siehe auch [65][87][126]). (2) `Sparsame Codierung': Wie auch häufig in biologischen Systemen beobachtet, ist i.a. nur ein geringer Bruchteil der Nichteingabeknoten aktiv. (1) und (2) ermöglicht einem zusätzlichen zielgerichteten Lerner schnelles Lernen. (3) Verständlichkeit: Im Gegensatz zu distribuierten Repräsentationen bereitet es einem menschlichen Beobachter nach der Lernphase i.a. keine Schwierigkeiten, die internen Repräsentationen zu analysieren.

Der schwerwiegende Nachteil lokaler Repräsentationen ist die mangelhafte Ausnützung der vorhandenen Ressourcen: Distribuierte Repräsentationen gestatten wesentlich höhere Repräsentationskapazität.

Zielfunktion. Wir maximieren die halbe Varianz

\begin{displaymath}
V= \frac{1}{2} \sum_p \sum_i (y^p_i- \bar{y_i})^2
\end{displaymath} (5.5)

der Ausgabeknoten unter der Nebenbedingung5.2
\begin{displaymath}
\forall p:
\sum_i y^p_i =1~ .
\end{displaymath} (5.6)

Es läßt sich zeigen, daß (5.5) unter der Nebenbedingung (5.6) genau dann maximal ist, wenn jede Klasse lokal durch genau eine Ecke des $n$-dimensionalen, von allen möglichen reellen Ausgabevektoren aufgespannten Hyperwürfels repräsentiert wird (falls genügend Ausgabeknoten vorhanden sind). Um dies intuitiv einzusehen, beachte man, daß alle möglichen Ausgabevektoren sowie ihr Mittelwert innerhalb dieses Hyperwürfels auf einer $n-1$-dimensionalen Hyperebene liegen, welche durch jene Ecken definiert wird, deren Distanz zum Ursprung gleich 1 ist [120] (siehe [75] für Details).

Bedingung (5.6) läßt sich dadurch erzwingen, daß man

\begin{displaymath}
y^{p}_i = \frac{u^{p}_i}{ \sum_i u^{p}_i}
\end{displaymath}

setzt, wobei $u^{p}$ der Aktivationsvektor einer $n$-dimensionalen Lage versteckter Knoten ist, die als unnormalisierte Ausgabelage angesehen werden kann.

Um eine gleichmäßige Verteilung der Eingabemuster zwischen den verschiedenen Klassenrepräsentanten zu erzielen, addieren wir einen zusätzlichen Term zu $V$ und maximieren

\begin{displaymath}
V - \frac{\lambda}{2} \sum_i [ \frac{1}{q} - \bar{y_i}]^2
\end{displaymath} (5.7)

unter der Nebenbedingung (5.6), wobei $\lambda$ eine positive Konstante bezeichnet. Dies ermutigt jeden Klassenrepräsentanten, nur bei einem Bruchteil $\frac{1}{dim(y)}$ aller möglichen Eingabemuster aktiv zu werden.

Man beachte die bedeutsamen Unterschiede zu Linskers Algorithmus der Varianzmaximierung eines einzelnen Knotens (Abschnitt 5.2). Das Verfahren weist jedoch eine gewisse Verwandtschaft zu Bridles und MacKays Verfahren auf [16]. Während sie die normalisierten Ausgabeaktivationen eines Knotens als Wahrscheinlichkeit interpretieren, daß die Eingabe in der entsprechenden Klasse liegt, maximieren Bridle und MacKay die Entropie des Ausgabemittelwerts minus dem Mittelwert der Ausgabeentropien. Ihre Zielfunktion favorisiert ebenfalls lokale Klassenrepräsentationen mit gleichmäßiger Verteilung verschiedener Eingaben zwischen den Klassen.

Experimente. [120] und [75] enthalten die Details verschiedener Experimente zur bedingten Varianzmaximierung. Wir werden die Methode in den Experimenten des Abschnitts 5.5.3 verwenden.


next up previous contents
Nächste Seite: UNÜBERWACHTES LERNEN UND STATISTISCHE Aufwärts: UNÜBERWACHTES LERNEN: ZIELFUNKTIONEN Vorherige Seite: MEHRDIMENSIONALE AUSGABEN   Inhalt
Juergen Schmidhuber 2003-02-20


Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite