Nächste Seite: PROBLEMFORMULIERUNG Aufwärts: NETZWERKARCHITEKTUREN, ZIELFUNKTIONEN UND KETTENREGEL Vorherige Seite: SCHLUSSBEMERKUNGEN ZU 5.5 Inhalt

VORHERSAGBARKEITSMINIMIERUNG

Faktorielle Codes sind reversible Codes, bei denen das Auftreten jedes Codesymbols statistisch unabhängig vom Auftreten der übrigen Codesymbole ist. Im letzten Kapitel (Abschnitt 5.4.2) haben wir gesehen, welche Vorteile faktorielle Repräsentationen der Umgebungseingaben bieten können. Hier seien einige davon nochmals in knapper Form aufgelistet:

(1) Verbesserung der Eingaberepräsentation für konventionelle Klassifikationsmethoden der Statistik. Viele Klassifikationsalgorithmen für praktische Anwendungen beruhen auf der Annahme statistischer Unabhängigkeit der Eingabesignalkomponenten (e.g. [19], [25], [132]). Je weniger diese Annahme zutrifft, desto schlechter die Performanz dieser Verfahren (siehe beispielsweise [25] für eine experimentelle und theoretische Analyse).

(2) Eingabesegmentierung. Faktorielle Codes stellen in gewisser Weise das Non-plus-ultra der Segmentierung dar. Sie repräsentieren die Umgebung so, daß die möglichen Eingaben in statistisch voneinander unabhängige Eigenschaften (Abstraktionen, Konzepte) zerlegt werden. Dies entspricht dem höchst sinnvollem Aspekt des `Teilens' beim nicht nur von Informatikern erstrebten Ziel des `Teilens und Herrschens'.

(3) Redundanzelimination. Faktorielle Codes verkörpern automatisch `Occams Rasiermesser', welches `einfache' Modelle der Umgebung komplexeren Modellen vorzieht. Das Maß der `Einfachheit' ist hier durch die Anzahl der Codesymbole definiert, die zur Repräsentation der Umgebung vonnöten sind.

(4)Schnelles Lernen. Liefert man einem überwacht lernenden linearen Netzwerk faktorielle Repräsentationen als Eingaben, so ist die Hessematrix seiner Fehlerfunktion diagonal. Damit lassen sich effiziente Methoden zweiter Ordnung zur Beschleunigung des Lernvorgangs im überwacht lernenden Netzwerk anwenden. Nichtlineare Netze sollten in ähnlicher Weise profitieren. Auch verkleinert die mit redundanzfreien Codierungen einhergehende Kompaktheit im allgemeinen den Suchraum für nachgeschaltete zielgerichtete Lerner.

Bisher gab es keine `neuronale' Methoden zum Finden faktorieller Codes, und auch die `nicht-neuronalen' sequentiellen Ansätze sind entweder unrealistisch (erschöpfende Suche) oder basieren auf Heuristiken [5]. Es existieren zwar Methoden zur Dekorrelation von Netzwerkausgaben (e.g. [49], [155], [65], [87], [27], [84], [49], [126], siehe auch Kapitel 5), diese sind jedoch auf den linearen Fall beschränkt und fassen nicht das höhergesteckte Ziel der statistischen Unabhängigkeit ins Auge. Außerdem beruhen einige dieser Methoden auf der (oft unrealistischen) Annahme Gauss-verteilter Eingaben und erfordern dabei auch noch die explizite Berechnung der Ableitungen der Determinante der Kovarianzmatrix der Ausgabeknoten [124].

Im vorliegenden Kapitel soll daher demonstriert werden, wie durch die Wahl einer geeigneten Architektur und passender Zielfunktionen mit der Kettenregel gradientenbasierte Algorithmen zum Finden faktorieller Codes hergeleitet werden können.

Es sollte jedoch angemerkt werden, daß es keine große Überraschung wäre, wenn sich herausstellen sollte, daß das allgemeine Problem der Entdeckung von Codes mit statistisch unabhängigen Komponenten NP-vollständig ist. In diesem Fall dürfte man von gradientenbasierten Methoden nicht erwarten, für beliebige Umgebungen stets beim ersten Versuch völlig redundanzfreie Repräsentationen zu finden. Wie auch in den bisherigen Kapiteln werden wir nicht versuchen, das allen nicht-linearen Gradientenverfahren anhaftende Problem der lokalen Minima und Maxima anders als durch wiederholte Suchen (ausgehend von zufällig gewählten Startpunkten) anzugreifen. Wir fokussieren uns statt dessen wieder auf der Methodik des Algorithmenentwurfs sowie dem daraus erwachsenden zentralen Prinzip der Vorhersagbarkeitsminimierung [111].

Dieses Prinzip führt zu einem System, das aus zwei Arten `sich bekämpfender' Module besteht. Die Module der ersten Art versuchen, die Aktivität jedes an der Coderepräsentation beteiligten Netzwerkknotens möglichst exakt aus den Aktivitäten der übrigen Knoten vorherzusagen. Die Module der zweiten Art hingegen versuchen, durch Ausnützung der statistischen Eigenschaften der Umgebung ihre Eingaben so zu transformieren, daß sie von den Modulen der ersten Art möglichst schlecht vorhersagbar sind.

Die später zu beschreibenden Experimente (unter anderem zur Redundanzverminderung der Repräsentation von Buchstaben mit durch die Statistik der englischen Sprache gegebenen Auftretenswahrscheinlichkeiten) zeigen, daß das Prinzip der Vorhersagbarkeitsminimierung in der Tat praktisch anwendbar ist.

Unterabschnitte

Nächste Seite: PROBLEMFORMULIERUNG Aufwärts: NETZWERKARCHITEKTUREN, ZIELFUNKTIONEN UND KETTENREGEL Vorherige Seite: SCHLUSSBEMERKUNGEN ZU 5.5 Inhalt

Juergen Schmidhuber 2003-02-20