Nächste Seite: ZIELE DER ARBEIT Aufwärts: EINFÜHRUNG Vorherige Seite: EINFÜHRUNG Inhalt

GRADIENTENBASIERTE NETZWERKE

Architektur und Aktivierungsdynamik eines KNNs entsprechen der unveränderlichen `Hardware' eines konventionellen Rechners. Die `Software' (das Programm) des KNNs wird durch gewisse reellwertige Parameter verkörpert, die Gewichte genannt werden.

Das im Vergleich zu herkömmlichen Ansätzen (beispiesweise aus dem Bereich der künstlichen Intelligenz und des maschinellen Lernens) hervorstechendste Merkmal der in der vorliegenden Arbeit zu untersuchenden Systemen liegt nicht etwa in ihrer massiven Parallelität o.ä. Der zentrale Unterschied zwischen den Programmen konventioneller Rechner und den Programmen der in den folgenden Kapiteln zu besprechenden Architekturen besteht vielmehr in dieser grundlegenden Tatsache: Die Funktionen, die die Ausgaben unserer Architekturen liefern, lassen sich (mathematisch) bezüglich der `Software' differenzieren.

Definiert man ein Performanzmaß (im folgenden häufig auch Zielfunktion genannt), das auf irgendeine sinnvolle Weise gewünschtes Programmverhalten zum Ausdruck bringt und seinerseits bezüglich der die KNN-Ausgaben berechnenden Funktion differenzierbar ist, so läßt sich dank der Kettenregel auch das Performanzmaß bezüglich der `Software' differenzieren.

Mit der mathematisch ableitbaren Zielfunktion spezifizieren wir unsere Ansprüche an eine zunächst unbekannte gesuchte Rechenvorschrift. (Dies stellt einen entscheidenden Unterschied zu herkömmlichen Ansätzen zur formalen Lösungsspezifikation dar.) Die Zielfunktion entspricht dem vorgegebenen Optimalitätskriterium: Nehmen wir an, der Wert der Zielfunktion sei maximal, falls ein bestimmter Algorithmus die gewünschten Effekte zeitigt, und um so kleiner, je `ungünstiger' sich der Algorithmus verhält. Partielle Differenzierung der Zielfunktion bezüglich aller Gewichtsparameter liefert uns einen Gradienten im Raum der von der Netzwerkarchitektur erlaubten Algorithmen. Dieser Gradient gibt uns entweder Aufschluß darüber, in welcher Richtung im Algorithmenraum Programme zu finden sind, die bessere Performanz erwarten lassen, oder er teilt uns mit, daß sich in der `Umgebung' der gegenwärtig im KNN implementierten Rechenvorschrift keine Algorithmen höherer Güte befinden.

Die Gradienteninformation erlaubt uns die Konstruktion von Meta-Algorithmen zum Auffinden günstiger Algorithmen. Im einfachsten Fall führt solch ein Meta-Algorithmus nach zufälliger Anfangsinitialisierung aller Gewichte einen auf sukzessiven Iterationen basierenden Gradientenanstieg bezüglich der zu maximierenden Zielfunktion durch. Ein Iterationsschritt setzt sich dabei zusammen aus (a) der Auswertung des Zielfunktionsgradienten für die gegenwärtigen Gewichtsparameter und (b) der Änderung des Gewichtsvektors in Proportion zum Gradienten^1.1 (der Proportionalitätsfaktor selbst wird häufig als `Lernrate' bezeichnet). Der Meta-Algorithmus hinterläßt dabei im durch die möglichen Gewichte definierten Raum aller erlaubten Rechenvorschriften eine Trajektorie, deren Endpunkt (ein sub-optimales Programm) gewöhnlich einem lokalen Maximum der Zielfunktion entspricht. Hat man einmal einen derartigen gradientenbasierten Meta-Algorithmus hergeleitet, so hat man automatisch auch den Beweis dafür, daß seine Anwendung im asymptotischen Fall (bei gegen Null gehender Lernrate) nur zur Verbesserung der gegenwärtigen Gewichtsmatrix führen kann - nicht zur Verschlechterung (Experimente sind allerdings vonnöten, um akzeptable positive Lernraten für praktische Anwendungen zu finden).

Da der Raum möglicher Programme gewöhnlich alle Sorten von Nichtlinearitäten erlaubt, kann nicht garantiert werden, daß BP oder die in dieser Schrift vorgestellten Meta-Algorithmen für ein gegebenes Problem stets im ersten Anlauf das beste aller Programme finden werden. Gerade bei NP-vollständigen Problemklassen ist es höchst unwahrscheinlich, daß Gradientenanstieg in einer geeigneten Zielfunktion immer zur optimalen Lösung führt. Das soll uns nicht allzusehr betrüben - sogar wir Menschen geben uns meist mit sub-optimalen Verhaltensweisen zufrieden. Wir werden das Problem lokaler Maxima im folgenden (falls überhaupt nötig) durch die einfachste Standardlösung angreifen, welche darin besteht, ausgehend von verschiedenen zufällig gewählten Initialprogrammen solange ein oft wiederholtes, lokales, gradientenbasiertes Suchen im Raum der von der Architektur gestatteten Rechenvorschriften durchzuführen, bis ein Programm mit zufriedenstellender Performanz gefunden worden ist. Selbst bei Zielfunktionen mit vielen lokalen Minima stellt dies i.a. eine wesentlich befriedigendere Lösung dar als beispielsweise eine ungerichtete Zufallssuche.

Ein gradientenbasierter Meta-Algorithmus (wie oben umrissen) wird im folgenden stets als Lernalgorithmus bezeichnet. Das Konzept der mathematisch durch partielle Differentation herleitbaren Lernalgorithmen ist ein selten betontes Markenzeichen eines umfassenden Teilbereichs der KNN-Forschung und hebt gradientenbasierte KNN deutlich vom Hintergrund sonstiger KI-Ansätze zum maschinellen Lernen ab. Differenzierbare Netzwerkarchitekturen bilden das Schwergewicht dieser Arbeit.

Nächste Seite: ZIELE DER ARBEIT Aufwärts: EINFÜHRUNG Vorherige Seite: EINFÜHRUNG Inhalt

Juergen Schmidhuber 2003-02-20