Nächste Seite: GRADIENTENBASIERTE NETZWERKE Aufwärts: NETZWERKARCHITEKTUREN, ZIELFUNKTIONEN UND KETTENREGEL Vorherige Seite: Inhalt Inhalt

EINFÜHRUNG

Das Forschungsgebiet der `künstlichen neuronalen Netzwerke' (KNN) hat in den letzten Jahren bedeutende Fortschritte gemacht.

Zum einen wuchs die Zahl der Anwendungsbeispiele, bei denen KNN-Ansätze zu besseren Ergebnissen führen als traditionelle Standardverfahren: Das gegenwärtig erfolgreichste Verfahren zur Proteinstrukturvorhersage verwendet KNN [25][132]. Das zur Zeit beste System zur Erkennung handgeschriebener Ziffern basiert auf KNN [47](siehe auch [137]). KNN erwiesen sich bei gewissen Zeitreihenvorhersageproblemen gegenüber konventionellen Verfahren als überlegen (e.g. Sonnenfleckenvorhersage, [142]). Die komplexen Probleme bei der Walzwerksteuerung im Stahlwerk ließen sich durch eine KNN-Methode deutlich besser in den Griff bekommen als durch die klassische `state of the art'-Lösung - Steuerungsexperten bewerteten die durch das neuartige Verfahren gewonnenen Resultate als `höchst überzeugend' [82]. In gewissen Fällen demonstrieren KNN im Vergleich zu traditionellen Klassifikationsmethoden aus der Statistik überlegene Performanz [136], was mit ein Grund dafür ist, daß sich viele Statistiker für KNN interessieren (e.g. [135], [145]). Oft zeigt sich auch, daß KNN in sinnvoller Weise in herkömmliche Systeme eingebettet werden können - in der Sprachverarbeitung beispielsweise erwies sich eine Kombination von `Hidden Markov Models' (HMM) und KNN als funktionstüchtiger als der klassische reine HMM-Ansatz [15]. Das mit Abstand beste `Backgammon' spielende Rechnerprogramm ist ein KNN (Gewinner der `Backgammon Computer Olympiad', [134]). Letzteres ist überhaupt das erste maschinelle Lernsystem, welches je ein nennenswertes Brettspielturnier gewonnen hat - es hat inzwischen eine dem Niveau menschlicher Experten vergleichbare Spielstärke erreicht und fährt fort, sich zu verbessern, indem es gegen sich selbst spielt (R. Sutton, persönliche Kommunikation).

Zum anderen festigten sich die theoretischen Grundlagen des Feldes. Statistiker sowie Forscher aus dem der Statistik verwandten Bereich der Lerntheorie (insbesondere dem Bereich `PAC-Learning' - `PAC' steht für `Probably Almost Correct') wandten ihre Konzepte erfolgreich auf KNN an, was Licht auf die theoretischen Möglichkeiten und Schranken gewisser Netzwerktypen warf (e.g. [137], [13], [32], [58], [39]). So wurden beispielsweise Begriffe wie `Generalisierungsfähigkeit' im mathematisch statistischen Sinne präzise definiert, was für gegebene Verteilungen von zu klassifizierenden Mustern die Grundlage für asymptotische Abschätzungen der hinreichenden Zahl von Trainingsbeispielen bzw. Netzgrößen für gewisse KNN-Typen und Aufgaben schuf ([10], [52], [58], [130]). Die Ansicht, daß umgekehrt auch das Feld der Statistik wesentlich von KNN-Methoden profitieren kann, hat sich mittlerweile durchgesetzt (e.g. [145], [136]).

Die meisten (und sämtliche der oben aufgeführten) erfolgreichen Anwendungsbeispiele beinhalten als wesentliche Komponente Varianten des (aus später auszuführenden Gründen) sogenannten azyklischen back-propagation (BP)-Netzwerkes (auch die Mehrheit der theoretischen Untersuchungen befaßt sich mit BP-Netzwerken). BP-Netze sind im wesentlichen Funktionsapproximatoren, welche Eingabemuster auf Ausgabemuster abbilden. In Einführungen zu KNN werden schwerpunktmäßig zumeist ihr Potential für massiv parallele Informationsverarbeitung und ihre Eignung zur assoziativen Musterklassifikation hervorgehoben (wir werden im Rahmen dieser Einführung später noch detailliert auf BP eingehen). BP-Netze liefern das Standardbeispiel für die Vorgehensweise des nicht biologisch orientierten Neuroinformatikers: Statt (wie manche der ersten biologisch orientierten NN-Forscher) einen Lernalgorithmus zu postulieren und auszuprobieren, ob er zu sinnvollen Ergebnissen führt, leitet der formal orientierte Neuroinformatiker den Lernalgorithmus aus einem sinnvollen Optimalitätskriterium her.

Diese formal orientierte Vorgehensweise soll im folgenden genauer erläutert werden. Ich werde mich dabei nicht auf die Klasse der azyklischen BP-Funktionspproximatoren beschränken. Der Grund hierfür ist: Es gibt relativ neuartige KNN, deren Fähigkeiten beträchtlich über simple Musterassoziation hinausgehen. Gewisse KNN gestatten im Prinzip beliebiges dynamisches Verhalten sowie die Berechnung beliebiger auch auf einem herkömmlichen sequentiell arbeitenden Digitalrechner berechenbarer Funktionen. Derartige über einfach BP-Netze hinausweisende KNN werden einen Schwerpunkt dieser Arbeit bilden.

Unterabschnitte

Nächste Seite: GRADIENTENBASIERTE NETZWERKE Aufwärts: NETZWERKARCHITEKTUREN, ZIELFUNKTIONEN UND KETTENREGEL Vorherige Seite: Inhalt Inhalt

Juergen Schmidhuber 2003-02-20