In Kapitel 2 haben wir gesehen, wie sich Gradientenabstiegsverfahren zur zielgerichteten Suche in Räumen beliebig komplexer sequentiell/paralleler Algorithmen für rückgekoppelte sequenzverarbeitende Netzwerke herleiten lassen.
In Kapitel 3 wurde beispielhaft demonstriert, daß rückgekoppelte Netzwerke nicht die einzige Architektur darstellen, die die gradientenbasierte Herleitung sequenzverarbeitender Algorithmen erlaubt.
Die Kapitel 3, 4, und 6 zeigten in den höchst unterschiedlichen Kontexten des überwachten Lernens, des `Reinforcement'-Lernens und des unüberwachten Lernens eine ganze Reihe von Möglichkeiten auf, durch Hintereinanderschaltung mehrerer differenzierbarer adaptiver Module (mit oft sehr unterschiedlichen Aufgaben) geeignete Lernalgorithmen für die jeweilige Problemstellung herzuleiten.
Kapitel 8 trieb die Grundidee ins Extreme: Dort wurde der Gewichtsänderungsalgorithmus eines Netzwerkes dergestalt in differenzierbarer Form repräsentiert, daß sich eine zielgerichtete gradientenbasierte Suche im Raum der Gewichtsänderungsalgorithmen selbst veranstalten ließ.
Die in dieser Arbeit abgehandelten Methoden gehen zwar in vieler Hinsicht über das bekannteste bisher mit Erfolg angewendete gradientenbasierte Verfahren (nämlich einfaches BP) hinaus, schöpfen jedoch das Potential der Idee gradientenbasierter Suche nach formal durch geeignete Zielfunktionen spezifizierten Algorithmen nicht aus. Vielmehr stellen sie lediglich bedeutende Repräsentanten einer umfangreichen Klasse gradientenbasierter Algorithmen dar, die erst in Ansätzen erforscht ist. Ich glaube, daß sich viele altbekannte Konzepte der Informatik so modifizieren lassen, daß sie sich in gradientenbasierte Systeme einbetten lassen. Als Beispiel diene der aus der Informatik nicht wegzudenkende `Keller': [20] und [133] beschreiben im Kontext des Erlernens kontextfreier Grammatiken `differenzierbare' Keller, die nicht nur diskrete Standardoperationen wie `push' und `pop' erlauben, sondern auch beliebige Zwischenabstufungen wie `push ein bißchen' oder `pop ein bißchen mehr': Kellerinhalte werden dabei als kontinuierliche Aktivationsmuster repräsentiert, und Kellerinhalte sind bezüglich der Funktionen, welche Kellerinhalte verändern, differenzierbar. Dies erlaubt die Herleitung gradientenbasierter Algorithmen zum Erlernen der Ausführung geeigneter Kellermodifikationen zu geeigneten Zeitpunkten, wobei der Begriff `geeignet' wie stets indirekt durch eine angemessene Zielfunktion spezifiziert wird. Eine interessante und vielschichtige Fragestellung ist, welche der vielbenützten diskreten Datenstrukturen und Standardalgorithmen der Informatik (wie Keller und Kelleroperationen, oder aber beispielsweise auch Logikklauseln und Unifikation) sich in ähnlicher Weise dergestalt sinnvoll in ein Kontinuum von Datenstrukturen und zugehörigen Algorithmen einbetten lassen, daß sie geeignete Differenzierbarkeitskriterien erfüllen und dadurch mit lernenden KNN zusammenschaltbar werden. Hier öffnet sich ein vielversprechendes, noch weitgehend unbeackertes Forschungsfeld.
Das Konzept der gradientenbasierten Suchverfahren in Räumen von Rechenvorschriften stellt einen der wichtigsten Beiträge der KNN-Forschung zur Informatik dar, obwohl die umfassende Bedeutung und Anwendbarkeit dieses Konzeptes in früheren Arbeiten meines Wissens nach so gut wie gar nicht zum Ausdruck kam, sondern statt dessen durch die Betonung anderer typischer KNN-Eigenschaften wie beispielsweise der Eignung zur `subsymbolischen' und massiv parallelen Informationsverarbeitung (die für gradientenbasierte Lernalgorithmen in keiner Weise erforderlich ist) in den Hintergrund trat.
Aus den Überlegungen in Kapitel 7 ist allerdings ersichtlich, daß auch das Konzept des Gradientenabstiegs im Algorithmenraum für sich genommen kein Allheilmittel sein kann - gewisse einfache, nicht kettenregelspezifische Einsichten gestatten zumindest gelegentlich, die Performanz gradientenbasierter Lernalgorithmen gewaltig zu verbessern.