Um nützliche `selbst-modifizierende' Gewichtsänderungsalgorithmen zu finden, bedarf es eines vorverdrahteten Gewichtsänderungsalgorithmus. Wir müssen sicherstellen, daß gewisse Aspekte des Gewichtsänderungsalgorithmus unveränderbar bleiben. Wir können uns nicht erlauben, alles adaptiv zu machen: So muß man beispielsweise von Beginn an gewährleisten, daß zu `wünschenswerten' Evaluationen führende Gewichtsmatrizen den Vorzug vor anderen Gewichtsmatrizen erhalten. Dem System darf nicht erlaubt werden, diese zentrale Spielregel zu ändern. Die vorverdrahteten Aspekte des Lernalgorithmus müssen `introspektive' Gewichtsänderungsalgorithmen begünstigen, die sich selbst in `wünschenswerter' Weise manipulieren. Der Begriff `wünschenswert' wird im folgenden wie stets durch eine geeignete Zielfunktion spezifiziert werden.
[114] beschreibt u.a. einen nicht gradienten-basierten vorverdrahteten Reinforcement-Lernalgorithmus. Um den Rahmen dieser Schrift nicht zu sprengen, will ich mich hier jedoch auf durch Anwendung der Kettenregel herleitbare Lernalgorithmen beschränken. Als exemplarisches Beispiel soll der folgende vorverdrahtete Algorithmus für `selbstreferentielles' überwachtes Lernen dienen.
Bei nicht quantisierten Variablen wird im folgenden angenommen, daß sie über ihren gesamten Belegungsbereich rangieren. Für mag zum Zeitpunkt ein Zielwert vorgegeben sein. Obwohl es keinerlei Bedeutung für die formale Herleitung des Lernalgorithmus hat, sei angenommen, daß Zielwerte nur am Ende eines der Blöcke mit Zeitschritten auftreten können (um die temporalen Ressourcen des Netzes nicht unnötig zu beschränken). Wir setzen . Es gibt also ebensoviele Evalknoten wie `normale' Ausgabeknoten. Es sei angenommen, daß Eingaben und Zielwerte nicht von früheren Ausgaben (via Rückkopplung durch die Umgebung) abhängen - siehe [114] für einen Lernalgorithmus für die allgemeinere Situation des `Reinforcement'-Lernens.
Zusammenfassend schreiben wir zunächst in kompakter Form
die Systemdynamik nieder:
(8.8) |
(8.9) |
(8.10) |
(8.11) |