Um nützliche `selbst-modifizierende' Gewichtsänderungsalgorithmen zu finden, bedarf es eines vorverdrahteten Gewichtsänderungsalgorithmus. Wir müssen sicherstellen, daß gewisse Aspekte des Gewichtsänderungsalgorithmus unveränderbar bleiben. Wir können uns nicht erlauben, alles adaptiv zu machen: So muß man beispielsweise von Beginn an gewährleisten, daß zu `wünschenswerten' Evaluationen führende Gewichtsmatrizen den Vorzug vor anderen Gewichtsmatrizen erhalten. Dem System darf nicht erlaubt werden, diese zentrale Spielregel zu ändern. Die vorverdrahteten Aspekte des Lernalgorithmus müssen `introspektive' Gewichtsänderungsalgorithmen begünstigen, die sich selbst in `wünschenswerter' Weise manipulieren. Der Begriff `wünschenswert' wird im folgenden wie stets durch eine geeignete Zielfunktion spezifiziert werden.
[114] beschreibt u.a. einen nicht gradienten-basierten vorverdrahteten Reinforcement-Lernalgorithmus. Um den Rahmen dieser Schrift nicht zu sprengen, will ich mich hier jedoch auf durch Anwendung der Kettenregel herleitbare Lernalgorithmen beschränken. Als exemplarisches Beispiel soll der folgende vorverdrahtete Algorithmus für `selbstreferentielles' überwachtes Lernen dienen.
Bei nicht quantisierten Variablen wird im folgenden
angenommen, daß sie über ihren gesamten
Belegungsbereich rangieren.
Für mag zum Zeitpunkt
ein Zielwert
vorgegeben sein. Obwohl
es keinerlei Bedeutung für die formale Herleitung
des Lernalgorithmus hat, sei angenommen, daß Zielwerte
nur am Ende eines der
Blöcke mit
Zeitschritten auftreten
können (um die temporalen Ressourcen des Netzes nicht unnötig
zu beschränken).
Wir setzen
. Es gibt also ebensoviele
Evalknoten wie `normale' Ausgabeknoten.
Es sei angenommen, daß Eingaben und Zielwerte nicht von
früheren Ausgaben (via Rückkopplung durch die Umgebung)
abhängen - siehe [114] für einen
Lernalgorithmus für die allgemeinere
Situation des `Reinforcement'-Lernens.
Zusammenfassend schreiben wir zunächst in kompakter Form
die Systemdynamik nieder:
![]() |
(8.8) |
![]() |
(8.9) |
![]() |
(8.10) |
![]() |
(8.11) |