Nächste Seite: EXPERIMENTE ZUR HINDERNISVERMEIDUNG
Aufwärts: ADAPTIVE SUBZIELGENERIERUNG
Vorherige Seite: PERFORMANZMASS
  Inhalt
Die Summe der Gradienten für verschiedene Probleme ist
gleich dem Gradienten der Summe. Daher genügen uns
für die verschiedenen Architekturen Methoden zur Berechnung
von
|
(4.9) |
wobei die Lernrate von ,
seinen Gewichtsvektor, und des Gewichtsvektors
Inkrement bezeichnet.
(Beachte:
stellt eine Jacobimatrix dar.)
Ist selbst ein BP-Netzwerk (wie z.B. in
[106]), so verwenden wir
nach Abschluß von 's Trainingsphase
konventionelles BP zur Berechnung von
|
(4.10) |
für alle .
's Gewichte bleiben dabei `eingefroren'.
Andernfalls muß (4.10) eben analytisch berechnet werden (wir haben ja
zu Beginn gefordert,
daß bezüglich aller Parameter differenzierbar ist).
Für Architektur 1 ist nun die Berechnung von (4.9) nicht mehr
schwierig: Das Fehlersignal für '
-ten Ausgabeknoten
(
,
)
korrespondierend zur
-ten
Komponente seines
Ausgabevektors
ist gerade gleich
Alle Fehlersignale interner Knoten lassen sich nun gemäß den
inzwischen geläufigen BP-Regeln (siehe Kapitel 1) bestimmen.
Architektur 2 fordert ein etwas komplexeres, von
BPTT (siehe Kapitel 2) inspiriertes Verfahren.
Falls ein Ausgabeknoten von und ist, so ist das
Fehlersignal für
gleich
|
(4.11) |
Falls zwar ein Ausgabeknoten von , aber ist, so
ergibt sich das
Fehlersignal für
als
|
(4.12) |
wobei sich
|
(4.13) |
mit BP für alle Eingabeknoten
von
berechnen läßt.
Gleichzeitig erhält man durch diesen BP-Pass
alle durch den Iterationsschritt verursachten Beiträge
für ' Gewichtsänderungen, nämlich
|
(4.14) |
wobei analog zu Kapitel 2
das `virtuelle' Gewicht vom Knoten zum Knoten in der
-ten Kopie von ist.
Die vom Problem verursachte
Gesamtänderung eines Gewichts ergibt
sich nun zu
|
(4.15) |
Analog zu BPTT braucht man auch bei obigem Verfahren nicht
vollständige Kopien der beteiligten Netze anzulegen -
es genügt, alle zu den verschiedenen Iterationsschritten
auftretenden Aktivationen zu speichern.
Wie viele Subziele braucht man für welche Aufgaben?
Die einfachste Antwort ist wohl die folgende:
Versuche, eine gegebenen Aufgabe zunächst ohne
Subziel zu lösen. Falls das nicht klappt, versuche
es mit einem Subziel, dann mit zwei, etc.
Eine mögliche Erweiterung dieses Versuch/Irrtum-Ansatzes
bestünde darin, ein viertes Modul daraufhin zu trainieren,
Start/Ziel-Kombinationen
auf die minimale Anzahl der benötigten Subziele abzubilden.
Nächste Seite: EXPERIMENTE ZUR HINDERNISVERMEIDUNG
Aufwärts: ADAPTIVE SUBZIELGENERIERUNG
Vorherige Seite: PERFORMANZMASS
  Inhalt
Juergen Schmidhuber
2003-02-20
Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite