Nächste Seite:
Inhalt
 
Inhalt
Inhalt
Einführung
Allgemeine Einführung
Aufgabenstellungen und Terminologie
Die Art der verwendeten neuronalen Netze
Interne Rückkopplung, algorithmische Dynamik
Externe Rückkopplung
Neuronale Netze und das fundamentale Lernproblem
Statische und dynamische Lernalgorithmen und Lernaufgaben
Markov-Prozesse
Zielgerichtetes Lernen
Überwachtes Lernen
R-Lernen
Unüberwachtes Lernen
Lokalität in Zeit und Raum
Schwache zeitliche Lokalität
Schwache räumliche Lokalität
Schwache Lokalität
Starke Lokalität
Gliedernde Übersicht der Arbeit
Danksagung
Grundlagen: Überwachtes Lernen
Überblick
Statische Netzwerke
Statische Netze ohne Rückkopplung
Statische Netzwerke mit interner Rückkopplung
Dynamik von der trivialen Art
Interne Rückkopplung: Dynamische Netzwerke
Brauchbare Ad-Hoc Lösungen für dynamische Netze
Generelle Lösungen für dynamische Netze
Entfaltung eines zyklischen Netzes zu einem azyklischen Netz
Ein Verfahren, das lokal in der Zeit ist
Methoden der zeitlichen Differenzen
Grundlagen: R-Lernen und adaptive Steuerung
`Generate-and-Test'-Verfahren
Potentiell relevante nicht-neuronale Methoden
Erschöpfende Suche
Dynamische Programmierung
Genetische Algorithmen
Die Eimerkette für regelbasierte Systeme
Neuronale Ansätze
Keine Rückkopplung
Interne Rückkopplung
Modellbildende Verfahren
Der Systemidentifikationsansatz
Keine Rückkopplung
Nur externe Rückkopplung
Zusätzliche Beschränkungen für Ausgabeknoten
Eingeschränkte externe und interne Rückkopplung.
Adaptive Kritiker
Reinforcementvergleichsalgorithmen
Heuristische dynamische Programmierung
Die neuronale Eimerkette
Einführung
Der grundlegende Algorithmus
Zusammenfassung
Intuitive Erklärung
Gleichungen für diskrete Zeit
Mögliche Erweiterung für kontinuierliche Zeit
Die Experimente
XOR-Varianten
Woher können Instabilitäten kommen?
Varianten der Dekodierprobleme
Sequenzgenerierung
Sequenzerkennung
Grenzen der neuronalen Eimerkette
Ein Balancierproblem
Ein Flip-Flop Problem
Vergleich mit anderen Ansätzen
Bezug zu Hollands `bucket brigade' für regelbasierte Systeme
Bezug zu `Competitive Learning'
Bezug zu TD-Methoden
Kritik und Ausblick
`Rekurrente' Umgebungsmodelle für R-Lernen
Zusammenfassung
Intuitive Erklärung des Algorithmus A2
Begründung des Verfahrens
Mathematische Begründung
Gründe für paralleles Lernen von Modell- und Steuernetz
A2's Abweichen vom reinen Gradientenabstieg
Der Algorithmus
Einführung probabilistischer Ausgabeknoten
Kommentare zum Algorithmus.
Experimente zum R-Lernen in Nicht-Markov-Umgebungen
Evolution eines Flip-Flops durch R-Lernen
Nicht-Markov-mäßiges Balancieren mit `perfektem Modell'
Vorschlag für ein Experiment zur Evolution von Sprache
Abschließende Bemerkungen
Umgebungsmodelle zum Planen von Handlungssequenzen
Sichtweise: Ziele nach Programmen differenzieren
Kritik und Ausblick
Mehrdimensionale adaptive Kritiker & zyklische Netze
Einführung
Intuitive Erklärung des Grundprinzips
Der lokale Algorithmus A3
Detaillierte Beschreibung von A3
Ein Experiment mit `verzögertem XOR'
Kompliziertere statische Kritiker, kompliziertere R-Lernregeln
Multidimensionale adaptive Kritiker
Drei
interagierende Netzwerke
Verschmelzen der drei Netze in zwei
Ein schwieriges Balancierexperiment
Einführung eines rekurrenten Kritikers
Rekurrente Kritiker und der Systemidentifikationsansatz
Beschreibung einer verwandten Idee für
lokales
überwachtes Lernen
Abschließende Bemerkungen
Konzeptuelle Gemeinsamkeiten mit der neuronalen Eimerbrigade
Kritik und Ausblick
Dynamische adaptive selektive Aufmerksamkeit
Wozu selektive räumliche Aufmerksamkeit?
Wie implementiert man adaptive räumliche Aufmerksamkeit?
Ein System für das Lernen von `attentive vision'
Detaillierte Beschreibung des Verfahrens
Das notwendigerweise nicht perfekte Modellnetzwerk
Experimente zur adaptiven räumlichen Aufmerksamkeit
Zielerkennung ohne Rotationen
Ein Netz für mehrere Ziele
Zielerkennung mit Rotationen
Zielverfolgung
Paralleles Lernen von
und
Sichtweise: Equilibria unter Einschluß der Umgebungsdynamik
Zukünftige Untersuchungen
Szenen mit mehreren Objekten
Belohnung temporaler Invarianzen
Neugier und Langeweile
Schlußbemerkungen
Kompositionelles hierarchisches Lernen
Wozu selektive zeitliche Aufmerksamkeit ?
Kompositionelles Lernen: Das `Teile und herrsche'-Problem
Ein adaptiver Subzielgenerator
Ein illustratives Experiment mit dem Subzielgenerator
Das `Teile'-Problem und adaptive Kausalitätsdetektoren
Schlußwort und Ausblick
Mathematische Details
Literatur
Über dieses Dokument ...
Juergen Schmidhuber
2003-02-20
Related links in English:
Recurrent neural networks
-
Subgoal learning
-
Reinforcement learning and POMDPs
-
Reinforcement learning economies
-
Selective attention
Deutsche
Heimseite