... Gradienten1.1
Die Numerik kennt raffiniertere gradientenbasierte Verfahren als den einfachen Gradientenanstieg. Im Rahmen dieser Arbeit wird uns jedoch statt der Frage, wie man einmal gewonnene Gradienten am effizientesten zur Zielfunktionsmaximierung einsetzt, vor allem der Entwurf angemessener problemspezifischer Architekturen sowie unterschiedliche Ansätze zur Gradientenberechnung selbst interessieren.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... nachbauen2.1
Dazu müßte man ja die meisten Gewichte gleich Null setzen und ginge dabei der potentiell ausschöpfbaren Möglichkeiten massiv paralleler Algorithmen verlustig.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... Berechnungskomplexität2.2
Pineda hat einen weiteren Algorithmus für rekurrente Netze beschrieben, der, wie er selbst feststellt, `einige der schlechtesten Eigenschaften beider Algorithmen (BPTT und RTRL) besitzt' [72]. Sein Verfahren benötigt $\geq O(n^4)$ Speicherkomplexität und $\geq O(n^4)$ Zeitkomplexität, falls die Zahl der Zeitschritte $n$ übersteigt.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... Algorithmus2.3
Kürzlich erfuhr ich, daß derselbe Algorithmus auch von Williams in einem nicht öffentlich angekündigten Report [148] beschrieben wurde, dessen Inhalt in [152] erscheinen wird.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... Ergebnissen2.4
Giles, Miller, Chen and Chen, Sun und Lee extrahieren aus trainierten Netzen (mit Verbindungen zweiter Ordnung) auch noch den zugehörigen minimalen endlichen Automaten [29].
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... Gedächtnisstruktur3.1
Mit dem Ausdruck `differenzierbare Gedächtnisstruktur' ist ein Speicher gemeint, dessen zeitveränderliche Inhalte bezüglich aller Parameter, die das Systemverhalten steuern, differenzierbar sind. Gleichzeitig sollte das Performanzmaß bezüglich der Gedächtnisinhalte differenzierbar sein.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... geschaffen3.2
Hier sollte vielleicht angemerkt werden, daß neuronalen Netzen bis vor kurzem gelegentlich vorgeworfen wurde, keinen Mechanismus zur Variablenbindung anzubieten.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... kann4.1
Es gibt Algorithmen für R-Lernen, die keine derartigen Annahmen machen, z.B. [7], [8], [147], [6], [9], [90], [140], [97], [51], [92]. Die theoretischen Grundlagen der meisten dieser Algorithmen reichen allerdings höchstens in Spezialfällen aus, um im asymptotischen Fall die Konvergenz zu (sub)optimalen Lösungen zu beweisen. Wir wollen uns hier auf Algorithmen beschränken, die aus bestimmten Voraussetzungen über Performanzmaß und Architektur mathematisch sauber ableitbar sind.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... Rückkopplung4.2
Bei externer Rückkopplung können Ausgaben zu früheren Zeitpunkten Einfluß auf spätere Eingaben nehmen.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... an5.1
Das Konzept einer `Regularität' kleidet sich jedoch in viele Gewänder. Um die Tatsache zu würdigen, daß es nicht nur einen einzigen allgemein akzeptierten Ansatz zur Definition `regulärer Struktur' gibt, beachte man, daß algorithmische Informationstheorie [43][17] reguläre Muster in einer von statistischer Informationstheorie [125] unterschiedlichen Weise definiert. Die algorithmische Information eines Musters ist im wesentlichen die Läge des kürzesten Programms, das das Muster reproduzieren kann. Da es kein allgemeines Verfahren zum Finden solch eines Programms gibt (im wesentlichen deswegen nicht, weil keine obere Schranke für seine Laufzeit gefordert wird $\rightarrow$ Halteproblem), wird algorithmische Informationstheorie in der Regel nicht als ein praktikables Werkzeug zur Entdeckung von Regularitäten angesehen.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... Nebenbedingung5.2
Der Nebenbedingung (5.6) kommt eine entscheidende Rolle zu. Beispiel: Man betrachte vier 4-dimensionale Eingabevektoren $(1, 0, 0, 0)^T$, $(0, 1, 0, 0)^T$, $(0, 0, 1, 0)^T$, $(0, 0, 0, 1)^T$. Wir nehmen an, daß die ersten beiden Eingabemuster auf das 4-dimensionale Ausgabemuster $(1, 1, 0, 0)^T$ und die verbleibenden zwei Eingabemuster auf $(0, 0, 1, 1)^T$ abgebildet werden. Dies liefert zwar maximale Varianz 4, maximiert jedoch nicht die Zahl der verschiedenen Musterklassifizierungen, und führt auch nicht zu lokaler Repräsentation. Die `bessere' informationserhaltende (und Bedingung (5.6) erfüllende) Abbildung, welche jedes Muster auf sich selbst abbildet, besitzt lediglich Varianz 3.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... ist5.3
Eine triviale Klassifikation, die alle Eingaben auf denselben Repräsentationsvektor abbildet, wäre zwar stets vorhersagbar, aber nicht informationstragend.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... minimieren5.4
Man könnte zusätzliche `Vorhersagenetzwerke' einführen - eines, um $y^{p,2}$ aus $y^{p,1}$ vorherzusagen, und ein weiteres, um $y^{p,1}$ aus $y^{p,2}$ vorherzusagen. Dann ließen sich Zielfunktionen zur Erzwingung wechselseitiger Vorhersagbarkeit konstruieren (statt die im wesentlichen gleichwertige Funktion $M$ zu verwenden). Dies würde die Allgemeinheit des Ansatzes allerdings nicht erhöhen, sondern lediglich unnötige zusätzliche Komplexität nach sich ziehen.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... läßt6.1
Bisher haben wir von dieser MSE-Eigenschaft keinen Gebrauch gemacht - alle vorangegangenen Kapitel verwendeten MSE im wesentlichen zur Funktionsapproximation, nicht zur Modellierung von Erwartungswerten. Das Kreuzentropiemaß stellt eine zum Erreichen desselben Ziels geeignete Alternative dar.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... forschen6.2
Die `winner-take-all'-Netze erschienen vielen Forschern noch nie als wirklich plausible Kandidaten für die Modellierung interner Repräsentationen biologischer Gehirne.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... zu6.3
Definiert man eine sehr ähnliche Zielfunktion $\bar Q_C = \sum_i \sum_p P(x^p) \mid P^p_i - y^p_i \mid$ (basierend auf Absolutwerten statt MSE), so findet man interessanterweise $\bar Q_C = 2 Q_C$ im Falle eines quasi-binären faktoriellen Codes.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... wurde6.4
Alex Pouget wies darauf hin, daß für Zufallsvariablen $Y$ und $Z$ folgendes gilt:

\begin{displaymath}
COV(Y,E(Y\vert Z)) = \sum_{y,z} (y-\bar{y})(E(Y\vert z)-\bar{y}) P(y,z)
\end{displaymath}


\begin{displaymath}
= \sum_{z} [(E(Y\vert z)-\bar{y})P(z) \sum_{y} (y-\bar{y})P(y\vert z)]
\end{displaymath}


\begin{displaymath}
= \sum_{z} (E(Y\vert z)-\bar{y})P(z)*(E(Y\vert z)-\bar{y})
= VAR(E(Y\vert Z)),
\end{displaymath}

wobei $y$ über alle möglichen Werte von $Y$, und $z$ über alle möglichen Werte von $Z$ rangiert.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... reduzieren7.1
Aus der algorithmische Informationstheorie wissen wir natürlich, daß sich wahrhaft zufällige Sequenzen prinzipiell nicht signifikant komprimieren lassen [17][43]. Bei der durch den trivialen Prediktor prozessierten Münzwurfserie steckt die vermeintlich `hinwegkomprimierte' Information in Wirklichkeit in den zur Rekonstruktion der Serie erforderlichen, mit den unvorhergesagten Münzwurfresultaten assoziierten Zeitrepräsentanten. Wahre Kompressionserfolge lassen sich nur mit nicht zufälligen, `Regularitäten' enthaltenden Sequenzen erzielen.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... widerzuspiegeln7.2
[76] beschrieb eine alternative ad-hoc Methode zum Bau einer entfernt verwandten Hierarchie im Kontext des R-Lernens.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...Schmidhuber:90washington7.3
$P_i$ könnte aber auch ein beliebiger anderer adaptiver Mechanismus zur Vorhersage von Sequenzeingaben sein. So könnte man z.B. ein azyklisches BP-Netz und den `Zeitfensteransatz' verwenden. Mit dieser in ihren Möglichkeiten beschränkten Methode bleibt die Anzahl der vergangenen Eingaben, die für die Vorhersage der neuen Eingabe berücksichtigt werden können, konstant.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... Zeitschritts7.4
Eine eindeutige Repräsentation der seit dem letzten unerwarteten Ereignis verstrichenen Zeitspanne tut es genauso.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... wird7.5
Im Gegensatz hierzu sind die von Mozer [61] zitierten `reduzierten Beschreibungen' nicht eindeutig.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... minimieren7.6
Diese für überwachtes Lernen notwendige Modifikation wurde von Pollack allerdings nicht berücksichtigt.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... vorgeschlagenen7.7
In seiner Arbeit erwähnte Pollack dieses Potential für lokale Algorithmen nicht - der Fokus seiner Untersuchungen war ein ganz anderer.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... anzupassen8.1
Wir können Aussagen über den Effekt unserer eigenen Lernprozeduren machen, wie beispielsweise in dem Satz ``Heute werde ich mich hinsetzen und 20 japanische Wörter lernen.'' Wir reden nicht nur darüber, wie wir lernen, sondern verfügen auch über die Fähigkeit, unser Lernverhalten explizit zu ändern und den Gegebenheiten der Umgebung anpassen. Wir lernen beispielsweise, unsere eigenen Trainingsbeispiele auszusuchen. Wir lernen, Einfluß darauf zu nehmen, welche Assoziationen wir abspeichern. Für viele Problemklassen entwickeln wir spezifische interne Problemrepräsentationen und effiziente Lernstrategien. Diese Strategien mögen bestimmte Formen des `Analogielernens', `chunkings', `one-shot'-Lernens, etc. beinhalten. Es gibt jedoch Grund dafür, anzunehmen, daß sich viele spezifische Lernstrategien nicht adäquat durch eine dieser geläufigen Bezeichnungen beschreiben lassen. Nach einigen Jahren der Selbstbeobachtung gelangte der Autor zu der Überzeugung, daß Prozesse für `Lernen lernen' bereits auf sehr niedrigem kognitiven Niveau für das Skalierungsverhalten großer Lernsysteme von essentieller Bedeutung sind. Dieses Kapitel will seine Motivation jedoch nicht aus den dubiosen introspektiven Erfahrungen des Autors schöpfen.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... Schritte8.2
Intuitiv formuliert besteht das ultimate Ziel `selbstreferentiellen' und `introspektiven' maschinellen Lernens (so wie ich es sehe) darin, einen sogenannten `Lernkeim' zu entwerfen. Der `Keim' ist ein hypothetischer ursprünglich möglichst einfacher, doch allgemeiner Lernalgorithmus für realistische endliche `Hardware'. Einer gegebenen Umgebung (welche die Lösung bestimmter spezifischer Probleme fordert) ausgesetzt, soll der Keim lernen, unter `optimaler' Ausnutzung der limitierten Zeit- und Speicherressourcen sich graduell selbst in `bootstrap'-Manier zu verfeinern und sich auf typische Lernprobleme zu spezialisieren. Der hypothetische Keim könnte dieses Ziel durch Sammlung von Informationen über Beziehungen zwischen typischen Problemen und zugehörigen effizienten Lösungsstrategien erreichen. Das vorliegende Kapitel behauptet nicht, das ultimate Ziel zu erreichen. Aus diesem Grunde ist das Wort `selbstreferentiell' durchwegs zwischen Anführungsstriche gesetzt.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... sind8.3
Diese gradientenbasierten `selbstreferentiellen' Lernalgorithmen stellen einen Spezialfall allgemeinerer `selbstreferentieller' Lernalgorithmen dar, wie sie in [114] behandelt werden.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... ändern8.4
Bei den mir bekannten älteren Ansätzen zum maschinellen Lernen lassen sich die adaptiven Komponenten der Algorithmen ausschließlich durch vorverdrahtete Lernalgorithmen ändern. Lenats komplexes `symbolisches' EURISKO-System stellt möglicherweise eine Ausnahme dieser Regel dar (Lenat berichtet, daß sein System Heuristiken zur Auffindung von Heuristiken fand [48]). EURISKOs Mechanismus wurde allerdings häufig wegen seiner Undurchsichtigkeit kritisiert, sowie dafür, daß er gelegentliche in ihrer Bedeutung schwer einzuschätzende Eingriffe seitens des Programmierers notwendig machte. Das viel einfachere `subsymbolische' System des vorliegenden Kapitels ist dagegen höchst transparent, verfügt über ein klar definiertes Performanzmaß, und erfordert keinerlei Interventionen eines externen Programmierers.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... Ver\-bin\-dungs\-adres\-se8.5
Man beachte die Notwendigkeit kompakter Adressierschemata. Man könnte ja in Anlehnung an Architektur 1 aus Kapitel 3 auf den alternativen Gedanken kommen, einen Analyseknoten pro Verbindung einzuführen, doch offensichtlich kann das nicht funktionieren: Am Ende hätten wir immer mehr Gewichte als Analyseknoten, und damit mehr Gewichte, als adressiert werden könnten. `Selbstreferenz' wäre auf diese Weise nicht möglich. Es sollte jedoch angemerkt werden, daß das binäre Adressierungsschema bei weitem nicht das kompakteste Schema darstellt. Im Prinzip erlauben reelle Zahlen ja die Darstellung unbeschränkter Informationsmengen durch eine einzige Zahl. Daher ist es beispielsweise möglich, beliebige simultane Gewichtsänderungen für alle Gewichte durch die möglichen reellwertigen Aktivationen eines einzelnen Knotens zu repräsentieren. Unbegrenzte Präzision ist jedoch unrealistisch für praktische Anwendungen. Und der Zweck dieses Kapitels ist ja nicht das Auffinden der kompaktesten `selbstreferentiellen' Adressierungsmethode, sondern lediglich wenigstens einer solchen Methode - welche als Repräsentant vieler vergleichbarer Ansätze gesehen werden sollte.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... Speicherressourcen8.6
Oder durch eine gegebene, für begrenzte Zeit (während der sie nur einen endlichen Teil ihres Bandes benutzen kann) operierende Turingmaschine - oder durch einen gegebenen endlichen Automaten.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... identifizieren8.7
Es sollte erwähnt werden, daß $n_{ana}$ und $n_{mod}$ die Tendenz haben, mit $n_h$ zu wachsen (falls beide nicht von vornherein groß genug gewählt worden sind), da $n_{conn}$ mit $n_h$ zunimmt. $n_{ana}$ und $n_{mod}$ wachsen für große Netzwerke jedoch viel langsamer als $n_h$.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... ist8.8
Einfachere Alternative ohne Fähigkeit zu expliziter Gewichtsänderung. Da rekurrente Netze Allzweckmaschinen mit im wesentlichen unbeschränkter Mächtigkeit sind, erlauben sie die Implementierung beliebiger Algorithmen, einschließlich durch Aktivationen statt durch Gewichte repräsentierter Lernalgorithmen. Daher können wir im Prinzip ein einfacheres `selbstreferentielles' System als dasjenige, auf welches sich vorliegendes Kapitel konzentriert, mit einem `konventionellen' rekurrenten Netz ohne explizite Fähigkeit zur Eigengewichtsmodifikation (mittels $ana(t), val(t), mod(t), \bigtriangleup(t)$) realisieren. (So gesehen brauchen wir nur die erste der in 8.1.2 aufgelisteten Modifikationen konventioneller rekurrenter Netze zu behalten, nämlich die Evalknoten.) Dieses alternative Netz ist allerdings nicht imstande, all seine adaptiven Parameter selbst zu kontrollieren.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... einzeln8.9
Wie bereits verschiedentlich erwähnt, besteht dieses Kapitel nicht auf Schemata zur Adressierung einzelner Gewichte. Es existieren viele alternative Möglichkeiten, $g$ zu wählen und die Gleichungen (8.3) und (8.5) entsprechend umzudefinieren.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... ist8.10
Bei dem alternativen Netzwerk aus Fußnote$^8$ (Abschnitt 8.1.3) würde dies darauf hinauslaufen, die Aktivationen des Netzwerks am Ende eines Trainingsintervalls nicht von neuem zu initialisieren. Denn es könnte ja sein, daß die Aktivationen einen nützlichen `selbstreferentiellen' Lernalgorithmus darstellen.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
... Kapitel8.11
Das Kapitel ist teilweise inspiriert durch ältere Ideen zum Thema `Lernen lernen' - [88] beschreibt einen `selbstreferentiellen' genetischen Algorithmus sowie einge weitere `introspektive' Systeme.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.


Related links in English: Recurrent networks - Fast weights - Subgoal learning - Reinforcement learning and POMDPs - Unsupervised learning and ICA - Metalearning and learning to learn
Deutsche Heimseite