Eine weitere Motivation für Netze, die ihre eigenen Gewichte (statt lediglich die Gewichte fremder Netzwerke) manipulieren können, ergibt sich aus folgenden Überlegungen:
Ein konventionelles vollständig rückgekoppeltes Netz mit Nichteingabeknoten verfügt über Variablen (die zeitveränderlichen Knotenaktivationen) zur Speicherung zeitlicher Ereignisse im Kurzzeitgedächtnis. In Kapitel 2 haben wir gesehen, daß der populäre RTRL-Algorithmus Operationen pro Zeitschritt jeder Eingabesequenz benötigt. Das Verhältnis zwischen Operationen pro Zeitschritt und der Anzahl der Variablen zur Speicherung von Ereignissen beträgt demnach also . Der beschleunigte Algorithmus (Abschnitt 2.5) drückt dieses Verhältnis durch Reduzierung der durchschnittlichen Anzahl von Operationen pro Zeitschritt auf . Es stellte sich nun kürzlich heraus, daß es möglich ist, einen komplementären Ansatz zur Erzielung von zu verfolgen [116], welcher die Zahl der Operationen pro Zeitschritt bei beläßt, gleichzeitig jedoch die Anzahl der Variablen zur Speicherung von Ereignissen auf hochschraubt. Dies wird erreicht, indem dem Netzwerk gestattet wird, während der Verarbeitung einer Eingabesequenz seine eigenen Gewichte aktiv zu modifizieren. Hierbei findet eine schnelle Variante der Hebb-regel Verwendung, um sofortige (möglicherweise dramatische) Änderungen von Verbindungen zwischen zu sukzessiven Zeitschritten aktiven Knoten hervorzurufen. Für eine derartige Architektur wurde kürzlich ein exakter gradientenbasierter Algorithmus für überwachtes Sequenzlernen (eine Erweiterung von RTRL mit im wesentlichen gleicher Berechnungskomplexität) abgeleitet [116].