A2 basiert auf zwei gekoppelten Netzwerken. Beide Netzwerke sind vollständig zyklisch. Das ``Modellnetzwerk'' dient dazu, die externe Umgebung mittels Voraussagen über die zukünftigen Eingaben des ``Steuernetzwerkes'' zu modellieren. Zu diesen Eingaben gehören u.a. auch spezielle ``Schmerzerlebnisse'' oder ``Lusterlebnisse'', welche durch ``unerwünschte'' bzw. ``erwünschte'' Aktivationen bestimmter Netzknoten realisiert werden. Die Voraussage des Modellnetzwerkes basiert auf vergangenen Eingaben und Ausgaben des Steuernetzwerkes. Die einzige Aufgabe des adaptiven Modellnetzwerkes ist es, die externe Dynamik in einer Form zu repräsentieren, die es erlaubt, ``Schmerz- und Lustgradienten'' für das ebenfalls adaptive Steuernetzwerk zu berechnen. Zumindest im Prinzip sind beliebige Verzögerungen zwischen Aktionen und späteren Konsequenzen erlaubt.