A2 stellt eine Erweiterung der im 3. Kapitel beschriebenen Arbeiten von Munro, Jordan, Werbos, Widrow und Robinson dar. Dieses Kapitel ist wie folgt gegliedert: Nach einer Zusammenfassung und einer intuitiven Erklärung des Prinzips wird der Algorithmus mathematisch begründet und anschließend in implementierfähiger Form beschrieben. Zwei Versionen von A2 werden betrachtet: Bei der sequentiellen Version wird zunächst eine Systemidentifikationskomponente daraufhin trainiert, die Umgebung zu simulieren. Danach schließt sich die Lernphase einer Steuerkomponente an. Bei der parallelen Version lernen beide Komponenten gleichzeitig. A2's potentielle Mächtigkeit wird illustriert durch das (nach bestem Wissen des Autors) erste Experiment zum R-Lernen in einer Nicht-Markov-Umgebung.
Danach wird ausgeführt, wie A2 unter Verlust an Effizienz für vorausschauendes adaptives Planen ausgenützt werden kann. Wesentliche Unterschiede zu den adaptiven Kritikern werden dabei besprochen. Gewisse Vorteile des Konzepts der adaptiven Kritiker motivieren das nachfolgende Kapitel.
Die Schlußkritik bezieht sich vor allem auf die nicht vorhandene Kompositionalität des Algorithmus und stellt zusätzliche Motivation für das abschließende 8. Kapitel dar.