R-Lernen und adaptive Regelung haben viel gemeinsam: Bei der adaptiven Regelung ist in der Regel einige Information über gewünschte Umgebungszustände vorhanden. Gerade wie beim R-Lernen ist aber nicht von vornherein bekannt, welche Ausgabesequenzen zur Erzielung gewünschter Umgebungszustände geeignet sind.
Von den drei Arten konnektionistischen Lernens (überwachtes Lernen, R-Lernen, unüberwachtes Lernen) ist R-Lernen diejenige, die am meisten mit dem aus der Biologie bekannten Lernverhalten zu tun hat: Simple Evaluierungsfunktionen generieren abhängig von den Aktionen des Lernsystems Eingaben wie Schmerz, Lust etc... Trotz ihrer Einfachheit `wollen' simple Bewertungsfunktionen im allgemeinen komplizierte Aktionssequenzen erzwingen.
Als Beispiel verwenden wir wieder unser Balancierproblem. Ein guter R-Algorithmus sollte imstande sein, dieses Problem (unter bestimmten jetzt nicht so wichtigen Zusatzbedingungen) auch dann schon zu lösen, wenn die einzige von der Umgebung zur Verfügung gestellte Lehrinformation in dem beim Umfallen des Stabes geäußerten Hinweis besteht: `Das war schlecht'. Die schwierige Aufgabe des R-Algorithmus ergibt sich aus der zeitlichen Komponente des Lernproblems: Welche der vergangenen Aktionen war denn verantwortlich für den Mißerfolg?