So wie A2 oben beschrieben wurde, stehen dem Steuernetz keine von der Umgebung unabhängigen explorativen Fähigkeiten zur Verfügung. Man könnte sagen, die Zufälligkeit wird aus der Umgebung importiert.
Um 's explorative Fähigkeit von der Umgebung zu emanzipieren,
kann man ihm probabilistische Ausgabeknoten verpassen. Williams
hat das Konzept des `Back-Propagation durch Zufallsgeneratoren'
eingeführt [77]. Er beschrieb Knoten mit einer
durch eine kontinuierliche differenzierbare Wahrscheinlichkeitsverteilung
gegebenen Aktivierungsfunktion, deren Mittelwert und Varianz
durch einen BP-Prozeß adjustiert werden können. Mit solch einem
Konzept können unabhängige explorative
Möglichkeiten mit A2 konsistent gemacht werden. Dies erfordert
im Kontext des IID-Algorithmus allerdings folgende Modifikationen:
Ein probabilistischer Ausgabeknoten besteht aus einem
konventionellen Knoten
, der als Mittelwertgenerator fungiert, sowie
einem weiteren konventionellen Knoten
, welcher als Varianzgenerator fungiert.
Zu einem gegebenen Zeitpunkt wird
berechnet durch