Man betrachte einen deterministischen Prediktor
(nicht notwendigerweise ein KNN), dessen
Zustand zur Zeit der Sequenz
durch einen reellen Eingabevektor
aus der Umgebung, einen internen Zustandsvektor
, und
einen Ausgabevektor
gegeben ist.
Die Eingaben aus der Umgebung selbst dürfen
nichtdeterministisch sein.
Zum Zeitpunkt beginnt der Prediktor mit
und einem internen Initialisierungszustand
.
Zum Zeitpunkt
berechnet er
![]() |
(7.1) |
![]() |
(7.2) |
![]() |
(7.3) |
Dabei spielt es keine Rolle, ob die Eingabesequenz durch einen deterministischen oder durch einen nicht-deterministischen Prozeß generiert wurde. Es geht nur um die Kompression der Beschreibung einer bereits beobachteten Sequenz - auf welche Weise die Sequenz entstanden ist, ist egal. Beispiel: Ein trivialer Prediktor, der bei einer Sequenz von Münzwürfen stets `Wappen' prophezeiht, wird in etwa der Hälfte der Fälle recht behalten - damit läßt sich die Zahl der zur Beschreibung der beobachteten Sequenz benötigten Eingaben um etwa die Hälfte reduzieren7.1.
Die Information über eine beobachtete Eingabesequenz läßt
sich i.a. jedoch noch weiter komprimieren: Es genügt
vollständig, wenn wir uns in (7.4) ausschließlich
diejenigen Komponenten der Vektoren
merken, die nicht korrekt vorhergesagt wurden.
Ich nenne dies das Prinzip der Geschichtskompression.
Typischerweise wollen wir beobachtete Sequenzen gar nicht vollständig
rekonstruieren, sondern nur korrekt klassifizieren.
Aus dem Prinzip der Geschichtskompression folgt, daß
wir zwei oder mehr Sequenzen schon dann
voneinander unterscheiden können,
wenn wir nichts über die Sequenzen wissen
außer den falsch vorhergesagten
Eingaben samt den Zeitschritten, zu denen sie auftraten.
Durch das Ignorieren erwarteter Eingaben geht keine
Information verloren. Zur Sequenzklassifikation müssen wir
nicht einmal
und
kennen - es genügt, zu wissen, daß sowohl
als auch
deterministisch sind.
Vom theoretischen Standpunkt aus ist es wirklich notwendig, den Zeitschritt zu kennen, zu dem eine unerwartete Eingabe auftrat. Ohne solches Wissen eröffnet sich Raum für Ambiguitäten: Zwei verschieden Eingabesequenzen können zur selben kürzeren Sequenz falsch prophezeihter Eingaben führen. Bei vielen praktischen Aufgaben ist es jedoch nicht unbedingt erforderlich, die `kritischen' Zeitschritte zu kennen (siehe Abschnitt 7.4.1).