Die Idee, das ganze mit einem Telefon zu machen, ist ganz gut, weil man da sehr schön das Vorwissen extrahieren kann. Auch Dein Szenario gibt mir ein gewisses Vorwissen (das alleine mir überhaupt erlaubt, eine a-Priori-Wahrscheinlichkeit aufzustellen und somit überhaupt Aussagen über die Information zu treffen). Beispielsweise weiß ich auch in Deiner Version schon im Voraus, daß Du Münzen verwenden und mir das Ergebnis des Münzwurfs sagen wirst, und daß Du dabei eben die drei erwähnten Münzen mit den entsprechenden Wahrscheinlichkeiten verwendest. Der Unterschied zwischen Deinem und Meinem Szenario ist, daß ich bei meinem Szenario zusätzlich noch eine weitere Information im Voraus habe: Wir haben nämlich in meinem Szenario im Voraus abgemacht, daß Du nur eine der Münzen verwenden wirst (aber natürlich nicht, welche).
Allerdings können wir noch ein einfacheres Szenario betrachten, bei dem mein Vorwissen noch wesentlich eingeschränkter ist. Nämlich: Wir vereinbaren nur, daß Du mir eine Folge von "Kopf" oder "Zahl" durchgeben wirst, und zwar so viele Ergebnisse, wie ich will. Zusätzlich vereinbaren wir, daß Du stets auf dieselbe Weise ermittelst, ob Du Kopf oder Zahl angibst, und zwar auf eine Weise, daß Dein Ergebnis nicht von den vorherigen Ergebnissen abhängt. Wie Du zu diesen Ergebnissen kommst, ist dabei aber nicht weiter festgelegt. Du könntest z.B. jedes Mal eine ideale Münze werfen, oder eine beliebig gezinkte Münze, Du könntest würfeln (wahlweise mit ungezinkten oder gezinkten Würfeln) und den einzelnen Würfelergebnissen nach Belieben Kopf oder Zahl zuweisen (z.B. "6 ist Kopf, alles andere Zahl") oder Du könntest ein beliebiges Quantenexperiment durchführen, oder Du könntest es Dir einfach machen und jedesmal "Kopf" oder jedesmal "Zahl" sagen (aber z.B. nicht abwechselnd "Kopf" und "Zahl", denn das würde die Bedingung der Unabhängigkeit verletzen). Bevor Du nun irgendein Ergebnis durchgegeben hast, kann ich natürlich nicht im Geringsten vorhersehen, was Du mir durchgeben wirst. Also werde ich den Ergebnissen "Kopf" und "Zahl" jeweils die Wahrscheinlichkeit 0.5 zuordnen. Ich rechne also mit 1 bit Information über das Ergebnis des ersten Wurfs.
Und dann ziehen wir das wochenlang durch, und irgenwann habe ich z.B. zehntausend Ergebnisse. Dabei stellt sich heraus, daß die Hälfte der Ergebnisse Kopf, die andere Hälfte Zahl sind. Also schließe ich wiederum, daß die Wahrscheinlichkeit für "Kopf" und "Zahl" jeweils 0.5 ist. Wie Du zu den Ergebnissen kommst, weiß ich natürlich immer noch nicht. Demnach habe ich also über die zukünftigen Ergebnisse keinerlei Information erhalten, richtig?
Nun, testen wir das mal. Nehmen wir einmal an, jetzt kommt André zu mir zu Besuch. Ich teile ihm unsere Vereinbarungen mit, aber nicht die bisher erhaltenen Ergebnisse. Er hat jetzt also genau die Information, die ich am Anfang auch hatte.
Wenn man uns jetzt fragt, mit welcher Wahrscheinlichkeit das nächste (oder der übernächste, etc.) Ergebnis Kopf ist, werden wir beide zum Ergebnis 0.5 kommen. Ich, weil meine vergangene Erfahrung gezeigt hat, daß Kopf und Zahl gleich wahrscheinlich sind, André, weil er keinerlei Information besitzt, die eine Bevorzugung eines der Ergebnisse rechtfertigt. Natürlich sieht die Situation anders aus, wenn nach vergangenen Ergebnissen gefragt wird: Während André auch dann noch Kopf und Zahl jeweils die Wahrscheinlichkeit 0.5 geben wird, kann ich einfach in meinen Aufzeichnungen nachblättern und mit Sicherheit (also Wahrscheinlichkeit 1) sagen, welches Ergebnis herausgekommen ist.
Ok, bisher keine Überraschungen: Über jedes einzelne vergangene Ergebnis habe ich ein bit Information mehr als André, weil ich ja das Ergebnis kenne, und über jedes einzelne zukünftige Ergebnis habe ich exakt genausoviel Information wie André, nämlich keine (außer daß es entweder Kopf oder Zahl werden wird). Also dürfte ich über die zukünftigen Ergebnisse nicht mehr Information besitzen als André, richtig?
Jetzt schalte ich aber am Telefon den Mithörer ein und frage Dich nach zwanzig weiteren Ergebnissen. Und wie der Zufall so will, lauten alle zehn folgenden Ergebnisse "Kopf". Anschließend werden André und ich gefragt, welche Wahrscheinlichkeiten wir für das nächste Ergebnis ansetzen. Ich werde nun, nach meinen zehtausend vorherigen Ergebnissen (und weil ich Dir vertraue, daß Du unsere Abmachung einhältst) feststellen, daß diese zwanzig Köpfe ein bei Gleichwahrscheinlichkeit zwar unwahrscheinliches, aber durchaus mögliches Ereignis sind, und die zehntausend Ergebnisse zuvor demonstrieren, daß die Wahrscheinlichkeit zumindest sehr nahe bei 0.5 liegt. Also werde ich für das nächste Ergebnis wiederum eine Kopf-Wahrscheinlichkeit von ziemlich genau 0.5 ansetzen.
Ok, betrachten wir nun Andrés Position. Er kennt nur die zwanzig Ergebnisse, daher wird er feststellen, daß die Folge von zwanzig Köpfen unwahrscheinlich ist, wenn ein gleichverteilter Zufallsprozeß vorliegt, aber sehr wahrscheinlich, wenn der Prozeß Kopf zumindest stark bevorzugt, wenn Du nicht ohnehin die einfache Möglichkeit gewählt hast, immer Kopf zu wählen. Er wird also zum Schluß kommen, daß höchstwahrscheinlich ein Prozeß eingesetzt wird, der Kopf gegenüber Zahl zumindest stark bevorzugt, und wird deshalb für den nächsten Wurf eine wesentlich höhere Wahrscheinlichkeit für Kopf als für Zahl ansetzen.
Da wir nun offensichtlich zu sehr verschiedenen Ergebnissen kommen, muß unsere Information über die zukünftigen Ergebnisse wohl unterschiedlich sein. Aber wenn vor den zwanzig neuen Ergebnissen unsere Information über die zukünftigen Ergebnisse gleich war, und wir anschließend dieselbe Information über die zukünftigen Ergebnisse erhalten haben (nämlich dieselben zehn neuen Ergebnisse), dann kann doch jetzt unsere Information nicht plötzlich unterschiedlich sein!
Jetzt wird es interessant: Wenn ich jetzt die Entropie für das nächste Ergebnis ausrechne, dann komme ich auf etwa 1 bit, denn schließlich sind ja Kopf und Zahl etwa gleichwahrscheinlich, wie die vergangenen 10020 Würfe gezeigt haben. Wenn hingegen André die Entropie für das nächste Ergebnis ausrechnet, dann kommt er auf einen Wert deutlich geringer als 1 bit, denn nach seiner Erkenntnis ist es ja sehr wahrscheinlich, daß das nächste Ergebnis ebenfalls Kopf sein wird. Wenn man jetzt also die Entropie naiv interpretiert, dann müssen wir zum Schluß kommen, daß André nun wesentlich mehr über das nächste Ergebnis weiß als ich, obwohl er nur zwanzig vergangene Ergebnisse, ich aber 10020 kenne; ich habe also mehr Information erhalten, und weiß dennoch weniger als André?
Der gesunde Menschenverstand sagt natürlich, daß ich schon mehr über die zukünftigen Ergebnisse wußte als André, bevor wir die zwanzig zusätzlichen Ergebnisse erhalten habe, und daß ich über die zwanzig Ergebnisse nicht viel über die folgenden dazugelernt habe, während André durchaus mehr über die zukünftigen Ergebnisse erfahren hat als ich, allerdings insgesamt wesentlich weniger Information darüber hat, weshalb er auch wesentlich eher einem Trugschluß erlegen ist (das kann man natürlich nicht absolut sicher sagen, denn auch ein Prozeß, der Kopf stark bevorzugt, könnte theoretisch erst mal zehntausend gleichverteilte Ergebnisse liefern, nur ist das deutlich unwahrscheinlicher, als daß ein gleichverteilter Prozeß zwanzig Köpfe hintereinander liefert).
Wenn man nun richtig rechnet, dann wird man auch genau dies herausfinden. Der Schlüssel ist dabei, daß, obwohl die
Ergebnisse unabhängig voneinander sind (das war ja von Vornherein vereinbart), es die
Vorhersagen nicht sind. Zwar sind die Rechnungen für Einzelergebnisse oben allesamt richtig, die Werte dürfen aber nicht einfach aufaddiert werden, weil sie ja nicht unabhängig sind. Das sieht man recht schön an Andrés Vorhersage: Die zwanzig Ergebnisse haben seine Vorhersage
massiv beeinflusst. Das bedeutet insbesondere, daß vorher für ihn, obwohl für jedes einzelne Ergebnis Kopf und Zahl gleichwahrscheinlich sind, die verschiedenen Ergebnis
folgen nicht gleichwahrscheinlich sind. So ist eben die Folge "20 mal Kopf, dann Zahl" unwahrscheinlicher als die Folge "21 mal Kopf". Für mich, mit meiner Erfahrung der zehntausend Ergebnisse davor, sind diese Folgen aber durchaus (nahezu) gleichwahrscheinlich.
Ok, und was ist mit der Entropie? Nun, die zeigt vor allem die Subjektivität der Information (und der Entropie). Da André nach den zwanzig Ergebnissen einen weiteren Kopf für nahezu sicher hält (in der Tat kann man ausrechnen, daß seine Wahrscheinlichkeit für Kopf 21/22 ist, und für Zahl 1/22), ist der Informationszuwachs, den
er für sich erwartet, in der Tat - 21/22 ld(21/22) - 1/22 ld(1/22) = 0.27 bit, während der Informationszuwachs, den
ich für mich erwarte, etwa - 1/2 ld(1/2) - 1/2 ld(1/2) = 1 bit ist. André erwartet also von der Mitteilung des nächsten Ergebnisses einen wesentlich geringeren Informationszuwachs
über dieses Ergebnis als ich. In der Tat kann ich sogar ausrechnen, welchen Informationszuwachs
ich für André erwarte: Der Informationswert jedes Ergebnisses bemißt sich ja für ihn aus seiner Wahrscheinlichkeitsverteilung (die ich ausrechnen kann, da ich ja sein Wissen über die Ergebnisse vollständig kenne), während ich den Erwartungswert natürlich mit
meiner Wahrscheinlichkeitsverteilung berechnen muß. Ich erwarte also einen Informationszugewinn für André von etwa - 1/2 ld(21/22) - 1/2 ld(1/22) = 2.26 bit (also mehr als 1 bit!). Die Differenz der beiden Werte, hier 1.99, nennt man auch relative Entropie; sie ist also ein Maß dafür, wie stark André mit seiner Einschätzung des Informationsgewinns durch das nächste Ergebnis meiner Meinung nach daneben liegt. Das ist natürlich auch nur meine Einschätzung (schließlich ist es nicht
völlig ausgeschlossen, daß ich von den ersten zehntausend Ergebnissen desinformiert wurde), allerdings eine gut begründete (denn daß ein "kopflastiger" Prozeß einen Block zehntausend gleichverteilter Ergebnisse liefert, ist schon extrem unwahrscheinlich).
In diesem Zusammenhang ist auch eine interessante Feststellung, daß der Laplacesche Dämon für ein klassisches Gas stets die Informationsentropie Null erhält: Er kennt ja die Orte und Geschwindigkeiten aller Teilchen im Universum, insbesondere also auch für das Gas.
Bearbeitet von Timeout am 27.01.2007 um 13:42 Uhr.