Zurück zum Blog

Die Definition der Information
Definition der Länge der Information
Definition Intelligenz und Wissen
Verwertbare Information
Summary
Gruppe, Vektorraum und Norm, Metrik
Problem Skalarprodukt
Verwertete Information: Bertrands Paradox
Verwertete Information: Wissen und Intelligenz – Aktive und passive Informationsverarbeitung, Lernen
Verwertete Information: Wissen und Intelligenz – Virtualisierung und Automatisierung
Wiederholbarkeit
Zusammenhang
Über die Natur der Veränderung
Eigenvektoren und Mindestinformation

Existiert eine Metrik auf der Menge der Information?

Die Definition der Information als mathematische Gruppe erlaubte eine Längendefinition und damit auch eine Metrik. Die Frage erhebt sich darüber hinaus, ob die Information mit einer Addition und einem Skalarprodukt zum Vektorraum gemacht werden könnte und ob damit nicht sogar eine Norm definierbar wäre.

Obwohl deshalb nur die Information selbst und nicht die „Kehrseite der Medaille“, die Informationsverarbeitung, im Fokus steht, sind zwecks Übersicht die Fragen der Abbildbarkeit mitberücksichtigt.

Alle übrigen Folgerungen der Verarbeitung, wie die daraus resultierende Kategorisierung der Ereignisse in Realität 1., 2., 3. Stufe sollen hierfür außer Acht bleiben, genauso wie die Mächtigkeit des IV-Systems und die Bedingungen, die eine Realität erfüllen sollte, um machbar modellierbar zu sein.

Andererseits...
was aus der Definition und/oder der Metrik an interessanten Folgerungen abzuleiten ist...
oder „umgangssprachliche Formulierungen“ der Information, um die trockene Mengenbeschreibung verständlich zu machen, ist vielleicht doch „eine weitere Frage wert“? Bertrands Paradox ist es ganz sicher.

Und noch eine Anmerkung:

60 Jahre und kein bisschen weiser: Soviel Zeit ist nun seit Claude Shannon verstrichen und auch Norbert Wieners Ideen von Information stammen aus der Mitte des vorigen Jahrhunderts. Und seit damals stellen Leute allerorten Definitionen über Information auf und streiten über Interpretationsbestimmung zwischen Sender und Empfänger oder über Wahrscheinlichkeiten, die sich aus Zuständen gewinnen lassen.

Damit…

hat die folgende 1001. Definition der Information gar nichts zu tun. Nach 60 Jahren wurde hier einfach mal der Gedanke umgesetzt, dass eine so lang erfolglos gebliebene Suche unnütze Zeitverschwendung sein könnte und dass selbst Tausende von Professoren und Zehntausende von IT-Experten das Geheimnis nicht lüften werden, solange sie auf dem selben falschen Pfad weiter stürmen. Also wurde dieser Pfad verlassen und das, was sie alle (auch die Quanteninformatiker) so eifrig meiden, als Grundlage der Definition der Information verwendet:

Physik.

Wirkung.

Die Definition der Information

Information ist identifizierbare, wiederholbare Wertveränderung und damit wesentlich durch Anfangs- und Endzustände bestimmt.

Physik der Information, ISBN 3-935031-03-3,
Verknüpfungen von Transformationen: Wiederholbarkeit und Zusammenhang, S. 128

„Mit der Definition der Transformation ist auch ihre Verknüpfung bereits bestimmt, solange die Ausgangstransformationen existieren und eine der Zuordnungen übereinstimmt.

6. Verknüpfung Xe’Xe := XX(e|w) = e|w’’
für X(e|w) = e|w’, X’(e|w’) = e|w’’“

Definition der Information: Längenbestimmung, S. 137

„Das sind bisher bereits einige Einschränkungen für unsere Menge von Transformationen einer Eigenschaft e: Erstens sollen es nur wiederholbare Transformationen sein, dann sollen sie alle zusammenhängen, dann soll zu jeder Transformation eine existieren, die sie genau aufhebt und zum Schluss noch eine, die gar nichts tut.

Dann haben wir tatsächlich eine Gruppe. Die Wiederholbarkeit sichert uns nämlich praktischerweise die Assoziativität, also die Reihenfolgenunabhängigkeit – genau dies war unsere „Geschichtslosigkeit“ der Transformation. (pdf, 275 KB)

Und genau diese Gruppe nennen wir Information bezüglich der Eigenschaft, auf die sich all unsere derartig eingeschränkten Transformationen beziehen.

12. Information Ie := {X, X1, X-1 |
X wiederholbare, zusammenhängende Transformationen einer Eigenschaft e,
bei Existenz von X
1 als Einselement und X-1 der Inversen von X für alle X)

...Unsere Information ist nun richtig rund.

Durch die geforderte Identifizierbarkeit der Eigenschaft und ihrer Werte ist die Abbildbarkeit der Information gesichert, durch die Transformation weiterhin die aus allen Informationsverarbeitungen bekannte Tatsache, dass Abbildungen aus den Ereignissen der Umwelt heraus erzeugt und verändert werden können („Information ist Informationstransport).

Durch die Gruppeneigenschaft andererseits haben wir den Bezug zur Mathematik geschaffen, denn die Translationsabbildung auf der Wertemenge, auf der die Transformationen wiederholbar sind, ist eine reguläre, zuverlässige mathematische Funktion mit all den Vorteilen, die diese über Jahrhunderte Physik und Technik bot. Da die Transformationen zusammenhängend sind, formt auch die Wertemenge mit der Translationsabbildung eine Gruppe, denn Transformation und Translation sind geradezu äquivalent unter diesen Bedingungen.

Die Wiederholbarkeit selbst ist die Grundvoraussetzung für das Experiment“

Anmerkung: Transformation ist hier nicht im mathematischen Sinne als Funktion gedacht, sondern als tatsächliche Änderung von Zuordnungen, wobei eine Zuordnung eine binäre Relationen zwischen Werten und Eigenschaften ist (ein Zustand), temporär, aber eindeutig, solange sie existiert.

Auch ist keinerlei Einschränkung über die Eigenschaft gemacht worden. Ob es eine einfache oder eine hochkomplexe Eigenschaft ist - uninteressant, im Gegenteil: Alles, was sich über Mengen abbilden lässt, kann auch „Eigenschaft“ sein.

Information ist damit kein Zustand, sondern das, was Zustände ändert: Information ist physikalische Wirkung mit der einschneidenden Bedingung der Identifizierbarkeit und Wiederholbarkeit. Mit anderen Worten: Sie ist dynamisch, regelmäßig zwar, fixierbar zwar durch Anfangs- und Endzustände (abbildbar), aber dynamisch.

Wie eine stehende Welle. Aber nicht nur.

Ursache-Wirkung: Solange ein wiederholbarer Zusammenhang zwischen Zuständen besteht, ist es Information, „steckt Information“ darin. Jede Nachvollziehbarkeit ist also Information, denn dies bedeutet, dass aus einem Anfangszustand Schritt für Schritt der Endzustand erklärt werden kann – egal wann, egal wo, jedes Mal, wenn die Geschichte nachvollzogen, „erzählt“ wird. Das wiederum würde niemals Sinn machen, wenn nur zufällige Ereignisse im Spiel gewesen wären.

Definition der Länge der Information

ML Method – a basic technique of analysis to create specifications for database software (pdf, 127 KB ):

“A length between two values of this element of quality is defined as the shortest chain of action between these values.”

Physik der Information, ISBN 3-935031-03-3,
Definition der Information: Längenbestimmung, S. 139

„Für die Länge zwischen zwei Werten betrachten wir die Anzahl der Transformationen, die nötig sind, um mit einem der beiden Werte als Anfangszuordnung über diese Transformationsketten dann den anderen Wert als Endzuordnung zu erhalten. Welcher Wert der Anfangs- und welcher Wert der Endwert ist, soll uns dabei nicht interessieren.

Der einfachste Fall liegt wohl vor, wenn eine Transformation existiert, die die beiden Werte direkt verbindet, dieser Fall soll deshalb die Länge 1 erhalten. Müssen andere Transformationen dazwischengeschaltet werden, soll die Anzahl dieser Transformationen gezählt werden. Da hier viele verschiedene Kombinationen möglich sein können, werden wir als Länge die geringste Anzahl von Transformationen fordern, die zwischen zwei solchen Werten liegen.

13. Länge Le(e|w,e|w’) = Länge Le(w,w’)
:=0 für w=w’
:= 1 für X(e|w) = e|w’ oder X(e|w’) = e|w
:= min(n) für {X | X(e|w’’) = e|w’’’, n X(e|w’’) = e|w’’’ zusammenhängend zwischen w,w’ oder w’,w}

Obwohl die Transformationskette aus Anfangs- und Endzuordnungen also sehr wohl nur eine einzige Richtung aufweisen könnte, ist die Länge in beide Richtungen bestimmt.

Sie erfüllt auch tatsächlich die mathematischen Anforderungen an Abstände“

Definition von Intelligenz, Definition von Wissen

„Intelligenz“ ist die Fähigkeit, Information aufzunehmen und zu verarbeiten. Dies geschieht durch Abbildung und ist möglich, da Information durch ihre Regelmäßigkeit durch Zustände und ihre Abfolge gekennzeichnet ist. Selbst wenn also die Dynamik der Information per se nicht speicherbar ist, weil Veränderlichkeit das absolute Gegenteil von Stabilität und Speicherbarkeit ist, so sind doch die verschiedenen „Stufen“ der Dynamik durch die ständig sich wiederholenden Zustände klar fassbar.

Intelligenz ist deshalb das Speichermedium, das die Eigenschaften über Art und Umfang - sowie Anzahl - der zu speichernden Zustände festlegt, plus Triebwerk, diese Zustände und ihre korrekte Anordnung zu speichern und wieder zu restaurieren. Das Triebwerk stellt demnach die wiederholbaren Transformationen.

„Wissen“ ist dabei die gesamte bereits vorhandene Abbildung einer Intelligenz. Zu beachten ist, dass diese Abbildung nicht nur die Zustände und ihre Reihenfolge umfassen muss, sondern insoweit auch dynamisch sein muss, dass sie diese Zustände/Reihenfolgen abspeichern und abfragen kann.

Wissen ist also immer auch Erinnerung: die Fähigkeit, die gespeicherte Abbildung wieder aufzubereiten, um sie mit aktuell eingegangenen Abbildern zu vergleichen. Die Umgangssprache weist als Unterschied beider Worte wohl überwiegend auf den Grad der Sicherheit hin, den die Verbindung von Aktualität-Gespeichertem aufweist: „ich weiß“ drückt Gewissheit aus, „ich erinnere mich“ zeigt dagegen mehr eine neutrale Beobachterposition an.

Wissen in der obigen Definition ist darüber hinaus aktive Erinnerung: Neben der Fähigkeit der Rekonstruktion (inklusive Suche) von Abbildungen wird auch die Fähigkeit der Speicherung von Abbildungen dazu gezählt.

Wissen ist somit Intelligenz plus Werte/Daten/Inhalt.

Verwertbare Information

Verwertbar sind solche Transformationen, die eine Intelligenz erfassen und simulieren kann, die sie in ihrem Wissen bereits integriert hat – siehe Fantasie. Da Information Wertveränderung ist und nicht an einer irgendwie gearteten Verwertung klebt, nenne ich die Funktion verwertbarer, alias abgebildeter, Information F nach der Fantasie:

pF = F/RZ

F ist eine Untermenge der Transformationen, die sich durch RZ abschätzen ließen.

Zurück zum Anfang

Summary

Note: The following 1001st definition of information has little relation to the 1000 previous accepted ones, except that those 1000 are made easier to understand.

After 60 years (Shannon 1949, Wiener 1948) of no success to unify the 1000 definitions, the trails of the experts are no longer promising and abandoned for a new concept:.

Physics.

Action. Effect.

1) Connection of Transformations

Information is repeatable, identifiable change of values and therefore determinable by initial and end states.

Physik der Information, ISBN 3-935031-03-3,
Verknüpfungen von Transformationen: Wiederholbarkeit und Zusammenhang, S. 128

6. Connection Xe’Xe := XX(e|w) = e|w’’
for X(e|w) = e|w’, X’(e|w’) = e|w’’“

2) Definition of Information:

Physik der Information, ISBN 3-935031-03-3,
Definition der Information: Längenbestimmung, S. 137

The following set of real-change-transformations is a mathematical group. The repeatability ensures associativity aka independence of the order in succession – those transformations are independent of the “history” of their realization. (pdf, 275 KB)

Exactly this set, this mathematical group we do call “information” related to the Element of Quality e as universal stable part of all those restricted transformations.

12. Information Ie := {X, X1, X-1 |
X repeatable, coherent Transformations of an Element of Quality e,
in case of existence of X
1 as neutral element and X-1 as Inverse of X for all X}

The demanded identifiability of the element of quality and its values ensures the mappability of the information, the actions causing real-change-transformations are the reason why mapping based on real events works by observing, detecting and storing of states („information is information transport“).

On the other hand, the fact, that information is a mathematical group, connects this definition of information to mathematics and physics, because the “translation mapping” on the set of values, defined by Ie, is a reliable mathematical function.

Last not least, the repeatability is the basic requirement for the concept of the experiment in physics.

Note: Transformation X(e|w) is not used as mathematical terminus technicus “transformation”, so it is not a mathematical function, but a real change of allocations, aka a real change of binary relations between the element of quality (Eigenschaft: quality, attribute, feature, characteristic) and its value: so the relation is temporary, but unique at each time.

No restrictions are imposed on e (element of quality): e can be simple or complex, because it’s an element of a set. Each and everything capable of being represented by a set, can be an „element of quality“.

Hence, information is not a state, but that which changes states: Information is physical action under condition of identifiability and repeatability. In other words: Information is dynamic, though regular, though fixable by initial and end states (mappable), but dynamic.

Like a standing wave. But not solely.

Cause-Effect: As long as states are repeatably linked up, it’s information, “contains information”. Therefore, each reproducibility is information, because starting from the initial state the end state can be reached step by step – then and now, everytime the story is reproduced, is “told”. That wouldn’t make sense, if only random events would be involved.

3) Definition of the Length on the Information:

ML Method – a basic technique of analysis to create specifications for database software (pdf, 127 KB ):

“A length between two values of this element of quality is defined as the shortest chain of action between these values.”

Physik der Information, ISBN 3-935031-03-3,
Definition der Information: Längenbestimmung, S. 139

If there’s a transformation between two values w,w’ as in X(e|w) = (e|w'), the length is defined as 1. If there’s no such transformation, the least number of transformations (connection given by coherence) is called “length”.

13. Length Le(e|w,e|w’) = Length Le(w,w’)
:= 0 for w=w’
:= 1 for X(e|w) = e|w’ or X(e|w’) = e|w
:= min(n) für {X | X(e|w’’) = e|w’’’, n X(e|w’’) = e|w’’’ coherent between w,w’ or w’,w}

Despite the fact, that the chain of transformations is directed, the length is defined in both directions and fulfills the demands of a mathematical metrics.

4) Definition of Intelligence, Definition of Knowledge:

„Intelligence“ is the ability to assimilate and process Information via mapping. This works because Information is periodical action, so marked by states and the succession of states. Even though the dynamics of information cannot be stored, so cannot be effectively mapped, because changeableness is the opposite of stability and storability, the different “degrees” of the dynamics can be learnt by the repetition of the states.

Intelligence therefore is the storage, describing elements of quality by defining type and range - plus multitude - of the states to be stored, plus the engine to store and retrieve the states and their correct succession. Thus the engine offers the repeatable transformations.

“Knowledge” is the whole existing mapping of an intelligence. Note: The mapping is not only the storage of the states and the succession of those states, but also includes the ability to store and retrieve states and successions.

Knowledge is therefore memory: the ability to reproduce a stored mapping to compare it with a current one. Colloquial language may indicate a difference in the degree of reliability of the relation current-stored: “i know” expresses certainty, “i remember”, on the other hand, shows a more neutral position of an observer.

Moreover, knowledge in the definition above is active memory: besides the ability to reconstruct (and to search) knowledge involves the ability to store the mappings.

So knowledge is the intelligence plus the values/data/content.

5) Usable Information:

Usable are all transformations assimilated by an intelligence and therefore servicing as platform for simulations (s. fantasy). Because Information is real change of states and not bound to be used, the function of usable information aka mapped information is named “F” after the ability to simulate:

pF = F/RZ

F is a subset of the transformations, estimated by RZ

Zurück zum Anfang

Gruppe, Vektorraum und Norm, Metrik

Gruppe:

„dtv-Atlas zur Mathematik, Tafeln und Texte“, dtv Verlag, ISBN 3-423-030070-0, S. 39:

„Def. 1: T heißt eine innere Verknüpfung auf einer Menge M, wenn es zu jedem Paar (a,b) ε M x M genau (eindeutig) ein c M gibt mit: aTb = c. Gibt es nicht zu jedem Paar ein derartiges c, so heißt T eine innere Verknüpfung in M. Eine Menge, auf der eine innere Verknüpfung definiert ist, wird mit (M;T) bezeichnet.“

„Mengen, in denen eine innere Verknüpfung die Existenz inverser Elemente bewirkt, sind von besonderer algebraischer Struktur:
Def.7: (M; T) heißt eine Gruppe, wenn
I. das assoziative Gesetz gilt,
II. ein neutrales Element existiert,
III. zu jedem Element ein inverses Element existiert.“

Vektorraum:

„Bronstein-Semendjajew, Taschenbuch der Mathematik“, Verlag Harri Deutsch, ISBN 3-387144-392-8, S. 192

„Eine nichtleere Menge V, für deren Elemente eine Addition (+) und eine Multiplikation (*) mit reellen Zahlen erklärt ist, heißt reeller Vektorraum V = {V, +, *} oder linearer Raum und die Elemente heißen Vektoren, wenn folgende Axiome erfüllt sind:
Gesetze der Addition:
1. Ausführbarkeit und Eindeutigkeit: Zu je zwei Elementen a, b ε V gibt es genau ein Element a+b ε V, die Summe von a und b.
2. Assoziativität: Für alle a, b ε V gilt: a+(b+c) = (a+b)+c.
3. Kommutativität: Für alle a, b ε V gilt: a+b = b+a.
4. Umkehrbarkeit: Für alle a, b ε V gibt es ein x ε V, so daß a+x = b ist.
Gesetze der Multiplikation mit (reellen) Zahlen:
5. Ausführbarkeit und Eindeutigkeit: Zu jedem Element a ε V und jeder reellen Zahl α gibt es genau ein Element αa ε V, das α-fache von a
6. Assoziativität: für alle a ε V und alle reellen Zahlen α, β gilt: (αβ)a = α(βa)
7. Für alle a ε V gilt: 1*a = a
Distributivgesetze:
8. Für alle a, b ε V und alle reellen Zahlen α,β gilt:
α(a+b) = αa + αb und (α+β)a = αa + βa“

Norm:

„dtv-Atlas zur Mathematik, Tafeln und Texte“, dtv Verlag, ISBN 3-423-030070-0, S. 365:

„Def. 1: (V, || ||) heißt normierter Vektorraum, wenn V ein Vektorraum über K (mit K = R oder K = C ) ist und auf V eine Norm genannte Funktion || ||:V-> R0+ def. ist mit folgenden Eigenschaften:
(N1) || x || = 0 ⇔ x = 0
(N2) || αx || = | α | * || x || für alle α ε K
(N3) || x+y || <= || x || + || y || für alle x,y ε V
Mittels der Norm läßt sich eine Metrik (S. 51) def.: dn(x,y): = || x || – || y ||.“

Metrik:

„dtv-Atlas zur Mathematik, Tafeln und Texte“, dtv Verlag, ISBN 3-423-030070-0, S. 51:

Eine Menge M heißt metrischer Raum, wenn auf M eine Metrik erklärt ist, d.h. wenn eine Abbildung d:MxM-> R0+ existiert mit den Eigenschaften:
(1) d(x,y) = 0 ⇔ x = 0, (2) d(x,y) = d(y,x), (3) d(x,y) + d(y,z) >= d(x,z)“

Problem Skalarprodukt

Eine Gruppe ist die Information bereits, die Länge erfüllt auch die Bedingungen an die Metrik, doch mit dem Vektorraum hapert’s. Zwar sind die Gesetze der Addition für die Verknüpfung überwiegend erfüllt – wegen der Gerichtetheit der Transformation ist die Kommutativität zu prüfen -, das Skalarprodukt für reelle oder gar komplexe Zahlen scheint freilich äußerst fraglich.

Physik der Information, ISBN 3-935031-03-3,
Definition der Information: Längenbestimmung, S. 137

„Kontinuierlich ist diese Gruppe freilich nicht und sollte es besser vielleicht gar nicht sein. Warum?

Weil Kontinuierlichkeit das Zerfließen von Unterscheidbarkeiten der Mengenelemente bedeutet und gerade diese Unterscheidbarkeit uns für die Abbildbarkeit der Information so bedeutsam ist. Andererseits sind auch kontinuierliche Mengen mathematische Mengen, sichern damit die Eindeutigkeit jeden Elementes und sollten deshalb wenigstens eine Unschärferelation an Differenz aufweisen – belassen wir es also dabei, solange die Elemente identifizierbar bleiben.“

==> Ohne Skalarprodukt jedoch keine Norm.

Unsere Mengenelemente sind Transformationen, die Werte ändern, nicht die Werte selbst. Sie sind letztlich „binär“ – entweder sie fanden statt oder nicht, soll heißen: 0,1*Transformation macht keinen Sinn, genauso wenig wie 0,1*Länge = 0,1*(minimale Anzahl von Transformationen):

αX(e|w) ε Ie

αLe(e|w,e|w’)

sind für α ε R zumeist bedeutungslos.

Und für n ε N?

Auch „n-mal dieselbe Transformation“ ist nicht weiter gewinnbringend, denn die informativen Transformationen sind per se wiederholbar: Sie müssen immer aus demselben Anfangszustand zum selben Endzustand führen, n-mal, (n+1)-mal, (n+m)-mal, immer. Darüber hinaus dürfte das Problem der Gerichtetheit hier ebenfalls Probleme bereiten, denn 2x dieselbe Transformation bedeutet, dass diese Transformation zweimal ausgeführt wurde: dass entweder der Endzustand auch der Anfangszustand ist (was nur das Eins-Element leistet) oder eben, dass weitere Transformationen zwischengeschaltet sein müssen.

„n-mal die Länge zwischen zwei Transformationen“? Ist zwar sicher in gewissem Umfang in den Transformationsketten der zusammenhängenden Menge Information machbar, doch sicher nicht für alle n. Denn Information und Unendlichkeit vertragen sich nicht gut (IKI: infinity kills information) und alle n sind nun mal wirklich reichlich viel.

Pech.

Zurück zum Anfang

Verwertete Information: Bertrands Paradox

alias Bertrands Schachtelparadoxon, Monty-Hall-Problem, Ziegenproblem, Gefangenenproblem

Bertrands Paradox:

Jede noch so unwesentliche Information über ein System verbessert die Prognose über (zukünftige) Zustände des Systems (sein Verhalten) – messbar.

Dies ist nicht die gängige Interpretation des Bertrandschen Schachtelparadoxons. Es ist aber diejenige Version, die für das Verständnis von Information und der Existenz von Informationsverarbeitung, für die Betrachtungen über die Modellierbarkeit der Realität und des Kosten-Nutzen-Verhältnisses von Intelligenzsteigerung am nützlichsten ist.

Bertrands Schachtelparadoxons ist wohl kein besonders bekannter Begriff. Selbst auf dem Internet ist kaum etwas zu finden und wenn, dann zumeist als Bertrands Paradox oder gar als „Paradox von Bertrand“ Russel – Letzteres anschaulich als „Friseurparadox“ bezeichnet, weil es die Frage stellt, wer den Friseur rasiert, wenn dieser nur Leute rasiert, die es nicht selbst tun.

Und wenn dann doch das Paradox von Joseph Bertrand beschrieben wird, dann in seiner geometrischen Variante:

„On the completeness of quantum mechanics“, M.Kupczynski, Department of Mathematics and Statistics , Ottawa University (Quelle 01.06.2004, pdf 134 KB)

„He showed that there are different possible answers to a question: "What is the probability P that a chord of the bigger circle chosen at random cuts the smaller one at least in one point? The various answers are[14]: if we divide the ensemble of all chords into sub-ensembles of parallel chords, we find P= 1/2. If we consider the sub-ensembles having the same beginning, we find P=1/3 . Finally if we look for the midpoints of the chords lying in the small circle, we find P=1/4 . A solution of the paradox is simple: the different values of P correspond to the different random experiments which may performed in order to find the experimental answer to the Bertrand's question.“

Doch bereits in dieser geometrischen Version zeichnet sich die Bedeutung für Information und Informationsverwertung ab:

„Eine Einführung in die Erkenntnistheorie“, Vorlesung von Wolfgang Spohn im SS 1995, Skriptum ausgearbeitet von Martin Rechenauer (Quelle 01.06.2004, pdf 420 KB)

„Auf diesen Kreis lasse man zufällig einen Stock so fallen, daß er eine Sehne durch den Kreis legt. Frage: Wie groß ist die Wahrscheinlichkeit, daß diese Sehne länger ist als die Seiten des einbeschriebenen gleichseitigen Dreiecks?
...Hier geht etwas schief; offenbar machen wir hier vom Symmetrieaxiom zu freizügig Gebrauch.
[Fußnote] 57 Eine Diskussion von Bertrands Paradox mit weiteren Literaturangaben und Hinweisen auf die Geschichte des Problems enthält Marinoff (1994). Marinoff ist der Ansicht, daß das Problem durch eine unzureichend präzise Formulierung entsteht (der wir uns in unserer Darstellung auch schuldig machen) und es für alle Antworten mindestens eine Präzisierung der Problemstellung gibt, auf die sie die richtige Antwort sind.“

„Präzisierung“ bedeutet mehr Information, doch wie diese und die Vorgehensweise für die Bestimmung des Ergebnisses zusammenhängen, wird erst durch die Print-Medien klargestellt:

„Spektrum der Wissenschaft“, 11/1991, „Mathematische Unterhaltungen“, Ian Stewart, S. 14, ISSN 0170-2971
(Copyright © Spektrum der Wissenschaft Verlagsgesellschaft Heidelberg 1974-2000: Zitate mit freundlicher Genehmigung v. 02.11.1999)

„Hier noch einmal die Ausgangssituation und das Verfahren:
- Andromeda sitzt bestimmt in einer der drei Höhlen gefangen. Die Wahrscheinlichkeit, daß sie sich in einer bestimmten Höhle befindet, beträgt jeweils 1/3.
- Zuerst wählt Perseus eine Höhle.
- Dann zeigt Pegasau auf eine der beiden anderen Höhlen und gibt (wahrheitsgemäß) bekannt, daß darin eine Gorgo hockt.
- Danach erhält Perseus die Gelegenheit, sein ursprüngliche Wahl zu revidieren.
...Mit Pegasaus Strategie, immer zu wechseln, kehrt sich das Ergebnis gerade um... Die daraus resultierenden Wahrscheinlichkeiten von 0,33498 und 0,66502 liegen überzeugend dicht an den von Pegasau behaupteten Werten von 1/3 und 2/3.“

Dieses Ergebnis läuft freilich jedweder Intuition so sehr zuwider, dass es gar zu eklatanten Ausfälligkeiten kommen kann.

„Mathematische Unterhaltungen“, S. 14

„Kürzlich hat es um das geschilderte Problem in der amerikanischen Presse viel Wirbel gegeben... Eine Dame namens Marilyn vos Savant, die im Guiness-Buch der Rekorde [1991] als Person mit dem höchsten jemals gemessenen Intelligenzquotienten eingetragen ist, schreibt eine Kolumne mit dem Titel „Fragen Sie Marilyn“ [Ask Marilyn]. Letzthin tischte sie dabei eine Variante unserer Perseus-Geschichte auf, bei der ein Teilnehmer einer Fernseh-Show den hinter einer von drei Türen versteckten Hauptgewinn – ein Auto – finden soll; die anderen Türen verbergen jeweils eine Ziege.... Marilyn erklärte genau wie Perseus’ pfundige Pegasau, daß die Chancen, das Auto zu bekommen, doppelt so hoch seien, wenn man sich umentscheide.
Daraufhin wurde sie von einer Flut von Leserbriefen überschüttet...
‚Sie haben Unsinn verzapft... Schämen Sie sich... Ihre Antwort steht klar im Widerspruch zur Wahrheit... Vielleicht gehen Frauen mathematische Probleme anders an als Männer“...
Alles in allem stellten sich 92 Prozent der wissenschaftlich nicht vorgebildeten und immerhin 65 Prozent der einer Hochschule angehörenden Leserbriefschreiber gegen sie.“

Die Reaktionen auf Marilyn vos Savants Demonstration bewahrheiteten die Paradoxon-Definition also in erstaunlichem Maße.

Definition: „A paradox is an apparently true statement that seems to lead to a logical self-contradiction, or to a situation that contradicts common intuition. The identification of a paradox based on seemingly simple and reasonable concepts has often led to significant advances in science, philosophy and mathematics.“ (Quelle 01.06.2004: wordIQ)

Die Lösung dieses Paradoxons, das sich nunmehr als das „Monty Hall Problem“ (im Deutschen auch „Ziegenproblem“ oder „Gefangenenproblem“) outete und unter diesem Stichwort weitaus häufiger auf dem Internet zu finden ist als unter „Bertrands Paradox“, scheint demnach tatsächlich die Beschreibung „contradicts common intuition“ voll und ganz zu erfüllen.

„Marilyn vos Savant“ (Quelle 01.06.2004: wordIQ)

„Among mathematicians, vos Savant is best known for publicizing the Monty Hall problem, a probabilistic conundrum concerning the game-show host of that name. Its solution is not obvious and has led to some disagreement even in the mathematical field.“

„Its solution is not obvious“: Auch hier die Erwähnung des „Paradox“-Charakters, „normaler Anschauung“ zu widersprechen. Immerhin war genau dieses „Monty Hall Problem“ und die Aufregung, die es verursachte, derjenige Vorgang in ihrem Leben, der sie am berühmtesten machte.

Und ein Vorgang noch dazu, der ein ziemlich „praktisches“ Bild auf die Mathematiker-Gemeinde wirft.

„Mathematische Unterhaltungen“, S. 15

„Ich bin schockiert, daß Sie, nachdem Sie von mindestens drei Mathematiker korrigiert worden sind, Ihren Fehler immer noch nicht einsehen“
„Sie haben unrecht. Bedenken Sie doch: Wenn alle diese Doktoren irren würden, stünde es schlecht um unser Land.“

Das, was Mathematik und mit ihr die Naturwissenschaften vor allen anderen menschlichen Verfahren zur Erkenntnisgewinnung auszeichnet, ist die Nachvollziehbarkeit: Aus Axiomen, einem klaren Regelsatz und nur unter Verwendung explizit erwähnter Elemente wird eine Schlussfolgerung hergeleitet.

Entweder ist diese Schlussfolgerung falsch – dann muss dies mit genau derselben Methodik und unter Verwendung der explizit erwähnten Elemente widerlegt werden -, oder sie ist richtig und lässt sich beliebig oft auf genau dem Weg, auf dem sie erstellt wurde, wiederholen mit immer demselben Ergebnis.

Was also hat das mit den speziellen Individuen der „Mathematiker“ oder „Doktoren“ zu tun?

Schriftgelehrtenwissenschaften können im Gegensatz dazu keine Axiomatik verwenden – sie müssen über Versuch und Irrtum ihre Behauptungen irgendwie mit der Realität in Einklang bringen. Das kann ohne Mathematik nur über Schriften, über Worte, Texte, Demonstrationen erfolgen und ist deshalb niemals vollständig beweisbar oder vollständig widerlegbar. Denn dazu existiert nicht genügend Exaktheit. Best Practices in Kultur, Theologie, Justiz oder Informatik sind immer mehr oder minder vage Beschreibungen vom Problemgebiet und seinen Lösungsvarianten – und wie gerade Bertrands Paradox in seiner geometrischen Version bereits nahe legt, ändern sich die Ergebnisse in solchen Fällen mit der Vorgehensweise drastisch.

In Schriftgelehrtenwissenschaften macht die Berücksichtigung der Erfahrung der einzelnen Personen deshalb Sinn: Je mehr Erfahrung mit positiven Ergebnissen eine Person hatte, umso „verlässlicher“ werden ihre Behauptungen, ihre Schriften. Hier macht es Sinn, „drei Mathematiker“ oder „alle Doktoren des Landes“ anzusprechen, hier macht es Sinn, davon auszugehen, dass die Meinung von Experten „sich überwiegend um einen korrekten Mittelwert sammeln“ würde.

Nicht wirklich jedoch bei einem Problem, das mit mathematischer Präzision bereits seit hundert Jahren behandelt wurde.

„Mathematische Unterhaltungen“, S. 16

„Aber die wirklich schreckliche Wahrheit ist, daß dieses Problem schon uralt ist und jedem Statistiker im Laufe seiner Karriere in der einen oder anderen Form begegnet sein sollte. Eine Version bringt schon der französische Mathematiker Joseph Bertrand (1822-1900) in seinem bahnbrechenden Werk ‚Calcul des Probabilites’ aus dem Jahre 1889. Als Bertrands Schachtelparadoxon wurde es, wie Eugene Northrop in seinen ‚Riddles in Mathematics’ anmerkt, als ‚illustratives Beispiel in fast jedem darauffolgenden Lehrbuch’ verwendet. Eine Version mit drei zum Tode verurteilten Häftlingen und einem Gefängniswärter hat dann Martin Gardner, der Altmeister des Knobelns, im August 1959 im Scientific American beschrieben.“ (Quellen dazu 01.06.2004: wordIQ, Drei-Kasten-Problem)

Dass dies wirklich dasselbe Paradoxon ist wie in der geometrischen Variante, macht aber wohl am besten die „prozedurale“ Lösung des Bertrandschen Schachtelparadoxons deutlich:

Bertrands Schachtelparadoxon oder «die Magie der Information»

„Oder mit anderen Worten: für das Problem, das richtige Profil zu finden in einem Schritt, gibt es nur einen Weg, das richtige Profil mit 2 Schritten zu finden, kann aber auf 2 Arten geschehen[;] bei insgesamt 3 Wegen, das besagte Profil aus dem unbekannten Zustand zu erzeugen, sind also sowohl die Wahrscheinlichkeit 1/3 für die erste Wahl als auch von 2/3 für die revidierte Wahl unter Ausnutzung des ausgeschlossenen Profils ersichtlich.“

Eine Umformulierung des Bertrandschen Paradox könnte demnach wie folgt lauten:

Bertrands Paradox:

Ein und dieselbe Ausgangssituation kann unter Verwendung gültiger, aber unterschiedlicher Vorgehensweisen zu unterschiedlichen Ergebnissen führen.

Die Folgerung aus dem Kasten-Ziegen-Gefangenen-Monty Hall Problem weiter:

Wird die Ausgangssituation dahingehend präzisiert, dass eine Vorgehensweise selektiert wird, so wird deren Ergebnis eindeutig.

Oder mit anderen Worten die Formulierung wie oben:

Jede noch so unwesentliche Information über ein System verbessert die Prognose über (zukünftige) Zustände des Systems (sein Verhalten) – messbar.

Was an Paradoxa freilich das eigentlich Interessante ist, ist weniger die Lösung selbst, als die Klarlegung von „Missständen“: entweder falsche „common intuition“ oder eben auch ungültige oder wenig angepasste Methoden, an die Lösung des Paradoxons heranzugehen.

„Paradoxes“, ©2003 G. Donald Allen (Quelle 01.06.2004: pdf 134 KB)

„Paradox:
something absurd or contradictory: a statement, proposition, or situation that seems to be absurd or contradictory, but in fact is or may be true (Encarta online)...

Solving
Solving a paradox usually implies changing our rules about truth-values or about meaning or about some other feature of the proposition or its interpretation so that the statement no longer violates them, but so that the body of truths determined by the rules is saved, as far as possible, from loss of meaning or truth.“

Bertrands Schachtelparadoxon oder «die Magie der Information»

„Wie jedes Paradoxon hat auch dieses eine fundamentale Moral:
jegliche Information, die ein zu betrachtendes System aus Eigenschaften und Wechselwirkungen betrifft, steigert die Erfolgswahrscheinlichkeit der Prognose über das Verhalten dieses Systems oder mit anderen Worten, nichts, was Klarheit über ein Problem verschafft, ist untauglich zum Verständnis und damit zur Vorhersage, auch wenn es überhaupt nicht einsichtig ist, wie es mit einer besonderen Fragestellung zusammenhängt.
Oder ganz einfach gesagt:

Jede Information nützt zum Verständnis ihres Systems.“

Das Bertrandsche Schachtelparadox „implies changing our rules“ deshalb insoweit, als wir mit einer statischen Betrachtungsweise von Systemen weitaus ineffizienter zu Lösungen gelangen als mit einer dynamischen. Und das betrifft nicht nur das Ergebnis von 1/3 zu 2/3, es betrifft auch die Umständlichkeit von Lösungen, die sich bedingter Wahrscheinlichkeiten bedienen im Gegensatz zu einer geradezu primitiven „prozeduralen“ Lösung.

Denn jede Vorhersage über das Auftreten eines Zustandes kann immer auch als Vorhersage über das Verhalten eines Systems interpretiert werden, das diese Zustände erzeugt, zumal kein Zustand dieses Universums ewig währt. Jeder wird irgendwann eingenommen und irgendwann aufgegeben, jeder Zustand kann deshalb auch über (s)einen erzeugenden Vorgang dargestellt werden. Liegt bei solchen Vorgängen sogar Information vor, also identifizierbare, wiederholbare, zusammenhängende Transformationen, können Zustände und Vorgänge sogar als äquivalent angesehen werden. (Äquivalenz von Transformation und Translationsabbildung auf dem Wertebereich)

Solange nichts außer der Anzahl erzeugbarer Zustände über ein System bekannt ist, muss deshalb zwar die Gleichwahrscheinlichkeit herangezogen werden, um das Verhalten – sprich den zukünftigen Zustand als Ergebnis dieses Verhaltens – abzuschätzen. Je mehr Information jedoch bekannt ist, soll heißen, je mehr die internen Abhängigkeiten und Wechselwirkungen im System selbst bekannt sind, umso eher können die Transformationen selbst (die Wertveränderungen, die von einem zum nächsten Zustand innerhalb des Systems führen) in die Abschätzungen hineinfließen und die Ergebnisse damit konkretisieren.

Diese Sichtweise eröffnet gerade in der Informationstheorie sehr interessante Ausblicke.

Das Bertrandsche Schachtelparadoxon zeigt damit nicht nur, dass sich Steigerung von Intelligenz lohnt, weil die Mehr-Aufnahme von Information zu einer Verbesserung der Prognose über (zukünftige) Zustände führt, sie macht auch die Shannonsche Beobachtung leicht verständlich, dass in unwahrscheinlichen, aber trotzdem realisierten Zuständen Information steckt.

Physik der Information, ISBN 3-935031-03-3,
Abbildungsstrategien, S. 82, 83

„Je mehr Information in einem Zustand steckt, umso höher fällt zwar die Wahrscheinlichkeit für sein Auftreten aus, die Anzahl der Zustände wird dadurch indessen nicht verändert. Sein zahlenmäßiges Verhältnis zu den übrigen Zuständen, das durch die Shannon-Formel verwertet wird, bleibt selbstverständlich gleich...

Genau deshalb kann eine solche „Auswahl“ von Zuständen, die durch die höhere Wahrscheinlichkeit des Auftretens getroffen wird, als Rückschluss auf die Information dienen: Je mehr Zustände insgesamt vorliegen, aus denen ein einzelner durch diese „Bertrand-Wahrscheinlichkeit“ herausgesucht wird, umso mehr Information muss verwertet worden sein, um einen solchen „Wahrscheinlichkeitsschub“ hervorzurufen – oder mit anderen Worten: In unwahrscheinlichen Zuständen steckt die meiste Information“

Denn Information ist Regelwerk und erzeugt ihre Zustände unabhängig von der Gesamtanzahl möglicher Zustände, die ihr System einnehmen könnte. Je mehr Zustände das System also besitzt, umso unwahrscheinlicher wird der einzelne Zustand, da bei fehlender Information über das System die Gleichwahrscheinlichkeit zur Abschätzung der Realisierung maßgeblich ist. Enthält ein System jedoch Information, sprich regelmäßige, identifizierbare Vorgänge, so werden diejenigen Zustände, die Anfangs- und Endzustände der informativen Transformationen sind, immer dann realisiert, wenn der Prozess aktiv ist.

Modellierbarkeit

„Die Modellierbarkeit einer „eigentlich unendlichen“ Realität heißt aber, dass die Zustände, die tatsächlich realisiert werden in dieser Umwelt, nur ein Teilbereich sind, der fassbar geworden ist, also letztendlich „endlich“, egal wie groß diese Endlichkeit auch sein mag.

Es heißt nicht, dass die nicht realisierten Zustände ausgelöscht sind, sie sind nur, wie beim Hütchenspiel, durch die inneren Abhängigkeiten „außer Kraft“ gesetzt.“

Je mehr Information also in einer Realität (als dynamisches System) steckt, umso stärker „konzentriert“ sie sich auf die von der Information erzeugten Zustände, umso häufiger treten diese im Vergleich zu nicht-informativen, zufälligen Zuständen auf, umso „nützlicher“ wird solch eine Realität für Informationsverarbeitungen, weil die Zurkenntnisnahme der informativen Prozesse die Vorhersage über deren Zustände ermöglicht.

Und genau das ist es, was Informationsverarbeitungen brauchen: Vorhersage, um Entscheidungen treffen zu können. Dafür müssen sie Wissen aufbauen, Intelligenz gewinnen, um mit der Information etwas anzufangen – sie müssen die sie umgebende Realität abbilden. Ob dies in fester Form wie in biologischen Körpern und der DNA geschieht oder in flexibler, regelbasierter Form wie im Gehirn, ist sekundär. Wichtig ist nur, dass sich ein nennenswerter Anteil der Realität „wissen“, sprich abbilden lässt, sodass seine Reaktionen vorhersehbar und damit nutzbar werden.

Je mehr Information also in einer Realität steckt, umso modellierbarer wird sie.

Auch dies eine Folgerung, auf die Bertrands Paradox hinwies.

Zurück zum Anfang

Weitere Folgerungen aus der 1001. Definition der Information:

Verwertete Information: Wissen und Intelligenz – Aktive und passive Informationsverarbeitung, Lernen
Verwertete Information: Wissen und Intelligenz – Virtualisierung und Automatisierung
Wiederholbarkeit
Zusammenhang
Über die Natur der Veränderung
Eigenvektoren und Mindestinformation

Zurück zum Anfang

(s. auch Physik der Information, ISBN 3-935031-03-3 oder Architektur der Realität – Information)

© bussole IV 2004 (außer Zitate)

Zurück zum Blog