Zugewinnfunktion der Intelligenz oder die Eroberung der Zukunft
Die Zugewinnfunktion der Intelligenz ist die Funktion, die die Vergrößerung der Intelligenz (durch Vermehrung der Speicherkapazität für Zustände und deren Anordnung sowie der Verbesserung in Schnelligkeit und Genauigkeit der Bestimmung und des Vergleichs gespeicherter und/oder neu eingehender Zustände) dem Gewinn hinsichtlich Prognosegenauigkeit gegenüberstellt:
Z = f(p’-p,K’-K)
Oder anders ausgedrückt: Die Zugewinnfunktion beschreibt das Verhältnis von Kosten und Ertrag für Entscheidungsfindung (gain/cost-function of intelligence), denn die Prognosegenauigkeit verbessert die Qualität von Entscheidungen, während die Vergrößerung der Intelligenz den Aufwand dafür darstellt.
Machen wir mal einen ganz einfachen Ansatz für K, die Speicherkapazität und Verarbeitung für Zustände, der mit Sicherheit die gesamte Breite des Problems nicht abdeckt, aber einen gewissen Rahmen schaffen kann:
K ~ mn
mit n der Anzahl von unterschiedlichen Eigenschaften, die einen Zustand definieren können, m der durchschnittlichen Anzahl von Werten, die eine einzelne Eigenschaft annehmen kann. (Sollte die Formatierung schief gehen: K ~ mn = m**n)
RZ = mn ist dabei der „Zustandsraum“, die (wenigstens grobe) Anzahl von diversen Einzelzuständen, die möglich sind (n Tupel, gebildet aus einer Menge mit m Elementen). Wenigstens grob ist die Einschätzung deshalb, weil m nur ein Durchschnitt ist und eine Menge aus unterschiedlichen Elementen besteht. Ob unsere Zustände indessen aus tatsächlich unterschiedlichen Eigenschaften bestehen sollten, ist aus der Unterscheidbarkeit der Information nicht herzuleiten, solange die Reihenfolge im Zustand bestimmbar ist.
Bleiben wir aber lieber bei einfachen Überlegungen und Abschätzungen. Dann ist die Prognose für das Eintreten eines bestimmten Zustandes, ohne weitere Kenntnisse, nach der Gleichwahrscheinlichkeit bestimmt:
p = 1/(mn) = 1/RZ
Ohne Kenntnisse über einen Zustandsraum oder auch ohne Intelligenz, die solche Kenntnisse überhaupt verwerten kann, ist unsere Prognose auf die Gleichwahrscheinlichkeit beschränkt.
Nun existiert das Bertrandsche Paradox, das sagt, dass jede Information über ein System die Prognosegenauigkeit verbessert: Das Paradox lässt sich mit dem Wissen, dass Information als identifizierbare, wiederholbare Wertveränderung wesentlich durch Anfangs- und Endzustände bestimmt ist, recht einfach berechnen über die Transformationen zwischen den einzelnen Zuständen (s. auch Definition der Information). Beim bekanntesten Beispiel für das Bertrandsche Paradox, dem Hütchenspiel, wird so durch eine unscheinbar wirkende Information die Genauigkeit der Prognose verdoppelt: von 1/3 aus der Gleichwahrscheinlichkeit auf 2/3.
Die Frage nach der Prognosegenauigkeit reduziert sich deshalb auf die Frage nach der Anzahl von Transformationen, sprich Zustandsübergängen, die erforderlich sind, um aus einem Zustand mit nur unbekannten Werten der jeweiligen Eigenschaften einen genau definierten Zustand zu machen, also einen Zustand, bei dem jede einzelne Eigenschaften einen klaren Wert aufweist.
Beim Hütchenspiel sind diese Transformationen beschränkt, weil die Zustände nicht so „frei“ sind wie in unserer einfachen Annahme oben, sondern innere Abhängigkeiten aufweisen: Es muss unter den drei Zustandswerten genau einer „Gewinn“ heißen.
Wie viele Transformationen gibt es dagegen in unserem System von n-elementigen Zuständen? Gehen wir der Einfachheit halber davon aus, dass in unseren m durchschnittlichen Werten auch der Wert „unbekannt“ enthalten ist, dann ist der Zustand (1,1,...1) unser Ausgangszustand im Falle, dass „unbekannt“ den Index 1 aufweist.
Irgend ein Zustand (i,j....k) mit 1 < i,j,k <= m soll dann derjenige Zustand sein, der aus irgendeinem Grund vorhergesehen werden soll, weil es einen Gewinn verspricht. Jede korrekte Einschätzung jeder Realität ist ein solcher Gewinn, weil unsere Entscheidungen, die wir immer als Informationsverarbeitung tun oder lassen müssen, damit „richtig“ werden und das heißt, dass das Ergebnis unserer Pläne mit dem Ergebnis der realen Vorgänge, die von den Entscheidungen bewirkt wurden, übereinstimmen.
Garbage in, garbage out – gilt auch für Entscheidungen. Sind wir nicht in der Lage, die „Sache“ richtig einzuschätzen, sind alle unsere Schlussfolgerungen Blödsinn und können höchstens einmal zufällig, der Gleichwahrscheinlichkeit nach, zu einem Ergebnis führen, das uns in den Kram passt.
Zurück zur Frage der Transformationen: Der „kürzeste“ Weg ist einfach die Transformation, die (1,1,...1) direkt in (i,j....k) überführt. Da wir keinerlei Anforderungen an unser System gemacht haben, gibt es auch keinen Grund dafür anzunehmen, dass dieser Zustandsübergang nicht existiert.
Der längste Weg, ohne Wiederholungen wohlgemerkt, ist dann der Zustand, der alle anderen möglichen Werte der einzelnen Eigenschaften durchläuft, bis er endlich i, j und k in der gewünschten Reihenfolge eingenommen hat.
Die Anzahl von Transformationen, die einen bestimmten Zustand erzeugt, liegt damit zwischen 1 und der gesamten Anzahl möglicher Zustände abzüglich des Anfangszustands. Die Anzahl möglicher Zustände und die Anzahl möglicher Transformationen als die Maximalzahl von Transformationen sind somit (bis auf 1) gleich RZ unter der Voraussetzung, dass jeder Zustand überhaupt einnehmbar ist, somit Transformationen existieren, die ihn aus anderen Zuständen erzeugen können.
Information schreibt nun irgendeinen oder mehrere Zustände fest, ganz wie im Hütchenspiel, sie überträgt einer Eigenschaft einen klaren Wert (sie ist schließlich Wertänderung).
Gehen wir von einer hübsch „körnigen“ Informationslandschaft aus, die einen Zustand vom nächsten trennt, so können wir die „einzelnen“ Informationen, sprich die einzelnen identifizierbaren Regelkreise, durch ihre Identitäten symbolisieren und die wiederum durch natürliche Zahlen, also Indizes, „anonymisieren“ – wir wollen ja nur überschlägige Abschätzungen durchführen.
Um Sicherheit zu schaffen, muss also „soviel“ Information vorliegen, dass jeder Zustand wohldefiniert wird oder anders gesagt: Information nimmt uns die Arbeit ab, die erforderlichen Transformationen selbst durchlaufen zu müssen, bis wir endlich den passenden Zustand gefunden haben.
Jede Informationsverarbeitung benötigt ein Ziel. Das ist freilich eine andere Geschichte und soll ein anderes Mal erzählt werden, wir wollen es nur verwenden, um uns die Aufgabe zu stellen, ganz analog dem Hütchenspiel den gewünschten Zustand in einem einzigen „aktiven“ Schritt zu erreichen. Das macht absolut Sinn, denn der allernächste Zustand eines veränderlichen Systems ist immer nur „einen einzigen aktiven Schritt“ entfernt oder mit anderen Worten: Die Vorhersehbarkeit des Systems, das Verständnis für sein Verhalten, ist unser Ziel.
Wir können dann die „Menge“ an benötigter Information mit der „Menge“ an Transformationen gleichsetzen, wenn wir das andere Extrem, die Sicherheit über das Verhalten des Systems erhalten wollen, um einen irgendwie gearteten Einzelzustand definitiv (in einem einzigen Schritt) zu bestimmen: 100% Trefferquote, sozusagen.
Kleine Nebenbemerkung: Als Wertveränderung ist Information natürlich immer eine Transformation, also ein Zustandsübergang, sie braucht jedoch noch weitere Eigenschaften, um tatsächlich Information zu sein, das aber lassen wir hier unter den Tisch fallen und gehen davon aus, dass jede unserer Transformationen diese Voraussetzungen generell erfüllt. Dann ist eine solche Transformation die „körnige“ Information, die wir benötigen, um aus dem Anfangszustand der Transformation mit absoluter Sicherheit den Endzustand vorherzusagen.
Die notwendigen vorherigen Schritte entfallen tatsächlich auch nicht wirklich, wie uns das Beispiel mit dem Hütchenspiel zeigt, sondern können nur „via Vorauswahl mithilfe von Information“ erledigt werden. Erklärt dies nicht hübsch die Arbeitsweise der Fantasie, alle möglichen Fälle im Geist durchzuspielen, bevor ein Fall in der Realität „aktiviert“ wird?
Wir haben also für unser p die zwei Extreme „Unwissenheit“ und „vollständiges Wissen“ bestimmt:
p0 = 1/RZ
p1 = 1 = RZ/RZ
Definition Intelligenz und Wissen
„Intelligenz“ ist die Fähigkeit, Information aufzunehmen und zu verarbeiten. Dies geschieht durch Abbildung und ist möglich, da Information durch ihre Regelmäßigkeit durch Zustände und ihre Abfolge gekennzeichnet ist. Selbst wenn also die Dynamik der Information per se nicht speicherbar ist, weil Veränderlichkeit das absolute Gegenteil von Stabilität und Speicherbarkeit ist, so sind doch die verschiedenen „Stufen“ der Dynamik durch die ständig sich wiederholenden Zustände klar fassbar. „Wissen“ ist dabei die gesamte bereits vorhandene Abbildung einer Intelligenz. Zu beachten ist, dass diese Abbildung nicht nur die Zustände und ihre Reihenfolge umfassen muss, sondern insoweit auch dynamisch sein muss, dass sie diese Zustände/Reihenfolgen abspeichern und abfragen kann.
p0 als Trefferquote (eines einzigen Schrittes) für einen Zustand zeigt uns deshalb ein nichtintelligentes, jeder Wurf ein Treffer dagegen ein intelligentes System an.
Nun gut, 1,1,1... noch haben wir nicht viel gewonnen.
Was wir betrachten wollten, war die Zugewinnfunktion.
Wenn ein System von n auf n+1 Eigenschaften pro Zustand erweitert wird, immer noch mit m durchschnittlichen Werten pro Eigenschaft, ändert sich RZ von mn auf mn+1, damit die Anzahl der Transformationen und der notwendigen Information.
Wir brauchen also mn+1 – mn = mn(m-1) mehr an Information, um wieder Sicherheit über das neue System zu erlangen, um wieder „intelligent“ zu sein. (Sollte die Formatierung schief gehen: mn+1 – mn =m**(n+1) - m**n)
Ist schon ordentlich, wie?
Für eine einzige weitere Eigenschaft mit m verschiedenen Werten brauche ich also (m-1) mal soviel (Einzel-)Information wie zuvor in meinem Wissen, sprich meiner Abbildung, nur um den Status Quo wieder zu erlangen. Das ist aber nicht nur höchst grob geschätzt, das ist auch nicht unsere Zugewinnfunktion.
Die bestimmt sich nämlich aus der Verbesserung eines p’ durch Erweiterung der Kapazitäten, (genähert durch den Zustandsraum), weil wir eben bei „normalen Intelligenzaufgaben“ nie hübsch endlichdimensionale Systeme vor uns haben, sondern die Realität mit ihren absolut unendlichen Möglichkeiten. Unendlich ist hier nicht im Sinne der Philosophie des Ewigen gemeint, sondern in der ganz realen Sicht einer jeden Informationsverarbeitung, die immer nur begrenzte Ressourcen hat, um einer überwältigenden Vielfalt Herr zu werden. Wir können also zwar den Zustand der völligen Unwissenheit erreichen, niemals aber den Zustand des völligen Wissens.
Im Augenblick haben wir die Verbesserung der Abbildbarkeit der Realität durch Erweiterung unserer Abbildungsmöglichkeiten betrachtet, denn je vielfältigere Zustände wir berücksichtigen können, umso größer wird der Anteil der Realität, den wir erfassen und verwerten können.
Jetzt sollten wir p’ noch ein bisschen mehr in den Griff bekommen. p0 = 1/RZ und p1 = 1 = RZ/RZ, das waren die Extreme, die wir schon rein intuitiv feststellten.
Mit unserer „körnigen“ Information, also der Menge von Transformationen unter den oben erwähnten Einschränkungen, behaupten wir nun forsch, dass die Prognosegenauigkeit an der Menge der bekannten, besser gesagt verwertbaren Transformationen hängt. Verwertbar sind solche Transformationen, die eine Intelligenz erfassen und simulieren kann, die sie in ihrem Wissen bereits integriert hat – siehe Fantasie. Da Information Wertveränderung ist und nicht an einer irgendwie gearteten Verwertung klebt, nenne ich die Funktion verwertbarer, alias abgebildeter, Information F nach der Fantasie:
pF = F/RZ
F ist eine Untermenge der Transformationen, die sich durch RZ abschätzen ließen und kann deshalb zwischen Null und RZ liegen (die Eins haben wir schließlich immer großzügig negiert). Damit sind dann unsere Grenzen p0 und p1 hübsch beschrieben.
Das erinnert an bedingte Wahrscheinlichkeit, nicht wahr? Nun, Wahrscheinlichkeit hat wohl immer etwas mit Information und ihrer Verwertung zu tun. Nicht umsonst weist die Gleichwahrscheinlichkeit darauf hin, dass keinerlei Information verwertet wurde. Und bedingte Wahrscheinlichkeit ist die Wahrscheinlichkeit, wenn eben eine irgendwie geartete Information (die Bedingung) über das System in die Betrachtung einfließt. Das senkt die Transformationen bis zur Bestimmung des gewünschten Zustandes, weil einfach gewisse Zustände ausgeschlossen werden durch diese Bedingung, ganz wie beim Hütchenspiel.
Und es erinnert dann an die Abbildbarkeit der Realität, die nie vollständig sein kann.
Wenn wir nun den umgekehrten Weg gehen und sagen, dass F durch dasjenige RZ bestimmt wird, das die Kapazität des Informationsverarbeitungs-Systems darstellt, Zustände zu erfassen, zu speichern und in Korrelation zu setzen, dann stellt sich die Frage nach RZ(Realität).
Das macht augenscheinlich wegen der Unendlichkeit keinen Sinn – wenn schon einzelne Zustände der Realität wegen Vielfalt nicht fassbar sind, ist es die Menge der erzeugenden Transformationen/Informationen erst recht nicht. Einen Hinweis aber gibt es schon: Keine Intelligenz kann jemals existieren, die alle Informationen dieses Universums verwerten kann, sie müsste schon Zustände verarbeiten können, die die Zustandsbreite dieser Welt wenigstens erreichen. Damit müsste das gesamte Universum freilich Teil dieser Intelligenz – oder diese Intelligenz selbst - sein.
Bleiben wir einmal von philosophisch-religiösen Betrachtungen fern bei Intelligenzen, die wie wir selbst umgekehrt nur Teil dieses Universums sind, so können diese niemals alle Informationen in ihre Menge F einbauen, die sie brauchten, um ihre Realität sicher vorhersagen zu können. Klingt wie eine naive Formulierung des Gödelsatzes, nicht wahr?
Aber das hatten wir schon, das bringt nicht weiter.
Sehen wir uns deshalb noch mal die Ausgangslage an: Gesucht war
Z = f(p’-p,K’-K)
als eine Funktion, die den Gewinn an Prognosegenauigkeit in Relation zur erweiterten Beherrschung von Zuständen beschreibt. Intelligenz als Kapazität, Zustände zu erfassen, zu speichern und miteinander in Beziehung zu setzen, haben wir mit F als Teilmenge der Information desjenigen Systems in Verbindung gebracht, das wir „verstehen“ wollen, dessen Verhalten für uns also „berechenbar“ sein soll.
Prognosegenauigkeit war freilich genau dasselbe, nicht wahr? Das Verhältnis der beherrschbaren zur gesamten Information eines Systems.
Der Unterschied liegt in der Perspektive.
Intelligenz und betrachtetes System können identisch sein, müssen es aber nicht. Information ist zwar Wertveränderung, durch ihre Identifizierbarkeit und Wiederholbarkeit ist sie jedoch „wissbar“, abbildbar und zwar in allem, was selbst genügend differenzierbare, speicherbare Zustände aufweist, um eindeutige Beziehungen zwischen den Zuständen und Transformationen des betrachteten, abzubildenden Systems und den Speicherzuständen des betrachtenden, abbildenden Systems zu gewährleisten.
Prognosegenauigkeit ist also das Verhältnis der beherrschbaren zur gesamten Information eines betrachteten Systems, die Zugewinnfunktion dagegen betrachtet diese Prognosegenauigkeit unter dem Aspekt der eigenen Kapazitäten für Zustände, da diese das Abbildungsmedium darstellen, das sozusagen eine „Kopie“ des betrachteten Systems zu liefern hat.
Setzen wir also einfach mal:
Z = (p’-p)/(F’-F)
mit p = F/RZ , p’ = F’/RZ
RZ als der Zustandsraum des beobachteten Systems soll jetzt mal gleich bleiben, F wird als Zustandsraum des abbildenden Systems gesehen.
Damit wird p’-p einfach zu (F’-F)/ RZ und Z zu 1/RZ.
Für p0 = 1/RZ und p1 = 1 = RZ/RZ heißt dies, dass der Gesamtgewinn (p1-p0) auch RZ ist (natürlich genähert wegen RZ -1). Weil dann F’ = RZ und F = 1 sein muss, gilt natürlich auch hier für Z: Z = 1/RZ.
Das (Gesamtgewinn = RZ) ist leicht einzusehen: Wenn der Teil der beherrschbaren Information alle Transformationen des zu beherrschenden Systems beinhaltet, kann jedes Verhalten sicher vorhergesagt werden.
Und wie sieht das „untere Ende“ aus? Dort, wo der Zugewinn von Null beherrschter Eigenschaften, beschrieben durch die Gleichwahrscheinlichkeit p0, auf 1 beherrschte Eigenschaft steigt?
Doch eigentlich ist sogar bei p0 bereits Information verwertet worden, nicht wahr? Und zwar die Anzahl aller existierenden Zustände. Freilich bleibt selbst dann Z = 1/RZ, weil der „erste Schritt des totalen Unwissens“ dann nur Null sein kann, was für die Prognosegenauigkeit und F0 als „Zustandsraum“ eben auch auf Null führt.
Das heißt also, dass mit jeder zusätzlichen Eigenschaft, die das beobachtende System zu beherrschen lernt, es mn (m-1)/ RZ an Prognosegenauigkeit betreffs des beobachteten Systems gewinnt. Der Zugewinn Prognosegenauigkeit/ Informationsverwertung oder Ertrag versus Kosten der Entscheidungsfindung ist somit immer positiv und konstant 1/RZ. Die Koordinaten sind dabei als „Kostenseite“ die Anzahl bekannter Zustände eines Systems, die „Ertragsseite“ die Prognosegenauigkeit, RZ die Gesamtzahl der Zustände des betrachteten Systems.
In solch einem Fall endlichdimensionaler Zustandsräume macht jeder Aufwand, Informationen über eine weitere Eigenschaft der Zustände zu gewinnen, Sinn.
Alles unter einer interessanten Voraussetzung: Die „Erhöhung“ der Intelligenz des beobachtenden Systems verändert den Zustandsraum des beobachteten Systems nicht oder zumindest nur vernachlässigbar.
Realität erster, zweiter, dritter Stufe
Nun, diese Voraussetzung erinnert an die Unterscheidung der Realität in drei Stufen: ohne Informationsverarbeitung, mit passiver Informationsverarbeitung und mit aktiver Informationsverarbeitung.
Ohne Informationsverarbeitung kann keine Zustandsänderung aus Rückwirkung erfolgen, mit passiver Informationsverarbeitung geschieht sie so langfristig, dass sie relativ zur Lebensdauer einer Informationsverarbeitung vernachlässigt werden kann.
Passive Informationsverarbeitungen sind dabei solche, die ihre Intelligenz materiell fixiert haben, die also das „Wissen“ um die Zustände des beobachteten Systems als Einzelfall in Stein gemeißelt haben wie bei Datenstrukturen einer relationalen Datenbank, während aktive solche sind, die flexibel auf einen Typus von Zuständen ausgerichtet sind und somit viele verschiedene Systeme mit ihren verschiedenen Zustandsräumen abbilden und vorhersagen können. XML ist hier das Datenbeispiel. Am menschlichen Körper liegen beide Systeme parallel in der Wissensspeicherung der DNA und der Neuronen vor.
Dies gibt uns einen Hinweis darauf, wie sich Realität vielleicht doch beschreiben oder wenigstens umreißen lässt.
Denn Leben mag zwar Moleküle verwenden, die aus dem Weltraum stammen, als autarke Informationsverarbeitung braucht es freilich eine gewisse „Sicherheit“.
Der Mond ist, ganz wie es die alten Kulturen der Menschheit intuitiv behaupteten, tatsächlich einer der fundamentalsten Randbedingungen für Leben auf unserer schönen Erde, wie sich in letzter Zeit herausschält. Warum? Weil er die gesamten Prozesse auf der Erde „beruhigt“. Sein Kreiseleffekt stabilisiert die Erdachse und Gezeiten in Wasser und Luft gleichen die sonst extremen Temperaturunterschiede von Tag und Nacht aus oder mit anderen Worten: Die Erde bietet Leben ein relativ stabiles Umfeld.
Das wiederum heißt nicht viel mehr, als dass der Zustandsraum der Realität nicht die ganze Bandbreite seiner Möglichkeiten einnimmt. Für eine reale Informationsverarbeitung sind es zwar immer noch unfassbar viele, für eine „Zugewinnbetrachtung“ muss dieser Zustandsraum sich jedoch vernünftig nähern lassen.
Warum?
Weil die Evolution autarke Informationsverarbeitungen schuf, deren Intelligenz ständig wuchs, zuerst über DNA, dann über die Erfindung des Gehirns. Es muss also evolutionär ein Gewinn gewesen sein, den Aufwand, der in Intelligenz gesteckt wurde, zu rechtfertigen.
Und der Gewinn muss enorm gewesen sein. Warum? Weil Menschen dafür sogar in einem Entwicklungsstadium geboren werden, das bei Affen noch als „fötal“ bezeichnet wird und die Mutter fast ein halbes Leben dazu zwingt, Brutpflege zu betreiben – alles nur, um einen großen Kopf mit einem großen Gehirn zu bekommen.
Aber es muss auch Grenzen geben – die Entwicklung der DNA ist praktisch am „Ende“, schließlich ist der Mensch genetisch zu über 99% mit den Bonobos und Schimpansen identisch, hat wohl gerade mal ein paar Hundert Gene mehr als die Maus und sage und schreibe nur doppelt soviel wie ein langweiliger Fadenwurm. Und trotzdem sehen wir einen gewaltigen Unterschied bei Mensch und Maus, es ist freilich vor allem die „Intelligenz“ des Gehirns, denn Größe, Fellfarbe oder Nasenform dürften im Reich der Tierwelt, die Maus und Elefant vorweisen kann, als besonderes Unterscheidungsmerkmal nicht so wirklich zählen.
Und natürlich ist die Anzahl von Zuständen in jeglicher Realität, mit und ohne Informationsverarbeitungen, nicht wirklich fassbar, es scheint jedoch, als würde die Zugewinnfunktion 1/RZ so ein bisschen von der DNA bestätigt werden.
Denn wenn die Anzahl der Gene als Informationsträger herangezogen werden und die Frage nach dem Zugewinn der Prognosefähigkeit (sprich der besseren Anpassung an eine bestimmte Umwelt) gegenüber dem Aufwand gesehen wird, neue Gene an die DNA anzubinden, dann scheint es doch wohl so zu sein, dass hier keine Konstanz mehr vorliegt, sondern bei Zigtausend* eine Grenze liegt, bei der weitere Gene nicht mehr richtig viel Sinn machen.
Das liegt schlicht daran, dass das körperliche System, das mit der Methode der Genetik aus einem (optimierten) Datensatz von Zigtausend* erzeugt werden kann, bereits so hochkomplex ist, dass das Spiel von Mutation und Selektion mehr Risiken als Vorteile birgt: Die meisten Mutationen sind nur noch Katastrophen für ein solches System. Viele der menschlichen Gene sind deshalb auch mehr für die Kontrolle der Mutationen als für den eigentlichen Körperbau zuständig.
Und 1/RZ führt eben auch zu Null, wenn der zu beobachtende Zustandsraum RZ zu umfangreich wird, während die Verbesserung der Prognosegenauigkeit, die als mn(m-1)/RZ mit wachsendem RZ = mn konstant m-1 bleibt.
Aktive und Passive Informationsverarbeitung
Und doch weisen die drei Stufen der Realität darauf hin, dass die „Unendlichkeit“ für unterschiedliche Informationsverarbeitungssysteme eben auch unterschiedlich ist.
Passive Informationsverarbeitungen wie Pflanzen entwickeln sich in lebensfreundlichen, sprich stabilen Umgebungen und passen sich an diese Umgebung an. Ihr Wissen über das Verhalten des Systems „Umwelt“, F als Abbildung dieses Systems, ist in ihrem Körperbau, in ihren Genen gespeichert, die Information, die sie verwerten können, muss somit eine „Wirkungsdauer“ haben, die viel länger als die eigene Lebenszeit ist. Das heißt, dass alles, was viel länger als die Lebenszeit der individuellen Informationsverarbeitung wiederholbare, identifizierbare Wirkung ist, von dem Körper durch Anpassung als Information erkannt und erlernt wird. Ändert sich dagegen rasch die Umwelt, brechen solche Zyklen zusammen oder entstehen neu, dann muss die Rasse der Pflanze das ertragen oder sterben, sie braucht nun mal mehrere Lebensspannen von Individuen, um sich anzupassen, sprich das Wissen in den Genen abzuspeichern. Und trotzdem - eine solche, an den Körper gebundene Erfahrung ist augenscheinlich ausreichend für langfristig stabile Systeme.
Reicht aber bereits nicht mehr für Tiere, die sich durch ihre Bewegung von einem Ort zum anderen bringen können. Das hat den Vorteil, dass sie näher an Nahrung herankommen können, freilich auch näher an Gefahren. Tiere entwickelten deshalb eine „Echtzeit“-Informationsverarbeitung, das Gehirn, das zwar aus DNA erzeugt wird und sich an den aktuellen Umweltbedingungen physisch optimiert, aber ansonsten hochflexibel in der Abbildung, sprich Wissensgewinnung, der Realität ist und somit viele verschiedene Umwelten erfassen kann. Mit genau diesem Gehirn und nicht physischer Anpassung hat es die schwächliche menschliche Rasse geschafft, mit Werkzeug, Feuer und Kleidung die gesamte Erdoberfläche zu besiedeln mit all ihren unterschiedlichen, oft fast lebensfeindlichen Umgebungen.
Der große Unterschied beider Verarbeitungsformen? Passives, an den Körper gebundenes Wissen ist prinzipiell für die gesamte Rasse gleich, während aktive Verarbeitung individualisiert ist, auf individuellem Erinnern und Lernen beruht und deshalb auch individuelles Wissen aufbaut.
Das aber lässt sich aus Z = 1/RZ nicht mehr erkennen.
Was aber nicht viel heißen muss, denn diese Beziehung wurde schließlich nur in den engen Grenzen eines unveränderlichen beobachteten Systems geschätzt. Im Gegensatz dazu scheint die Tatsache der dreistufigen Realität darauf hinzudeuten, dass die Grenzen nicht wirklich am beobachteten System, sondern am beobachtenden System hängen. Das einzelfallverarbeitende passive System braucht deshalb viel mehr Stabilität, beherrscht viel weniger Zustände, als ein regelbasierendes, typverarbeitendes System verkraften kann.
Das wiederum könnte heißen, dass die Gesamtzahl der Zustände RZ mit der maximalen Anzahl von Zuständen gleichgesetzt werden könnte, die ein informationsverarbeitendes System beherrscht. Die Grenze, falls es eine ist, von Zigtausend* Genen bei Menschen könnte dann sogar einen Hinweis darauf geben, wann die Zugewinnfunktion als „praktisch“ Null von der Evolution angesehen wurde.
Mächtigkeit des Informationssystems und Modell
Solange dann eine Umwelt durch ein Modell ausreichend genau beschrieben werden kann, das weniger Zustände benötigt als das beobachtende System zur Abbildung bereitstellen kann, solange kann wohl Informationsverarbeitung vernünftig darin stattfinden. Die Tatsache, dass ein Modell diese Realität nähern kann, beweist schließlich nicht nur, dass genügend Gleichmäßigkeit und Identifizierbarkeit (Information) vorhanden sein muss, um in einem Modell, einem Abbild also, beschrieben zu werden, sondern sogar, dass nicht genügend Ungleichmäßigkeit und Anonymität existiert, um mehr als „Störung“ zu sein.
Apropos Störung: Die Auswirkungen dieser Störung sind keinesfalls „vernachlässigbar“ hinsichtlich des Individuums, nur hinsichtlich der Rasse. Dies zeigt die Massenproduktion, die unintelligente Rassen an Individuen hervorbringen müssen, um die niedrige Prognosegenauigkeit ihres Modells auszugleichen. Die (ausreichend produzierten) Mengen an Individuum, die auf solche „Störfälle“ treffen, für die ihr Modell nicht ausreicht, müssen eben sterben, das tut der Rasse indessen keinen Abbruch. Solange es eben bei diesen „Störungen“ bleibt.
Alleine die parallele Existenz der beiden verschiedenen Informationssysteme DNA und Neuron weist darauf hin, dass die einfache Art unserer Betrachtung für die Zugewinnfunktion wohl doch ein bisschen kurz greift und kaum mehr als einen Hinweis auf die „Gesamtzugewinnfunktion“ liefern könnte, die die Verbindung zweier Informationsverarbeitungssysteme beschreiben sollte.
Und noch ein weiteres Element demonstriert uns die dreistufige Realität: Aktive Informationsverarbeitungen ist immer an individuelles Wissen gebunden, also sind auch die Entscheidungen, die ein autarkes Objekt durch eine solche Informationsverarbeitung trifft, individuell verschieden. Soll heißen: Wenn zwei Tiere oder Menschen in derselben Situation stehen, dann müssen die beiden nicht gleich darauf reagieren. Je unintelligenter die Tiere sind, je instinkthafter, also „rassenwissens“-mäßiger sie reagieren, umso ähnlicher werden sich ihre Reaktionen werden, doch je intelligenter sie sind, je mehr sie auf ihren individuellen Erfahrungen aufbauend ihre Entscheidungen treffen, umso mehr werden sich die Resultate unterscheiden.
Klingt bekannt?
Ist bekannt – ist das Problem von Information: Wiedererkennbarkeit von Veränderungen. Liegt Information vor, so folgt aus einem Anfangszustand immer derselbe Endzustand, das heißt aber auch, dass passive Informationsverarbeitung selbst Information produziert. Deshalb ist unser Ansatz eines „nichtbeeinflussenden“ Beobachtersystems gar nicht so falsch, denn spätestens nach einer gewissen Anlaufphase sind die Reaktionen der passiven Informationssysteme in ihrer Umwelt als stabiler, also modellierbarer Bestandteil enthalten. Die Rückwirkung der langsamen Lernfähigkeit der passiven Systematik kann deshalb vielleicht wirklich ganz plausibel negiert werden.
Nicht so bei aktiven Systemen.
Ihre unterschiedlichen Reaktionen schaffen also neue Zustände in einer Größenordnung der Anzahl der Individuen und dem Tempo ihrer Reaktionsfähigkeit. Ein Umweltsystem muss da schon reichlich groß sein, um solche Zustandsvermehrungen vernachlässigbar zu machen. Die Menschen jedenfalls haben es wohl, siehe Klimaänderung, bereits geschafft, die Zustände ihrer Realität maßgeblich zu verändern.
Das muss die Zugewinnfunktion definitiv auch beeinflussen, denn in der naivsten Betrachtung ist es wenigstens die Anzahl von Zuständen, die massiv beeinflusst (vergrößert) wird. Somit muss die Gesamt-Zugewinnfunktion nicht nur auf den Zugewinnfunktionen der einzelnen „Möglichkeitsräume“ der Informationsverarbeitungssysteme beruhen, was unter der Annahme einer stabilen, wenig veränderlichen Umwelt genügen würde, sondern muss auch berücksichtigen, dass die Umwelt veränderlicher wird bei Anwesenheit von aktiver Informationsverarbeitung, dass also die Zustandsräume sich rapide vergrößern.
Betrachten wir noch einmal den Ausgang:
Z = (p’-p)/(F’-F)
mit p = F/RZ , p’ = F’/RZ, RZ = mn, FZ = mk und F’Z = mk+1 mit 0 < k <= n (m konstant). (Sollte die Formatierung schief gehen: mn = m**n, mk = m**k, mk+1= m**(k+1)).
Gibt uns das eine Idee?
Was geschieht, wenn sich mit F’ auch R’Z ändert, so wie bei der aktiven Verarbeitung?
Bleiben wir bei unserem einfachen Modell mit Eigenschaften, die alle hübsch m durchschnittlich viele Werte haben.
Wie die Änderung von n schätzen, die aus einer Änderung von k auf k+1 folgen würde, weil aktive Verarbeitungen individuell reagieren, also nicht nur mit einem einzigen Zustand auf einen bestimmten Systemzustand reagieren wie passive, sondern eben mit (maximal) soviel verschiedenen Zuständen sprich realisierten Entscheidungen, wie Individuen dieser Verarbeitungsform existieren? Das aber haben wir bisher überhaupt nicht in Betracht gezogen und wollen es wegen der Grobheit der Abschätzung auch nicht tun. Unser „Gesamtsystem RZ“ ist immer noch das einzige, was wir als „Rahmen“ haben, hier jedoch macht sich nun die Einschränkung bemerkbar, die wir für die Realität machten: sie mit dem Modell gleichsetzen, das aus dem Fassungsvermögen des informationsverarbeitenden Systems erstellbar war. Solange die Prognosegenauigkeit aus einem solchen Modell hoch ist, solange können wir davon ausgehen, dass das Modell diese Realität ausreichend vollständig beschreibt, nicht wahr? Ist schließlich nichts weiter als das Prinzip des physikalischen Experiments.
Die Modellierbarkeit einer „eigentlich unendlichen“ Realität heißt aber, dass die Zustände, die tatsächlich realisiert werden in dieser Umwelt, nur ein Teilbereich sind, der fassbar geworden ist, also letztendlich „endlich“, egal wie groß diese Endlichkeit auch sein mag.
Es heißt nicht, dass die nicht realisierten Zustände ausgelöscht sind, sie sind nur, wie beim Hütchenspiel, durch die inneren Abhängigkeiten „außer Kraft“ gesetzt.
Nun, aktive Verarbeitungen mit ihren individuellen Erinnerungen und Entscheidungen haben aber aufgrund ihres typverarbeitenden Systems alle Einzelfälle des Typs im Griff, können sich also auch für solche Zustände entscheiden, die „normal“ nicht realisiert werden – sie vergrößern somit den realisierten Zustandsraum ihrer Umwelt, den sie dann wieder als Input im Modell integrieren müssen.
Und spätestens dann, wenn sie mit ihren Entscheidungen den realisierten Zustandsraum ihrer Umwelt über das eigene Modellier-Fassungsvermögen hinaus vergrößern, macht sich bei einer weiteren Vergrößerung von F, also einer Verbesserung der Fähigkeit, Zustände zu speichern und zu relativieren, auch das Anwachsen des „nicht mehr modellierbaren“ Anteils der Realität bemerkbar.
Die Sprache ist ein Hinweis darauf, dass das Gehirn bereits in die Nähe dieses Stadiums gelangt war. Warum? Weil Sprache einen Ausgleich zwischen den Individuen schafft und die individuellen Erinnerungen ausgleicht. Damit werden die Entscheidungen wieder „weniger“ individuell und vernichten deshalb weniger Information. Ja, durch Intelligenz wird Information vernichtet, weil aus demselben Anfangszustand der Umwelt nicht mehr derselbe Endzustand folgt, einfach deshalb, weil die individuelle Erinnerung diese Anfangszustände eben auch individuell ergänzt, um die dahinter steckende Regelmäßigkeit, die Information, möglichst korrekt bestimmen zu können. Wirkung wird dann via Entscheidung zwar immer noch abgegeben, doch sie ist nicht mehr wiederholbar: aus Information wird Rauschen gemacht, aus regelmäßiger, berechenbarer Wirkung wird unregelmäßige, unberechenbare Wirkung.
Die Sprache war die Möglichkeit für das Gehirn, weiterhin Intelligenz zu erwerben, also bei einer weiteren Steigerung immer noch die Prognosegenauigkeit zu verbessern anstatt sie durch die daraus resultierenden, voneinander unabhängigen individuellen Entscheidungen zu erschweren.
Wie aber wenigstens abschätzen?
Eine weitere Eigenschaft im „Kenntnisbereich“ heißt bei einer weiteren Eigenschaft zu „wissen“, was aus einem bestimmten Anfangszustand werden muss. Das heißt, dass eine weitere Eigenschaft eine vorsätzliche Entscheidung erlaubt, wo zuvor nur raten angesagt war und das heißt schlicht, dass nun, aufgrund der individuellen Erfahrung, mehr unterschiedliche Entscheidungen in Frage kommen. Zusammen mit der Überlegung, dass Realität wesentlich mehr mögliche als realisierte Zustände hat und dass ohne Informationsverarbeitung nur der aufgrund der physikalischen Gegebenheiten wahrscheinlichste und mit passiver Informationsverarbeitung nur der aufgrund des Rassenwissens am günstigsten bewertete Zustand ausgewählt wurde, zeigt sich nun Folgendes: Die Bandbreite der Entscheidungen, die auch nichts weiter sind als die Realisierung von Zuständen, ist nun erheblich umfangreicher und kann maximal die Anzahl aller m Werte dieser Eigenschaft umfassen.
Statt der Entscheidung für einen einzigen wahrscheinlichen oder wahrscheinlich günstigsten Wert sind nun letztendlich alle m Werte der Eigenschaft realisierbar geworden. Gehen wir nun bequemlichkeitshalber davon aus, dass in unserer „Realität“ zuvor nur dieser eine einzige wahrscheinlichste/günstigste Zustand auftrat, alle anderen nur mit vernachlässigbarer Häufigkeit, so beinhaltete unsere Realität zuvor nur diesen einen Zustand im Zustandsraum RZ, der nunmehr also zu m*RZ aufgeblasen wird. Das ist aber, in unserer unwahrscheinlich groben Näherung, derselbe Effekt, als wäre tatsächlich dem zu beobachtenden System eine neue Eigenschaft (mit m durchschnittlichen Werten) hinzugefügt worden – spätestens an dieser Stelle sollte der „Verlust“ aus dem Aufwand, eine neue Eigenschaft zu erlernen, nicht mehr durch den „Gewinn“ an Prognose ausgeglichen werden.
Im Moment sieht es also wie folgt aus:
Z = (p’-p)/(F’-F)
mit p = F/RZ , p’ = F’/R’Z, RZ = mn, R’Z = mn+1, FZ = mk und F’Z = mk+1 mit 0 < k <= n (m konstant). (Sollte die Formatierung schief gehen: mn = m**n, mn+1 = m**(n+1) ,mk = m**k, mk+1= m**(k+1)).
Und das ist wegen der gemeinsamen Basis m nichts weiter als:
Z = 0
Während also, im Extremfall des konstanten Zustandsraum des beobachteten Systems, die Zugewinnfunktion hübsch linear ist (1/RZ), ist sie im Extremfall des Zustandsraums, der ausschließlich auf wahrscheinlichsten Zuständen beruht, Null unter der Voraussetzung aktiver Informationsverarbeitung mit individueller Erinnerung.
Unsere eigene biologische Realität, die uns sehr hübsch alle möglichen Entwicklungsstufen autarker Objekte demonstriert, deutet uns mit der Geschwindigkeit der Gehirnentwicklung auch an, dass die Realität irgendwo dazwischen liegt.
Während anfangs einer Entwicklung, bei DNA oder bei Neuronen, die Entwicklung sehr rasant verläuft – Stichwort Mutationsgeschwindigkeit bei Viren und Bakterien oder die rasche Differenzierung von „Haufenhirnen“, also einer unstrukturierten, völlig vernetzten Neuronenstruktur (Elementarsystem „Objekt“) hin zu einer leiterartigen Struktur – ist die DNA bei den Primaten wohl bereits ausgereizt.
Und das rapide Gehirnwachstum nach/aufgrund der Sprache weist darauf hin, dass auch die Neuronen sich bereits ihrem Endstadium näherten.
Die Sprache jedoch, die den Abgleich der Individuen (sprich Kultur) erst effektiv macht, „schob“ dieses Extrem wieder hinaus, und erlaubte es der aktiven Informationsverarbeitung, bei ihren Entscheidungen wieder „zu fokussieren“ – und somit die „Unberechenbarkeit“ der individuellen Erinnerung zu mindern.
Wenn jetzt noch berücksichtigt wird, dass aktive Informationsverarbeitungen zu lügen imstande sind, sprich aufgrund ihrer Fähigkeit, zeitgenau Situationen zu erfassen und zu bewerten, auch die eigenen Wirkungen bedenken - und steuern - können, dann ist vielleicht rasch einsichtig, dass (für andere aktive Informationsverarbeitungen) sogar „fiktive“ Zustände den Zustandsraum erweitern können.
Und dass dann die Zugewinnfunktion tatsächlich wohl richtig negativ werden kann:
Je mehr Intelligenz, umso größer das Chaos.
Und wenn ich mir so die Nachrichten ansehe, dann frage ich mich, ob wir das Stadium bereits erreicht haben.
(s. auch Physik der Information, ISBN 3-935031-03-3 oder Architektur der Realität – Information)
Zigtausend*:
Lange ging man von 100.000 Genen aus, es scheinen freilich eher
35.000-40.000 zu sein.
Nachtrag:
Es sind wohl sogar nur 30.000 Gene..
© bussole IV 2004 (außer Zitate)