Unsere Sprache braucht 12,5 Millionen Bits
Forscher schätzen die Datenmenge für das Beherrschen unserer Muttersprach
Trotz aller Fortschritte in Computertechnik und künstlicher Intelligenz: Noch ist unser Gehirn effektiver und leistungsfähiger als jede andere Denkmaschine. Es verarbeitet unzählige Reize gleichzeitig und befähigt uns zu innovativem, abstraktem Denken, zu komplexem Sozialverhalten und zur Kommunikation. Inzwischen gibt es zwar schon Computersysteme, die gesprochene Sprache verstehen und sogar Sprachinformationen aus menschlichen Hirnwellen herauslesen können. Noch aber liegt unser Gehirn hierbei vorn.
Wie viele Bits braucht das Gehirn für die Sprache?
Das aber weckt die Frage: Wie viele Bits und Bytes braucht unser Gehirn, um unsere Muttersprache zu verstehen und zu beherrschen? Kann man die Sprachfähigkeit und das Sprachwissen eines Menschen überhaupt quantifizieren? Genau diese Fragen haben nun Francis Mollica von der University of Rochester und Steven Piantadosi von der University of California in Berkeley versucht zu beantworten. „Bisher ist strittig, ob die Informationsmenge für die menschliche Sprache eher minimal oder aber enorm ist“, erklären sie.
Für ihre Studie haben die Forscher bewusst einen eher groben Ansatz gewählt, der die nötige Datenmenge unabhängig von den verschiedenen Theorien zum Spracherwerb abschätzt. „Wir beziehen uns nicht darauf, wie dieses Lernen funktioniert, sondern konzentrieren uns auf die Frage, wie viel Information ein ohne Vorwissen Lernender abspeichern müsste“, betonen die Wissenschaftler.
Vom Laut zum Wort
Um die Datenmenge abzuschätzen, begannen die Forscher mit der kleinsten Einheit des Sprechens: den Lauten oder Phonemen. „Unser phonemisches Wissen erlaubt es uns, die sprachrelevanten Klänge aus den Sprechsignalen herauszufiltern und zu identifizieren“, erklären sie. Ihren Berechnungen nach gibt es in der englischen Sprache rund 50 verschiedene Phoneme – und jedes davon umfasst die Information von rund 15 Bits. Demnach machen die Phoneme 750 Bits an Daten aus.
Die nächste Stufe der Sprache sind Wörter. „Schätzungen darüber, wie viele Wörter ein Kind beim Spracherwerb lernt, reichen von 20.000 bis 80.000“, sagen Mollica und Piantadosi. Für ihre Studie gingen sie von einem Mittelwert von 40.000 Wörtern für einen typischen jungen Erwachsenen aus. Mithilfe einer Datenbank und eines linguistischen Modells ermittelten die Forscher, dass für das Merken der phonetischen Abfolge eines Wortes im Schnitt fünf bis 16 Bits nötig sind. Multipliziert mit der Wortzahl von rund 40.000 ergebe dies rund 400.000 Bits für das lexikalische Wissen zur phonetischen Abfolge der Wörter.
Lexikalische Semantik – die Wortbedeutung
Deutlich schwieriger ist die Abschätzung, welche Datenmenge wir Menschen benötigen, um die Bedeutung eines Wortes zu lernen – die sogenannte lexikalische Semantik. „Das Problem ist, dass es bisher keine allgemein akzeptierten Theorien zum semantischen Gehalt oder Umfang gibt“, erklären die Wissenschaftler. Daher behalfen sie sich mit einer groben Schätzung, die den möglichen Bedeutungsraum eines Wortes als räumliche Größe sieht. Je mehr Dimensionen dieser Raum hat, desto mehr Daten sind erforderlich, um die konkrete Bedeutung des Wortes zu identifizieren.
„Wenn der semantische Raum eindimensional ist, dann reichen 0,5 bis zwei Bits pro Wort“, so die Forscher. „Hat er 100 Dimensionen, benötigt die lexikalische Semantik 50 bis 200 Bits pro Wort.“ Für ihre Berechnungen wählten sie einen Mittelwert, nach dem rund 550.000 Bits nötig sind, um aus den möglichen Bedeutungen die jeweils korrekte herauszupicken. Zusätzlich schätzten Mollico und Piantadosi auch den Datenaufwand für Worthäufigkeit und Syntax ab.
12,5 Millionen Bits an Sprachdaten
Aus allen diese Berechnungen ergab sich die Gesamtsumme: „Unserer besten Schätzung nach hat ein englischsprechender Erwachsener 12,5 Millionen Bits an Sprachdaten gespeichert – ein Großteil davon sind Informationen zur lexikalischen Semantik“, berichten die Forscher. Das entspricht rund 1,5 Megabytes. „Es mag überraschend scheinen, aber umgerechnet auf digitale Datenspeicher passt unser Sprachwissen damit fast vollständig auf eine Floppy-Disk.“
Um dieses Sprachwissen anzusammeln, muss ein Mensch in den ersten 18 Lebensjahren im Schnitt 1.000 bis 2.000 Bits pro Tag allein für das Sprachlernen speichern und erinnern. „Unsere Studie ist die erste, die die Datenmenge beziffert, die man lernen muss, um eine Sprache zu beherrschen“, sagt Piantadosi. „Sie unterstreicht, dass Kinder und Teenager bemerkenswerte Lerner sind – sie speichern allein für die Sprache mehr als tausend Bits an Informationen jeden Tag.“ Die Forscher betonen aber auch, dass ihre Werte nur eine grobe Schätzung darstellen – eine „back of the envelope“-Kalkulation, wie sie es nennen. Dennoch seien diese durchaus dafür geeignet, ungefähre Größenordnungen zu ermitteln. (Royal Society Open Science, 2019: doi: 10.1098/rsos.181393)
Quelle: Royal Society Open Science
Keine Kommentare:
Kommentar veröffentlichen