Der Wortschatz des Deutschen

Bereits die Brüder Jacob und Wilhelm Grimm wollten den Wortschatz der deutschen Sprache erfassen. Ihr Projekt, das sie 1838 begannen, nahm ungeahnte Ausmasse an. Unzählige Sprachwissenschaftler waren über 120 Jahre lang damit beschäftigt. Schliesslich standen im Deutschen Wörterbuch weit über 300'000 Einträge mit den entsprechenden Belegstellen. Seither haben sich aber auch andere Wissenschaftler und Institutionen mit Fragen zu unserem Wortschatz befasst.

Das Dudenkorpus


Die Dudenredaktion verfügt über eine riesige digitale Textsammlung, die den deutschen Wortschatz sehr genau repräsentiert: das Dudenkorpus. Darin sind sowohl literarische als auch Sachtexte erfasst, wobei der Schwerpunkt auf journalistischen Texten liegt. Die im Korpus seit 1995 gesammelten Texte sind aktuell und haben einen Umfang von über 4 Milliarden Wörtern (Stand 2017), was mengenmässig dem Inhalt von etwa 40'000 Büchern entspricht. Mithilfe des Dudenkorpus lassen sich viele statistische Fragen beantworten. Ein Blick auf die Seiten 148-159 im Rechtschreibduden lohnt sich, wenn man sich für Zahlen rund um den deutschen Wortschatz interessiert. Aus dem Datenmaterial, das die Dudenredaktion dort in Form von Tabellen und Statistiken präsentiert, seien im Folgenden einige interessante Informationen herausgepickt.

Wie gross ist der Wortschatz des Deutschen?


Regelmässig taucht die Frage auf, wie viele Wörter es im Deutschen eigentlich gebe. Wer der Frage nachgeht, stösst auf ganz unterschiedliche Angaben. Im Rechtschreibduden sind 145'000 Stichwörter verzeichnet. Im Vorwort des Rechtschreibdudens heisst es, der Wortschatz der deutschen Sprache werde auf 300'000 bis 500'000 Wörter geschätzt. Und im Dudenkorpus findet man 23 Millionen verschiedene Wörter. Dafür, dass die Zahlen so weit auseinander liegen, gibt es Gründe.

Zunächst gibt es Abgrenzungsprobleme: Welche Wörter soll man überhaupt zum Wortschatz zählen? Soll eine Gelegenheitsbildung wie Schlosshofgartengestaltung zum festen Wortschatz gezählt werden? Sollen auch Namen gezählt werden? Auch ganz seltene Namen? Wann soll ein Wort aus einer fremden Sprache zum deutschen Wortschatz gezählt werden? Wie steht es mit Fachbegriffen? Werden Wörter mit mehreren Bedeutungen als mehrere Wörter gezählt? Und wie steht es mit veralteten Wörtern, die heute nicht mehr in Gebrauch sind?

Wenn man die verschiedenen vorkommenden Erscheinungsformen eines Wortes (z.B. gehe, gehst, gehest, ging, gingen, gegangen usw.) nur als ein Wort zählt, wenn man also nur die Grundformen zählt, so findet man unter den gut 4 Milliarden Wörtern des Dudenkorpus etwa 23 Millionen unterschiedliche Wörter. Die meisten dieser 23 Millionen existierenden Wörter kommen aber nur selten oder äusserst selten vor. Weil man im Deutschen sehr einfach neue Wörter bilden kann, kommt es zu vielen Gelegenheitsbildungen wie z.B. Vogelschutzgutachten oder Autohimmel. Diese Wörter gehören nicht zum Allgemeinwortschatz, sie werden auch kaum jemals in ein Wörterbuch aufgenommen.

Aktiver und passiver Wortschatz


Man geht davon aus, dass Muttersprachler im Durchschnitt 12‘000 bis 16‘000 Wörter benutzen. Allerdings kann dieser sogenannte aktive Wortschatz bei einzelnen Personen auch viel grösser oder viel kleiner sein. Nebst dem aktiven Wortschatz gibt es den passiven Wortschatz: Für eine Durchschnittsperson geht man von deutlich über 50‘000 Wörtern aus, die sie problemlos versteht.

Die am häufigsten vorkommenden Wörter


Die Auswertung des Dudenkorpus zeigt, dass gewisse Wörter sehr häufig vorkommen. Die 100 Wörter, die am häufigsten in deutschen Texten vorkommen, machen mengenmässig fast die Hälfte der Texte aus. Der Umfang aller Texte würde also auf die Hälfte schrumpfen, wenn man die 100 häufigsten Wörter herausnehmen würde. Und würde man die 2'533 häufigsten Wörter aus den Texten streichen, würden diese auf einen Viertel ihres Umfangs schrumpfen.

In deutschen Texten kommen Pronomen und Partikeln am häufigsten vor. Zu den 20 häufigsten Wörtern gehören der, die, das (sowohl der Artikel als auch das Relativpronomen), ein, sich, es, er, die Partikeln in, und, zu, von, mit, an, für, auf, nicht, auch, als sowie die die Verben sein, haben und werden. Als einziges Nomen schafft es Jahr in die Top 50. Von den häufigsten Adjektiven neu, gross, deutsch, gut, weit oder klein jedoch ist keines in den Top 50 vertreten.

Verteilung nach Wortarten


Obwohl Pronomen und Partikeln mengenmässig den grössten Anteil an den deutschen Texten haben, handelt es sich bei ihnen um eine kleine Gruppe von Wörtern, die nur etwas über 1 % der Einträge im Rechtschreibduden ausmachen. Im Rechtschreibduden zahlreicher vertreten sind die Verben mit einem Anteil von 10 % und die Adjektive mit 14 %. Die am häufigsten vorkommende Wortart sind die Nomen, die ca. 75 % der Einträge ausmachen. Nur die wenigsten Nomen sind sogenannte Simplizia wie Ofen oder Tür. Die meisten Nomen sind Wortbildungen wie Holzofen oder Türsteher.

Auch über die Zugehörigkeit zu einem grammatikalischen Geschlecht lassen sich Aussagen machen. Knapp die Hälfte der Nomen sind feminin, etwa ein Drittel maskulin und ein Fünftel neutral.

Wortlängen


Die durchschnittliche Wortlänge der Einträge im Rechtschreibduden beträgt knapp 11 Buchstaben. Im Dudenkorpus – in dem es viele seltene Zusammensetzungen gibt – liegt sie etwas höher bei 13 Buchstaben. Doch über alle 4 Milliarden Wörter im Dudenkorpus betrachtet, sind die Wörter im Durchschnitt nur 6 Buchstaben lang. Denn die in einem Text am häufigsten vorkommenden Wörter, die Partikeln und die Pronomen, sind meist kurz, was sich auf die durchschnittliche Wortlänge auswirkt.

Und noch etwas zu den längsten Wörtern. Im Rechtschreibduden heisst das längste Wort Aufmerksamkeitsdefizit-Hyperaktivitätsstörung. Es liegt mit 44 Buchstaben vor Kraftfahrzeug-Haftpflichtversicherung mit 36 Buchstaben. Beide werden der besseren Lesbarkeit halber mit Bindestrich geschrieben.

Dass es im viel umfangreicheren Dudenkorpus längere Wörter gibt als im Rechtschreibduden, versteht sich von selbst. Das längste dort mehrmals vorkommende Wort hat 79 Buchstaben. Noch längere Wörter sind einmalige Spontanbildungen oder ab und zu eine Zahl wie das rekordverdächtige 9'192'631'770-Fache - als Wort geschrieben!

Buchstabenverteilung


Die Auswertung der Buchstabenhäufigkeit im Dudenkorpus zeigt, dass die Buchstaben e, n, r, i, t, s, a und l (in dieser Reihenfolge) am häufigsten vorkommen. Jeder 7. Buchstabe in einem Text ist ein e, das damit etwa 6-mal häufiger vorkommt als die Buchstaben d, f und p.

Die höchste Zahl aufeinanderfolgender Vokale beträgt 5. Im Rechtschreibduden halten diesen Rekord die drei Zusammensetzungen zweieiig, Donauauen und Treueeid. Im weiter gefassten Dudenkorpus findet man noch einige mehr wie etwa Bioeier oder Niveauausgleich.

Im Rechtschreibduden wie auch im Dudenkorpus ist Borschtsch (eine russische Suppe) das einzige nicht zusammengesetzte Wort mit 8 aufeinanderfolgenden Konsonanten. Weitere Wörter mit ebenfalls 8 aufeinanderfolgenden Konsonanten sind Zusammensetzungen. Im Rechtschreibduden sind das etwa Deutschschweiz, Welschschweiz oder Angstschweiss, im Dudenkorpus kommen weitere dazu, z. B. Weihnachtsschmuck, Herbstschwimmfest oder nächstschnellere.

(Quelle: Duden Bd 1, 27. Aufl.)
© 2017 hk Verlag - Version 04


142#100##0#0