Darauf bauen die Sprachmodelle auf?
Man kann nun jedes Wort, das in einem Wortschatz existiert, mit jedem anderen Wort in Beziehung setzen und die Wahrscheinlichkeit ausrechnen. Daraus entsteht ein Vektormodell mit 25´000 Dimensionen. Das kann man sich natürlich nicht mehr vorstellen, weil unsere Vorstellungskraft nach drei Dimensionen aufhört. Aber das Faszinierende in diesem Vektorraum ist, dass Wörter, die eine ähnliche Bedeutung haben, an einer ähnlichen Position landen. Das Wort Haus und das Wort Wohnung sind ganz ähnlich platziert. Um die 25´000 Dimensionen irgendwie darstellen zu können, rechnen wir das Modell auf zwei Dimensionen runter. Und auch da sehen wir: Haus und Wohnung liegen nebeneinander. Das kommt daher, dass die Verwendung der Begriffe in ähnlichen Kombinationen geschieht, «das Haus hat 162 Quadratmeter» oder eben «die Wohnung hat 108 Quadratmeter». Dasselbe gilt für Begriffe wie Birne und Apfel, die sehr viele Gemeinsamkeiten haben, während Birne und Zahnbürste wenig Gemeinsamkeiten haben.
Das ist also die Grundlage für ChatGPT?
Ja, diese Idee steckt dahinter. Im Vektorraum findet man nicht nur Wörterähnlichkeiten, sondern sogar semantische Wolken. Wörter wie König, Königin, Schloss oder Burg sind alle nah beieinander. Deshalb kann man damit rechnen. Subtrahieren wir vom Wort König alle Vektoren, die Mann bedeuten, landen wir zuerst bei einer Art herrschendem Eunuchen. Wenn wir dann den Vektor für Frau aufaddieren, dann landen wir im Vektorraum bei Königin. Das heisst, man kann tatsächlich mathematische Operationen machen im Vektorraum und die Bedeutung bleibt erhalten. Das ist faszinierend, oder? Faszinierend auf jeden Fall, auch wenn es Nicht-Mathematikern schwerfallen dürfte, sich das wirklich vorzustellen. Nun, es wird noch wilder. Was auch drinsteckt, ist die Grammatik. Grammatik hinterlässt geometrische Strukturen. Schnell, schneller, am schnellsten; hoch, höher, am höchsten. Ebenso steckt Weltwissen im System. Mercedes und BMW liegen nahe beieinander, während Mercedes und Deutsche Bahn weit auseinander liegen.
Wo liegt der ökonomische Nutzen dieser faszinierenden Fähigkeiten?
Es gibt Untersuchungen, dass KI die Effizienz erhöht, auch in Bereichen, mit denen man nicht gerechnet hat. Früher ging man davon aus, dass KI hauptsächlich die Industrie verändern würde. Dass es zu mehr Roboterautomatisierung der Arbeit von Blue-Collar-Workern führt. Erstaunlicherweise verändern Sprachmodelle aber die Jobs von den Wissensarbeitern. Deren Effektivität liesse sich um 40 Prozent erhöhen. Die Talente sind da wie in allen Berufen unterschiedlich verteilt, die Effizienzsteigerung ist weniger bei den Spitzenleuten, dafür umso mehr bei den schwächeren Personen zu beobachten.
Ist das erhärtet?
In einem Versuch musste eine Gruppe Aufgaben ohne KI lösen und eine Vergleichsgruppe dieselben Aufgaben mit KI. Die Qualität der zweiten Gruppe war deutlich besser. Interessanterweise betrug die Leistungssteigerung der Spitzenleute nur 17 Prozent, während diejenige der schwächeren Teilnehmer bei 43 Prozent lag.
Wie erklärt sich dieser Unterschied?
Neben wir als Beispiel einen ausgezeichneten Programmierer. Wenn dieser KI um Hilfe bittet, werden ihm die Antworten möglicherweise nicht gefallen. Er ist schlicht besser als die KI, weil er Neues kreiert, das vom System in den Daten noch nicht gefunden werden kann. Das gilt auch für Texte: Wer qualifizierte Texte in gutem Stil schreibt, ist besser als KI. Deren Texte sind unoriginell, mainstreamig und oft langweilig, weil sie statistisch erzeugt werden.
Gemacht wird es trotzdem.
Ich merke das auch bei den Studentenarbeiten. Ich hatte einen Masterstudenten, mit dem ich spannende Diskussionen führte, weil er tolle Ideen hat. Dann zeigt er mir den Text für seine Masterarbeit – sauberes Englisch, aber furchtbar langweilig zu lesen. Er hat mit ChatGPT gearbeitet, weil er keine Fehler machen wollte. Ich sagte ihm, er solle selbst schreiben, so hätte ich die Authentizität und die guten Ideen. Dann kann ich mit den Rechtschreibfehlern leben.