Die große KI-Show: Warum dein 'nachdenklicher' Chatbot vielleicht nur sehr gut im Schauspielern ist

Oder: Wie Large Reasoning Models gelernt haben, clever auszusehen, während sie im Grunde sehr teures Raten und Prüfen spielen

Anmerkung: Dieser Artikel basiert auf dem Forschungspapier “The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity” von Parshin Shojaee, Iman Mirzadeh, Keivan Alizadeh, Maxwell Horton, Samy Bengio und Mehrdad Farajtabar von Apple (2025).

Stell dir vor: Du stellst deinem KI-Assistenten eine komplexe Matheaufgabe, und anstatt sofort eine Antwort rauszuhauen wie in den alten Zeiten, macht er eine dramatische Pause und zeigt dir sein “Denken”. Du schaust gebannt zu, wie sich tausende von Wörtern vor deinen Augen entfalten. Die KI überlegt nochmal, rudert zurück, hat “Heureka-Momente” und kommt schließlich zur richtigen Antwort. Sicherlich, denkst du, diese Maschine denkt tatsächlich nach—vielleicht sogar besser als du.

Tja, ich muss dir leider mitteilen, dass du gerade möglicherweise den ausgefeiltesten Zaubertrick in der Geschichte des Rechnens miterlebt hast.

Willkommen im Zeitalter der Large Reasoning Models

Die neueste Generation von KI-Modellen—kurz Large Reasoning Models oder LRMs genannt—hat einen neuen Partytrick gelernt. Anstatt sofort deine Fragen zu beantworten, zeigen sie dir ihre “Arbeit”. Modelle wie OpenAIs o1, DeepSeek-R1 und Claudes denkende Varianten generieren tausende Tokens interner Überlegungen, bevor sie ihre finale Antwort produzieren. Es ist, als hättest du einen richtig geschwätzigen Schüler, der jeden einzelnen Gedanken beim Problemlösen aufschreibt, komplett mit Selbstkorrekturen und Erkenntnismomenten.

Diese Modelle gelten vielen als Durchbruch in der künstlichen Intelligenz. Schließlich ist es das, was wir Menschen beibringen, oder? Die Fähigkeit, schrittweise zu durchdenken, eigene Fehler zu erkennen und komplexe Probleme durchzukauen soll angeblich das sein, was Intelligenz von bloßer Mustererkennung unterscheidet.

Aber hier wird’s interessant—und etwas lächerlich.

Wie diese “denkenden” Maschinen tatsächlich funktionieren

Um zu verstehen, was wirklich in diesen Modellen passiert, stell dir vor, du trainierst einen sehr ausgeklügelten Papagei. Dieser Papagei hat praktisch alles gelesen, was Menschen jemals über Reasoning, Mathematik und Problemlösung geschrieben haben. Jetzt, anstatt ihm spezielle Tricks beizubringen, erstellst du ein einfaches Spiel: Jedes Mal, wenn der Papagei etwas sagt, das zu einer richtigen Antwort führt, gibst du ihm ein Leckerli. Jedes Mal, wenn nicht, verweigerst du das Leckerli.

Das passiert im Wesentlichen mit Large Reasoning Models, nur dass wir anstatt Leckerlis mathematische Belohnungen verwenden und anstatt eines Papageis ein neuronales Netzwerk mit hunderten Milliarden Parametern haben.

Der Trainingsprozess läuft so ab: Das Modell bekommt tausende Probleme vorgesetzt und lernt, dass es eher über die richtige Antwort stolpert, wenn es viel Text generiert, der nach Reasoning aussieht—komplett mit Phrasen wie “warte, lass mich das nochmal überdenken” und “eigentlich glaube ich, ich habe einen Fehler gemacht”. Mit der Zeit wird es außergewöhnlich gut darin, diesen reasoning-artig schmeckenden Text zu erzeugen.

Die Magie passiert durch etwas namens Reinforcement Learning, was im Grunde eine fancy Art ist zu sagen “lernen durch Versuch und Irrtum mit Belohnungen”. Das Modell fängt nicht damit an zu wissen, wie man denkt. Stattdessen entdeckt es, dass bestimmte Textgenerierungsmuster eher zu Belohnungen führen. Wenn mehr Text zu generieren die Chancen erhöht, die richtige Antwort zu bekommen, nun ja, dann lernt das Modell, mehr Text zu generieren. Wenn Selbstkorrektur dabei hilft, offensichtliche Fehler zu vermeiden, lernt das Modell, sich selbst zu korrigieren. Wenn “Aha-Momente” zu haben Menschen denken lässt, es sei schlau, lernt das Modell, Aha-Momente zu haben.

Der wirklich clevere Teil ist, dass niemand diese Verhaltensweisen explizit programmiert hat. Das Modell hat sie entwickelt, weil sie nützlich waren, um Belohnungen zu bekommen. Das nennen Forscher begeistert “emergentes Verhalten”—ausgeklügelte Strategien, die natürlich aus einfachen Regeln entstehen.

Aber hier ist der entscheidende Punkt, der oft übersehen wird: Diese Modelle werden fundamental von außen auferlegten Algorithmen geformt. Das neuronale Netzwerk selbst hat keine intrinsische Motivation zu denken oder zu überlegen—es reagiert einfach auf externe Optimierungsdrücke. Stochastic Gradient Descent (SGD) und Reinforcement Learning-Algorithmen leiten das Modell extern zu Verhaltensweisen, die die Belohnung maximieren. Das Modell “will” nicht lernen oder sich verbessern in irgendeinem bedeutsamen Sinne; es wird durch algorithmische Kräfte durch den Parameterraum navigiert, die völlig getrennt vom Modell selbst sind.

Stell es dir vor wie eine Murmel, die einen sorgfältig konstruierten Hügel hinunterrollt. Die Murmel wählt nicht ihren Weg—die Topologie der Landschaft bestimmt, wohin sie geht. Genauso entwickeln diese Modelle keine Reasoning-Fähigkeiten durch irgendeinen internen Antrieb oder Verständnis. Sie werden von externen Optimierungsalgorithmen geschoben und gezogen, die bestimmte Textgenerierungsmuster über andere belohnen.

Das schafft womöglich die tiefste philosophische Herausforderung von allen: Wenn der Lernprozess selbst vollständig von externen Kräften angetrieben wird statt von irgendeiner internen Motivation oder Verständnis, können wir dann wirklich sagen, das Modell hat gelernt zu “denken” in irgendeinem bedeutsamen Sinne? Oder wurde es einfach von externen Algorithmen in eine Form gemeißelt, die reasoning-ähnliche Outputs produziert?

Aber hier ist die Sache mit Emergenz: Nur weil etwas beeindruckend aussieht, heißt das nicht, dass es das ist, was du denkst.

Die Brute Force hinter dem Vorhang

Wenn du eines dieser Modelle beim “Denken” beobachtest, siehst du wirklich Brute Force-Exploration, die in der Sprache des Reasoning verkleidet ist. Das Modell hat gelernt, dass wenn es genug rechnerische Spaghetti an die Wand wirft, irgendwas schließlich kleben bleibt. Es generiert multiple Ansätze, probiert verschiedene Winkel aus und macht weiter, bis es auf etwas stößt, das funktioniert.

Stell es dir vor wie einen richtig hartnäckigen Schüler, der das Material nicht ganz versteht, aber rausgefunden hat, dass er irgendwann über die richtige Antwort stolpert, wenn er genug Wörter schreibt und genug verschiedene Ansätze probiert. Nur dass dieser Schüler unglaublich schnell schreibt und jedes jemals geschriebene Mathebuch perfekt im Gedächtnis hat.

Das Modell hat nicht gelernt zu denken, wie Menschen es tun. Stattdessen hat es gelernt, durch den Raum möglicher Textsequenzen zu navigieren auf eine Art, die seine Chancen maximiert, Text zu produzieren, der mit einer richtigen Antwort endet. Es ist unglaublich ausgeklügelte Mustererkennung mit einem Suchalgorithmus obendrauf.

Das ist nicht unbedingt schlecht. Brute Force kann bemerkenswert effektiv sein, besonders wenn du praktisch unbegrenzte Rechenleistung und Zugang zu allem menschlichen Wissen hast. Aber es wirft interessante Fragen darüber auf, was wir meinen, wenn wir sagen, eine KI “denkt nach.”

Die drei fatalen Schwächen

Aktuelle Forschung hat drei fundamentale Probleme mit diesen Large Reasoning Models identifiziert, die die Grenzen dieses Ansatzes offenlegen. Diese Schwächen sind besonders peinlich, weil sie in überraschend einfachen Situationen auftauchen.

Schwäche #1: Der Komplexitäts-Kollaps

Hier wird’s richtig interessant. Forscher entdeckten, dass diese Modelle bei einfachen Problemen gut abschneiden, bei mäßig komplexen Problemen sogar noch besser werden, aber dann völlig zusammenbrechen, wenn’s wirklich herausfordernd wird. Es ist kein gradueller Abstieg—es ist eine Klippe.

Stell dir einen Schüler vor, der mit Grundalgebra klarkommt, bei mittleren Aufgaben glänzt, aber dann völlig unfähig wird, irgendwas zu lösen, sobald du nur ein paar mehr Variablen hinzufügst. Genau das passiert mit diesen Modellen. Sie treffen auf eine Komplexitätsschwelle, und ihre Performance nimmt nicht nur ab—sie kollabiert auf null.

Noch bizarrer ist, dass die Modelle tatsächlich anfangen, weniger zu “denken”, nicht mehr, wenn Probleme schwerer werden und sich dieser Komplexitätsklippe nähern. Du würdest erwarten, dass schwierigere Probleme mehr Überlegung erfordern, aber diese Modelle machen das Gegenteil. Es ist, als würde unser hypothetischer Schüler anfangen, immer kürzere Antworten zu geben, je schwerer die Probleme werden, bis er schließlich nur noch mit den Schultern zuckt und weggeht.

Das deutet darauf hin, dass diese Modelle ihre Reasoning-Power nicht wirklich mit Problemkomplexität skalieren, wie du es von echten Reasoning-Systemen erwarten würdest. Stattdessen scheinen sie eine Sammlung von Tricks gelernt zu haben, die bis zu einem bestimmten Punkt funktionieren, und jenseits dieses Punkts wissen sie einfach nicht, was zu tun ist.

Schwäche #2: Das Algorithmus-Ausführungsversagen

Diese Schwäche ist vielleicht die aufschlussreichste von allen. Forscher probierten etwas aus, was für jedes Reasoning-System ein Klaks hätte sein sollen: Sie gaben den Modellen explizite, schrittweise Algorithmen zum Lösen von Problemen. Alles was die Modelle tun mussten, war den Anweisungen zu folgen.

In menschlichen Begriffen wäre das, als würdest du jemandem ein Rezept geben und ihn bitten, einen Kuchen zu backen. Du fragst ihn nicht, das Kochen zu erfinden—nur den Anweisungen zu folgen.

Die Modelle versagten spektakulär.

Selbst wenn ihnen vollständige, korrekte Algorithmen bereitgestellt wurden, konnten diese angeblichen Reasoning-Maschinen nicht zuverlässig die logischen Schritte ausführen. Sie würden ungefähr an denselben Punkten versagen, wo sie versagten, als sie versuchten, die Probleme von Grund auf zu lösen. Das ist besonders vernichtend, weil einem Algorithmus zu folgen viel weniger “Reasoning” erfordern sollte als eine Lösung unabhängig abzuleiten.

Das deutet darauf hin, dass diese Modelle nicht wirklich logische Konzepte manipulieren oder Reasoning-Ketten folgen. Stattdessen generieren sie Text, der Reasoning ähnelt, aber die zugrundeliegende logische Struktur fehlt, die ihnen erlauben würde, systematisch durch ein Problem zu arbeiten.

Es ist, als würdest du entdecken, dass dein anscheinend brillanter Schüler wunderschöne Essays über Mathematik schreiben kann, aber nicht wirklich rechnen kann, wenn du ihm einen Taschenrechner und explizite Anweisungen gibst.

Schwäche #3: Das Inkonsistenzproblem

Die dritte Schwäche offenbart vielleicht die menschenähnlichste Begrenzung dieser Modelle: Sie sind unglaublich inkonsistent auf Arten, die logisch keinen Sinn ergeben.

Forscher fanden heraus, dass dasselbe Modell über 100 sequenzielle logische Schritte in einer Art Problem korrekt ausführen könnte, aber nach nur 4 Schritten in einem anderen, aber gleich komplexen Problem versagen. Das geht nicht darum, dass ein Problem inhärent schwerer ist als das andere—es geht darum, dass das Modell verschiedene Muster für verschiedene Problemarten gelernt hat.

Die Erklärung scheint peinlich einfach zu sein: Vertrautheit mit Trainingsdaten. Das Modell schneidet gut bei Problemen ab, die denen ähnlich sind, die es während des Trainings oft gesehen hat, und schlecht bei Problemen, die in seinen Trainingsdaten selten waren. Das deutet darauf hin, dass was wie Reasoning aussieht, tatsächlich ausgeklügelte Memorierung und Mustererkennung ist.

Es ist, als würdest du entdecken, dass dein brillanter Schüler unglaublich komplexe Physikprobleme lösen könnte, aber nicht rausfinden kann, wie er Wechselgeld für einen Euro macht, weil er diese spezielle Art von Problem noch nie geübt hat.

Das Performance-Theater der Künstlichen Intelligenz

Was wir mit Large Reasoning Models erleben, ist im Wesentlichen Performance-Theater. Diese Modelle sind unglaublich ausgeklügelt darin geworden, Text zu generieren, der aussieht wie Reasoning, sich anhört wie Reasoning und oft sogar dieselben Ergebnisse wie Reasoning produziert, aber die zugrundeliegende logische Struktur fehlt, die echtes Reasoning definiert.

Das ist nicht unbedingt eine Kritik an der Technologie. Die Ergebnisse können wirklich nützlich sein, und die ingenieurtechnische Leistung ist bemerkenswert. Aber es deutet darauf hin, dass wir vorsichtiger mit den Behauptungen sein sollten, die wir über die Fähigkeiten dieser Systeme aufstellen.

Wenn ein Modell tausende Wörter des “Denkens” generiert und zu einer korrekten Antwort kommt, ist das, was wirklich passiert ist, dass es erfolgreich durch einen riesigen Raum möglicher Textsequenzen navigiert hat, indem es Muster verwendete, die es während des Trainings gelernt hat. Es ist außergewöhnlich gut darin geworden, reasoning-artig schmeckenden Text zu generieren, der dazu neigt, zu korrekten Schlussfolgerungen zu führen.

Die “Aha-Momente”, die Selbstkorrekturen und die sorgfältigen Überlegungen sind alle gelernten Verhaltensweisen, die das Modell entdeckt hat, dass sie nützlich waren, um seine Trainingsziele zu erreichen. Es sind keine echten Erkenntnismomente, sondern strategische Textgenerierungsmuster, die die Erfolgswahrscheinlichkeit erhöhen.

Was das für die Zukunft bedeutet

Diese Begrenzungen zu verstehen heißt nicht, dass Large Reasoning Models nutzlos sind—ganz im Gegenteil. Sie stellen einen bedeutenden Fortschritt in KI-Fähigkeiten dar und können bei vielen Aufgaben wirklich hilfreich sein. Aber zu erkennen, was sie tatsächlich sind, statt was sie zu sein scheinen, ist entscheidend für das Verständnis ihrer angemessenen Anwendungen und Begrenzungen.

Diese Modelle glänzen beim Mustererkennen über riesige Informationsmengen, beim Erkunden von Lösungsräumen durch Textgenerierung und beim Nachahmen der Struktur menschlichen Reasoning. Sie sind mächtige Werkzeuge zur Verstärkung menschlicher Intelligenz, besonders in Bereichen, wo ihre Trainingsdaten reich sind und die Probleme in ihre gelernten Muster fallen.

Jedoch denken sie nicht wirklich nach, wie Menschen es tun, und man kann sich nicht darauf verlassen, dass sie neuartige Situationen handhaben, die außerhalb ihrer Trainingsverteilung liegen. Es sind ausgeklügelte Textgeneratoren, die nützliche Strategien gelernt haben, hilfreiche Outputs zu produzieren, keine denkenden Maschinen, die logische Konzepte wirklich verstehen und manipulieren können.

Vielleicht am wichtigsten ist, dass diese Erkenntnisse darauf hindeuten, dass der Weg zur Artificial General Intelligence komplexer sein könnte, als einfach aktuelle Ansätze hochzuskalieren. Während diese Modelle beeindruckende ingenieurtechnische Leistungen darstellen, offenbaren die drei fundamentalen Schwächen, dass wir möglicherweise fundamental andere Ansätze brauchen, um wirklich denkende künstliche Geister zu schaffen.

In der Zwischenzeit können wir diese Modelle für das schätzen, was sie sind: bemerkenswert ausgeklügelte Mustererkenner, die gelernt haben, eine beeindruckende Show abzuziehen. Sei nur nicht zu überrascht, wenn der Zauberer gelegentlich enthüllt, wie der Trick funktioniert.

Die echte Frage ist nicht, ob diese Modelle wirklich denken—es ist, ob das überhaupt wichtig ist, solange sie nützlich sind. Aber das ist eine Frage für Philosophen und Ethiker zum Grübeln, während der Rest von uns rausfindet, wie wir das Beste aus diesen faszinierenden, fehlerhaften und überraschend effektiven künstlichen Geistern machen.

P.S.

Dieser Text wurde hauptsächlich von Claude geschrieben—derselben Art von “reasoning” KI, über die wir diskutiert haben. Es half mir, die Essenz des Forschungspapers zu destillieren und den Text in korrektem Deutsch zu schreiben, Lücken zu füllen, nachdem wir eine Stunde lang über das Thema brainstormten mit hin und her Diskussion.

Die Ironie ist mir nicht entgangen, dass ich eine KI verwendet habe, um KI-Reasoning-Fähigkeiten zu kritisieren. Aber vielleicht illustriert diese Zusammenarbeit selbst den Punkt: Claude glänzte beim Mustererkennen über riesige Informationsmengen, beim Organisieren komplexer Ideen zu lesbarer Prosa und beim Nachahmen der Struktur analytischen Schreibens. Was es bereitstellte, war kein echtes Reasoning über KI-Begrenzungen, sondern ausgeklügelte Textgenerierung, die mir half, mein eigenes Verständnis der Forschung zu artikulieren.

Das echte Denken—die Interpretation dessen, was diese Erkenntnisse bedeuten, die Verbindungen zu breiteren Fragen über Intelligenz und die kritische Analyse der Implikationen—kam aus unserem menschlichen Gespräch. Claude war ein exzellenter Schreibpartner, aber das Reasoning über Reasoning? Das war eindeutig menschlich.

Was vielleicht die wichtigste Lektion von allen sein könnte: Diese KI-Systeme sind mächtige Werkzeuge zur Verstärkung menschlicher Intelligenz, nicht zum Ersetzen menschlichen Denkens. Zumindest noch nicht.