KI-Tools

ARC AGI 3: Warum Top-KI-Modelle bei unter 1 Prozent scheitern

ARC AGI 3 ist der neue interaktive KI-Benchmark. Menschen lösen ihn zu 100 %, GPT-5.4, Gemini 3.1 Pro und Claude Opus 4.6 bleiben unter 1 %.

TL;DR: ARC AGI 3 ist der neue interaktive KI-Benchmark der ARC Prize Foundation rund um François Chollet und Mike Knoop. Der Test misst nicht Wissen, sondern fluide Intelligenz: Wie schnell lernt ein KI-Agent ein unbekanntes Mini-Spiel auf einem 64x64-Raster? Menschen lösen den Test zu 100 Prozent, die stärksten Frontier-Modelle bleiben unter 1 Prozent. Gemini 3.1 Pro 0,37 Prozent, GPT-5.4 0,26 Prozent, Claude Opus 4.6 0,25 Prozent, Grok-4.20 0,00 Prozent. Der Befund verschiebt die Debatte von Modellgröße zu Architektur.

Was ist ARC AGI 3?

ARC AGI 3 ist die dritte Generation des „Abstraction and Reasoning Corpus" der ARC Prize Foundation. Während ARC AGI 1 und 2 statische Bildrätsel waren, ist ARC AGI 3 ein interaktiver, rundenbasierter Benchmark. Der KI-Agent wird in eine ihm völlig unbekannte Umgebung geworfen und muss durch eigenes Handeln herausfinden, wie sie funktioniert. Eingebettet ist das in 135 Umgebungen, davon 25 öffentlich und 110 in teils streng geheimen Datensätzen.

Klassische Benchmarks wie MMLU oder GPQA messen kristalline Intelligenz: das Abrufen von trainiertem Wissen. LLMs sind darin stark, weil sie auf riesigen Datenmengen vorab gelernt haben. ARC AGI 3 misst fluide Intelligenz, also wie effizient ein System eine neue Fertigkeit erwirbt. Chollet bringt es so auf den Punkt: „Wahre Intelligenz besteht nicht darin, Antworten auswendig zu lernen – sie besteht darin, zu wissen, was zu tun ist, wenn sich das Problem ändert." !ARC AGI 3 Infografik: Fluide menschliche Intelligenz versus kristallines KI-Wissen mit Performance-Lücke zwischen Mensch und Top-Modellen Bild: KI-generiert mit NotebookLM · Schematische Darstellung; präzise Scores siehe Fließtext

Der Agent sieht ein 64x64-Raster, jede Zelle in einer von 16 Farben. Er kennt weder Regeln noch Ziele. Verfügbar sind nur Basisaktionen: oben, unten, links, rechts, klicken, rückgängig. Er muss handeln, beobachten, Hypothesen bilden und lernen. Die Umgebungen verzichten bewusst auf Sprache, Zahlen und kulturelle Symbole. Sie testen sogenannte Core Knowledge Priors: Objekthaftigkeit, elementare Physik, Symmetrie. Genau die Bausteine, die auch Kleinkinder beim Erkunden der Welt nutzen.

Wie wird ARC AGI 3 gemessen?

Der Benchmark vergibt keine Punkte fürs reine Lösen. Bewertet wird, wie effizient die KI im Vergleich zu Menschen handelt. Dafür hat das Team die Metrik Relative Human Action Efficiency (RHAE) entwickelt. Pro Level testen 10 menschliche Probanden den Test zum ersten Mal. Die Leistung der zweitbesten Person definiert die Baseline von 100 Prozent. Daran wird die KI gemessen.

Die Scoring-Formel lautet: Score = min(1.0, (HumanActions / AIActions))^2. Diese quadratische Strafe ist hart. Braucht eine KI doppelt so viele Schritte wie ein Mensch, fällt der Score auf 25 Prozent. Bei zehnfachem Aufwand bleiben 1 Prozent. Höhere Level sind zusätzlich linear stärker gewichtet – Level 1 zählt mit Faktor 1, Level 2 mit Faktor 2 und so weiter. Tutorial-Erfolge fallen damit kaum ins Gewicht, schwere Level dominieren den Score. Übersteigt eine KI das Fünffache der menschlichen Aktionen, bricht das System das Level ab.

Der Benchmark belohnt damit gezielt nicht das, worin LLMs heute stark sind. Brute Force, also massenhaftes Probieren tausender Hypothesen, wird systematisch abgewertet. Auch Auswendiglernen aus dem Trainingsdatensatz hilft nicht, weil die Spiele neu sind und der Hauptdatensatz teils geheim bleibt. Bewertet wird das, was Forscher als Sample Efficiency bezeichnen: möglichst wenige gezielte Schritte zur richtigen Hypothese.

Was bedeuten die Benchmarks der Top-Modelle?

Zum Launch im März 2026 traten die stärksten Frontier-Modelle gegen das semi-private Test-Set an. Die Werte sind ernüchternd: • Google Gemini 3.1 Pro (Preview): 0,37 Prozent • OpenAI GPT-5.4 (High): 0,26 Prozent • Anthropic Claude Opus 4.6 (Max): 0,25 Prozent • xAI Grok-4.20: 0,00 Prozent – überschritt in jedem Level das Aktionslimit Menschliche Probanden lagen bei 100 Prozent. Ein reines Reinforcement-Learning-System namens StochasticGoose schaffte in der Vorab-Version noch 12,58 Prozent, fiel im offiziellen Lauf aber ebenfalls auf 0,25 Prozent zurück. Ein 100-Prozent-Score bedeutet, dass KI-Agenten jedes Spiel so effizient lösen wie Menschen.

Ein Ausreißer war das Startup Symbolica AI mit seinem Harness namens Arcgentica, gebaut auf dem Agentica SDK. Es erreichte am Veröffentlichungstag einen unbestätigten Score von 36,08 Prozent, löste 113 von 182 spielbaren Leveln und gewann 7 von 25 öffentlichen Spielen vollständig. Der Trick: Ein Orchestrator-Agent interagiert nicht selbst mit der Umgebung, sondern delegiert an spezialisierte Sub-Agenten, die jeweils komprimierte Text-Zusammenfassungen zurückgeben. So bleibt das Kontextfenster frei von Pixel-Müll. Auffällig auch der Kostenunterschied: Arcgentica kam laut Symbolica auf rund 1.005 Dollar Compute-Kosten, Opus 4.6 verbrauchte für seine 0,25 Prozent rund 8.900 Dollar. Solche Harnesses werden im Leaderboard separat geführt, weil sie Architektur statt nacktem Modell bewerten. Quelle: Symbolica AI, „ARC AGI 3" (https://www.symbolica.ai/blog/arc-agi-3).

Warum schneiden die Top-Modelle so schlecht ab?

Das Problem ist nicht primär Rechenleistung, sondern Architektur. Aktuelle LLMs sind im Kern Next-Token-Predictoren auf festen statistischen Mustern. Wenn die Regel eines Spiels erst durch eigenes Handeln entsteht, greift dieses Prinzip ins Leere. Eine Analyse der ARC Prize Foundation über 160 Replays von GPT-5.5 (0,43 Prozent) und Claude Opus 4.7 (0,18 Prozent) zeigte drei wiederkehrende Fehlermuster.

Die Modelle erkennen Einzeleffekte: „Knopf 3 dreht das Objekt." Sie schaffen es aber nicht, diese Erkenntnis in einen globalen Plan zu übersetzen. Statt eine kausale Strategie zu verfolgen, handeln sie planlos weiter. Das Modell sieht den Baum, aber nicht den Wald.

Die Modelle versuchen, das Spiel mit bekannten Videospielen aus ihrem Trainingsdatensatz zu erklären. Tetris, Sokoban, Breakout. Sie bilden Hypothesen entlang dieser Vorlagen und verschwenden ihre Aktionen daran, eine falsche Annahme zu bestätigen. Genau das, was sonst ihre Stärke ist – Mustererkennung aus Vorwissen – wird hier zur Bremse.

Selbst wenn ein Modell das Tutorial-Level zufällig gewinnt, überträgt es das gelernte Konzept nicht ins nächste Level. Es fehlt die Fähigkeit zum Continual Learning. Jedes Level wird quasi neu von vorn versucht. Genau hier setzt ein Großteil der aktuellen Forschung zu agentischen Architekturen an.

Was kritisieren die Gegner des Benchmarks?

ARC AGI 3 polarisiert. Befürworter wie Chollet und Gary Marcus sehen darin den Beleg, dass reines Skalieren – mehr Daten, mehr Parameter, mehr Rechenleistung – nicht zu allgemeiner Intelligenz führt. Kritiker, darunter Stimmen rund um Yann LeCun, halten dagegen: Menschen starten nicht bei null, sondern bringen Millionen Jahre Evolution und ein angeborenes physisches Weltverständnis mit. Ein textbasiertes Modell sei dabei systematisch im Nachteil. Die quadratische Strafe wird ebenfalls kritisiert, weil sie Maschinen für ihre eigentliche Stärke bestraft: extrem schnelles Hypothesen-Testen.

FAQ: Häufig gestellte Fragen zu ARC AGI 3

Wer hat ARC AGI 3 entwickelt? Der Benchmark stammt von der ARC Prize Foundation, gegründet von François Chollet (Schöpfer der Keras-Bibliothek und langjähriger Google-Forscher) und Mike Knoop (Mitgründer von Zapier). Veröffentlicht wurde ARC AGI 3 im März 2026. Wie schneiden Menschen im Vergleich ab? Menschliche Probanden lösen ARC AGI 3 zu 100 Prozent. Pro Level testen 10 Personen die Aufgaben zum ersten Mal, ohne Anleitung oder Vorwissen. Die zweitbeste Person setzt jeweils die Baseline. Warum scheitert Grok-4.20 mit 0,00 Prozent? Grok-4.20 überschreitet in jedem getesteten Level das Aktionslimit. Sobald ein Agent das Fünffache der menschlichen Aktionen verbraucht, bricht das System ab. Das Modell schafft es schlicht nicht, sich innerhalb des erlaubten Spielbudgets eine sinnvolle Hypothese zu bilden. Ist ARC AGI 3 ein AGI-Test? Nein, der Benchmark ist kein finaler AGI-Test, sondern ein Diagnoseinstrument. Er isoliert eine spezifische Fähigkeit: schnelles Lernen aus wenigen Beobachtungen. Wer ihn löst, hat einen wichtigen Baustein gezeigt, aber damit noch keine allgemeine Intelligenz bewiesen. Was ist der Unterschied zu MMLU oder GPQA? MMLU und GPQA messen Wissen aus Trainingsdaten. ARC AGI 3 misst, wie effizient ein System völlig neue Aufgaben lernt, ohne sich auf Training zu stützen. Statische Tests können memoriert werden, ARC AGI 3 nicht. Was kann man aus dem Symbolica-AI-Ergebnis lernen? Dass Architektur derzeit mehr bringt als Modellgröße. Ein Multi-Agenten-Setup mit klaren Rollen und gemeinsamem Gedächtnis erreicht 36 Prozent, wo monolithische Frontier-Modelle unter 1 Prozent bleiben. Das verschiebt die Forschungsdebatte hin zu agentischen Harnesses.

Fazit

ARC AGI 3 ist kein Untergangs-Signal für die KI-Branche, aber ein klares Warnsignal. Die heutigen Frontier-Modelle sind exzellent im Abrufen von Wissen und schwach im echten Lernen aus wenigen Beobachtungen. Der Benchmark zeigt damit präzise, wo der nächste Architektur-Sprung passieren muss: bei Continual Learning, Weltmodellen und agentischen Multi-Agent-Strukturen. Für Praktiker heißt das: Wer KI-Systeme einsetzt, sollte sie dort anwenden, wo Mustererkennung aus Vorwissen die Aufgabe ist – nicht dort, wo sich Spielregeln laufend ändern. Vertiefend dazu: Was ist ein AI Harness? für die Architekturfrage rund um Harnesses und Hermes KI-Agent zur Funktionsweise agentischer Systeme. Verifizierte Quellen: ARC Prize Foundation (arcprize.org), Veröffentlichung ARC AGI 3, März 2026. Replay-Analyse der Foundation über 160 Modell-Durchläufe (GPT-5.5, Claude Opus 4.7). Ergänzende Benchmark-Daten zu Gemini 3.1 Pro: Serenities AI, Google Gemini 3.1 Pro Review – Benchmarks 2026 (https://serenitiesai.com/articles/google-gemini-3-1-pro-review-benchmarks-2026).