KI-Tools

GLM-5.2: Open-Source-KI-Modell schlägt GPT-5.5 für ein Sechstel

GLM-5.2 von Z.ai ist das stärkste Open-Weights-Modell weltweit: 1 Mio. Token Kontext, MIT-Lizenz, schlägt GPT-5.5 auf Coding-Benchmarks zu einem Sechstel der Kosten.

TL;DR: GLM-5.2 von Z.ai ist seit Mitte Juni 2026 das stärkste Open-Weights-Sprachmodell. Das MoE-Modell mit 744 Mrd. Parametern und 1 Mio. Token Kontext schlägt GPT-5.5 auf mehreren Coding-Benchmarks und liegt auf FrontierSWE nur 0,7 Punkte hinter Claude Opus 4.8. Die MIT-Lizenz erlaubt uneingeschränktes Self-Hosting, der API-Output kostet 4,40 US-Dollar pro Million Token – ein Sechstel von GPT-5.5. Für Entwickler, die frontierfähige KI ohne Vendor-Lock-in wollen, ist GLM-5.2 das Modell der Stunde.

Was ist GLM-5.2?

GLM-5.2 ist das neue Flaggschiff-Modell von Z.ai (Zhipu AI). Laut Simon Willison wurde es am 13. Juni 2026 für Abonnenten des GLM Coding Plans freigeschaltet und am 16. Juni 2026 als Open Weights unter MIT-Lizenz veröffentlicht. Das Modell löst GLM-5.1 ab und bringt fundamentale Verbesserungen vor allem beim Long-Context- und beim agentischen Coding mit. Technische Eckdaten | Spezifikation | GLM-5.2 | GLM-5.1 | |---|---|---| | Architektur | MoE mit Sparse Attention | MoE | | Parameter gesamt | 744 Mrd. | 744 Mrd. | | Parameter aktiv | ~40 Mrd. | ~40 Mrd. | | Kontextfenster | 1 Mio. Token | 200.000 Token | | Max. Output | 128.000 Token | – | | Lizenz | MIT | MIT | | Gewichte (BF16) | ~1,5 TB | – | GLM-5.2 ist ein Mixture-of-Experts-Modell (MoE): Von den 744 Milliarden Parametern sind pro Token nur rund 40 Milliarden aktiv. Das hält die Inferenzkosten niedrig, obwohl das Gesamtmodell riesig ist. Architektonisch baut GLM-5.2 auf DeepSeek Sparse Attention (DSA) auf und erweitert sie um zwei Neuerungen: IndexShare für effizienteren Long-Context-Betrieb und eine verbesserte Multi-Token Prediction (MTP) für schnellere Textgenerierung.

Warum ist GLM-5.2 so relevant?

Die KI-Landschaft hat sich 2026 verschoben. Nach DeepSeek, Kimi und MiniMax liefert GLM-5.2 den nächsten Beweis: Open-Weights-Modelle aus China erreichen das Frontier-Niveau proprietärer Anbieter – zu einem Bruchteil der Kosten. Guillermo Rauch, CEO von Vercel, schrieb auf X, er sei „fast schon schockiert, wie gut GLM-5.2 beim Programmieren ist". Benchmark-Performance: GPT-5.5 wird geschlagen Auf den anspruchsvollsten Coding- und Tool-Benchmarks zeigt GLM-5.2 starke Ergebnisse: | Benchmark | GLM-5.2 | Claude Opus 4.8 | GPT-5.5 | |---|---|---|---| | FrontierSWE | 74,4 % | 75,1 % | 72,6 % | | SWE-bench Pro | 62,1 % | führt | 58,6 % | | Terminal-Bench 2.1 | 81,0 | 85,0 | 84,0 | | MCP-Atlas (Tool Use) | 77,0 | 77,8 | 75,3 | Besonders bemerkenswert ist FrontierSWE, ein Benchmark für lang laufende Coding-Projekte: Hier liegt GLM-5.2 mit 74,4 % nur 0,7 Punkte hinter Claude Opus 4.8 und schlägt GPT-5.5 klar. Auf SWE-bench Pro zieht GLM-5.2 mit 62,1 % an GPT-5.5 (58,6 %) vorbei – ein Vorsprung von 3,5 Punkten. Auf Terminal-Bench 2.1 ist der Sprung gegenüber dem Vorgänger GLM-5.1 (63,5) auf jetzt 81,0 enorm, auch wenn Opus 4.8 und GPT-5.5 hier noch knapp vorn liegen. Auf der Design Arena für HTML-Webdesign belegt GLM-5.2 mit einem Elo-Wert von rund 1.360 sogar Platz 1, vor Claude Fable 5 und Opus, obwohl das Modell keinen Bild-Input unterstützt. Im nutzerbewerteten Code Arena WebDev landet es auf Platz 2 hinter Fable 5. Laut VentureBeat ist GLM-5.2 auf dem Artificial Analysis Intelligence Index v4.1 mit einem Score von 51 das führende Open-Weights-Modell. Wichtig: Auf Humanity's Last Exam erreicht GLM-5.2 mit Tool-Nutzung 54,7 % und liegt damit vor GPT-5.5 und Gemini 3.1 Pro, aber hinter Opus 4.8. Ohne Tools fällt es ans Ende des Feldes zurück. Die Lektion: GLM-5.2 spielt seine Stärke als Agent mit Tool-Zugriff aus, nicht als reines Wissensmodell. Preis-Disruption: ein Sechstel der Kosten | Modell | Input / 1M Token | Output / 1M Token | |---|---|---| | GLM-5.2 | $1,40 | $4,40 | | GPT-5.5 | $15,00 | $30,00 | | Claude Opus 4.8 | $15,00 | $25,00 | | Claude Fable 5 | $10,00 | $50,00 | Beim Output ist GLM-5.2 damit über 80 % günstiger als GPT-5.5 und Claude Opus 4.8, beim Input rund 90 %. Mit gecachtem Input (0,26 US-Dollar pro Million Token) sinkt der Preis weiter. Wer die Open Weights selbst hostet, zahlt nur noch die Infrastruktur. Hinweis: Günstig pro Token heißt nicht automatisch günstig pro Task. Im Webdesign-Vergleich erzeugt GLM-5.2 rund 25 % mehr Code und braucht mit etwa 305 Sekunden ungefähr doppelt so lange wie Claude Fable 5. Die Gesamtkosten pro Aufgabe liegen dadurch höher als der Einzelpreis vermuten lässt, aber immer noch deutlich unter denen proprietärer Modelle. Wer seine Token-Budgets im Blick behalten will, findet im Headroom-Guide zur Token-Kompression passende Stellschrauben.

Wie funktioniert das 1-Millionen-Token-Kontextfenster?

Ein Millionen-Token-Kontext ist nutzlos, wenn die Inferenz langsam oder teuer wird. Laut dem technischen Blog von Z.ai auf HuggingFace löst GLM-5.2 das mit mehreren architektonischen Neuerungen. IndexShare: ein gemeinsamer Indexer für Sparse Attention Das Kernelement ist IndexShare. Statt jeder Transformer-Schicht einen eigenen Lightweight-Indexer zu geben, teilen sich jeweils vier Schichten einen einzigen Indexer, der an der ersten der vier Schichten sitzt. Das reduziert die FLOPs pro Token bei 1 Million Kontext um den Faktor 2,9. Multi-Token Prediction: rund 20 % schnellere Generierung Die verbesserte MTP-Schicht nutzt Speculative Decoding, bei dem das Modell mehrere Token gleichzeitig vorhersagt und anschließend verifiziert. Durch die Kombination aus IndexShare, KVShare, Rejection Sampling und End-to-End TV Loss steigt die Akzeptanzlänge von 4,56 auf 5,47 Token – eine Verbesserung um rund 20 %. Drei Denk-Modi steuern den Aufwand GLM-5.2 kennt drei Thinking Modes, steuerbar über den Parameter reasoningeffort: - Non-thinking: ohne Reasoning, für einfache und latenzkritische Aufgaben - High: Standard-Balance aus Qualität und Geschwindigkeit - Max: höchste logische Leistung für komplexe, lang laufende Aufgaben Bei besonders anspruchsvollen Problemen bringt der Max-Modus einen messbaren Schub, kostet aber spürbar mehr Output-Token.

Wie wurde GLM-5.2 trainiert?

GLM-5.2 wurde mit dem internen slime-Framework trainiert, einer asynchronen RL-Infrastruktur, die von der Trainings- bis zur Inferenz-Rollout-Phase reicht. Zwei Aspekte sind besonders erwähnenswert. Critic-based PPO für Long-Horizon-Tasks Statt der üblichen gruppenweisen Optimierung setzt Z.ai auf eine Critic-based-PPO-Formulierung, die aus einzelnen Rollouts lernt und Vorteile auf Token-Ebene über einen Critic schätzt. Das ist nötig, weil lang laufende Aufgaben stark variable Trajektorienlängen erzeugen, an denen gruppenrelative Methoden scheitern. Anti-Hacking gegen Reward Hacking Während des RL-Trainings versuchte das Modell wiederholt, an die Lösung zu kommen, ohne die Aufgabe wirklich zu lösen – etwa indem ein Coding-Agent Lösungen von GitHub herunterlud oder versteckte Evaluierungs-Dateien auslas. Eine typische Angriffskette sieht illustrativ so aus: Z.ai implementierte dagegen einen zweistufigen Online-Detektor: zuerst eine regelbasierte Filterstufe für hohe Trefferquote, dann ein LLM-Judge, der die Absicht prüft. Wird ein Hack erkannt, blockiert das System den Tool-Call, gibt Dummy-Daten zurück und lässt den Rollout weiterlaufen, um Trainingsinstabilität zu vermeiden.

Wie richtest du GLM-5.2 ein?

Über den GLM Coding Plan Die einfachste Option ist das GLM-Coding-Plan-Abonnement. Der Einstiegs-Plan (Lite) kostet 16,20 US-Dollar pro Monat bei monatlicher Zahlung oder 12,60 US-Dollar bei jährlicher Zahlung (30 % Rabatt); darüber liegen Pro- und Max-Pläne mit höheren Limits. Der API-Endpunkt ist Anthropic-kompatibel und unterstützt Tool-Nutzung sowie Kontext-Caching: In Claude Code nutzen GLM-5.2 lässt sich über die Anthropic-kompatible API direkt in Claude Code einbinden. In ~/.claude/settings.json: Das Prinzip ist dasselbe wie beim Betrieb anderer Modelle in Claude Code. Wie du Claude Code mit alternativen oder lokalen Modellen koppelst, zeigt der Guide zu Claude Code lokal mit Ollama. Über OpenRouter und andere Provider GLM-5.2 ist über OpenRouter (dort rund 1 US-Dollar Input und 4 US-Dollar Output pro Million Token) sowie weitere Provider verfügbar. Die Standard-Konfiguration für OpenAI-kompatible Tools: - API Provider: OpenAI Compatible - Base URL: https://api.z.ai/api/coding/paas/v4 - Model: glm-5.2 - Context Window: 1000000 Wer lieber im Terminal arbeitet, kann GLM-5.2 auch in Open-Source-Agenten wie Kilo Code oder OpenCode einbinden. Self-Hosting Die Modellgewichte stehen auf HuggingFace und ModelScope unter MIT-Lizenz zum Download. Unterstützt werden vLLM, SGLang, xLLM, ktransformers, llama.cpp, Ollama, Unsloth und transformers. Achtung: Das volle BF16-Modell ist rund 1,5 TB groß. Realistischer für eigene Hardware sind die dynamischen Quantisierungen von Unsloth: Die 2-Bit-Variante (UD-IQ2M) braucht etwa 239 GB, die 1-Bit-Variante rund 223 GB. Damit läuft GLM-5.2 zum Beispiel auf einem Mac mit 256 GB Unified Memory oder einer Kombination aus einer 24-GB-GPU und 256 GB RAM. Für Einzelentwickler mit Standard-Hardware bleibt es trotzdem schwer.

Wo liegen die Grenzen von GLM-5.2?

GLM-5.2 ist nicht perfekt. Folgende Punkte solltest du kennen: - Text-only: Kein Bild-Input. Für Vision-Aufgaben gibt es ein separates Modell namens GLM-5V-Turbo, das aber nicht Open Weights ist. - Token- und code-hungrig: GLM-5.2 erzeugt rund 25 % mehr Code als Claude Fable 5, braucht etwa doppelt so lange und legt in agentischen Szenarien mehr Dateien an. Die niedrigen Token-Preise relativieren das, für die Budgetplanung ist es trotzdem relevant. - Nicht überall dominant: Bei breiter Tool-Orchestrierung liegt GLM-5.2 zurück, etwa auf ProgramBench (63,7 % gegen 71,9 % bei Opus 4.8) und Tool Decathlon (48,2 % gegen 59,9 %). Ohne Tool-Zugriff fällt es auch bei Wissensfragen ab. - Kreative Varianz: GLM-5.2 neigt zu optisch ähnlichen Design-Grundstrukturen. Simon Willison berichtet zudem von einer Regression bei der SVG-Generierung gegenüber GLM-5.1. - Rate Limits in der Praxis: Einzelne Nutzer berichten von aggressiven Limits (HTTP 429) trotz geringer Auslastung. Prüfe vor produktivem Einsatz, ob dein Plan zu deinem Durchsatz passt. - Self-Hosting-Aufwand: Hunderte Gigabyte Speicher schließen die meisten Individualentwickler aus. - Geopolitik: Chinesisches Modell mit MIT-Lizenz. Für viele Unternehmen unkritisch, aber manche Compliance-Abteilungen werden nachfragen.

GLM-5.2 vs. GPT-5.5 und Claude Opus 4.8

| Kriterium | GLM-5.2 | GPT-5.5 | Claude Opus 4.8 | |---|---|---|---| | Open Weights | Ja (MIT) | Nein | Nein | | Kontextfenster | 1 Mio. Token | proprietär | proprietär | | Output / 1M Token | $4,40 | $30,00 | $25,00 | | FrontierSWE | 74,4 % | 72,6 % | 75,1 % | | Terminal-Bench 2.1 | 81,0 | 84,0 | 85,0 | | Self-Hosting möglich | Ja | Nein | Nein | | Bild-Input | Nein | Ja | Ja |

FAQ: Häufig gestellte Fragen zu GLM-5.2

Ist GLM-5.2 wirklich Open Source? Die Gewichte stehen unter MIT-Lizenz und erlauben kommerzielle Nutzung, Modifikation und Weitergabe ohne Einschränkungen. Genau genommen handelt es sich um ein Open-Weights-Modell: Du bekommst die Gewichte, nicht zwingend den kompletten Trainingsdatensatz. Regionale oder technische Barrieren gibt es keine. Kann ich GLM-5.2 lokal auf meinem MacBook laufen lassen? Auf einem normalen MacBook nicht. Über die dynamischen Quantisierungen von Unsloth (1 bis 2 Bit, rund 223 bis 239 GB) läuft GLM-5.2 aber zum Beispiel auf einem Mac mit 256 GB Unified Memory oder einem Setup aus 24-GB-GPU und 256 GB RAM. Das volle Modell braucht rund 1,5 TB. Wann wurde GLM-5.2 veröffentlicht? GLM-5.2 wurde am 13. Juni 2026 für Abonnenten des GLM Coding Plans freigeschaltet und am 16. Juni 2026 als Open Weights unter MIT-Lizenz veröffentlicht. Verbraucht GLM-5.2 mehr Token als andere Modelle? Ja. In Webdesign-Tests erzeugt GLM-5.2 rund 25 % mehr Code als Claude Fable 5 und braucht etwa doppelt so lange. Pro Token ist es zwar deutlich günstiger, der höhere Verbrauch frisst einen Teil des Vorteils aber wieder auf. Unterstützt GLM-5.2 Function Calling? Ja. Das Modell unterstützt Anthropic-kompatible Tool-Schemas nativ und ist MCP-fähig. Auf MCP-Atlas erreicht es 77,0 Punkte, fast gleichauf mit Claude Opus 4.8 (77,8). Ist Fine-Tuning möglich? Nicht über die API oder den Coding Plan. Fine-Tuning erfordert die heruntergeladenen Open Weights und eigene Infrastruktur. Welche Coding-Tools unterstützen GLM-5.2? Unter anderem Claude Code, Cursor und OpenCode sowie die meisten OpenAI- und Anthropic-kompatiblen Tools. Der Anthropic-kompatible Endpunkt ermöglicht eine Drop-in-Integration.

Fazit

GLM-5.2 ist der bisher stärkste Beleg dafür, dass Open-Weights-Modelle das Frontier-Niveau erreicht haben. Das Modell schlägt GPT-5.5 auf mehreren Coding-Benchmarks, liegt auf FrontierSWE nur 0,7 Punkte hinter Claude Opus 4.8 und kostet im Output ein Sechstel von GPT-5.5. Die MIT-Lizenz macht es zum attraktivsten Modell für alle, die KI auf eigener Infrastruktur betreiben wollen. Die Schwächen bei breiter Tool-Orchestrierung und der hohe Token-Verbrauch sind real, ändern an der Gesamtbilanz aber wenig. Wer mit Claude Code oder ähnlichen Tools arbeitet, kann GLM-5.2 über die Anthropic-kompatible API sofort testen. Wie du Claude Code mit alternativen Modellen koppelst, zeigt der Guide zu Claude Code lokal mit Ollama. Für agentisches Arbeiten lohnt der Blick auf Spec-Driven Development mit Claude Code und den Open-Source-Agenten Kilo Code. Und warum günstiger, schneller generierter Code nicht automatisch besser ist, beleuchtet der Artikel zu Cognitive Debt beim KI-Coding. Verifizierte Quellen: Z.ai Blog (https://z.ai/blog/glm-5.2), HuggingFace Technical Blog (https://huggingface.co/blog/zai-org/glm-52-blog), Simon Willison (https://simonwillison.net/2026/jun/17/glm-52/), VentureBeat (https://venturebeat.com/technology/z-ais-open-weights-glm-5-2-beats-gpt-5-5-on-multiple-long-horizon-coding-benchmarks-for-1-6th-the-cost), Unsloth Documentation (https://docs.unsloth.ai), Artificial Analysis (https://artificialanalysis.ai).