KI-Tools

Die Open-Source-Offensive: LongCat, Ornith, Qwen 3.6 – drei Modelle, die den AI-Coding-Markt auf den Kopf stellen

Drei Open-Source-Modelle erreichen in einer Woche Frontier-Niveau auf Coding-Benchmarks. Vergleich LongCat-2.0, Ornith-1.0, Qwen 3.6 mit Cloud-APIs inkl. lokaler Installation.

Innerhalb weniger Tage erreichten im Juni 2026 drei Open-Source-Modelle das Niveau kommerzieller Coding-Agenten: LongCat-2.0 von Meituan (1,6 Billionen Parameter, auf heimischen chinesischen Chips trainiert), Ornith-1.0 von DeepReinforce (Self-Scaffolding, MIT-Lizenz) und Qwen 3.6 von Alibaba (77,2 % SWE-bench Verified, lokal lauffähig auf 16 GB VRAM). Das Ornith-Flaggschiff mit 397 Milliarden Parametern erreicht 82,4 % auf SWE-bench Verified und schlägt damit Claude Opus 4.7, nicht aber 4.8. Der entscheidende Unterschied: Lokale Modelle kosten nur Strom, Cloud-APIs rechnen pro Token ab. Dieser Artikel vergleicht alle drei Modelle mit den Cloud-Platzhirschen, zeigt die lokale Installation von Qwen 3.6 und hilft dir bei der Entscheidung, ob der Umstieg sinnvoll ist.

Was ist passiert?

Die letzte Juni-Woche 2026 war außergewöhnlich für Open-Source-AI. Drei Modelle von drei verschiedenen Organisationen erreichten binnen weniger Tage Frontier-nahes Niveau auf standardisierten Coding-Benchmarks, und alle drei zielen auf denselben Anwendungsfall: agentisches Coding, also Modelle, die selbstständig in Terminals und Code-Repositories arbeiten. - LongCat-2.0 (Meituan): Ein 1,6-Billionen-Parameter-MoE-Modell, laut Meituan vollständig auf über 50.000 heimischen chinesischen KI-Beschleunigern trainiert, ohne NVIDIA-Hardware. - Ornith-1.0 (DeepReinforce): Eine Familie selbst-scaffolding Modelle (9B bis 397B) unter MIT-Lizenz, die im Reinforcement Learning sowohl Lösungen als auch ihre Test-Harnesses optimiert. - Qwen 3.6 (Alibaba): Das mit Abstand praktischste lokal lauffähige Coding-Modell, 77,2 % SWE-bench Verified auf einer einzelnen GPU. Während die kommerziellen Anbieter ihre Preise stabil halten oder anheben, werden die lokalen Alternativen sprunghaft besser. Genau diese Gleichzeitigkeit verschiebt die Grundsatzfrage: Brauchst du noch eine teure Cloud-API für AI-Coding, oder reicht eine lokale GPU?

Die drei Modelle im Überblick

LongCat-2.0 – Das chinesische Trillionen-Modell

LongCat-2.0 ist ein Mixture-of-Experts-Modell (MoE) mit 1,6 Billionen Gesamtparametern, von denen pro Token dynamisch 33 bis 56 Milliarden aktiv sind. Es unterstützt nativ ein Kontextfenster von einer Million Token. Diese MoE-Architektur erlaubt inferenz-effizienten Betrieb, obwohl die Gesamtgröße gewaltig klingt. Das eigentlich Bemerkenswerte ist nicht die Architektur, sondern die Trainings-Infrastruktur: Laut Meituan ist LongCat-2.0 das erste Modell dieser Größenordnung, das vollständig auf einem heimischen Rechencluster mit über 50.000 chinesischen KI-Beschleunigern trainiert und betrieben wurde, ohne eine einzige NVIDIA-GPU. Das ist ein geopolitisches Signal so deutlich wie eine technische Spezifikation. Bei den Benchmarks erreicht LongCat-2.0 rund 70,8 % auf Terminal-Bench. Einen Wert für SWE-bench Verified hat Meituan nicht veröffentlicht, nur 59,5 % für die schwerere Variante SWE-bench Pro. Wichtig: Mit 1,6 Billionen Parametern ist LongCat-2.0 kein lokales Modell. Es läuft ausschließlich über API oder eigene Cloud-Infrastruktur. Quellen: LongCat AI / Meituan, meituan-longcat auf GitHub.

Ornith-1.0 – Das selbst-scaffolding Modell

Ornith-1.0 kommt von DeepReinforce, einem Labor, das bis vor einer Woche kaum bekannt war. Alle Varianten stehen unter der freizügigen MIT-Lizenz ohne regionale Einschränkungen. Die Kern-Innovation ist Self-Scaffolding: ein Reinforcement-Learning-Ansatz, der nicht nur die Lösungen optimiert, sondern auch die Gerüste (Scaffolds), die diese Lösungen antreiben. DeepReinforce beschreibt es so: Ornith-1.0 lernt per Reinforcement Learning, nicht nur Lösungs-Rollouts zu generieren, sondern auch das Scaffold, das diese Rollouts antreibt. Durch die gemeinsame Optimierung von Scaffold und Lösung entdeckt das Modell bessere Suchpfade und liefert höherwertige Ergebnisse. Vereinfacht: Das Modell schreibt sich seine Prüf-Umgebung selbst. Den Hintergrund, warum solche Test-Gerüste für agentisches Coding zentral sind, erklärt mein Guide Was ist ein AI Harness?. Ornith ist in vier Größen verfügbar: | Variante | Typ | VRAM (Richtwert) | Terminal-Bench 2.1 | SWE-bench Verified | |----------|-----|-------------------|--------------------|---------------------| | 9B Dense | Einsteiger / Edge | ~19 GB (bf16) | 43,1 | 69,4 | | 31B Dense | Mittelklasse | ~62 GB (bf16) | – | – | | 35B MoE | Sweet Spot | ~20 GB (Q4) | 64,2 | 75,6 | | 397B MoE | High-End (Cluster) | 8-GPU-Server | 77,5 | 82,4 | Besonders die 35B-MoE-Version ist spannend: Sie läuft auf einer einzelnen 24-GB-GPU (Q4 quantisiert) und erreicht 64,2 auf Terminal-Bench 2.1. Selbst das kompakte 9B-Modell übertrifft mit 69,4 % auf SWE-bench Verified deutlich größere Modelle wie Gemma 4-31B. Hinweis: Die Schlagzeile, Ornith schlage Claude, braucht Kontext. Das 397B-Modell übertrifft Claude Opus 4.7 bei Coding-Aufgaben, unterliegt aber dem neueren Opus 4.8. Und Ornith ist bewusst kein Allzweck-Chatbot: Bei Alltagsaufgaben wie Zusammenfassungen schneidet es absichtlich schwach ab, es ist kompromisslos auf autonome Coding-Agenten getrimmt. Quellen: Ornith-1.0, DeepReinforce Blog, deepreinforce-ai auf Hugging Face.

Qwen 3.6 – Das lokale Kraftpaket

Qwen 3.6 von Alibaba ist der etablierteste der drei Kandidaten und für lokale Anwender der interessanteste. Die offenen Varianten stehen unter Apache 2.0 und kommen in zwei für lokalen Betrieb relevanten Größen: 27B Dense und 35B-A3B MoE. Beide laufen auf einer einzelnen 24-GB-GPU. Der Unterschied zwischen den Varianten ist kontraintuitiv und ein häufiger Stolperstein: Das 35B-MoE-Modell braucht mehr VRAM zum Laden, alle 35 Milliarden Gewichte müssen im Speicher liegen, rechnet aber schneller, weil pro Token nur rund 3 Milliarden Parameter aktiv sind. Das 27B-Dense ist umgekehrt kleiner im Speicher, aber langsamer. Faustregel: Ist VRAM dein Engpass, nimm das 27B; ist Geschwindigkeit dein Engpass, nimm das 35B-A3B. | Variante | SWE-bench Verified | Terminal-Bench 2.0 | Lizenz | |----------|---------------------|---------------------|--------| | Qwen 3.6-27B (Dense, lokal) | 77,2 % | 59,3 | Apache 2.0 | | Qwen 3.6-35B-A3B (MoE, lokal) | 73,4 % | 51,5 | Apache 2.0 | | Qwen 3.6-Plus (Cloud-API) | 78,8 % | 61,6 | proprietär | Bemerkenswert ist der kleine Abstand zwischen lokal und Cloud: Das lokale 27B liegt mit 77,2 % nur knapp hinter der Plus-Cloud-Variante (78,8 %). Mit anderen Worten, das beste lokal lauffähige Coding-Modell im Juni 2026 reicht in der Coding-Leistung dicht an seine eigene Cloud-Version heran. Quelle: Qwen 3.6 Blog, Alibaba.

Open Source vs. Cloud – Vergleichstabelle

Die Kostenfrage ist der eigentliche Game-Changer. Während Cloud-APIs pro Token abrechnen, kosten lokale Modelle nur Strom. Die Open-Source-Werte stammen aus den jeweiligen Modellkarten; die Cloud-Spalte ist als ungefähre Anbieter-Größenordnung zu lesen. | Kriterium | Qwen 3.6-27B | Ornith-1.0-397B | LongCat-2.0 | Cloud-Frontier (Opus 4.8 / GPT-5-Codex) | |-----------|--------------|-----------------|-------------|------------------------------------------| | Lizenz | Apache 2.0 | MIT | nicht dokumentiert | proprietär | | Lokal lauffähig | Ja (16–24 GB) | Nein (8-GPU-Server) | Nein (nur API) | Nein (nur API) | | SWE-bench Verified | 77,2 % | 82,4 % | nicht veröffentlicht | Frontier (höher) | | Terminal-Bench | 59,3 (v2.0) | 77,5 (v2.1) | 70,8 | Frontier (höher) | | Kontext | bis 1M (API) | 128K+ | 1M nativ | 200K–400K | | Laufende Kosten | nur Strom | nur Strom (eigene HW) | API-Kosten | API-Kosten pro Token | | Setup | ollama run qwen3.6:27b | 8-GPU-Server | API-Key | API-Key | | Speed (Richtwert) | 15–25 Tok/s | abhängig vom Cluster | sehr schnell (API) | 30–60 Tok/s | Zwei Dinge fallen auf. Erstens: Bei den Benchmark-Zahlen liegt das Ornith-Flaggschiff vor den lokal lauffähigen Modellen und reicht an die Cloud-Frontier heran. Zweitens, und wichtiger: Der eigentliche Hebel ist nicht der letzte Benchmark-Prozentpunkt, sondern die Kostenstruktur. Wer regelmäßig mehrere Hundert Dollar im Monat für Cloud-Coding-Tools ausgibt, hat die Anschaffungskosten einer modernen 24-GB-GPU oft binnen weniger Monate wieder drin, danach läuft die lokale Inferenz quasi zum Stromtarif. Wie konsequente Token-Sparsamkeit die laufende Rechnung zusätzlich drückt, habe ich im Caveman Mode: Token-Einsparung beschrieben.

Hands-On: Qwen 3.6 27B lokal installieren

Von den drei Modellen ist Qwen 3.6-27B der beste Einstieg: Es läuft auf handelsüblicher Hardware, die Installation dauert Minuten, und die Performance ist hervorragend. Wenn du Claude Code grundsätzlich mit einem lokalen Modell koppeln willst, hilft ergänzend mein Guide zu Claude Code lokal mit Gemma 4 und Ollama, das Vorgehen ist nahezu identisch.

Voraussetzungen

- GPU mit mindestens 16 GB VRAM (RTX 4080 16GB, RTX 5070 Ti 16GB) - Empfohlen: 24 GB VRAM (RTX 4090, RTX 5090), erlaubt größere Kontexte - Alternativ Apple Silicon mit 24 GB Unified Memory oder mehr - Ollama, kostenlos unter ollama.com

Schritt 1: Ollama installieren

Schritt 2: Qwen 3.6 27B herunterladen

Der Download ist rund 16 GB (Q4KM-Quantisierung). Q4KM ist für die meisten die richtige Wahl: das beste Verhältnis aus Qualität und Größe. Auf einer 32-GB-GPU oder einem 36-GB-Mac kannst du auf Q6/Q8 hochgehen.

Schritt 3: Kontextfenster korrekt setzen

Das ist der wichtigste und am häufigsten übersehene Schritt. Ollamas Standard-Kontext liegt bei 2048 Token, viel zu klein für Agenten-Workflows. Lege ein Modelfile an: Damit hast du eine Instanz mit 32K Kontext. Faustregel: Lokal sind 32K bis 128K realistisch (bei 24 GB VRAM problemlos), die beworbene Million Token gibt es nur über die API.

Schritt 4: Mit Claude Code / Coding Agents verwenden

Ollama stellt einen OpenAI-kompatiblen Endpunkt unter localhost:11434/v1 bereit. Damit koppelst du das lokale Modell an deinen Coding-Agenten: Ab hier arbeitest du mit einem lokalen Modell, ohne dass ein Token deinen Rechner verlässt. Das ist nicht nur eine Kosten-, sondern auch eine Datenschutzfrage.

Schritt 5: Die anderen beiden Modelle

| Modell | Betrieb | Hardware | |--------|---------|----------| | Qwen 3.6-27B | Ollama | 16–24 GB VRAM | | Ornith-1.0-9B | Hugging Face / LM Studio | ~12–19 GB VRAM | | Ornith-1.0-35B MoE | Hugging Face / LM Studio | 24 GB VRAM (Q4) | | LongCat-2.0 | nur API | – |

Für wen lohnt sich der Umstieg?

| Zielgruppe | Empfehlung | Begründung | |-----------|-----------|------------| | Solo-Dev, < 10h/Woche | Cloud bleiben | Setup-Aufwand lohnt nicht bei geringer Nutzung | | Solo-Dev, 20h/Woche | Lokal umsteigen | GPU amortisiert sich binnen weniger Monate | | Team (2–5 Devs) | Hybrid | Eine GPU pro zwei Devs, Cloud für Spitzen und langen Kontext | | Enterprise ( 20 Devs) | Überwiegend Cloud | Datenschutz, Compliance, Support-Verträge | | CTO mit Budget-Druck | Lokal plus selektiv API | Spürbare Kostenersparnis bei kontrollierter Qualität | | Embedded / Edge | Lokal | Qwen oder Ornith in 9B-Größe laufen auf schwacher Hardware | Die Hybrid-Strategie ist oft die beste: Qwen 3.6-27B lokal für die täglichen 80 % der Aufgaben, Cloud-API für ultra-lange Kontexte über 128K, für die höchsten Benchmark-Scores und für zeitkritische Projekte, bei denen die geringere lokale Geschwindigkeit stört.

Wo die Cloud noch besser ist

Eine ehrliche Einordnung der Grenzen.

1. Geschwindigkeit

Lokale Modelle generieren typischerweise 15 bis 25 Token pro Sekunde, Cloud-Modelle oft das Doppelte bis Dreifache. In einem Agent-Loop mit vielen Iterationen summiert sich das spürbar.

2. Setup-Komplexität

Die Integration lokaler Modelle in Agent-Frameworks wie Claude Code oder OpenCode erfordert Handarbeit gegenüber dem einsatzbereiten Cloud-Tool.

3. Quantisierungs-Verluste

Die Q4KM-Quantisierung spart viel VRAM, kostet aber typischerweise ein bis drei Prozent Benchmark-Score. Für die meisten Alltagsaufgaben irrelevant, für maximale Code-Qualität nicht optimal.

4. LongCat-2.0 ist nicht lokal

Das größte Modell dieser Offensive bleibt mit 1,6 Billionen Parametern ein Cloud-Modell. Wer maximale Scores braucht, kommt nicht an API-Infrastruktur vorbei.

5. Langzeit-Support und Lizenz

DeepReinforce ist als Anbieter jung, und bei LongCat-2.0 ist die Lizenz nicht eindeutig dokumentiert, was den kommerziellen Einsatz blockiert, bis Klarheit herrscht. Alibabas Qwen-Serie zeigt dagegen bisher solide Kontinuität. Die Risiken sind überschaubar, aber existent.

FAQ: Häufige Fragen zu Open-Source-Coding-Modellen

Welches Modell soll ich nehmen?

Qwen 3.6-27B für den Einstieg, beste Lokal-Performance und einfachste Installation. Ornith-1.0 in der 9B- oder 35B-Variante, wenn du reine Agenten-Workflows und Self-Scaffolding testen willst. LongCat-2.0 nur per API, wenn du dessen Cloud-Leistung brauchst.

Reichen 16 GB VRAM wirklich?

Ja, für die Q4-Quantisierung von Qwen 3.6-27B (rund 16 bis 18 GB) und Kontext bis 32K. Das 35B-A3B braucht in Q4 etwa 19 bis 22 GB. 24 GB sind deutlich komfortabler und erlauben 64K bis 128K Kontext.

Ist das legal? Was ist mit der Lizenz?

Qwen 3.6 steht unter Apache 2.0, Ornith-1.0 unter MIT, beide erlauben kommerzielle Nutzung und Modifikation. Bei LongCat-2.0 ist die Lizenz nicht eindeutig dokumentiert, hier sollten Unternehmen vor produktivem Einsatz die Rechtslage prüfen.

Wie sieht es mit Datenschutz aus?

Besser als bei Cloud-APIs. Lokale Modelle verlassen deine Hardware nie, es gibt keine Datenübertragung an externe Rechenzentren. Für Unternehmen mit DSGVO-Anforderungen ist das ein starkes Argument.

Kann ich alle drei gleichzeitig nutzen?

Technisch erlaubt Ollama mehrere Modelle, praktisch limitiert dich der VRAM deiner GPU. Sinnvoll ist eine Hybrid-Strategie: Qwen lokal für die tägliche Arbeit, eine Cloud-API für komplexe Refactorings oder sehr langen Kontext.

Schlägt Open Source jetzt die Cloud-Modelle?

Bei den Benchmark-Zahlen reicht das Ornith-Flaggschiff an die Frontier heran und übertrifft Claude Opus 4.7, unterliegt aber Opus 4.8. Für viele praktische Aufgaben ist der Abstand klein genug, dass die Kostenersparnis überwiegt. Bei maximaler Geschwindigkeit, sehr langem Kontext und einsatzbereiter Tooling-Integration liegt die Cloud weiter vorne.

Fazit

Der Juni 2026 markiert den Punkt, an dem Open-Source-Coding-Modelle für die Mehrheit der Aufgaben aus dem Schatten der Cloud-APIs treten. Ornith-1.0 zeigt mit 82,4 % auf SWE-bench Verified, dass Frontier-Leistung nicht mehr proprietär sein muss, und Qwen 3.6-27B macht diese Klasse auf einer einzelnen Grafikkarte verfügbar. LongCat-2.0 bleibt ein Cloud-Modell, ist aber als technisches und geopolitisches Signal bemerkenswert. Wer seine KI-Coding-Kosten ernsthaft senken will, kommt an einem lokalen Setup mit Qwen 3.6 kaum vorbei, behält für die letzten Hochleistungs-Aufgaben aber sinnvollerweise einen Cloud-API-Key. Das ist keine Entweder-oder-Entscheidung, Hybrid ist der klügere Weg. Verwandte Themen: Wie du Claude Code kostenlos und lokal mit Ollama betreibst, vertieft das hier gezeigte Setup. Was ein AI Harness ist, erklärt den Kontext hinter Orniths Self-Scaffolding. Wie autonome Agenten im Ralph Wiggum Loop selbstständig Code schreiben, zeigt die Richtung, in die diese Modelle laufen. Und die strategische Einordnung des gesamten Trends bietet der Überblick zu Vibe Coding 2026. Quellen: Modellkarten und Release-Dokumente von Qwen 3.6 (Alibaba), Ornith-1.0 (DeepReinforce) und LongCat-2.0 (Meituan). Benchmark-Werte gegengeprüft über die in NotebookLM gebündelten Primärquellen.