KI-Tools

Sakana Fugu: Ein Multi-Agent-System, das sich wie ein einzelnes KI-Modell anfühlt

Sakana Fugu orchestriert ein Team von Frontier-LLMs über eine einzige API. Fugu Ultra erreicht 73,7 % auf SWE Bench Pro und schlägt GPT-5.5 in vielen Benchmarks.

TL;DR: Sakana AI veröffentlicht mit Fugu ein Multi-Agent-Orchestrierungssystem, das nach außen wie ein einzelnes Foundation-Model auftritt. Fugu Ultra erreicht 73,7 % auf SWE Bench Pro (GPT-5.5: 58,6) und schlägt in fast allen Coding-, Reasoning- und Science-Benchmarks die Frontier-Einzelmodelle. Die Forschung basiert auf zwei ICLR-2026-Papern (TRINITY und Conductor). Preislich startet Fugu bei 20 US-Dollar im Monat, erntet aber gemischte Reaktionen wegen hohem Token-Verbrauch, langer Latenz und intransparentem Routing.

Was ist Sakana Fugu?

Sakana AI hat mit Fugu ein Multi-Agent-Orchestrierungssystem veröffentlicht, das nach außen wie ein einzelnes Foundation-Model auftritt. Statt selbst zu inferieren, ist Fugu ein Orchestrator-LLM, das gelernt hat, dynamisch ein Team aus Frontier-Modellen (Opus, Gemini, GPT) zusammenzustellen, Aufgaben zu delegieren und die Ergebnisse zu einer Antwort zu synthetisieren. Sakana Fugu ist kein klassisches KI-Modell, und genau das macht es interessant. Fugu ist ein Orchestrator-LLM: Es versteht eine User Query, entscheidet dynamisch, welches Modell aus einem Pool von Frontier-LLMs für welche Teilaufgabe am besten geeignet ist, delegiert, verifiziert und synthetisiert die Ergebnisse zu einer einzigen Antwort. Der Clou: Für dich fühlt es sich an wie ein normaler API-Call. Ein Endpunkt, ein Response. Die Multi-Agent-Komplexität bleibt unter der Haube. Das Prinzip selbst ist nicht neu, du findest es bei Open-Source-Plattformen, die ganze Agenten-Teams orchestrieren. Neu ist, dass Sakana den Orchestrator selbst als trainiertes Modell ausliefert und als einzelne API verkauft. Entwickelt wurde Fugu von Sakana AI aus Tokyo, gegründet 2023 von Llion Jones (Co-Autor von „Attention Is All You Need", dem Paper, das die Transformer-Architektur begründete) und David Ha (CEO, früher Google AI und einer der jüngsten Managing Directors bei Goldman Sachs). Das Unternehmen hat sich auf evolutionäre und naturinspirierte KI-Algorithmen spezialisiert.

Wie funktioniert Fugu? TRINITY und Conductor

Fugu baut auf zwei Publikationen auf, die beide auf der ICLR 2026 angenommen wurden: | Paper | Ansatz | Kern | |---|---|---| | TRINITY (arXiv:2512.04695) | Leichtgewichtiger, evolutionär optimierter Koordinator (ca. 0,6B Parameter) | Weist LLMs dynamisch die Rollen Thinker, Worker oder Verifier zu und delegiert adaptiv über mehrere Turns | | Conductor (arXiv:2512.04388) | Reinforcement Learning für Agent-Koordination | Lernt, Kommunikations-Topologien zwischen Agenten in natürlicher Sprache zu entwerfen und passt sich an unterschiedliche Modell-Pools an | Der technische Report (arXiv:2606.21228) beschreibt die Produktionsinfrastruktur dahinter: Large-Scale Fine-Tuning des Orchestrators, evolutionäre Algorithmen zur Scaffold-Optimierung und RL-basierte Verbesserung der Modellauswahl. Kritiker nennen genau diese Architektur einen AI Harness: eine Steuerungsschicht über fremder Intelligenz, kein eigenes Frontier-Modell. Sakana hält dagegen, dass der Orchestrator selbst ein trainiertes LLM ist und nicht nur ein simpler Router.

Sakana Fugu vs. Fugu Ultra: Was ist der Unterschied?

Zwei Modelle, eine API: | Merkmal | Fugu | Fugu Ultra | |---|---|---| | Zielgruppe | Alltag, niedrige Latenz | Höchste Antwortqualität | | Agent-Pool | Auswählbar, einschränkbar | Tieferer Pool, fest | | Latenz | Optimiert | Qualität vor Tempo | | Ideale Tasks | Coding, Chat, Code-Review, Alltag | KI-Forschung, Security, komplexe Mehrschritt-Probleme | | Customization | Opt-out einzelner Provider möglich | Nicht konfigurierbar | Wichtig: Teams mit Datenschutz-Anforderungen können bei Fugu einzelne Anbieter manuell aus dem Pool ausschließen. Fugu Ultra ist auf maximale Tiefe getrimmt und koordiniert einen größeren Agenten-Pool, wenn Genauigkeit wichtiger ist als Geschwindigkeit.

Wie schlägt sich Fugu in den Benchmarks?

Sakana vergleicht Fugu und Fugu Ultra mit Opus 4.8, Gemini 3.1 Pro und GPT 5.5. Wichtig zur Einordnung: Anthropics Fable 5 und Mythos Preview sind nicht im Agent-Pool, da nicht öffentlich zugänglich. Und die Vergleichszahlen stammen laut Sakana von den Modell-Anbietern selbst, nicht aus unabhängigen Head-to-Head-Tests. Fett = bester Wert. | Benchmark | Fugu | Fugu Ultra | Opus 4.8 | Gemini 3.1 Pro | GPT 5.5 | |---|---|---|---|---|---| | SWE Bench Pro\ | 59,0 | 73,7 | 69,2 | 54,2 | 58,6 | | TerminalBench 2.1 | 80,2 | 82,1 | 74,6 | 70,3 | 78,2 | | LiveCodeBench | 92,9 | 93,2 | 87,8 | 88,5 | 85,3 | | LiveCodeBench Pro | 87,8 | 90,8 | 84,8 | 82,9 | 88,4 | | Humanity's Last Exam | 47,2 | 50,0 | 49,8 | 44,4 | 41,4 | | CharXiv Reasoning | 85,1 | 86,6 | 84,2 | 83,3 | 84,1 | | GPQA-D | 95,5 | 95,5 | 92,0 | 94,3 | 93,6 | | SciCode | 60,1 | 58,7 | 53,5 | 58,9 | 56,1 | | τ³ Banking | 21,7 | 20,6 | 20,6 | 8,4 | 20,6 | | Long Context Reasoning | 74,7 | 73,3 | 67,7 | 72,7 | 74,3 | | MRCRv2 | 86,6 | 93,6 | 87,9 | 84,9 | 94,8 | \ SWE Bench Pro mit mini-swe-agent Scaffolding Takeaways: - Fugu Ultra führt auf 6 von 11 Benchmarks, darunter alle Coding-Benchmarks plus HLE und CharXiv. - Fugu (Basis) führt auf SciCode, τ³ Banking und Long Context Reasoning. - GPT 5.5 gewinnt nur MRCRv2. - GPQA-D ist mit 95,5 % ein Unentschieden zwischen Fugu und Fugu Ultra, ein außergewöhnlich hoher Wert selbst für Frontier-Modelle. Qualitative Case Studies aus dem Sakana-Blog Sakana zeigt die Stärke vor allem an langen, unstrukturierten Aufgaben, die sich nicht mit einem einzelnen Modellaufruf lösen lassen: | Anwendung | Fugu Ultra | Bestes Vergleichsmodell | |---|---|---| | AutoResearch (GPT-Training optimieren) | Beste Mean BPB: 0,9774 (123 Experimente, ~14 h auf einer H100) | knapp dahinter | | Rubik's Cube | 300/300 gelöst, 19,72 Ø Züge (7 Siege, 293 Unentschieden, 0 Niederlagen) | 300/300 gelöst, 19,76 Ø Züge | | Japanische Kana-Lesereihenfolge (Brief von 1610) | NED 0,80 | 0,24 | | Blindschach | Schlägt eine 2100-Elo-Stockfish-Engine plus 3 Frontier-Modelle | – | | Online-Trading (50 Wochen) | +19,43 % Ø Rendite (10.000 auf 11.943 US-Dollar) | unter +15 % | | CAD: mechanisches Iris-Design | Funktionsfähiges CAD generiert | – | | Code-Review | über 20 Issues gefunden | ca. 3 Issues | Die AutoResearch-Disziplin lohnt einen Seitenblick, weil sie demselben Muster folgt wie Karpathys AutoResearch-Ansatz: Agenten optimieren autonom über viele Experimente hinweg.

Was sagen die ersten Nutzer?

Die ersten Hands-On-Berichte zeichnen ein differenzierteres Bild als die Benchmark-Tabelle: - Ethan Mollick (Wharton-Professor) auf X: Fugu Ultra sei „unfassbar langsam", seine üblichen Coding-Tests hätten 30 Minuten gebraucht. Die Ergebnisse seien „okay", aber nicht auf Fable-Niveau. - Hamel Husain (KI-Praktiker): stark bei Code-Reviews, schwach bei Frontend-Arbeit. Die Fähigkeiten seien „uneinheitlich" („a bit jagged"). - Nate Herk (Hands-on-Test): Fugu Ultra gegen Opus 4.8 über 38 Aufgaben. Ergebnis: 36 Unentschieden, aber Fugu war 4,5-mal langsamer (357 statt 80 Minuten) und 5-mal teurer (50 statt 10 US-Dollar). Sein Fazit: Fugu Ultra fühle sich nicht spürbar besser an als das in ihm steckende Opus 4.8. - Hacker News: „Du zahlst ohnehin schon an Anthropic, OpenAI und Google, und jetzt noch einmal 200 Dollar im Monat an Sakana, um das alles zu koordinieren." Das Muster: Fugu Ultra ist dort stark, wo es auf Tiefe, Recherche und viele Iterationen ankommt (Code-Review, Security-Audits, wissenschaftliche Arbeit). Bei Frontend, UI und kreativen Tasks mit subjektiven Qualitätskriterien hinkt es hinterher.

Was kostet Sakana Fugu?

| Plan | Preis | Nutzung | |---|---|---| | Basic | 20 US-Dollar/Monat | 5-Stunden-Fenster (laut Bericht mit einem schweren Prompt aufgebraucht) | | Pro | 200 US-Dollar/Monat | unter 3 Stunden pro Woche (laut frühen Nutzern) | | Enterprise | Pay-as-you-go | Individuell, API-basiert | Die API ist OpenAI-kompatibel: Du zeigst mit deinem bestehenden Client auf den Console-Endpunkt, kein SDK-Wechsel nötig. Token-Verbrauch und Kosten werden pro Request ausgewiesen. Im Vergleich zum Konkurrenz-Orchestrator Fusion (OpenRouter) soll Fugu bei gleichen Prompts deutlich günstiger sein, in einem Test fielen nur rund 25 % der Kosten an. Zugang: console.sakana.ai.

Warum ist Fugu auch eine geopolitische Wette?

Sakana positioniert Fugu explizit als Hedge gegen Exportkontrollen. Der Kontext: Die US-Regierung hat Exportbeschränkungen auf Anthropics Fable- und Mythos-Modelle verhängt. Sakanas Argument: „Für eine Organisation oder eine Nation ist die Abhängigkeit von den APIs eines einzelnen Unternehmens für kritische Infrastruktur, Finanzen oder Regierungsarbeit eine materielle Verwundbarkeit. Das ist keine hypothetische Möglichkeit mehr, sondern Realität." Der Agent-Pool ist swappable: Fällt ein Provider aus, wird Traffic umgeroutet. Das ist keine vollständige Souveränität, denn fallen gleich mehrere Top-Anbieter aus oder können die Open Models im Pool die geblockten nicht ersetzen, schrumpfen auch Fugus Optionen. Zynischer Einwand aus der Community: Elie Bakouch, Research Engineer bei Prime Intellect, bringt es auf den Punkt: Ein Closed-Source-Orchestrator auf Closed-Source-Modellen sei keine „AI Sovereignty". Vorher hast du die Modelle nicht kontrolliert, jetzt kontrollierst du nicht einmal mehr, welche genutzt werden und wie viel. Sein Befund: Fugu sei im Kern ein Klassifikator, der pro Turn das wahrscheinlich beste Modell zieht, also ein Router.

Wo liegen die Grenzen von Fugu?

- Hoher Token-Verbrauch: Orchestrierung kostet. Mehrere LLM-Calls pro Query fressen Quota und Budget. - Mangelnde Transparenz: Sakana verrät nicht, welches Modell bei welchem Prompt gezogen wird. Das System ist Closed Source, eine Black Box. - Qualitätsvarianz: Exzellent auf Coding, Backend und Research, schwach auf UI, Frontend und Creative. - Langsam: Die Multi-Agent-Pipeline braucht Zeit, nichts für Echtzeitanwendungen. - Preis-Leistung: 200 US-Dollar für unter 3 Stunden pro Woche ist hart. Das Modell muss sich im Dauereinsatz erst beweisen. - Benchmark-Skepsis: Die Vergleichszahlen stammen von den Anbietern selbst, nicht aus unabhängigen Tests. Und die Defensibility ist fraglich: Eine Orchestrierungs-Schicht könnten OpenAI oder Anthropic binnen Wochen selbst nachbauen.

FAQ: Häufige Fragen zu Sakana Fugu

Ist Fugu ein Foundation Model? Nein. Fugu ist ein Orchestrator-LLM. Es ruft andere Modelle auf und synthetisiert deren Antworten. Es inferiert nicht selbst im klassischen Sinne. Das ist das häufigste Missverständnis: Fugu ist nicht ein einzelnes Modell, das klüger ist als Fable, sondern eine Schicht, die mehrere bestehende Modelle bündelt. Welche Modelle sind im Pool? Sakana gibt das nicht vollständig preis. Bekannt ist, dass Opus 4.8, Gemini 3.1 Pro und GPT 5.5 genutzt werden. Fable 5 und Mythos Preview sind nicht im Pool, da nicht öffentlich verfügbar. Ist Fugu besser als GPT-5.5? Auf den meisten Benchmarks ja (SWE Bench Pro: 73,7 vs. 58,6; HLE: 50,0 vs. 41,4). In der Praxis hängt es vom Task ab: Bei Code-Reviews schneidet Fugu Ultra besser ab, bei Frontend-Arbeiten schlechter. Beachte, dass die Benchmark-Zahlen von den Anbietern selbst stammen. Wie wechsle ich von meinem bestehenden API-Setup? Die API ist OpenAI-kompatibel. Du änderst Endpoint und API-Key in deiner Config. Kein SDK-Wechsel nötig. Warum ist Fugu so langsam und teuer? Weil jede Query mehrere Modelle im Hintergrund anstößt. In einem unabhängigen Test war Fugu Ultra 4,5-mal langsamer und 5-mal teurer als das direkt genutzte Opus 4.8, bei weitgehend gleichem Ergebnis. Was passiert, wenn ein Anbieter seine API dichtmacht? Fugu routet automatisch um. Der Pool ist swappable. Fallen mehrere Anbieter gleichzeitig aus, reduzieren sich allerdings die Optionen.

Fazit

Sakana Fugu ist technisch beeindruckend. Die Idee, ein LLM zu trainieren, das andere LLMs orchestriert, statt ein einzelnes Monolithen-Modell immer größer zu machen, ist ein echter Paradigmenwechsel. Die Benchmark-Zahlen sind stark, Fugu Ultra übertrifft GPT-5.5 und Gemini 3.1 Pro in den meisten Disziplinen, auch wenn diese Zahlen von den Anbietern selbst kommen. Aber ein Multi-Agent-System ist keine Wunderwaffe. Latenz, Token-Verbrauch und uneinheitliche Qualität sind reale Einschränkungen. Fugu ist dort am stärksten, wo es auf Tiefe, Iteration und systematische Analyse ankommt: Code-Reviews, Security-Audits, wissenschaftliche Recherche. Für schnelle Chat-Sessions, UI-Prototyping oder kreative Arbeit ist ein einzelnes Frontier-Modell oft die bessere Wahl. Für Gelegenheitsnutzer sind 20 bis 200 US-Dollar im Monat aktuell schwer zu rechtfertigen, für Teams mit hohem Review-Volumen oder Souveränitäts-Anforderungen kann sich der Blick lohnen. Wie sich solche Orchestrierungs-Plattformen weiterentwickeln, siehst du auch bei Projekten, die ganze Agenten-Teams steuern. Warum Kritiker Fugu als AI Harness statt als Modell einordnen, ist die zentrale Debatte. Wer Frontier-Intelligenz lieber gezielt und kostenbewusst einsetzt, findet im Konzept der Claude Advisor Strategie einen Gegenentwurf. Und das Muster autonom forschender Agenten kennst du bereits aus AutoResearch. Verifizierte Quellen: Sakana Fugu Product Page (https://sakana.ai/fugu/), Technical Report (https://arxiv.org/abs/2606.21228), TRINITY (https://arxiv.org/abs/2512.04695), Conductor (https://arxiv.org/abs/2512.04388), The Decoder (https://the-decoder.com/sakana-ais-fugu-orchestrates-multiple-llms-to-match-anthropics-fable-and-mythos-benchmarks/), MarkTechPost (https://www.marktechpost.com/2026/06/22/sakana-ai-launches-sakana-fugu-an-orchestration-model-that-routes-tasks-across-a-swappable-pool-of-frontier-llms/), VentureBeat (https://venturebeat.com/orchestration/no-claude-fable-5-no-problem-sakana-achieves-frontier-performance-with-new-fugu-multi-model-auto-synthesis-system).