KI-Tools

Hermes Mixture of Agents (MoA): Frontier-Qualität trotz Model-Gating – und was sie kostet

Hermes Mixture of Agents (MoA) bündelt mehrere KI-Modelle zu einem stärkeren Aggregator: 8% über Opus 4.8 auf HermesBench, aber bis zu 80x Kosten. Wann sich MoA lohnt.

TL;DR: Mixture of Agents (MoA) ist ein neues Feature im Hermes Agent von Nous Research, das mehrere KI-Modelle als virtuellen Modell-Provider bündelt: Mehrere Reference Models liefern parallel ihre Einschätzung, ein Aggregator-Modell synthetisiert daraus die finale Antwort. Auf dem internen HermesBench erreicht ein MoA-Setup aus Opus 4.8 als Aggregator und GPT-5.5 als Referenz laut Nous Research einen Score von 0,8202 und liegt damit 7,82% über Opus 4.8 allein (0,7607) und 10,66% über GPT-5.5 (0,7412). Der Preis dafür ist hoch: Ein Praxistest misst rund 40 Sekunden Latenz und bis zu 80-fache Kosten pro Anfrage. MoA lohnt sich deshalb für schwierige Aufgaben wie Code-Reviews, Security-Audits und wichtige Entscheidungen, nicht für den Alltag. Mit günstigeren Modellen lässt sich der Kostenfaktor auf rund 10x drücken.

Was ist Mixture of Agents (MoA)?

Mixture of Agents (MoA) ist ein Verfahren, bei dem mehrere Sprachmodelle parallel an derselben Aufgabe arbeiten und ihre Antworten zu einem stärkeren Gesamtergebnis kombiniert werden. Statt einer einzelnen Meinung bekommst du ein Gremium aus Experten mit einem klugen Chefredakteur, der die beste Antwort formuliert. Wichtig ist die Abgrenzung zu einem häufigen Irrtum: MoA teilt die Arbeit nicht auf verschiedene Modelle auf, sondern lässt alle dieselbe Frage betrachten und verdichtet ihre Perspektiven. Im Hermes Agent ist MoA kein separates Tool, sondern ein virtueller Modell-Provider. Jedes MoA-Preset erscheint als auswählbares Modell im Model-Picker aller Hermes-Oberflächen, von der CLI über die TUI bis zur Desktop-App und dem Dashboard. Du wählst es aus wie jedes andere Modell. Die vollständige Funktionsbeschreibung liefert die offizielle MoA-Dokumentation. Reference Models und Aggregator Die Architektur besteht aus zwei Modell-Klassen: - Reference Models (Referenzmodelle): Mehrere Modelle analysieren den Gesprächsverlauf und produzieren private Einschätzungen, Vorschläge und Analysen. Sie bekommen keinen Zugriff auf Tools und antworten dir nicht direkt. - Aggregator Model (Aggregator-Modell): Ein einzelnes Modell erhält den normalen Gesprächskontext plus die privaten Auswertungen der Referenzmodelle. Es schreibt die finale Antwort, trifft die Entscheidungen und führt die eigentlichen Tool-Aufrufe aus. Aus Sicht von Hermes ist die Ausgabe des Aggregators die Modellantwort. Woher die Idee kommt Das Konzept ist nicht neu. Der Ursprung ist ein im Juni 2024 von Together.ai veröffentlichtes Paper mit dem Titel Mixture-of-Agents Enhances Large Language Model Capabilities. Die Kernidee dort: dieselbe Frage an mehrere LLMs stellen und ein weiteres LLM deren Antworten synthetisieren lassen. Neu ist, dass Hermes dieses Muster 2026 als produktreifen Provider zugänglich macht, den du mit einem Befehl aktivierst.

Warum ist MoA gerade jetzt relevant?

Der Auslöser für die neue Aufmerksamkeit ist der volatile Zugang zu den stärksten Modellen. Am 12. Juni 2026 sperrte Anthropic auf eine US-Exportkontroll-Anordnung hin den Zugang zu den Spitzenmodellen Fable 5 und Mythos 5, nur drei Tage nach deren Launch. Ende Juni wurde die Anordnung wieder aufgehoben: Fable 5 kehrte am 1. Juli 2026 global zurück, Mythos 5 zunächst nur für zugelassene US-Organisationen. Genau diese Sprunghaftigkeit ist der Punkt. Wer seinen Workflow auf ein einzelnes Frontier-Modell stützt, hängt von Zugangsentscheidungen ab, die sich binnen Tagen ändern können. Dazu kommen die steigenden Preise für Opus 4.8 und GPT-5.5. Nous Research positioniert MoA genau als Antwort auf diese Lage und kündigte die aktuelle Ausbaustufe als „Mixture of Agents 2.0" an, mit der sich beliebige Provider-Modelle zu einem eigenen Mix kombinieren lassen. In der offiziellen Ankündigung heißt es: „The strongest models are gated and access is granted only to a select few. Hermes Agent now exposes MoA presets as virtual models, giving you capabilities beyond the publicly available frontier: 8% higher than Opus 4.8 and 11% higher than GPT 5.5 on our upcoming benchmark." Mitgründer Teknium ergänzte, das Ziel sei, mit einer Kombination aus Open-Source-Modellen Opus-äquivalente Qualität zu erreichen. Der eigentliche Takeaway dahinter ist strategisch: Hör auf, dem nächsten Modell hinterherzujagen, und baue stattdessen das System. Das Modell ist der austauschbare Teil, das System ist das, was du wirklich besitzt. Eine Kombination heute verfügbarer Modelle kann das beste isolierte Modell bereits schlagen.

Wie funktioniert MoA im Hermes Agent?

!Infografik: Hermes Mixture of Agents (MoA) Arbeitsablauf – Prompt, Referenzmodelle, Aggregator und Resultat mit HermesBench-Score-Vergleich von MoA (0,8202), Opus 4.8 (0,7607) und GPT-5.5 (0,7412) Bild: KI-generiert mit NotebookLM Ein normaler Hermes-Durchlauf schickt Konversation und Tools an ein Modell, das antwortet oder Tools anfordert. Mit MoA läuft die Agenten-Schleife in drei Schritten: - Hermes fragt die Reference Models nach ihrer Analyse. Sie sehen den Gesprächsverlauf und liefern Gedanken und Vorschläge, ohne Tools auszuführen oder direkt zu antworten. - Hermes gibt diese Ausgaben an den Aggregator weiter. Der Aggregator sieht den normalen Kontext plus die privaten Referenz-Meinungen. - Der Aggregator entscheidet, ruft bei Bedarf Tools auf und formuliert die finale Antwort. Prompt-Caching bleibt intakt Ein wichtiger Vorteil: MoA ist so gebaut, dass der Cache des Haupt-Prompts nicht bricht. Die Reference Models bekommen eine gekürzte, deterministische Version des Gesprächs, aus der der Hermes-System-Prompt und die Tool-Transkripte entfernt sind. Dieser stabile Präfix trifft den Cache normal. Beim Aggregator werden die Referenz-Zusammenfassungen ans exakte Ende des jüngsten User-Turns angehängt, nicht an den Anfang. Dadurch bleibt der gesamte vorgelagerte Präfix cachebar, und nur die neu erzeugten Referenz-Tokens gelten als neuer Input. Der Wechsel auf ein MoA-Preset kostet also nicht mehr Cache-Invalidierung als jeder andere /model-Wechsel. Der einzige echte Mehrpreis sind die zusätzlichen Referenz-Calls pro Iteration. Der /moa-Shortcut Wer nicht dauerhaft umschalten will, nutzt /moa. Der Befehl schickt einen einzelnen Prompt durch das Default-MoA-Preset und stellt danach automatisch das vorher genutzte Modell wieder her. So gibt es kein versehentliches Umschalten für den Rest der Session. Auf der CLI funktioniert derselbe One-Shot über hermes -z "PROMPT" --provider moa --model default.

Was kostet die Qualitätsspitze wirklich?

Die beworbenen Qualitätsgewinne stammen aus HermesBench, einem internen Benchmark von Nous Research. Das Leaderboard ist noch nicht öffentlich, die Zahlen sind also Angaben des Herstellers, keine unabhängig geprüften Werte. | Modell | HermesBench-Score | Delta zu MoA | |--------|------------------|--------------| | MoA (Opus 4.8 Aggregator + GPT-5.5 Referenz) | 0,8202 | ±0 | | Claude Opus 4.8 allein | 0,7607 | −7,82% | | GPT-5.5 allein | 0,7412 | −10,66% | Ein absoluter Vorsprung von 0,0595 Punkten gegenüber Opus 4.8 klingt nach einer soliden Steigerung. Der praktische Preis dafür ist allerdings erheblich. Ein detaillierter Praxistest von Classmethod liefert harte Zahlen: | Metrik | Hermes-Standard (Einzelmodell) | MoA Default | |--------|-------------------------------|-------------| | Latenz (einfache Frage) | 6,84 s | 40,60 s | | Input-Tokens pro Anfrage | ~24K | ~41K | | API-Calls pro Iteration | 1 | 3 (2 Referenzen + 1 Aggregator) | | Kosten pro Aufruf | ~0,003 USD | ~0,24 USD (ca. 80x) | | Cost-Tracking in Hermes | verfügbar | coststatus: unknown | Die Latenz steigt bei einfachen Fragen auf das Sechsfache, weil zusätzlich zum Aggregator die Referenzmodelle laufen. Der Input-Kontext wächst auf rund 41.000 Token, etwa das 1,7-Fache eines normalen Hermes-Durchlaufs, weil die Meinungen der Referenzmodelle mitgeschickt werden. Und die Kosten: Im Test lag ein MoA-Aufruf bei rund 0,24 USD gegenüber rund 0,003 USD für einen einzelnen Opus-Aufruf, also etwa Faktor 80. Erschwerend kommt hinzu, dass Hermes die MoA-Kosten intern nicht ausweist. In der Usage-Statistik erscheint coststatus: unknown, abgewickelt über ein proprietäres Schema (billingprovider: moa, moa://local). Wer genau tracken will, wie viel ausgegeben wurde, muss die Kosten separat über die Management-API des jeweiligen Providers auslesen, etwa bei OpenRouter. Die entscheidende Frage lautet also: Zahlst du 80x Kosten für 7,82% mehr Qualität? Für einen Chatbot, der hundertmal am Tag läuft, ist das schwer zu rechtfertigen. Für das Entwerfen eines rechtlichen Dokuments oder eine wichtige Architekturentscheidung kann es sich lohnen. Die 80x sind ein guter Merkposten, um für die eigene Arbeit die Linie zu ziehen: Hier zahle ich, dort nicht.

Für wen lohnt sich MoA – und für wen nicht?

Die Empfehlung der Quellen ist eindeutig: MoA ist für die schweren Fälle da, nicht für den Alltag. Konkret genannt werden Debugging, Code-Reviews, Security-Audits und komplizierte Architekturfragen, die du vor dem Start eines Projekts klären willst. Für einfache Edits und schnelle Suchen reicht ein einzelnes Modell völlig aus. Faustregel: Nutze MoA, wenn eine Aufgabe von mehreren Modell-Perspektiven profitiert und ein Fehler teuer wäre. Für Routinearbeit bleibst du beim Einzelmodell. Kosten von 80x auf 10x drücken Der 80x-Faktor entsteht durch teure Premium-Modelle wie Opus 4.8 im Panel. Setzt du günstigere Modelle als Referenzen ein, kann der Aufschlag in Richtung 10x sinken und damit alltagstauglicher werden. Diese Größenordnung nennt der Praxistest, sofern Tekniums Ziel von Opus-Niveau mit einer Kombination aus Open-Source-Modellen aufgeht. Die Quellen nennen konkrete Kandidaten: - DeepSeek V4 Pro: sehr günstig, deutlich unter einem Dollar pro Million Token, und trotzdem schnell. - GLM 5.2: außergewöhnlich stark, wird von manchen mit Opus 4.8 verglichen, kostet aber nur rund ein Sechstel von Opus. Warum dieses Modell so viel Aufmerksamkeit bekommt, liest du im GLM-5.2-Deep-Dive. - GPT-5.5 über das OpenAI-Gateway: lässt sich über ein bestehendes 20-Dollar-Abo einbinden und wird so extrem kosteneffizient. Der generelle Rat: günstigere Modelle mischen und trotzdem ein teures Modell allein schlagen.

Wie richtest du dein eigenes MoA-Preset ein?

MoA ist provider-agnostisch: Du kannst Modelle über verschiedene APIs hinweg mischen und bist weder an einen Anbieter noch an genau zwei Modelle gebunden. Das Default-Preset nutzt openrouter:anthropic/claude-opus-4.8 als Aggregator sowie openai-codex:gpt-5.5 und openrouter:deepseek/deepseek-v4-pro als Referenzen. Eigene Presets definierst du in der Datei ~/.hermes/config.yaml, indem du Provider- und Modell-Paare den Rollen reference und aggregator zuordnest. Schematisch sieht ein günstigeres Setup so aus: Danach taucht das Preset im Model-Picker auf. In der Terminal-Session wählst du es über hermes model oder mit /model, in der Desktop-App über die Modell-Einstellungen, im Dashboard über die Modell-Sektion. Weil MoA über das normale Modellsystem läuft, kombiniert es sich automatisch mit /goal, Gateway-Sessions und der TUI. Wie du Hermes überhaupt aufsetzt, zeigt der Installations-Guide für macOS, Linux und WSL2; die grafische Alternative beschreibt der Artikel zur Hermes Desktop App.

Aggregator, Router oder Coordinator?

MoA ist nur einer von mehreren Wegen, mehrere Modelle zu nutzen. Die Ansätze unterscheiden sich vor allem in Mechanismus, Anzahl der API-Calls und Transparenz. | Kategorie | Beispiele | Mechanismus | API-Calls | Kosten/Latenz | |-----------|-----------|-------------|-----------|---------------| | Router | OpenRouter Auto, NVIDIA LLM Router | Klassifikator oder Heuristik wählt genau ein Modell | 1 | niedrig | | Coordinator | Sakana Fugu | kleines trainiertes Modell orchestriert im Hintergrund | 1+N | mittel | | Aggregator (MoA) | Hermes MoA | N Referenzen geben Meinungen, 1 Aggregator synthetisiert | N+1 | hoch | | Ensemble Voting | manuell via API | mehrere Modelle unabhängig, dann Abstimmung | N | sehr hoch | Der Unterschied im Alltag: Ein Router ist ideal, wenn du schnell und günstig arbeiten willst, weil nur ein Modell antwortet. Ein Coordinator wie Sakana Fugu delegiert die gesamte Logik ans Backend, du bekommst clevere Ergebnisse, editierst das Panel aber nicht selbst. MoA gibt dir die volle Kontrolle: Du wählst die Modelle von Hand, konfigurierst das Panel und zielst darauf ab, die Benchmark-Grenze zu überschreiten. Der Preis dieser Transparenz sind die N+1 Calls.

Welche Grenzen hat MoA?

MoA ist kein Selbstläufer. Die wichtigsten Einschränkungen: - Hohe Kosten und fehlendes Cost-Tracking: bis zu 80x gegenüber dem Einzelmodell, und Hermes zeigt die tatsächlichen Kosten intern nicht an (coststatus: unknown). - Hohe Latenz: rund 40 Sekunden für einfache Prompts, weil N+1 Calls anfallen. Bei Tool-Calls können weitere Iterationen dazukommen. - HermesBench ist nicht öffentlich: Die Qualitätszahlen sind Angaben von Nous Research. Bis das Leaderboard veröffentlicht ist, solltest du sie als Claims behandeln und selbst gegentesten. - Version-Gap: Zwischen dem Release-Tag v0.17.0 und dem aktuellen Main-Branch lagen zeitweise rund 1.003 Commits. Ohne hermes update stimmt die Doku nicht mit der lokalen Version überein. - Kein rekursives MoA: Ein MoA-Preset kann nicht selbst als Aggregator eines anderen MoA-Presets dienen. Rekursive Bäume sind bewusst blockiert. - Stilles Degradieren: Fällt ein Reference Model wegen eines Netzwerk- oder Auth-Fehlers aus, bricht Hermes nicht ab, sondern arbeitet mit den übrigen Modellen weiter. Das ist robust, aber du merkst den Ausfall nicht unbedingt.

FAQ: Häufig gestellte Fragen zu Hermes Mixture of Agents

Was ist der Unterschied zwischen MoA und einem Model-Router? Ein Router wählt pro Anfrage genau ein Modell aus und leitet die Anfrage dorthin weiter, das ergibt einen API-Call. MoA fragt mehrere Referenzmodelle plus einen Aggregator, das ergibt N+1 Calls. Der Router optimiert auf schnell und günstig, MoA auf maximale Qualität. Kostet MoA wirklich 80x mehr als ein Einzelmodell? Im Praxistest mit einem Opus-4.8-Aggregator ja: rund 0,24 USD pro Aufruf gegenüber rund 0,003 USD für einen einzelnen Opus-Call. Setzt du günstige Open-Source-Modelle als Referenzen ein, kann der Faktor laut Praxistest in Richtung 10x sinken. Bricht MoA das Prompt-Caching? Nein. Reference Models bekommen einen stabilen, gekürzten Präfix, und beim Aggregator werden die Referenz-Ausgaben ans Ende angehängt. Der cachebare Präfix bleibt erhalten. Der einzige Mehrpreis sind die zusätzlichen Referenz-Calls, nicht ein gebrochener Cache. Kann ich eigene Modelle einsetzen? Ja. MoA ist provider-agnostisch. In ~/.hermes/config.yaml ordnest du beliebige Provider-Modell-Paare den Rollen reference und aggregator zu und stellst Presets frei zusammen. Was macht der /moa-Befehl genau? /moa schickt einen einzelnen Prompt durch das Default-MoA-Preset und schaltet danach automatisch zurück auf dein vorheriges Modell. So nutzt du das Panel gezielt für eine schwere Frage, ohne den Rest der Session umzustellen. Kann ein MoA-Preset ein anderes MoA-Preset aggregieren? Nein. Rekursives MoA ist absichtlich blockiert, um Endlosschleifen zu verhindern. Ein Aggregator muss ein normales Modell sein. Sind die HermesBench-Zahlen unabhängig belegt? Nein. HermesBench ist ein interner Benchmark von Nous Research, dessen Leaderboard noch nicht öffentlich ist. Die Werte 0,8202, 0,7607 und 0,7412 sind Herstellerangaben. Die Idee ist plausibel, die konkreten Zahlen solltest du selbst nachprüfen.

Fazit

Hermes Mixture of Agents ist weniger ein neues Modell als eine Wette auf das System: Ein gut zusammengestelltes Panel schlägt laut Nous Research das beste Einzelmodell, ohne auf gated Frontier-Modelle zu warten. Der Haken sind rund 40 Sekunden Latenz und bis zu 80-fache Kosten, weshalb MoA eine Geheimwaffe für kritische Entscheidungen bleibt und keine Alltagslösung. Der realistische Sweet Spot sind günstigere Open-Source-Kombinationen, die den Kostenfaktor auf etwa 10x drücken. Wenn du tiefer einsteigen willst: Die Grundlagen liefert der Hermes-Übersichtsartikel, die Einrichtung der Installations-Guide und die native Oberfläche der Artikel zur Hermes Desktop App. Wie sich der Coordinator-Ansatz anfühlt, zeigt Sakana Fugu, und warum sich ein günstiges Referenzmodell wie GLM-5.2 im Panel lohnt, liest du im dazugehörigen Deep Dive. Verifizierte Quellen: Offizielle MoA-Dokumentation (hermes-agent.nousresearch.com), Together.ai Paper „Mixture-of-Agents Enhances Large Language Model Capabilities" (arxiv.org/abs/2406.04692), Anthropic-Ankündigung zu Fable/Mythos (anthropic.com/news/fable-mythos-access), Classmethod-Praxistest (dev.classmethod.jp).