KI-Tools

Voicebox: Open-Source AI Voice Studio – lokale ElevenLabs-Alternative

Voicebox ist die freie, lokale Open-Source-Alternative zu ElevenLabs: 7 TTS-Engines, Voice Cloning ab 3 Sekunden, MCP-Server für Claude Code.

TL;DR: Voicebox ist eine kostenlose, lokale Open-Source-Alternative zu ElevenLabs und WisprFlow. Die Desktop-App (Tauri/Rust, React, Python FastAPI) bündelt sieben TTS-Engines, Voice Cloning ab drei Sekunden Audio, eine globale Diktier-Funktion mit Whisper und einen MCP-Server, über den KI-Coding-Agenten wie Claude Code oder Cursor in geklonten Stimmen sprechen. Mit über 34.000 GitHub-Stars zählt Voicebox zu den meistbeachteten Open-Source-Audio-Projekten 2026.

Was ist Voicebox?

Voicebox ist ein Desktop-Studio für alles rund um AI Voice: lokal, Open Source und kostenlos. Statt drei separater Tools für Voice Cloning, Diktat und Sprachausgabe bündelt die App den kompletten Workflow in einer Oberfläche. Entwickelt wird Voicebox von Jamie Pine, der auch hinter der Open-Source-Datei-App Spacedrive steht. Das Besondere: Voicebox vereint drei Produktkategorien in einer App: 1. Voice Cloning & TTS – Alternative zu ElevenLabs, lokal und ohne API-Kosten 2. Globale Diktier-Funktion – Alternative zu WisprFlow, per Hotkey aus jeder App 3. Agent Voice Output – MCP-Server, damit Claude Code & Co. in geklonten Stimmen sprechen Die Architektur ist dreigeteilt: Tauri (Rust) für die native Desktop-Performance, React/TypeScript für die UI und Python FastAPI für das Backend mit den ML-Modellen. Kein Electron, das spart RAM und fühlt sich flüssig an. Die Inferenz läuft über MLX (auf Apple Silicon) und PyTorch. Kerndaten | Kennzahl | Wert | |----------|------| | Lizenz | MIT (Open Source) | | GitHub Stars | über 34.000 (rund 4.100 Forks) | | Version | v0.5.0 „Capture" (Release: 25. April 2026) | | Reichweite | 170.000+ Website-Besucher pro Monat | | Plattformen | macOS (Apple Silicon & Intel), Windows, Linux | | Backend | Tauri (Rust) + React/TypeScript + Python FastAPI | | Hardware | läuft auf der CPU; für große Modelle 4–8 GB VRAM empfohlen | | Sprachen | bis zu 23 (Chatterbox Multilingual) |

Warum ist Voicebox interessant?

Das Problem: ElevenLabs ist abo-basiert, hochwertiges Voice Cloning liegt in den höheren Tarifen. WisprFlow kostet für die Diktier-Funktion ebenfalls eine monatliche Gebühr. Wer beide Welten nutzt, zahlt doppelt. Und deine Stimme verlässt in beiden Fällen deinen Rechner, ein Datenschutz-Problem bei vertraulichen Inhalten. (Aktuelle Tarife auf elevenlabs.io und wisprflow.ai; Anbieterpreise ändern sich laufend.) Voicebox' Lösung: Einmal installieren, Modelle lokal laden, loslegen. Keine API-Keys, keine monatlichen Gebühren, keine Stimme in der Cloud. Genau dieser Local-First-Ansatz hat sich 2026 bewährt: Was Claude Code lokal mit Ollama und Gemma für Text-Modelle zeigt, macht Voicebox für Sprache. In den Reviews zur App fällt der Vergleich sogar wörtlich: „Ollama ist für lokale Text-Modelle, Voicebox versucht, das für Stimme zu sein." Die Qualität der lokalen Modelle hat sich so weit verbessert, dass sie für den Alltag taugt. In einem von Resemble AI (dem Entwickler von Chatterbox) beauftragten Blindtest über die Plattform Podonos bevorzugten 63,75 % der Hörer Chatterbox gegenüber ElevenLabs; für die neuere Chatterbox-Turbo-Variante nennt Resemble AI 65,3 %. Wichtig: Das ist der Eigen-Benchmark des Anbieters, kein unabhängiger Test. In der Praxis liegen kommerzielle Anbieter wie ElevenLabs bei langen Texten und natürlicher Betonung (Pausen, Atempausen) weiterhin vorn, das bestätigen auch unabhängige Reviewer. Für professionelle Voice-Overs mit höchsten Ansprüchen ist das ein Faktor.

Welche TTS-Engines bietet Voicebox?

Voicebox bündelt sieben verschiedene TTS-Engines unter einer Oberfläche, das ist das eigentliche Killer-Feature. Statt für jede Engine eine separate App oder API wählst du einfach den passenden Motor pro Aufgabe. | Engine | Parameter | Sprachen | Stärke | Hardware | |--------|-----------|----------|--------|----------| | Qwen3-TTS | 0.6B / 1.7B | 10 | Hochwertiges Multilingual-Cloning, Delivery Instructions | GPU empfohlen | | Qwen CustomVoice | 0.6B / 1.7B | 10 | 9 Preset-Voices mit Delivery-Control in natürlicher Sprache | GPU empfohlen | | LuxTTS | Lightweight | English | 150× Echtzeit auf der CPU, ~1 GB VRAM | CPU-tauglich | | Chatterbox Multilingual | – | 23 | Breiteste Sprachabdeckung | GPU empfohlen | | Chatterbox Turbo | 350M | English | Paralinguistic Tags ([laugh], [sigh]), schnell | GPU empfohlen | | TADA (Hume AI) | 1B / 3B | 10 | Lange Texte ohne Qualitätsabfall | GPU empfohlen | | Kokoro | 82M | 8 | Extrem leicht, CPU-fähig | CPU-tauglich | Meine Empfehlung: Für Voice Cloning auf Deutsch ist Qwen3-TTS 1.7B die erste Wahl. Mehrere Reviews berichten, dass andere Engines deutschen Text mit englischem Akzent vorlesen, Qwen3-TTS 1.7B trifft die Sprache am saubersten. Für englische Inhalte mit Emotion nimmst du Chatterbox Turbo (mit [laugh]-Tags), für maximale Sprachabdeckung Chatterbox Multilingual und für schnelle Generierung ohne GPU Kokoro (82M), das läuft auf jedem Rechner. Voice Cloning: Wie viel Audio brauchst du? Voice Cloning funktioniert in Voicebox bereits ab drei Sekunden Audio. Der Sweet Spot für gute Ergebnisse liegt laut den Tutorials bei 15 bis 30 Sekunden, ein einzelner Clip darf maximal 30 Sekunden lang sein. Der Clou: Du kannst mehrere Samples kombinieren und so auch weniger häufige Stimmfarben präziser abbilden. Deutsch wird über Qwen3-TTS, Chatterbox Multilingual, Qwen CustomVoice und TADA unterstützt. Die maximale Textlänge pro Generierung liegt bei 50.000 Zeichen. Längere Texte werden automatisch an Satzgrenzen aufgeteilt und mit Crossfades nahtlos zusammengefügt, eine harte Längenbegrenzung wie bei Cloud-Diensten gibt es nicht.

Wie funktioniert die Diktier-Funktion?

Die globale Diktier-Funktion ist mit v0.5.0 deutlich ausgereifter. Per Hotkey (⌘⌥ auf macOS, Strg+Alt auf Windows) aktivierst du die Aufnahme aus jeder Anwendung heraus. Das Audio wird über Whisper (in den Größen Base bis Turbo, je nach gewünschter Geschwindigkeit) transkribiert und per simuliertem Tastendruck ins fokussierte Feld eingefügt. Das LLM-Refinement ist optional, aber empfehlenswert: Ein lokales Qwen3-Modell entfernt Versprecher, „ähm"s und Satzabbrüche, ohne den Inhalt zu verfälschen. Die Bereinigung läuft auf deinem Rechner, ohne Cloud-Anbindung. Beispiel vorher/nachher: Roh: „also ich denke wir sollten das feature, äh, am freitag releasen, oder nee eigentlich dienstag" Bereinigt: „Ich denke, wir sollten das Feature am Dienstag releasen." Beim ersten Start führt dich Voicebox durch In-App-Berechtigungs-Gates: STT-Modell, optionales LLM-Modell, Input Monitoring, Accessibility-Rechte und der Hotkey müssen bereit sein, bevor das Diktat aktiv wird.

Wie sprechen KI-Agenten mit Voicebox (MCP)?

Der für mich spannendste Teil: Voicebox fungiert als MCP-Server (Model Context Protocol) für AI-Coding-Agenten. Claude Code, Cursor, Cline und Windsurf können per MCP-Tool-Call Sprachausgabe triggern. So wie du auch andere MCP-Server mit Claude Code verbindest, reicht ein kurzer Eintrag in der Konfiguration: Für Nicht-MCP-Clients gibt es einen REST-Endpunkt. Ein einfacher Call genügt, die vollständige API-Doku liegt lokal unter http://127.0.0.1:17493/docs: Die per-Agent-Voice-Bindung (Settings → MCP) ist praktisch für Teams mit mehreren Agenten: Claude Code spricht mit Stimme „Morgan", Cursor mit Stimme „Scarlett". So hörst du schon an der Stimme, welcher Agent gerade fertig ist.

Voicebox vs. ElevenLabs vs. WisprFlow

| Kriterium | Voicebox (Open Source) | ElevenLabs | WisprFlow | |-----------|----------------------|------------|-----------| | Preis | Kostenlos | Abo (kostenpflichtig) | Abo (kostenpflichtig) | | Lokal | Ja | Cloud | Cloud | | Voice Cloning | Ja, ab 3 Sek. | Ja | Nein | | TTS-Engines | 7 | 1 (eigene) | – | | Dictation | Ja | Nein | Ja | | MCP/Agent-API | Ja | Nein | Nein | | Open Source | Ja (MIT) | Nein | Nein | | Max. Zeichen | 50.000 | tarifabhängig | – | | Datenschutz | Alles lokal | Cloud | Cloud | Einordnung: Voicebox gewinnt bei Preis, Datenschutz und Flexibilität (7 Engines plus MCP). ElevenLabs hat bei der reinen Ausgabequalität der eigenen Engine die Nase vorn, besonders bei langen Texten und natürlicher Betonung. WisprFlow bietet das ausgereiftere Diktier-Erlebnis, aber Voicebox holt mit v0.5.0 deutlich auf.

Welche Schwächen hat Voicebox?

Transparenz ist wichtig: Voicebox ist nicht perfekt. Das solltest du vor der Installation wissen: - Frühe Software: Voicebox ist noch jung. Reviewer berichten von gelegentlichen Bugs, vor allem bei Modell-Downloads und der GPU-Erkennung (besonders unter Windows). Meist hilft ein Neustart der App. Die Apple-Silicon-Performance wird dagegen ausdrücklich gelobt. - Lokale Generierung dauert länger: Da alles auf deinem Rechner läuft, ist die Generierung langsamer als bei Cloud-Diensten. Auf Geräten mit wenig Speicher (8 GB) kann es bei den großen Modellen eng werden, die App läuft aber auch ohne GPU auf der CPU, wenn du Geduld mitbringst. - Kein Echtzeit-Voice-Change: Anders als ein Live-Stimmenverzerrer arbeitet Voicebox immer nach dem Muster Aufnahme/Eingabe → Verarbeitung in der Warteschlange → Ausgabe. Echtzeit gibt es nur beim Vorhören der Audio-Effekte. - Lange Texte: Bei der natürlichen Betonung langer Texte (Pausen, Sprechrhythmus) liegen kommerzielle Anbieter wie ElevenLabs noch vorn. - Rechtliches: Fremde oder prominente Stimmen zu klonen ist ein ethisch und rechtlich heikles Feld, das gilt für Voicebox genauso wie für jedes Cloning-Tool.

Wie installierst du Voicebox?

Am einfachsten geht es über die fertigen GitHub-Releases: Für Entwickler gibt es den Weg über den Quellcode: Linux läuft aktuell über Docker oder einen Build aus dem Quellcode. Voraussetzungen für das manuelle Setup sind Bun, Python und die Rust-Toolchain für den Tauri-Build.

FAQ: Häufig gestellte Fragen zu Voicebox

Ist Voicebox wirklich kostenlos? Ja. Die MIT-Lizenz erlaubt kommerzielle Nutzung, Modifikation und Weitervertrieb. Es gibt keine versteckten Kosten, keine API-Keys und keine Abo-Gebühren. Läuft Voicebox auf meinem Mac? Ja, sowohl auf Apple Silicon als auch auf Intel-Macs. Auf Apple Silicon wird die Performance ausdrücklich gelobt (Metal/MLX werden genutzt). Bei den großen Modellen profitierst du von mehr Arbeitsspeicher; mit 8 GB kann die Generierung länger dauern. Kann ich deutsche Stimmen clonen? Ja. Für Deutsch ist Qwen3-TTS 1.7B die beste Wahl, andere Engines lesen deutschen Text teils mit englischem Akzent. Auch Chatterbox Multilingual, Qwen CustomVoice und TADA unterstützen Deutsch. Brauche ich eine GPU? Nein. Für leichte Modelle wie Kokoro (82M) oder LuxTTS (~1 GB VRAM, 150× Echtzeit auf der CPU) reicht die CPU. Für Qwen3-TTS oder Chatterbox wird eine GPU empfohlen. Unterstützt werden CUDA, Metal, ROCm, DirectML und Intel Arc. Was genau macht der MCP-Server? Der MCP-Server erlaubt es KI-Coding-Agenten wie Claude Code, Cursor oder Cline, Sprachausgabe über Voicebox zu triggern, in jeder geklonten Stimme deiner Wahl. Er läuft lokal unter http://127.0.0.1:17493/mcp, daneben gibt es einen REST-Endpunkt für Nicht-MCP-Clients. Wie viel Audio brauche ich für ein gutes Voice-Clone? Technisch reichen drei Sekunden. Für gute Qualität solltest du 15 bis 30 Sekunden aufnehmen; ein einzelner Clip darf maximal 30 Sekunden lang sein, du kannst aber mehrere Clips kombinieren. Worin unterscheidet sich Voicebox von Piper TTS? Piper ist extrem leicht und auf CPU-Geschwindigkeit optimiert, bietet aber kein Voice Cloning. Voicebox bündelt Cloning, Dictation, Editor und Agent-Integration in einer App, braucht für die besten Modelle dafür mehr Hardware.

Fazit

Voicebox ist genau das, was die Open-Source-TTS-Landschaft 2026 gebraucht hat: eine gut designte, lokale Desktop-App, die Voice Cloning, TTS, Dictation und Agent-Sprachausgabe in einem Paket vereint. Über 34.000 GitHub-Stars und 170.000 monatliche Website-Besucher zeigen, dass der Bedarf groß ist. Voicebox ist für AI Voice das, was Ollama für lokale LLMs war, und bei v0.5.0 wird es nicht bleiben. Lohnt sich Voicebox für dich? Wenn du deinen KI-Agenten eine Stimme geben, ElevenLabs-Kosten sparen oder schlicht keine Stimme in die Cloud schicken willst: ja. Wenn du professionelle Voice-Overs mit höchsten Ansprüchen brauchst, ohne GPU und ohne Setup-Lust bist, bleibt ElevenLabs vorerst die bessere Wahl. Verwandte Themen: Wie du lokale KI ohne Cloud nutzt, zeigt der Guide zu Claude Code lokal mit Ollama und Gemma. Wie du Voicebox per MCP anbindest, funktioniert genauso wie das Verbinden anderer MCP-Server mit Claude Code oder die NotebookLM-Anbindung als KI-Langzeitgedächtnis. Und wenn dich Open-Source-Alternativen grundsätzlich reizen, lies, was Goose von Block kann. Verifizierte Quellen: - Voicebox Website: https://voicebox.sh - GitHub Repository: https://github.com/jamiepine/voicebox - GitHub Releases: https://github.com/jamiepine/voicebox/releases - YouTube – I Tried the Open Source ElevenLabs Alternative (Voicebox): https://www.youtube.com/watch?v=RLPDXBVxw - OSKAR.TOOLS – Voicebox-Review: https://oskar.tools/archiv/voicebox/ - Resemble AI – Chatterbox-Benchmark: https://www.resemble.ai/learn/models/chatterbox