KI-Tools
OpenMontage: Wie dein KI-Coding-Assistent zum Video-Studio wird
OpenMontage verwandelt Claude Code, Cursor & Co. in ein agentisches Video-Studio. 12 Pipelines, 60-Sekunden-Video ab 1,33 $, Zero-Key-Pfad. Der Praxis-Guide.
TL;DR: OpenMontage ist das erste quelloffene, agentische Video-Produktionssystem. Es verwandelt deinen KI-Coding-Assistenten (Claude Code, Cursor, Copilot, Windsurf oder Codex) in ein vollautomatisches Video-Studio. Aus einem einzigen Prompt recherchiert der Agent das Thema mit 15 bis 25 Web-Suchen, schreibt das Skript, beschafft Bild- und Tonmaterial, schneidet und rendert das fertige Video. 12 Pipelines, 52 Tools und über 500 Skills decken alles von Erklärvideos bis zu dokumentarischen Montagen ab. Ein 60-Sekunden-Animationsclip kostet laut Entwickler-Demos ab 1,33 US-Dollar an Medien-Kosten, über den Zero-Key-Pfad mit Piper TTS und freien Archiven sogar 0 Dollar. Die Token-Kosten deines KI-Agents kommen aber oben drauf. OpenMontage steht unter AGPL-3.0 und läuft komplett im Terminal.
Was ist OpenMontage?
OpenMontage bezeichnet sich selbst als das weltweit erste quelloffene, agentische Video-Produktionssystem. Statt dir eine weitere Web-App mit Dashboard und Timeline vorzusetzen, dockt es direkt an den KI-Coding-Assistenten an, den du ohnehin schon nutzt. Du beschreibst in natürlicher Sprache, was du willst, und der Agent übernimmt den kompletten Produktions-Workflow eines echten Teams: Research, Skript, Asset-Beschaffung, Schnitt, Vertonung und finalen Render. Das Projekt liegt auf GitHub (calesthio/OpenMontage) und ist mit über 17.000 Sternen eines der am schnellsten wachsenden Repositories im GitHub-Trending. Die Codebasis besteht zu rund 90 Prozent aus Python, der Rest aus TypeScript und JavaScript für die Render-Schicht.
Das entscheidende Architektur-Prinzip: Die Python-Codebasis enthält keine fest verdrahtete Orchestrierungs-Logik und keine kreativen Entscheidungsbäume. Der gesamte Video-Workflow lebt in drei Schichten aus lesbarem Text. Pipeline-Manifeste (YAML) definieren die Reihenfolge der Stufen, Agent-Skills (Markdown-Dateien) liefern dem Sprachmodell die kognitive Routenführung, und Execution-Tools (Python) führen mechanisch API-Aufrufe aus, ohne selbst kreativ zu entscheiden. Der KI-Assistent sitzt in der Mitte und agiert als dynamische Routing-Engine. Dadurch ist das System plattformunabhängig, in Git versionierbar und auf Vollständigkeit prüfbar. Wer schon mit Claude Skills 2.0 gearbeitet hat, erkennt das Muster sofort: Die Intelligenz steckt nicht im Code, sondern in den Skill-Dateien. Wenn die Modelle besser werden, skaliert die Produktions-Engine automatisch mit.
Der wichtigste Unterschied zu reinen KI-Video-Generatoren: Die meisten Tools animieren nur Standbilder. OpenMontage kann zusätzlich echtes Bewegtmaterial aus freien Archiven ziehen, darunter Archive.org, NASA, Wikimedia Commons, Pexels und Pixabay, es zu einer echten Timeline schneiden und ein fertiges Stück rendern. Für eine dokumentarische Montage baut der Agent dafür einen durchsuchbaren Korpus auf und sucht semantisch nach Bedeutung statt nach Keywords.
Wie funktioniert die agentische Pipeline?
Jede Produktion läuft als deterministische Zustandsmaschine ab, nicht als ein einzelner Prompt-Schuss. Der Agent durchläuft vier Hauptphasen (Research, Skript, Assets, Komposition), die sich in der Praxis in sieben Stufen aufteilen: - Research: 15 bis 25+ Live-Web-Suchen zum Thema - Proposal: Strukturvorschlag auf Basis der Recherche - Script: vollständiges Voiceover-Skript - Scene Plan: Bild-für-Bild-Szenenplan - Assets: Generierung oder Beschaffung aller Visuals und des Audios - Edit: Zusammenschnitt nach Szenenplan - Compose: finaler Render über Remotion oder HyperFrames
Bevor das erste Wort des Skripts steht, durchsucht der Agent das Netz nach echten Fakten. Bei einem Erklärvideo über die Physik schwarzer Löcher rät er nicht, sondern wertet YouTube, Reddit und akademische Quellen aus. Dieser Grounding-Schritt ist der zentrale Unterschied zu Slideshow-Generatoren, die ihre Inhalte halluzinieren.
Welches Tool für Bild, Ton oder Video zum Einsatz kommt, entscheidet eine siebendimensionale Bewertungs-Engine: Task-Fit (30 %), Output-Qualität (20 %), Kontrolle (15 %), Zuverlässigkeit (15 %), Kosteneffizienz (10 %), Latenz (5 %) und Kontinuität (5 %). Insgesamt unterstützt OpenMontage 14 Video-Provider, 10 Bild-Provider und 4 Voice-/TTS-Provider, die sich frei tauschen lassen. Vor dem Render greifen mehrere Qualitäts-Gates. Eine sechsdimensionale Risikometrik blockiert Entwürfe, die wie eine animierte PowerPoint wirken. Nach dem Render extrahiert das System per FFprobe vier Frames und prüft sie auf schwarze Bilder und fehlerhafte Overlays, dazu wird das Audio auf Clipping geprüft. Fällt ein Gate durch, korrigiert der Agent selbstständig und rendert die Szene neu. Vor jedem kostenpflichtigen Schritt pausiert das System und fragt um Erlaubnis. Dieses Prinzip aus Schleife, Selbstprüfung und Checkpoints ist dasselbe, das auch hinter dem Ralph Wiggum Loop steckt und das jeder agentische Harness braucht.
Was kostet OpenMontage wirklich?
Die Software selbst ist Open Source und gebührenfrei. Die laufenden Kosten hängen davon ab, welche Provider du einsetzt. Und genau hier lohnt ein genauer Blick, weil die oft zitierten Cent-Beträge nur die halbe Wahrheit sind.
OpenMontage lässt sich ohne einen einzigen API-Key betreiben. Für die Sprachausgabe nutzt es die quelloffene Engine Piper TTS, die komplett offline läuft. Bildmaterial kommt aus den freien Archiven, der Schnitt aus FFmpeg, der Render aus Remotion. Damit lässt sich ein vollständiges Daten-Erklärvideo oder eine dokumentarische Montage für 0 Dollar Medien-Kosten produzieren. Wer lokal über eine leistungsstarke GPU verfügt (als Richtwert gelten rund 24 GB VRAM aufwärts), kann sogar Videomodelle wie WAN 2.1, Hunyuan oder CogVideo kostenlos selbst berechnen.
Sobald du Premium-Modelle über API-Keys einbindest, entstehen Medien-Kosten, die laut den offiziellen Demos überraschend niedrig ausfallen: | Demo-Video | Länge | Bausteine | Medien-Kosten | |---|---|---|---| | The Last Banana (Pixar-Stil) | 60 Sek. | 6 Kling-v3-Clips, Narration (Google Chirp 3 HD), Musik | 1,33 $ | | VOID (Werbevideo) | kurz | 4 OpenAI-Bilder, WhisperX-Untertitel | 0,69 $ | | Ghibli-/Anime-Stil | kurz | 12 FLUX-Bilder, in Remotion animiert | 0,15 $ | | Daten-Erklärvideo (Zero-Key) | variabel | Piper TTS, FFmpeg, Remotion, freie Archive | 0 $ | Quelle: Kostenangaben aus den offiziellen OpenMontage-Demos und der Medium-Analyse von Kristopher Dunham. Damit niemand in eine Kostenfalle läuft, schätzt das System die Kosten vor der Ausführung und erzwingt harte Budgetgrenzen: Das Standard-Limit pro Projekt liegt bei 10 US-Dollar, Einzelaktionen ab 0,50 US-Dollar erfordern manuelle Freigabe.
Wichtig: Die 1,33 Dollar sind ausschließlich Medien-Generierungs-Kosten. Die Token-Kosten deines KI-Coding-Agents für die Orchestrierung kommen oben drauf. Bei einer Flatrate wie Claude Code Pro fällt das kaum ins Gewicht, bei reinem API-Billing können die Agent-Kosten schnell höher liegen als die eigentlichen Medien-Kosten. Wer den Token-Verbrauch grundsätzlich drücken will, findet im Guide zu Claude Code lokal mit Ollama einen kostenfreien Unterbau, auch wenn lokale Modelle bei komplexer Orchestrierung an Grenzen stoßen.
Welche Pipelines und Tools bringt OpenMontage mit?
Das Ökosystem ist modular: 12 vordefinierte Pipelines decken die gängigen Video-Formate ab, 52 Tools übernehmen Ausführungsaufgaben wie Postproduktion, Hintergrundentfernung oder Audio-Mixing, und über 500 Agent-Skills bringen dem Modell bei, wie es spezifische Effekte programmiert. | Pipeline | Eignet sich für | |---|---| | Animated Explainer | Bildungscontent, Tutorials, recherchierte Themen | | Animation / Motion Graphics | Social Media, Produkt-Demos, Kinetic Typography | | Avatar Spokesperson | Corporate Comms, Training | | Cinematic | Trailer, Teaser, Mood-Edits, Brand Films | | Clip Factory | viele kurze Clips aus einer langen Quelle | | Documentary Montage | Video-Essays aus echtem Archiv-Footage | | Hybrid | Quellmaterial plus KI-generierte Support-Visuals | | Localization & Dub | Untertitel, Synchronisation, Übersetzung | | Podcast Repurpose | Podcast-Highlights als Video | | Screen Demo | polierte Software-Bildschirmaufnahmen | | Talking Head | footage-geführte Sprechervideos | | Product Ad / Promo | Werbeclips, Produkt-Promos | Für den Render wählt der Agent automatisch zwischen zwei Engines: Remotion (React-basiert) für datengetriebene Szenen mit Charts und Stat-Reveals, und HyperFrames (HTML/CSS/GSAP) für Kinetic Typography und SVG-Animation.
Wie installierst du OpenMontage?
Du brauchst Python 3.10+, Node.js 18+, FFmpeg und einen unterstützten KI-Coding-Assistenten. Das Setup gelingt in drei Schritten: make setup installiert die Python-Pakete, das Remotion-Projekt und Piper TTS in einem Rutsch. Danach öffnest du den Ordner in deinem KI-Assistenten und formulierst deinen Auftrag in natürlicher Sprache, zum Beispiel: Der Agent liest den Guide, führt einen Pre-Flight-Check durch und zeigt dir, was mit deiner aktuellen Konfiguration möglich ist. Premium-Voices, KI-Videomodelle oder zusätzliches Stock-Material schaltest du jederzeit durch das Hinterlegen optionaler API-Keys frei.
Wo OpenMontage an Grenzen stößt
So beeindruckend das Konzept ist, OpenMontage ist kein Plug-and-Play-Tool. Diese Einschränkungen solltest du kennen, bevor du startest: - Volle Abhängigkeit vom KI-Modell: Weil der Assistent die Orchestrierung selbst übernimmt, bricht die gesamte Produktion zusammen, wenn das Modell den Kontext verliert oder Anweisungen ignoriert. Hat Claude oder GPT einen schlechten Tag, stolpert die Pipeline. - Keine grafische Oberfläche: Das System lebt zu 100 Prozent im Terminal deines Coding-Assistenten. Eine klassische Timeline mit Buttons und visueller Vorschau gibt es nicht. Für Nicht-Entwickler ist das eine echte Hürde. - Fragiles Drittanbieter-Ökosystem: Der Premium-Pfad hängt stark an externen APIs. Preisänderungen, Ausfälle oder geänderte Zugänge bei Bild- und Audio-Anbietern schlagen direkt auf die Pipeline durch. - Technische Einrichtung nötig: Python, Node.js und FFmpeg musst du selbst installieren und konfigurieren. Ohne technisches Basiswissen wird die Ersteinrichtung schnell zur Stolperfalle. - AGPL-3.0-Lizenz: Wer auf Basis von OpenMontage einen kommerziellen Dienst oder eine SaaS-Lösung baut, muss seinen eigenen Code ebenfalls offenlegen. Für Unternehmen mit Closed-Source-Politik ist das ein K.-o.-Kriterium. Diese Risiken sind kein OpenMontage-Spezifikum, sondern typisch für agentische Systeme insgesamt. Branchenbeobachter wie Andreessen Horowitz sehen agentisches Video-Editing zwar als kommenden Standard, die Praxis bleibt aber abhängig von einem zuverlässigen Modell und stabilen Providern.
FAQ: Häufig gestellte Fragen zu OpenMontage
Brauche ich Programmierkenntnisse für OpenMontage? Du musst keinen Code schreiben, da du das System über natürliche Sprache steuerst. Für die Ersteinrichtung brauchst du aber technisches Basiswissen: Python 3.10+, Node.js 18+ und FFmpeg müssen installiert und ein KI-Coding-Assistent eingerichtet sein. Ist OpenMontage wirklich kostenlos? Die Software ist Open Source und gebührenfrei, und es gibt einen kompletten Zero-Key-Pfad ohne Medien-Kosten. Trotzdem ist das Gesamtsystem in der Praxis selten ganz kostenlos: Die Token-Kosten deines KI-Agents fallen immer an, und Premium-Modelle wie Kling, Runway oder ElevenLabs verursachen eigene Kosten von etwa 0,15 bis 3 US-Dollar pro Video. Welche KI-Coding-Assistenten werden unterstützt? Offiziell unterstützt und mit eigenen Konfigurationsdateien ausgestattet sind Claude Code, Cursor, GitHub Copilot, Windsurf und Codex. Grundsätzlich funktioniert jeder Assistent, der Dateien lesen und Python-Code ausführen kann. Wie lange dauert eine Video-Produktion? Laut Tutorial-Tests benötigt das System rund 10 bis 20 Minuten, um ein fertiges Video von 1 bis 2 Minuten Länge zu recherchieren, zu generieren und zu rendern. Länge und Komplexität beeinflussen die Dauer. Kann OpenMontage echtes Filmmaterial verarbeiten? Ja. Anders als reine Bild-Animatoren zieht OpenMontage über die Documentary-Montage-Pipeline echtes Bewegtmaterial aus freien Archiven wie Archive.org, NASA und Wikimedia Commons, schneidet es zu einer Timeline und rendert ein fertiges Stück. Für wen lohnt sich OpenMontage nicht? Wer eine einfache App mit Klick-Oberfläche und visueller Vorschau erwartet, wird mit dem terminalbasierten Workflow nicht glücklich. Ungeeignet ist es auch für kommerzielle Projekte, deren Code geschlossen bleiben soll, da die AGPL-3.0-Lizenz die Offenlegung erzwingt.
Fazit
OpenMontage verschiebt die Einstiegshürde für hochwertige Videoproduktion radikal nach unten: Ein einziger Prompt, und dein Coding-Assistent recherchiert, schreibt, schneidet und rendert ein fertiges Video für wenige Cent Medien-Kosten. Der Preis dafür ist ein terminalbasierter, entwicklernaher Workflow, volle Abhängigkeit vom zugrunde liegenden Modell und die strikte AGPL-Lizenz. Wer ohnehin mit KI-Coding-Agenten arbeitet, bekommt damit ein erstaunlich mächtiges Werkzeug an die Hand – wer ein Plug-and-Play-Tool sucht, ist anderswo besser aufgehoben. OpenMontage ist im Kern ein Paradebeispiel für Vibe Coding, nur eben für Video statt für Software. Wie du den Unterbau dafür mit Claude Code lokal und kostenlos aufsetzt, welche Rolle portable Skills à la Claude Skills 2.0 spielen und warum jedes solche System einen stabilen AI Harness braucht, vertiefen die verlinkten Artikel. Verifizierte Quellen: GitHub-Repository calesthio/OpenMontage (github.com/calesthio/OpenMontage); Andreessen Horowitz, It is time for agentic video editing (a16z.com/its-time-for-agentic-video-editing/); Medium-Analyse von Kristopher Dunham zu OpenMontage-Demos und Kosten.