B-Roll mit KI für bestehende Videos generieren: Schritt-für-Schritt-Anleitung

Das Talking-Head-Material ist gedreht. Das Skript steht. Was fehlt: B-Roll — die Cutaways, die Etablisher, die visuelle Atempause, die aus einer Webcam-Aufnahme etwas Sehbares macht. Hier ist der Workflow, B-Roll mit KI zu generieren und in bestehendes A-Roll zu schneiden, ohne dass die Naht sichtbar wird — Timeline-Markierung, Prompt-Formel, visuelle Konsistenz-Checkliste.

B-Roll war historisch der teuerste Posten in Long-Form-Video, über den niemand spricht. Stock-Footage-Abos kosten 40-300 € pro Editor monatlich. Custom-B-Roll-Drehs kosten Tage und Reisekosten. Pexels-Clips funktionieren für generische Shots, brechen aber, sobald das Skript spezifisch wird — "eine Hand zeichnet eine Kurve auf einem Whiteboard" oder "ein Barista in einem Third-Wave-Café tippt".

Was sich in den letzten 18 Monaten geändert hat: KI-Videogenerierung erreichte gut-genug-Qualität speziell für B-Roll. Hero-Shots und On-Camera-Charakterarbeit sind noch schwierig. Aber die Shots, die B-Roll wirklich braucht — Umgebung, Hände, Objekte, abstrakte Visuals, Übergänge — sind genau die Shots, die aktuelle Modelle zuverlässig rendern.

Schritt 1 — A-Roll-Timeline markieren

Öffnen Sie das A-Roll im NLE. Identifizieren Sie jede Stelle, an der ein Cutaway hilft. Drei Kategorien:

Wörtlicher Cutaway. Sprecher sagt "das Dashboard sieht so aus" — Sie brauchen einen Dashboard-Shot.
Atempause. Sprecher 30+ Sekunden im Bild — das Gehirn will Abwechslung.
Naht-Cover. Zwei A-Roll-Takes spliced — B-Roll versteckt die Naht.

Pro Moment eine Zeile: Zeitstempel, Kategorie, ein-Satz-Beschreibung. Beispiel: "00:01:42–00:01:48, wörtlich, Hände tippen auf Laptop mit Code auf Bildschirm".

Talking-Head-Educational: ein B-Roll-Cut alle 8-15 Sekunden. Narrative/Interview: alle 15-30 Sekunden. Typisches 10-Minuten-YouTube-Video: 25-40 B-Roll-Cuts.

Schritt 2 — Die B-Roll-Prompt-Formel

Drei Komponenten, in dieser Reihenfolge:

Aktionsverb + Subjekt. Was passiert, wer/was tut es. "Hände tippen". "Kaffee wird eingeschenkt". KI rendert Bewegung besser, wenn das Verb vorne steht.

Kameraführung. Vokabular: Close-up, Medium, Wide, Over-the-shoulder, Top-down, handheld, locked-off, slow push-in, shallow depth of field. 2-3 Begriffe, nicht mehr.

Dauer + Bewegungsintensität. "4 Sekunden, sanfte Bewegung" oder "2 Sekunden, schneller Cut".

Zusammen: "Hände tippen auf Laptop-Tastatur, close-up mit shallow depth of field, slow push-in, 5 Sekunden, sanfte Bewegung." Eine Zeile, sauberer Cut.

Optionaler vierter Baustein: visueller Stil-Anker — "gleiches Licht und Farbtemperatur wie 16-Uhr-Golden-Hour-Innenshot". Das versteckt die Naht.

Schritt 3 — Die visuelle Konsistenz-Checkliste

Nicht die KI ist das Problem — es ist, dass die KI-Clips andere Belichtung, Farbtemperatur und Linsen-Geometrie haben als das A-Roll. Fix vorne, nicht in der Post.

Vier Entscheidungen pro Projekt:

Farbtemperatur. A-Roll-Weißabgleich abtasten. Warm, neutral oder kühl? In jeder Prompt spezifizieren.

Lichtrichtung. Woher kommt das Hauptlicht? Matchen Sie es. Mismatched Licht ist nach Farbtemperatur das sichtbarste KI-Tell.

Linsen-Charakter. Weit (24-35mm), normal (50mm), eng (85mm+)? In jede Prompt.

Korn und Textur. Sauberes Digital? Oder leichtes Korn, leicht entsättigt?

Speichern als "visueller Stil-Block" für das Projekt.

Schritt 4 — Generieren, dann reinschneiden

Batch laufen lassen. 25-40 Prompts à 3-6 Sekunden: 60-120 Minuten unbeaufsichtigt.

Reinschnitt-Pass:

1. Jeden Clip auf seinen Zeitstempel platzieren. Auf eigene Spur über A-Roll. A-Roll-Audio läuft weiter.

2. Auf Audio-Beat trimmen. Cut beginnt/endet auf Satzgrenze. 0,2-0,5 Sekunden Trim.

3. 4-Frame-Cross-Dissolve an jeder Grenze. Hard Cuts ziehen Aufmerksamkeit auf die Naht.

4. Color-Match-Pass. Mid-Tone-Sample vom A-Roll, auf B-Roll übertragen. 80% brauchen 5-10% Nudge.

5. Volumen-Ducking bei B-Roll mit Audio. 18-24 dB drücken.

Round-Trip für 10 Minuten Video: 4-6 Stunden Arbeitszeit. 5-10x schneller als Stock + Custom-Dreh.

Wann nicht KI B-Roll verwenden

Verifizierbare reale Momente. Echtes Kundenbüro, spezifisches Wahrzeichen, Ihr echtes Produkt.
Erkennbare Personen. Host on-camera, echter Kunde, öffentliche Figur.
Detaillierte Produkt-UI-Walkthroughs. Echte Bildschirmaufnahme verwenden.

~70-80% der Talking-Head-B-Roll fällt außerhalb dieser drei Kategorien — das ist der KI-Bucket.

Häufige Fallen

Generieren ohne Zeitstempel zuerst. Verschwendet Generation-Budget.

Farbtemperatur ignorieren. Das größte KI-Tell.

Über-Prompten. Marketing-Adjektive ("cinematic, masterpiece, 8K") sind Rauschen.

Hard Cuts überall. 4-Frame-Dissolve ist der Unterschied.

Bewegungsintensität nicht passend. Locked-off A-Roll vs handheld B-Roll = nicht dasselbe Video.

Wie Genra in diesen Workflow passt

Genra: Batch-Generation (25-40 Prompts in einer Session, gemeinsamer Stil-Block), Markenasset-Bibliothek (Stil-Anker über Episoden), Seitenverhältnis-Kontrolle (16:9 und 9:16 aus derselben Prompt), Bewegungsintensitäts-Regler. 40 kostenlose Credits ohne Karte. Bei genra.ai starten.

Wichtigste Erkenntnisse

A-Roll-Timeline zuerst markieren.
Prompt-Formel: Verb+Subjekt, Kameraführung, Dauer+Bewegung.
Konsistenz-Checkliste: Farbtemperatur, Licht, Linse, Korn.
Reinschnitt: Platz, Trim, 4-Frame-Dissolve, Color-Match, Volumen-Duck.
Nicht für reale Momente, erkennbare Personen, Produkt-UI.
4-6 Stunden für 10-Minuten-Video. 5-10x schneller.
Hard Cuts überall = Naht sichtbar.

Häufig gestellte Fragen

Wie realistisch sieht KI B-Roll 2026 aus?

Für Umgebungen, Hände, Objekte, abstrakte Visuals: nicht von Stock-Footage zu unterscheiden bei 80%+ der Cuts mit Formel und Stil-Match. Erkennbare Personen und spezifische UI bleiben unterscheidbar.

Kommerzielle Nutzung?

Ja meistens. Lizenzbedingungen prüfen. Keine identifizierbaren echten Personen oder Marken-IPs ohne Rechte.

Welche Länge pro Clip?

3-6 Sekunden. Etablisher 8-12 Sekunden. Etwas länger generieren, im Edit trimmen.

Stil über einen YouTube-Kanal hinweg?

Master-Stil-Block einmalig bauen, in jeder Episode wiederverwenden — wie ein DP über alle Episoden.

Selbe KI für A- und B-Roll?

Meist nicht. A-Roll ist echtes Material, KI nur für Cutaway-Layer.

Wie unterscheidet sich Genra?

Batch-Prompts + Stil-Block in einem Brief, Markenbibliothek über Episoden, zuverlässige Bewegungs-Kontrolle. 40 Credits gratis.

Über den Autor
Das Genra-AI-Team baut Tools für Creators und Unternehmen. @GenraAI.