Wie man mit Gemini 3 und Veo 3.1 Videos in Kinoqualität erstellt.

Letzte Aktualisierung: Februar 14
  • Mit der in Gemini integrierten Funktion Veo 3.1 können Sie kurze Videos in 720p, 1080p und 4K mit nativem Audio und einer großen Auswahl an filmischen Stilen erstellen.
  • Um wirklich professionelle Ergebnisse zu erzielen, ist es entscheidend, die folgenden Vorgaben zu beherrschen: Motiv, Handlung, Stil, Kamera, Umgebung und mögliche Referenzbilder.
  • Flow und Flow TV sind ideale Werkzeuge, um sich inspirieren zu lassen, echte Vorgaben zu sehen und die Erstellung von Social-Media-tauglichen Clips zu beschleunigen.
  • Derzeit ist der vollständige Zugriff auf Veo 3.1 und die Videogenerierung mit Gemini auf kostenpflichtige Abonnements und in vielen Fällen auf Benutzer in den Vereinigten Staaten beschränkt.

filmische Videos mit Gemini 3

Die Kombination von Gemini 3 mit den Videomodellen Veo 3 und Veo 3.1. Das hat dazu geführt, dass plötzlich alle angefangen haben, epische Clips in den sozialen Medien zu teilen, wie zum Beispiel neue filmische Videos mit KIWenn auch Sie mitmachen und Aufnahmen machen wollen, die aussehen, als kämen sie aus einem Blockbuster, brauchen Sie mehr als nur ein paar Zeilen in das Textfeld zu schreiben: Sie müssen wirklich verstehen, wie diese Technologie funktioniert und wie Sie mit ihr kommunizieren, damit sie das tut, was Sie wollen.

In den folgenden Zeilen finden Sie einen sehr ausführlichen Leitfaden in spanischer Sprache und in freundlichem Ton.Hier wird praktisch alles zusammengefasst, was in Googles offizieller Dokumentation, in X-Threads und in spezialisierten Tutorials erklärt wird: von der Art und Weise, wie man über Gemini auf Veo 3 zugreift, bis hin zur Verwendung von Referenzbildern, der Steuerung des Seitenverhältnisses, dem Experimentieren mit Audio und der Nutzung von Flow und Flow TV, um (legal) die besten Prompts zu stehlen.

Was ist Veo 3.1 und wie passt es zu Gemini 3?

Videos erstellen mit Gemini 3

Veo 3.1 ist Googles Videomodell der nächsten Generation.Es wurde entwickelt, um sehr kurze, aber qualitativ hochwertige Videoclips mit Auflösungen bis zu 4K und nativ generiertem Ton zu erstellen. Der Clou: Sie können es programmatisch über die Gemini-API oder – je nach Ihrem Abonnement – ​​direkt über die Gemini-Oberfläche in Ihrem Browser steuern.

Dieses Modell ist für Szenen von etwa 8 Sekunden optimiert.Es läuft mit 24 Bildern pro Sekunde und bietet drei Hauptauflösungen: 720p, 1080p und 4K. Je höher die Auflösung, desto länger dauert die Videogenerierung und desto teurer wird die API-Nutzung. Berücksichtigen Sie dies also, wenn Sie planen, viel Content zu produzieren.

Eine der wichtigsten Verbesserungen von Veo 3.1 im Vergleich zu früheren Versionen Es beherrscht verschiedene visuelle Stile hervorragend: filmischen Realismus, Film-Noir-Ästhetik, 3D-Animationen im Cartoon-Stil, surreale Videos… und all dies kombiniert mit glaubwürdigen Kamerabewegungen, Tiefenschärfe, Lichteffekten und einem Ton, der hervorragend zur Szene passt.

Aus technischer Sicht ist Veo 3.1 in die Gemini-Modellfamilie integriert. über spezifische Endpunkte (z. B. vea-3.1-generate-preview und dessen Fast-Variante). Dies ermöglicht es Entwicklern, Text, Bilder oder sogar Videovorschauen als Eingabe zu übergeben und pro Anfrage einen einzelnen Ausgabeclip mit eingebettetem Audio zu erhalten.

Formate, Seitenverhältnis und Auflösung für Ihre Videos

Veo 3.1 arbeitet mit zwei grundlegenden Seitenverhältnissen.Horizontal 16:9 (das klassische YouTube- oder Breitbild-Kinoformat) und vertikal 9:16 (der Standard für TikTok, Reels und Shorts). Sie können dies über eine Einstellung des Seitenverhältnisses in der API oder durch Auswahl des entsprechenden Modus in den Benutzeroberflächen, die dies unterstützen, festlegen.

Hinsichtlich der Auflösung ermöglicht das Modell die Erzeugung von Videos in 720p, 1080p und 4K.Der Standardmodus ist üblicherweise 720p, der auch für Videoverlängerungen verwendet wird (wenn Sie einen bereits erstellten Clip verlängern). 1080p und 4K sind verfügbar, jedoch erst ab einer Dauer von 8 Sekunden, wodurch sich Kosten und Latenz deutlich erhöhen.

Die Länge des Videos ist ein weiterer Faktor, den Sie bei der Gestaltung Ihrer Aufforderungen berücksichtigen sollten.Veo 3.1 arbeitet primär mit 4-, 6- oder 8-Sekunden-Clips, obwohl in der Praxis fast jeder mit 8 Sekunden arbeitet, um das Beste aus der Szene herauszuholen, die maximale Auflösung zu nutzen und Funktionen wie Referenzbilder oder Erweiterungen verwenden zu können.

Die grundlegenden Parameter, die Sie in API-Aufrufen anpassen können. Dazu gehören: der beschreibende Text (Aufforderung), ein optionales Ausgangsbild, zusätzliche Referenzbilder, ein Vorschauvideo zur Erweiterung, das Seitenverhältnis, die Dauer in Sekunden, die Auflösung und spezifische Steuerelemente für die Generierung von Personen (mit regionsabhängigen Einschränkungen).

Text zu Video: Wie man Zwillinge (Typ 3) dazu anregt, über Filme nachzudenken

Die überwiegende Mehrheit der großartigen Clips, die man in den sozialen Medien sieht, beginnt mit einer guten Textvorlage.Es genügt nicht, einfach nur „eine wunderschöne futuristische Stadt“ zu schreiben; wenn sie wie eine Filmszene aussehen soll, muss man dem Modell beibringen, gleichzeitig wie ein Kameramann und ein Filmemacher zu denken.

Die Dokumentation von Veo hebt einige Schlüsselelemente hervor, die in nahezu allen Ihren Anweisungen vorkommen sollten.: das Hauptmotiv (Person, Tier, Objekt, Landschaft), die von ihm ausgeführte Handlung, der gewünschte visuelle Stil, die Positionierung und Bewegung der Kamera, die Komposition des Bildausschnitts, die Objektiveffekte sowie die Farb- und Lichtumgebung.

Zum Beispiel anstelle einer allgemeinen Formulierung Was den „Mann, der telefoniert“ angeht, wäre folgende Beschreibung angebracht: eine filmische Nahaufnahme, ein verzweifelter Mann in einem grünen Mantel, der eine Wählscheibe wählt; grünes Neonlicht wirft Schatten auf eine Backsteinmauer; die geringe Schärfentiefe betont die Anspannung in seinem Gesicht und verschwimmt den Hintergrund mit den Lichtern der Stadt. Dieser Unterschied im Detailgrad führt direkt zu einem deutlichen Qualitätssprung im resultierenden Video.

Es ist außerdem ratsam, Begriffe hinzuzufügen, die speziell für die audiovisuelle Sprache gelten.: Luftaufnahme, Kamera auf Augenhöhe, Dollyfahrt, extreme Nahaufnahme, Weitwinkelaufnahme, Handkamera, langsame Kamerafahrt, Makroobjektiv, Weitwinkel, weiche Unschärfe… Je mehr Ihre Anweisung einer technischen Drehbuchbeschreibung ähnelt, desto besser.

  Gemini bei OCI Generative AI: Was sich für Oracle-Kunden ändert

Bilder zu Video: vom Standbild zur bewegten Szene

Neben Text ermöglicht Veo 3.1 auch die Verwendung von Bildern als Ausgangsbild., etwas, das sich ideal zum Animieren von Illustrationen, Produktfotos, Gemälden oder Renderings eignet, die mit anderen Bildmodellen wie Gemini 2.5 Flash Image (in einigen Google-Beispielen auch Nano Banana genannt) erstellt wurden.

Die übliche Vorgehensweise besteht darin, zunächst ein sehr ausgefeiltes Bild zu erstellen. Das Bild stellt den Vordergrund Ihrer Szene dar (zum Beispiel eine Makroaufnahme von winzigen Surfern, die in einem Steinwaschbecken Wellen reiten, während ein antiker Wasserhahn Schaum erzeugt). Dieses Bild wird dann zusammen mit einer Anweisung an Veo 3.1 übergeben. Diese Anweisung beschreibt, wie sich die Kamera bewegen soll, welche Elemente sich verändern und welche Atmosphäre und welchen Klang Sie erzeugen möchten.

Das Modell verwendet dieses Bild als Boot-Frame. Daraus wird ein kurzer Clip generiert, der die Details animiert: das fließende Wasser, die sich bewegenden Surfer, die sich langsam drehende Kamera, den Glanz des Metalls usw. Es ist eine sehr leistungsstarke Methode, um frühere Arbeiten mit Bildgenerierungswerkzeugen zu nutzen.

Bitte beachten Sie, dass Veo 3.1 nur bis zu drei Referenzbilder pro Anfrage unterstützt. Bestimmte Funktionen, wie die gleichzeitige Verwendung von Referenzbildern und hohen Auflösungen, erfordern eine Dauer von 8 Sekunden. Wenn Sie mehrere Bilder kombinieren (z. B. Gesicht, Kleidung und Accessoires), versucht das Modell, alle diese Elemente im Endergebnis beizubehalten.

Referenzbilder und visuelle Stilsteuerung

Eine der größten Stärken von Veo 3.1 ist die Möglichkeit, spezielle Referenzbilder zu verwenden.Diese Referenzen, die sich vom Ausgangsbild, das als erstes Bild dient, unterscheiden, tragen dazu bei, ein einheitliches Erscheinungsbild für Charaktere, Produkte oder Schlüsselelemente im gesamten Video zu gewährleisten.

Sie können bis zu drei Referenzbilder hochladen.Diese Elemente interpretiert das System als visuelle „Zutaten“: beispielsweise ein bestimmtes Kleid, das Gesicht einer Frau und eine bestimmte Brille. Veo sorgt dafür, dass die Figur in dem generierten Clip diese Kleidung, Gesichtszüge und Accessoires beibehält, selbst wenn sich Szene, Umgebung oder Aufnahmetyp ändern.

Diese Technik ist besonders nützlich, wenn man Variationen desselben Protagonisten erstellen möchte. (für Werbung, Markencontent, wiederkehrende Charaktere usw.), ohne dass jedes Video völlig anders aussieht. In den offiziellen Beispielen sieht man, wie die Anspielung auf einen Tiefseefisch mit einem Prinzessinnenkostüm für Kinder kombiniert wird, um eine animierte Version des Fisches zu erzeugen, der verkleidet mit einem Zauberstab wedelt.

Darüber hinaus enthält Veo 3.1 einen Modus, in dem Sie das erste und letzte Frame definieren können.In diesem Fall werden zwei Bilder übergeben: ein Anfangsbild und ein Endbild. Das Modell erstellt eine Interpolation, die beide verbindet und somit nicht nur den Startpunkt, sondern auch das Ende der Szene steuert (zum Beispiel ein von einer Katze gesteuertes Auto, das schließlich über eine Klippe stürzt).

Videos verlängern: Die Handlung ausdehnen, ohne den Stil zu verändern

Ein weiteres exklusives Merkmal von Veo 3.1 ist die Videoerweiterung., wodurch Sie einen bereits mit Veo generierten Clip nehmen und einige weitere Sekunden hinzufügen können, und zwar so, dass es mit dem Geschehen am Ende übereinstimmt.

Gemäß den aktuellen Spezifikationen kann ein Video jeweils um etwa 7 Sekunden verlängert werden.Bis zu 20 Mal hintereinander, vorausgesetzt, der Originalclip ist nicht länger als 141 Sekunden, hat eine Auflösung von 720p und ein Seitenverhältnis von 16:9 oder 9:16. Das Ergebnis ist eine einzelne Datei von bis zu 148 Sekunden Länge, die das ursprüngliche Filmmaterial und das neu generierte Segment kombiniert.

Damit die Erweiterung ordnungsgemäß funktioniert, ist es unerlässlich, dass die letzte Sekunde des Eingangsvideos die Aktion oder den Ton enthält, die/den Sie fortsetzen möchten.Wenn beispielsweise ein Voiceover vor der letzten Sekunde abbricht, hat das Modell Schwierigkeiten, es natürlich fortzusetzen. Ähnliches gilt für Soundeffekte.

Aus Anwendersicht erfolgt die Erweiterung durch Übergabe des Originalvideos als Parameter. (Bezugnahme auf einen bereits von der API generierten Clip, nicht auf eine beliebige Datei) zusammen mit einer neuen Textanweisung, die verdeutlicht, was als Nächstes geschehen soll: Fortsetzung eines Gleitschirmabstiegs, Erhöhung der Geschwindigkeit einer Verfolgungsjagd, Fortsetzung einer Kamerafahrt durch einen Wald usw.

Wie asynchrone Operationen bei der Videogenerierung funktionieren

Die Erstellung von Videos in der Cloud erfolgt nicht sofort.Google löst dieses Problem durch ein System von Langzeitprozessen. Wenn Sie eine Anfrage an die Gemini API senden, um mit Veo ein Video zu erstellen, erhalten Sie die Datei nicht sofort, sondern ein Operationsobjekt, das anzeigt, dass der Prozess läuft.

Die übliche Vorgehensweise besteht darin, eine Abfrageschleife zu implementieren. Der Status dieses Vorgangs wird regelmäßig überprüft, bis das entsprechende Feld dessen Abschluss anzeigt. Anschließend enthält die Antwort die URL oder Ressource des resultierenden Videos, das Sie herunterladen oder nach Bedarf weiterverarbeiten können.

Die angegebenen Latenzzeiten reichen von etwa 11 Sekunden im besten Fall bis zu mehreren Minuten während der Spitzenzeiten.Wenn Sie Veo 3.1 in Produktionsworkflows oder Endbenutzeranwendungen integrieren möchten, ist es unerlässlich, diese Zeiten gut zu verwalten, aussagekräftige Fortschrittsbalken anzuzeigen und Jobwarteschlangen zu verwalten.

Beachten Sie außerdem, dass die generierten Videos nur zwei Tage lang auf den Servern von Google gespeichert werden.Wenn Sie einen Clip später wiederverwenden oder ihn mehrfach verlängern möchten, empfiehlt es sich, eine lokale Kopie herunterzuladen und zu speichern. Beachten Sie außerdem, dass das Verweisen auf das Video in neuen Anfragen den Zwei-Tage-Zähler zurücksetzt.

  Google startet seinen Password Manager als eigenständige App auf Android

Wichtige Parameter der Veo 3.1 API und Modellvarianten

Die offizielle Veo-Parametertabelle beschreibt detailliert, was bei jedem Modell eingestellt werden kann. (Veo 3.1, Veo 3, Veo 2 und deren Fast-Varianten) und welche Datentypen die einzelnen Versionen akzeptieren. Obwohl wir die Tabelle hier nicht exakt übernehmen, lohnt es sich dennoch, die wichtigsten Felder zu betrachten.

Im Abschnitt „Instanzen“ stechen folgende Beispiele hervor: Der Textaufruf, das Ausgangsbild, das endgültige Bild für die Interpolation, die spezifischen Referenzbilder (nur in Veo 3.1) und das Eingabevideo für Erweiterungen. All diese Elemente sind als Bild- oder Videoobjekte gekapselt, die von der API verstanden und verarbeitet werden.

Zu den konfigurierbaren Parametern gehört das Seitenverhältnis. (mit 16:9 als Standard und einer Option für 9:16), die Dauer in Sekunden (feste Werte wie 4, 6 oder 8 je nach Modell), die Modi der Personengenerierung (mit klaren regionalen Einschränkungen für die EU, Großbritannien, die Schweiz und den Nahen Osten und Nordafrika) und die Ausgabeauflösung.

Hinsichtlich der Modellversionen werden Veo 3.1 und Veo 3.1 Fast im Vorschaumodus angeboten.Mit einem einzelnen Video pro Anfrage, nativer Audio-, Text- und Bildeingabe und einem Limit von ca. 1024 Text-Tokens. Veo 3 und Veo 2 gelten als stabiler, bieten aber weniger Funktionen (beispielsweise unterstützt Veo 2 keinen generierten Ton, sondern nur stumme Videos).

Die Existenz von „Fast“-Varianten ist für kommerzielle Anwendungsfälle vorgesehen. Wenn es auf Geschwindigkeit genauso ankommt wie auf hohe Qualität: Massenhafte Anzeigengenerierung, A/B-Tests von Kreativkonzepten oder Tools, die Inhalte für soziale Netzwerke nahezu in Echtzeit produzieren.

Sicherheit, Wasserzeichen und regionale Beschränkungen

Ich sehe, dass es Sicherheitsfilter und Speicherprüfungen anwendet, die mit Gemini abgestimmt sind. Um die Erstellung anstößiger, gefährlicher oder urheberrechtsverletzender Inhalte zu verhindern. Sollte die Anfrage in eine Grauzone fallen, wird sie blockiert, und Ihnen entstehen dadurch keine Kosten.

Alle generierten Videos enthalten SynthID-Wasserzeichen., eine von Google entwickelte Technologie, die unmerkliche Signale einbettet, anhand derer Nutzer erkennen können, dass Inhalte mit KI erstellt wurden und zu Initiativen wie … passen. EchtheitssiegelDiese Markierungen können später mithilfe der SynthID-Validierungsplattform überprüft werden.

Hinsichtlich der Erstellung von Personas gibt es je nach Region spezifische Kontrollmechanismen.In der Europäischen Union, im Vereinigten Königreich, in der Schweiz und in den MENA-Staaten sind die zulässigen Werte für den Parameter „Personengenerierung“ strenger: In Veo 3 sind nur bestimmte Arten der Erwachsenengenerierung zulässig, und in Veo 2 ist der Standardwert, dass keine Personen generiert werden, es sei denn, innerhalb der markierten Grenzen wird etwas anderes angegeben.

Die Speicherung von Videos wird ebenfalls reguliertJeder erstellte Clip wird maximal zwei Tage lang auf den Servern von Google gespeichert, bevor er gelöscht wird. Wenn Sie das Video innerhalb dieses Zeitraums erneut aufrufen (z. B. um die Speicherdauer zu verlängern), beginnt der Timer von neuem. Gehen Sie jedoch immer davon aus, dass die Speicherung nur temporär ist.

Wie man wirkungsvolle Drehbücher für filmische Videos schreibt

Der eigentliche „Trick“, um Veo 3.1 optimal zum Laufen zu bringen Es kommt ganz darauf an, wie gut Sie Ihre Anweisungen formulieren. Google bietet einen umfassenden Leitfaden zur Gestaltung von Video-Anleitungen an, in dem deutlich wird, dass die Details den entscheidenden Unterschied machen.

Einerseits empfehlen sie die Verwendung beschreibender und konkreter Sprache.mit Adjektiven und Adverbien, die den Tonfall definieren: fröhlich, melancholisch, beunruhigend, warm, kalt, surreal, nostalgisch, futuristisch usw. Sie ermutigen auch dazu, anzugeben, wann das Gesicht im Mittelpunkt des Bildes stehen soll, indem man Wörter wie Porträt, extreme Nahaufnahme oder Fokus auf den Gesichtsausdruck verwendet.

Andererseits schlagen sie vor, die Idee in Teile zu zerlegen.Dies hilft dem Modell, die kreativen Prioritäten zu verstehen und sich nicht zu verlieren. Welches Motiv erscheint, welche Handlung führt es aus, welcher filmische Stil ist gewünscht, wie bewegt sich die Kamera, wie ist die Einstellung komponiert, welcher Objektivtyp wird simuliert und welche Licht- und Farbatmosphäre dominiert die Szene.

Darüber hinaus ist es möglich, mithilfe von „negativen Anweisungen“ Elemente anzugeben, die Sie nicht sehen möchten.Google trifft hier jedoch eine interessante Unterscheidung: Anstatt Befehle wie „Es werden keine Gebäude angezeigt“ zu schreiben, ist es vorzuziehen, die auszuschließenden Konzepte zu beschreiben (z. B. städtischer Hintergrund, künstliche Strukturen, bedrohliche Atmosphäre), damit das Modell weiß, was es vermeiden soll, ohne durch explizite Negationen verwirrt zu werden.

Audio, Dialoge und Soundeffekte mit Veo 3

Mit Veo 3 ist die Klangerzeugung keine externe Zusatzfunktion mehr. und wird in das Videomodell selbst integriert. Sie können Dialoge, Soundeffekte und Umgebungsgeräusche direkt im Prompt festlegen, und das System versucht, diese mit dem visuellen Geschehen zu synchronisieren.

Googles Empfehlung lautet, wörtliche Rede in Anführungszeichen zu setzen. Die Figuren sollen die Sätze deutlich aussprechen, sodass klar ist, wer spricht und in welchem ​​Tonfall. Zum Beispiel: „Das muss der Schlüssel sein“, murmelte er, oder Frau: (angespannt) „Also, was ist es?“ Solche Regieanweisungen tragen zu einer einheitlichen Intonation bei.

Für Soundeffekte (SFX) sind explizite Beschreibungen erforderlich.Quietschende Reifen, aufheulender Motor, Schritte auf nassem Boden, knackende Äste, zuschlagende Türen usw. Ähnlich verhält es sich mit Umgebungsgeräuschen: Hier ist es hilfreich, die allgemeine Klangkulisse zu beschreiben: ein konstantes elektrisches Summen, vereinzelte Vögel in der Ferne, Stadtrauschen, sanftes Hintergrundrauschen.

  NotebookLM und die neuen KI-gestützten filmischen Videos

Wenn Sie jedoch ein Video verlängern, kann das Modell die Stimme nur dann verlängern, wenn diese Stimme im letzten Teil des Originalclips vorkommt.Wenn der Satz vor diesem letzten Segment endet, hat das System nicht genügend Grundlage, ihn natürlich fortzusetzen. Daher funktioniert es in der Regel besser mit Umgebungsgeräuschen und Musik als mit Dialogen, die den Inhalt ändern.

Flow, Flow TV und wie man durch das Nachahmen realer Anweisungen lernt

Über die API hinaus fördert Google eine kreative Umgebung namens Flow.Flow, die Weiterentwicklung eines früheren Experiments namens VideoFX, wird Abonnenten von Google AI Pro und Google AI Ultra in den Vereinigten Staaten angeboten und ist auf die Erstellung interaktiver Videos mit KI-Tools ausgerichtet, einschließlich des frühen Zugriffs auf Veo 3 mit nativem Audio.

Eines der interessantesten Merkmale beim Erlernen des Verfassens guter Schreibanregungen Es handelt sich um Flow TV, einen Bereich, in dem Sie eine Art Kanal mit Videos ansehen können, die mit Flow erstellt wurden. Der Clou dabei ist, dass Sie die Anweisungen sehen können, die zur Erstellung jedes Clips verwendet wurden. So können Sie studieren, wie die Anweisungen aufgebaut sind, die die besten Ergebnisse liefern.

Mehrere Kreative sagen, dies sei eine der besten Möglichkeiten, sich schnell zu verbessern.: Schau dir Videos an, die dir gefallen, lies den Text, der ihnen zugrunde liegt, und passe diese Struktur an deine eigenen Ideen an, indem du Szenarien, Charaktere oder Stile veränderst, aber den Detailreichtum und die Logik der Beschreibung beibehältst.

Darüber hinaus nutzen einige Nutzer Gemini, um eingehende Recherchen durchzuführen. Es geht um Techniken zur Eingabe von Tipps, das Sammeln von Hinweisen und die anschließende Erstellung visueller Infografiken durch das Modell, die die besten Vorgehensweisen zusammenfassen. Dies ist eine weitere interessante Möglichkeit, Gemini und Veo als kreative Lernwerkzeuge und nicht nur als Generierungsmaschinen einzusetzen.

Anforderungen und Vorgehensweise zum Testen von Videos mit Gemini außerhalb der Vereinigten Staaten

Aktuell ist die Videogenerierung mit Gemini unter Verwendung von Veo 3 noch nicht für alle verfügbar.Google selbst weist darauf hin, dass diese Funktion derzeit nur Nutzern bestimmter kostenpflichtiger Abonnements in den USA angeboten wird, was viele Kreative aus anderen Ländern dazu gezwungen hat, nach Abkürzungen zu suchen.

Um Veo 3 über die Gemini-Weboberfläche zu testen, benötigen Sie zwei grundlegende Dinge.: ein aktives Abonnement von Google AI Pro (oder ein gleichwertiges Abonnement, das Zugriff auf die neuesten Videofunktionen bietet) und eine Verbindung, die sich scheinbar in den Vereinigten Staaten befindet, in der Regel über ein seriöses VPN.

Die in vielen Anleitungen empfohlene Vorgehensweise besteht darin, sich über ein VPN mit einem US-Server zu verbinden.Um auf Gemini zuzugreifen, öffnen Sie die Seite in Ihrem Browser (diese Funktion ist in den mobilen Apps derzeit nicht verfügbar) und suchen Sie nach dem Video-Button oben in der Benutzeroberfläche. Manchmal blinkt dieser Button kurz auf oder verschwindet schnell wieder. Daher laden viele Nutzer die Seite neu und halten den Mauszeiger bereit, um sofort darauf zu klicken, sobald der Button erscheint.

Sobald die Option aktiviert ist, müssen Sie nur noch den Clip beschreiben, den Sie erstellen möchten.Da das System ein etwa 8 Sekunden langes Video im 720p-MP4-Format erzeugt, ist es ratsam, nicht zu viele Aktionen in diese kurze Zeit zu packen, sondern sich stattdessen auf eine einzelne, klar definierte Szene mit einem eindeutigen visuellen Stil zu konzentrieren.

Einigen Nutzern zufolge ist die Anzahl der Videos, die man pro Woche erstellen kann, begrenzt.Obwohl Google dies nicht besonders prominent bewirbt, gibt es Berichte über etwa 10 bis 12 wöchentliche Neuzugänge innerhalb bestimmter Tarife. Daher sollten Sie Ihre Versuche sorgfältig planen und, wenn möglich, Ihre Vorschläge verfeinern, bevor Sie eine neue Generation nutzen.

Google plant KI und Zusammenarbeit mit Filmemachern

Google nutzt die Abonnementpläne AI ​​Pro und AI Ultra als Zugang zu diesen erweiterten Funktionen.AI Pro bietet Zugriff auf wichtige Flow-Funktionen und eine monatliche Anzahl von Kreationen (in manchen Fällen beispielsweise rund 100 pro Monat), während AI Ultra die Grenzen erhöht und einen frühen Zugriff auf Veo 3 mit nativem Audio ermöglicht.

Parallel dazu arbeitet das Unternehmen mit professionellen Filmemachern zusammen. Um zu verstehen, wie KI in reale audiovisuelle Produktionsabläufe integriert werden kann, ist es wichtig zu verstehen, wie Regisseure wie Dave Clark Google-Tools und andere KI-Lösungen für ihre Kurzfilme genutzt und dabei mit einer Mischung aus traditionellen Drehtechniken und KI-generierten Aufnahmen experimentiert haben.

Das erklärte Ziel ist es, einer neuen Generation von Kreativen die Möglichkeit zu geben, ihre Geschichten mit weniger technischen und wirtschaftlichen Hürden zu erzählen.Durch den Einsatz von KI sowohl für schnelle Vorschauen als auch für finale Sequenzen hat Google ausgewählten Filmemachern frühzeitig Zugang zu Flow gewährt, damit diese Feedback sammeln und das Tool verfeinern sowie an die Sprache und Bedürfnisse der Branche anpassen können.

Dieser hybride Ansatz erklärt, warum Veo 3.1 so viele Bezüge zur Kamerasprache und zu klassischen Filmstilen enthält.Die Idee besteht nicht nur darin, schöne Videos für soziale Medien zu erstellen, sondern eine ausreichend feine Kontrolle über Komposition, Bewegung und Atmosphäre zu bieten, um in ernstere narrative Projekte integriert werden zu können.

Unter Berücksichtigung all dessen wird deutlich, dass die Erstellung filmischer Videos mit Gemini 3 und Veo 3.1 Es geht nicht so sehr darum, einen Knopf zu drücken, sondern vielmehr darum, zu lernen, wie ein Filmteam zu denken und zu schreiben, komprimiert auf eine einzige Anweisung: Wenn man das Seitenverhältnis, die Modellparameter, Referenzbilder, den Ton und vor allem die genaue Beschreibung von Szenen beherrscht, werden die 8 Sekunden jedes Clips zu einer überraschend wirkungsvollen Leinwand, um Geschichten zu erzählen und die eigene Ästhetik zu entwickeln, sei es für persönliche Projekte, soziale Medien oder sogar größere professionelle Arbeiten.

NotebookLM KI-gestützte Kinovideos
In Verbindung stehender Artikel:
NotebookLM und die neuen KI-gestützten filmischen Videos