- Veo 3.1 integrert i Gemini lar deg generere korte videoer i 720p, 1080p og 4K med innebygd lyd og et bredt utvalg av filmatiske stiler.
- For å oppnå virkelig profesjonelle resultater er det nøkkelen til å mestre instruksjonene: motiv, handling, stil, kamera, miljø og mulige referansebilder.
- Flow og Flow TV er ideelle verktøy for å bli inspirert, se ekte oppfordringer og få fart på produksjonen av klipp som er klare for sosiale medier.
- For øyeblikket er full tilgang til Veo 3.1 og videogenerering med Gemini begrenset til betalte abonnementer og i mange tilfeller til brukere i USA.
Kombinasjonen av Gemini 3 med videomodellene Veo 3 og Veo 3.1. Det har ført til at alle plutselig har begynt å dele episke klipp på sosiale medier, som nye filmvideoer med AIHvis du også vil være med på begivenhetenes gang og få bilder som ser ut som de er fra en storfilm, trenger du mer enn bare å skrive et par linjer i tekstboksen: du må virkelig forstå hvordan denne teknologien fungerer og hvordan du kommuniserer med den slik at den gjør det du vil.
I de følgende linjene finner du en svært komplett guide, på spansk og med en vennlig tone.Det er her praktisk talt alt som er forklart i Googles offisielle dokumentasjon, i X-tråder og i spesialiserte veiledninger er samlet: fra hvordan du får tilgang til Veo 3 gjennom Gemini, til hvordan du bruker referansebilder, kontrollerer sideforholdet, leker med lyd og presser inn Flow og Flow TV for å (lovlig) stjele de beste ledetekstene.
Hva er Veo 3.1, og hvordan passer det sammen med Gemini 3?

Veo 3.1 er Googles neste generasjons videomodellUtviklet for å generere svært korte, men høykvalitets visuelle klipp, med oppløsninger på opptil 4K og innebygd generert lyd. Det fine er at du kan kontrollere det programmatisk via Gemini API, eller direkte fra Gemini-grensesnittet i nettleseren din, avhengig av abonnementet ditt.
Denne modellen er optimalisert for scener på omtrent 8 sekunder.Den kjører med 24 bilder per sekund og tilbyr tre hovedoppløsninger: 720p, 1080p og 4K. Jo høyere oppløsning, desto lengre tid tar det å generere videoen, og desto dyrere blir det når det gjelder API-bruk, så husk det hvis du planlegger å produsere mye innhold.
En av de største forbedringene i Veo 3.1 sammenlignet med tidligere versjoner Den håndterer forskjellige visuelle stiler veldig bra: filmatisk realisme, film noir-estetikk, tegneserieaktig 3D-animasjon, surrealistiske videoer ... og alt dette kombinert med troverdige kamerabevegelser, dybdeskarphet, lyseffekter og lyd som passer ganske bra til scenen.
Teknisk sett er Veo 3.1 integrert i Gemini-modellfamilien. gjennom spesifikke endepunkter (for eksempel vea-3.1-generate-preview og dens Fast-variant). Dette lar utviklere sende tekst, bilder eller til og med forhåndsvisninger av videoer som input og motta et enkelt utgangsklipp per forespørsel, med innebygd lyd.
Formater, sideforhold og oppløsning for videoene dine
Veo 3.1 fungerer med to grunnleggende sideforholdHorisontalt 16:9 (det klassiske YouTube- eller widescreen-kinoformatet) og vertikalt 9:16 (standarden for TikTok, Reels og Shorts). Du kan angi dette ved hjelp av en innstilling for sideforhold i API-et, eller ved å velge riktig modus i grensesnittene som støtter det.
Når det gjelder oppløsning, tillater modellen generering av videoer i 720p, 1080p og 4K.Standardmodusen er vanligvis 720p, som også brukes til videoforlengelser (når du forlenger et klipp du allerede har laget). 1080p og 4K er tilgjengelige, men bare når varigheten er 8 sekunder eller lenger, og kostnaden og ventetiden øker betydelig.
Lengden på videoen er en annen faktor du må huske på når du utformer oppgavene dine.Veo 3.1 fungerer primært med klipp på 4, 6 eller 8 sekunder, selv om nesten alle i praksis jobber med 8 sekunder for å få mest mulig ut av scenen, dra nytte av maksimal oppløsning og kunne bruke funksjoner som referansebilder eller utvidelser.
De grunnleggende parameterne du kan justere i API-kall Disse inkluderer: beskrivende tekst (ledetekst), et valgfritt startbilde, ekstra referansebilder, en forhåndsvisningsvideo for å utvide den, sideforholdet, varigheten i sekunder, oppløsningen og spesifikke kontroller for å generere personer (med begrensninger avhengig av regionen).
Tekst til video: hvordan be Gemini 3 om å tenke på filmer
De aller fleste episke klipp du ser på sosiale medier starter med en god tekstprompt.Det er ikke nok å skrive «en vakker futuristisk by»; hvis du vil at det skal se ut som en filmscene, må du lære modellen å tenke som en filmfotograf og en filmskaper samtidig.
Veos dokumentasjon vektlegger flere viktige elementer som bør vises i nesten alle instruksjonene dine.hovedmotivet (person, dyr, objekt, landskap), handlingen det utfører, ønsket visuell stil, kameraets plassering og bevegelse, bildets komposisjon, linseeffekter og farge- og lysmiljøet.
For eksempel, i stedet for et generisk uttrykk Når det gjelder «mann som snakker i telefonen», er det verdt å spesifisere noe slikt som dette: et filmatisk nærbilde, en desperat mann i grønn frakk som ringer en telefon med nummerskive, grønt neonlys som kaster skygger på en murvegg, et veldig grunt fokus som fremhever spenningen i ansiktet hans og visker ut en bakgrunn av bylys. Denne forskjellen i detaljnivå oversettes direkte til et sprang i kvaliteten på den resulterende videoen.
Det er også lurt å legge til termer som er spesifikke for audiovisuelt språk.: luftfoto, kamera i øyehøyde, dolly shot, ekstrem nærbilde, vidvinkel, håndholdt kamera, sakte sporingsbilde, makroobjektiv, vidvinkel, myk uskarphet… Jo mer oppgaven din ligner en teknisk manusbeskrivelse, desto bedre ser jeg.
Bilder til video: fra et stillbilde til en bevegelig scene
I tillegg til tekst tillater Veo 3.1 bruk av bilder som startramme., noe som er ideelt for animering av illustrasjoner, produktfotografier, malerier eller gjengivelser laget med andre bildemodeller som Gemini 2.5 Flash Image (kallenavnet Nano Banana i noen Google-eksempler).
Den typiske tilnærmingen er å først lage et veldig polert bilde som representerer forgrunnen i motivet ditt (for eksempel et makrobilde av små surfere som rir på bølger inne i en steinvask, med en antikk kran som lager skum). Deretter sendes bildet til Veo 3.1 sammen med en ledetekst som beskriver hvordan kameraet skal bevege seg, hvilke elementer som endres, og hvilken atmosfære og lyd du sikter mot.
Modellen bruker det bildet som en oppstartsramme Derfra genererer den et kort klipp som animerer detaljene: det rennende vannet, surferne i bevegelse, det sakte roterende kameraet, metallets glimt, osv. Det er en veldig kraftig måte å utnytte tidligere arbeid du har gjort med bildegenereringsverktøy.
Vær oppmerksom på at Veo 3.1 kun støtter opptil tre referansebilder per forespørsel. Og visse funksjoner, som samtidig bruk av referanser og høye oppløsninger, krever at varigheten settes til 8 sekunder. Hvis du kombinerer flere bilder (for eksempel ansikt, klær og tilbehør), vil modellen prøve å beholde alle disse elementene i det endelige resultatet.
Referansebilder og visuell stilkontroll
En av de store styrkene til Veo 3.1 er muligheten til å bruke dedikerte referansebilder.Disse referansene, som er forskjellige fra det første bildet som fungerer som første ramme, bidrar til å opprettholde et konsistent utseende for karakterer, produkter eller nøkkelelementer gjennom hele videoen.
Du kan laste opp opptil tre referansebildersom systemet tolker som visuelle «ingredienser»: for eksempel en spesifikk kjole, et kvinneansikt og et bestemt par briller. Veo vil forsøke å sikre at karakteren beholder disse klærne, ansiktstrekkene og tilbehøret i det genererte klippet, selv om scenen, miljøet eller opptakstypen endres.
Denne teknikken er spesielt nyttig når du vil lage variasjoner av den samme hovedpersonen. (for annonser, merkevareinnhold, tilbakevendende karakterer osv.) uten at hver video ser helt annerledes ut. I de offisielle eksemplene kan du se hvordan referansen til en dyphavsfisk kombineres med et prinsessekostyme for barn for å generere en animert versjon av fisken utkledd og viftende med en tryllestav.
I tillegg inkluderer Veo 3.1 en modus der du kan definere første og siste ramme.I så fall sendes to bilder: et initialt og et siste, og modellen lager en interpolasjon som forbinder begge, og kontrollerer dermed ikke bare startpunktet, men også hvordan scenen slutter (for eksempel en bil kjørt av en katt som ender opp med å kjøre av gårde over en klippe).
Forlenge videoer: forlenge handlingen uten å bryte stilen
En annen eksklusiv funksjon i Veo 3.1 er videoutvidelsen, som lar deg ta et klipp som allerede er generert med Veo og legge til noen sekunder til på en måte som er i samsvar med det som skjedde på slutten.
I henhold til gjeldende spesifikasjoner kan du forlenge en video med omtrent 7 sekunder om gangen.Opptil 20 ganger på rad, forutsatt at det originale klippet ikke overstiger 141 sekunder, har 720p-oppløsning og et sideforhold på 16:9 eller 9:16. Resultatet er en enkelt fil på opptil 148 sekunder som blander det opprinnelige opptaket og det nylig genererte segmentet.
For at utvidelsen skal fungere ordentlig, er det viktig at det siste sekundet av innspillingsvideoen inneholder handlingen eller lyden du vil fortsette.Hvis for eksempel en voiceover avbrytes før siste sekund, vil modellen ha problemer med å forlenge den naturlig. Noe lignende skjer med lydeffekter.
Fra et bruksperspektiv utføres utvidelsen ved å sende den originale videoen som en parameter. (refererer til et klipp som allerede er generert av API-et, ikke en vilkårlig fil) sammen med en ny tekstinstruksjon som tydeliggjør hva som skal skje videre: fortsette en paragliding-nedstigning, øke hastigheten på en jakt, fortsette et sporingsbilde gjennom en skog, osv.
Hvordan asynkrone operasjoner fungerer i videogenerering
Det er ikke umiddelbart å lage video i skyenGoogle håndterer dette gjennom et system med langvarige jobber. Når du sender en forespørsel til Gemini API om å lage en video med Veo, mottar du ikke filen umiddelbart, men snarere et operasjonsobjekt som indikerer at jobben pågår.
Standard arbeidsmåte er å implementere en avstemningsløkke Den vil jevnlig sjekke statusen til operasjonen inntil det tilsvarende feltet indikerer at den er fullført. På det tidspunktet vil svaret inkludere URL-en eller ressursen til den resulterende videoen, som du kan laste ned eller behandle etter behov.
De annonserte latensene varierer fra omtrent 11 sekunder i beste fall til flere minutter i rushtiden.Hvis du vil integrere Veo 3.1 i produksjonsarbeidsflyter eller sluttbrukerapplikasjoner, er det viktig å håndtere disse tidene godt, vise rimelige fremdriftsindikatorer og administrere jobbkøer.
Husk også at de genererte videoene bare lagres på Googles servere i to dager.Hvis du planlegger å bruke et klipp på nytt senere eller utvide det flere ganger, anbefales det å laste ned og lagre en lokal kopi, eller huske på at referanse til videoen i nye forespørsler nullstiller todagerstelleren.
Viktige parametere for Veo 3.1 API og modellvarianter
Den offisielle Veo-parametertabellen beskriver hva som kan justeres i hver modell. (Veo 3.1, Veo 3, Veo 2 og deres Fast-varianter), og hvilke datatyper hver enkelt godtar. Selv om vi ikke kopierer tabellen nøyaktig slik den er her, er det fortsatt verdt å se gjennom de mest relevante feltene.
I delen «forekomster» skiller følgende seg ut: Tekstmeldingen, det første bildet, det endelige bildet for interpolering, de spesifikke referansebildene (kun i Veo 3.1) og inngangsvideoen for utvidelser. Alle disse er innkapslet som bilde- eller videoobjekter som API-et forstår og behandler.
Konfigurerbare parametere inkluderer sideforhold (med 16:9 som standard og et alternativ for 9:16), varigheten i sekunder (faste verdier som 4, 6 eller 8 avhengig av modellen), persongenereringsmodusene (med klare regionale begrensninger for EU, Storbritannia, Sveits og MENA) og utgangsoppløsningen.
Når det gjelder modellversjonene, tilbys Veo 3.1 og Veo 3.1 Fast i forhåndsvisningsmodus.Med én video per forespørsel, innebygd lyd, tekst og bildeinndata, og en omtrentlig grense på 1024 teksttokener. Veo 3 og Veo 2 regnes som mer stabile, men med færre funksjoner (for eksempel inkluderer ikke Veo 2 generert lyd, bare lydløse videoer).
Eksistensen av "raske" varianter er ment for kommersielle brukstilfeller. der hastighet er like viktig som å opprettholde et høyt kvalitetsnivå: massiv annonsegenerering, A/B-testing av kreative konsepter eller verktøy som produserer innhold for sosiale nettverk i nær sanntid.
Sikkerhet, vannmerker og regionale begrensninger
Jeg ser at den bruker sikkerhetsfiltre og minnekontroller i tråd med Gemini. For å forhindre opprettelse av støtende, farlig eller opphavsrettsbruddende innhold. Hvis instruksjonen faller inn under gråsoner, vil den bli blokkert, og du vil ikke bli belastet for forespørselen.
Alle genererte videoer inkluderer SynthID-vannmerker, en proprietær Google-teknologi utviklet for å legge inn umerkelige signaler som lar brukere identifisere at innhold ble laget med AI og passer inn i initiativer som autentisitetsetiketterDisse merkene kan verifiseres senere ved hjelp av SynthID-valideringsplattformen.
Når det gjelder opprettelse av personaer, finnes det spesifikke kontroller avhengig av regionen.I EU, Storbritannia, Sveits og MENA-landene er de tillatte verdiene for parameteren for persongenerering strengere: i Veo 3 er bare visse typer voksengenerering tillatt, og i Veo 2 er standardverdien å ikke generere personer, med mindre annet er angitt innenfor de markerte grensene.
Videolagring er også regulertAlle genererte klipp lagres på Googles servere i maksimalt to dager før de slettes. Hvis du bruker videoen igjen i løpet av denne perioden (for eksempel for å forlenge den), starter timeren på nytt, men du bør alltid anta at lagringen er midlertidig.
Hvordan skrive effektive oppgaver til filmvideoer
Det virkelige «trikset» for å få Veo 3.1 til å yte sitt beste Det handler om hvor godt du skriver instruksjonene dine. Google tilbyr en komplett guide til utforming av videoprompter der det er veldig tydelig at detaljene utgjør hele forskjellen.
På den ene siden anbefaler de å bruke beskrivende og konkret språkmed adjektiver og adverb som definerer tonen: munter, melankolsk, urovekkende, varm, kald, surrealistisk, vintage, futuristisk osv. De oppfordrer også til å spesifisere når du vil at ansiktet skal være i fokus i bildet, ved å bruke ord som portrett, ekstrem nærbilde eller fokus på ansiktsuttrykk.
På den annen side foreslår de å dele opp ideen i delerDette hjelper modellen med å forstå de kreative prioriteringene og unngå å gå seg vill. Hvilket motiv vises, hvilken handling de utfører, hvilken filmstil som er ønsket, hvordan kameraet beveger seg, hvordan bildet er komponert, hvilken type objektiv som simuleres, og hvilken lys- og fargeatmosfære som dominerer scenen.
I tillegg er det mulig å bruke «negative instruksjoner» for å indikere elementer du ikke vil se.Google gjør imidlertid et merkelig skille her: i stedet for å skrive kommandoer som «ingen bygninger vises», er det å foretrekke å beskrive konseptene som skal ekskluderes (for eksempel urban bakgrunn, kunstige strukturer, truende atmosfære), slik at modellen vet hva den skal unngå uten å bli forvekslet med eksplisitte negasjoner.
Lyd, dialoger og lydeffekter med Veo 3
Med Veo 3 er ikke lenger lydgenerering et tillegg fra tredjepart. og blir integrert i selve videomodellen. Du kan spesifisere dialog, lydeffekter og omgivelsesstøy direkte i ledeteksten, og systemet vil forsøke å synkronisere dem med den visuelle handlingen.
Googles anbefaling er å bruke anførselstegn for bokstavelig tale som karakterene skal uttale, slik at det er tydelig hvem som snakker og i hvilken tone. For eksempel: «Dette må være nøkkelen», mumlet han, eller Kvinne: (spent stemme) «Så hva er det?». Denne typen sceneanvisninger bidrar til å sikre en jevn intonasjon.
Eksplisitte beskrivelser er nødvendige for lydeffekter (SFX).: skrikende dekk, brølende motor, fottrinn på vått underlag, grener som knekker, dører som smeller, osv. På samme måte er det nyttig å definere det generelle lydbildet for omgivelsesstøy: en konstant elektrisk summing, isolerte fugler i det fjerne, bymumling, milde bakgrunnsbølger.
Men når du forlenger en video, kan modellen bare forlenge stemmen hvis stemmen vises i den siste delen av det originale klippet.Hvis setningen slutter før det siste segmentet, har ikke systemet nok grunnlag til å fortsette den naturlig, så det fungerer vanligvis bedre med omgivelseseffekter og musikk enn med dialoger som endrer innhold.
Flow, Flow TV, og hvordan man lærer ved å kopiere ekte instruksjoner
Utover API-et driver Google et kreativt miljø kalt FlowFlow, som er videreutviklingen av et tidligere eksperiment kjent som VideoFX, tilbys Google AI Pro- og Google AI Ultra-abonnenter i USA og er rettet mot interaktiv videoproduksjon med AI-verktøy, inkludert tidlig tilgang til Veo 3 med innebygd lyd.
En av de mest interessante funksjonene for å lære å skrive gode oppgaver Det er Flow TV, en seksjon der du kan se en slags kanal med videoer generert med Flow. Nøkkelen er at du kan se ledeteksten som brukes til å lage hvert klipp, slik at du kan studere hvordan instruksjonene som gir best resultat er strukturert.
Flere skapere sier at dette er en av de beste måtene å forbedre seg raskt på.Se videoer du liker, gjennomgå teksten som ga opphav til dem og tilpass strukturen til dine egne ideer, endre scenarier, karakterer eller stiler, men behold detaljrikdommen og logikken i beskrivelsen.
I tillegg benytter noen brukere seg av Gemini til å gjennomføre grundig research. på promptteknikker, samle tips og deretter be modellen om å konvertere disse rapportene til visuelle infografikk som oppsummerer beste praksis. Det er en annen interessant måte å bruke Gemini og Veo på som kreative læringsverktøy, ikke bare som generasjonsmotorer.
Krav og hvordan teste videoer med Gemini utenfor USA
Per i dag er videogenerering med Gemini ved hjelp av Veo 3 ikke tilgjengelig for alle ennå.Google indikerer selv at denne muligheten foreløpig tilbys brukere av spesifikke betalte abonnementer i USA, noe som har tvunget mange innholdsskapere fra andre land til å lete etter snarveier.
For å teste Veo 3 fra Gemini-nettgrensesnittet trenger du to grunnleggende tinget aktivt abonnement på Google AI Pro (eller en tilsvarende plan som gir tilgang til de nyeste videofunksjonene) og en tilkobling som ser ut til å være plassert i USA, vanligvis gjennom et anerkjent VPN.
Den typiske prosessen som anbefales av mange veiledninger er å koble til en amerikansk server ved hjelp av et VPNFor å få tilgang til Gemini, åpne den i nettleseren din (denne funksjonen er for øyeblikket ikke tilgjengelig i mobilappene), og se etter en Video-knapp øverst i grensesnittet. Noen ganger blinker eller forsvinner denne knappen raskt, så folk laster ofte siden på nytt og har musen klar til å klikke så snart de ser den.
Når alternativet er aktivert, trenger du bare å beskrive klippet du vil lage.Siden systemet vil generere en video på omtrent 8 sekunder i 720p MP4-format, er det best å ikke stappe inn for mange handlinger på så kort tid og i stedet fokusere på én enkelt, veldefinert scene med en tydelig visuell stil.
Ifølge noen brukere er antallet videoer du kan generere per uke begrenset.Selv om Google ikke annonserer det særlig tydelig, finnes det rapporter om rundt 10 eller 12 ukentlige kreasjoner innenfor visse planer, så du må administrere forsøkene dine nøye og, om mulig, forbedre spørsmålene dine før du bruker opp en ny generasjon.
Google AI-planer og samarbeid med filmskapere
Google bruker abonnementene AI Pro og AI Ultra som en inngangsport til disse avanserte funksjonene.AI Pro gir tilgang til viktige Flow-funksjoner og et månedlig antall kreasjoner (for eksempel rundt 100 per måned i noen tilfeller), mens AI Ultra øker grensene og åpner for tidlig tilgang til Veo 3 med innebygd lyd.
Parallelt samarbeider selskapet med profesjonelle filmskapere å forstå hvordan AI passer inn i virkelige audiovisuelle produksjonsflyter. Regissører som Dave Clark har brukt Google-verktøy og andre AI-løsninger for å filme nyere kortfilmer, og eksperimentert med en blanding av tradisjonell filming og AI-genererte bilder.
Det uttalte målet er at en ny generasjon av skapere skal kunne fortelle historiene sine med færre tekniske og økonomiske barrierer.Ved å utnytte AI for både raske forhåndsvisninger og sluttsekvenser, har Google gitt tidlig tilgang til Flow til utvalgte filmskapere, slik at de kan samle tilbakemeldinger for å forbedre verktøyet og tilpasse det til bransjens språk og behov.
Denne hybride tilnærmingen forklarer hvorfor Veo 3.1 inkluderer så mange referanser til kameraspråk og klassiske filmstiler.Ideen er ikke bare å generere vakre videoer for sosiale medier, men å tilby tilstrekkelig fin kontroll over komposisjon, bevegelse og atmosfære til å integreres i mer seriøse narrative prosjekter.
Med alt det ovennevnte i tankene er det tydelig at det å lage filmatiske videoer med Gemini 3 og Veo 3.1 Det handler ikke så mye om å trykke på en knapp som det handler om å lære å tenke og skrive som et filmteam kondensert til en prompt: Når du mestrer sideforhold, modellparametere, referansebilder, lyd og fremfor alt hvordan du beskriver scener nøyaktig, blir de 8 sekundene av hvert klipp et overraskende kraftig lerret for å fortelle historier og bygge din egen estetikk, enten det er for personlige prosjekter, sosiale medier eller enda større profesjonelle verk.