Kako stvoriti filmske videozapise s Gemini 3 i Veo 3.1

Zadnje ažuriranje: Ožujak 14, 2026
  • Veo 3.1 integriran u Gemini omogućuje vam generiranje kratkih videa u 720p, 1080p i 4K s izvornim zvukom i širokim rasponom filmskih stilova.
  • Za postizanje istinski profesionalnih rezultata ključno je savladati upute: subjekt, radnju, stil, kameru, okruženje i moguće referentne slike.
  • Flow i Flow TV idealni su alati za inspiraciju, pronalaženje pravih poticaja i ubrzavanje izrade isječaka spremnih za društvene mreže.
  • Trenutno je puni pristup Veo 3.1 i generiranju videa s Geminijem ograničen na plaćene planove i, u mnogim slučajevima, na korisnike u Sjedinjenim Državama.

filmski videozapisi s Gemini 3

Kombinacija Gemini 3 s video modelima Veo 3 i Veo 3.1. To je uzrokovalo da svi odjednom počnu dijeliti epske isječke na društvenim mrežama, poput novi kinematografski videozapisi s umjetnom inteligencijomAko se i vi želite uključiti u akciju i snimiti snimke koje izgledaju kao da su iz blockbustera, potrebno vam je više od pukog pisanja nekoliko redaka u tekstualnom okviru: morate stvarno razumjeti kako ova tehnologija funkcionira i kako s njom komunicirati da bi radila ono što želite.

U sljedećim retcima naći ćete vrlo cjelovit vodič, na španjolskom i u prijateljskom tonuOvdje je sastavljeno praktički sve što je objašnjeno u službenoj Googleovoj dokumentaciji, u X temama i specijaliziranim tutorijalima: od toga kako pristupiti Veo 3 putem Geminija, do toga kako koristiti referentne slike, kontrolirati omjer slike, igrati se sa zvukom i stisnuti Flow i Flow TV kako bi se (legalno) ukrali najbolji uputni elementi.

Što je Veo 3.1 i kako se uklapa s Gemini 3?

Izrada videa s Gemini 3

Veo 3.1 je Googleov video model sljedeće generacije.Dizajniran za generiranje vrlo kratkih, ali visokokvalitetnih vizualnih isječaka, s rezolucijom do 4K i izvorno generiranim zvukom. Ljepota je u tome što ga možete programski kontrolirati putem Gemini API-ja ili izravno iz Gemini sučelja u vašem pregledniku, ovisno o vašem planu.

Ovaj model je optimiziran za scene od oko 8 sekundi.Radi s 24 sličice u sekundi i nudi tri glavne rezolucije: 720p, 1080p i 4K. Što je rezolucija veća, to je dulje potrebno za generiranje videa i to postaje skuplje u smislu korištenja API-ja, stoga imajte to na umu ako planirate producirati puno sadržaja.

Jedno od glavnih poboljšanja Veo 3.1 u usporedbi s prethodnim verzijama Vrlo dobro se nosi s različitim vizualnim stilovima: filmskim realizmom, estetikom film noira, 3D animacijom u crtanom stilu, nadrealnim videozapisima… i sve to u kombinaciji s uvjerljivim pokretima kamere, dubinom polja, svjetlosnim efektima i zvukom koji prilično dobro odgovara sceni.

S tehničkog gledišta, Veo 3.1 je integriran u obitelj modela Gemini. putem određenih krajnjih točaka (na primjer, vea-3.1-generate-preview i njegova brza varijanta). To omogućuje programerima da prosljeđuju tekst, slike ili čak video preglede kao ulaz i primaju jedan izlazni isječak po zahtjevu, s ugrađenim zvukom.

Formati, omjer slike i razlučivost za vaše videozapise

Veo 3.1 radi s dva osnovna omjera stranicaHorizontalno 16:9 (klasični YouTube ili širokokutni kino format) i vertikalno 9:16 (standard za TikTok, Reels i Shorts). To možete odrediti pomoću postavke omjera slike u API-ju ili odabirom odgovarajućeg načina rada u sučeljima koja ga podržavaju.

Što se tiče rezolucije, model omogućuje generiranje videa u 720p, 1080p i 4K.Zadani način rada obično je 720p, koji se također koristi za video ekstenzije (kada produžujete isječak koji ste već stvorili). Dostupni su i 1080p i 4K, ali samo kada je trajanje 8 sekundi ili dulje, a trošak i latencija se značajno povećavaju.

Duljina videa je još jedan faktor koji morate imati na umu prilikom dizajniranja svojih uputa.Veo 3.1 prvenstveno radi s isječcima od 4, 6 ili 8 sekundi, iako u praksi gotovo svi rade s 8 sekundi kako bi izvukli maksimum iz scene, iskoristili maksimalnu rezoluciju i mogli koristiti značajke poput referentnih slika ili ekstenzija.

Osnovni parametri koje možete prilagoditi u API pozivima To uključuje: opisni tekst (prompt), opcionalnu početnu sliku, dodatne referentne slike, video pregled za proširenje, omjer slike, trajanje u sekundama, razlučivost i specifične kontrole za generiranje ljudi (s ograničenjima ovisno o regiji).

Tekst u video: kako zamoliti Blizanaca 3 da razmišljaju o filmovima

Velika većina epskih isječaka koje vidite na društvenim mrežama počinje s dobrim tekstualnim uputama.Nije dovoljno napisati "prekrasan futuristički grad"; ako želite da izgleda kao filmska scena, morate naučiti model da razmišlja kao snimatelj i filmaš u isto vrijeme.

Veova dokumentacija naglašava nekoliko ključnih elemenata koji bi se trebali pojaviti u gotovo svim vašim uputama.glavni subjekt (osoba, životinja, objekt, krajolik), radnja koju izvodi, željeni vizualni stil, pozicioniranje i kretanje kamere, kompozicija kadra, efekti objektiva te boja i svjetlosno okruženje.

Na primjer, umjesto generičke fraze Što se tiče "čovjeka koji razgovara telefonom", vrijedi specificirati nešto poput ovoga: filmski krupni plan, očajan muškarac u zelenom kaputu koji bira broj na telefonskoj ploči, zeleno neonsko svjetlo koje baca sjene na zid od opeke, vrlo plitak fokus koji ističe napetost na njegovom licu i zamućuje pozadinu gradskih svjetala. Ova razlika u razini detalja izravno se prevodi u skok u kvaliteti rezultirajućeg videa.

Također je dobra ideja dodati termine specifične za audiovizualni jezik.: pogled iz zraka, kamera u razini očiju, snimak s lulom, ekstremni krupni plan, širokokutni snimak, ručna kamera, snimak s usporenim praćenjem, makro objektiv, širokokutni, meko zamućenje… Što više vaš uputa nalikuje opisu tehničkog scenarija, to bolje vidim.

  Google pokreće svoju desktop aplikaciju za Windows s integriranim pretraživanjem i umjetnom inteligencijom

Od slike do videa: od statične fotografije do pokretne scene

Osim teksta, Veo 3.1 omogućuje korištenje slika kao početnog okvira., nešto idealno za animiranje ilustracija, fotografija proizvoda, slika ili rendera napravljenih s drugim modelima slika kao što je Gemini 2.5 Flash Image (nazvan Nano Banana u nekim Google primjerima).

Tipičan pristup je prvo stvoriti vrlo uglađenu sliku koji predstavlja prednji plan vaše scene (na primjer, makro fotografija malih surfera koji jašu valove unutar kamenog sudopera, s antiknom slavinom koja stvara pjenu). Zatim se ta slika prenosi u Veo 3.1 zajedno s uputom koja opisuje kako bi se kamera trebala kretati, koji se elementi mijenjaju te kakvu atmosferu i zvuk želite postići.

Model koristi tu sliku kao okvir za pokretanje Odatle generira kratki isječak koji animira detalje: tekuću vodu, surfere u pokretu, kameru koja se polako okreće, sjaj metala itd. To je vrlo moćan način iskorištavanja prethodnog rada koji ste obavili s alatima za generiranje slika.

Imajte na umu da Veo 3.1 podržava samo do tri referentne slike po zahtjevu. A određene funkcije, poput istovremene upotrebe referenci i visokih rezolucija, zahtijevaju postavljanje trajanja na 8 sekundi. Ako kombinirate nekoliko slika (na primjer, lice, odjeću i dodatke), model će pokušati zadržati sve te elemente u konačnom rezultatu.

Referentne slike i kontrola vizualnog stila

Jedna od velikih prednosti Veo 3.1 je mogućnost korištenja namjenskih referentnih slika.Ove reference, različite od početne slike koja služi kao prvi kadar, pomažu u održavanju dosljednog izgleda likova, proizvoda ili ključnih elemenata u cijelom videozapisu.

Možete prenijeti do tri referentne slikekoje sustav interpretira kao vizualne „sastojke“: na primjer, određenu haljinu, žensko lice i određeni par naočala. Veo će pokušati osigurati da lik u generiranom isječku zadrži tu odjeću, crte lica i dodatke, čak i ako se scena, okruženje ili vrsta snimke promijene.

Ova tehnika je posebno korisna kada želite stvoriti varijacije istog protagonista. (za oglase, brendirani sadržaj, ponavljajuće likove itd.) bez da svaki videozapis izgleda potpuno drugačije. U službenim primjerima možete vidjeti kako se referenca na dubokomorsku ribu kombinira s dječjim kostimom princeze kako bi se generirala animirana verzija ribe odjevene u kostim i mašući čarobnim štapićem.

Osim toga, Veo 3.1 uključuje način rada u kojem možete definirati prvi i posljednji okvirU tom slučaju, prosljeđuju se dvije slike: početna i završna, a model stvara interpolaciju koja povezuje obje, kontrolirajući tako ne samo početnu točku već i kako scena završava (na primjer, automobil kojim upravlja mačka, a koji na kraju poleti preko litice).

Produljenje videa: produljenje akcije bez narušavanja stila

Još jedna ekskluzivna značajka Veo 3.1 je video ekstenzija, što vam omogućuje da uzmete isječak koji je već generiran pomoću Veoa i dodate još nekoliko sekundi na način koji je u skladu s onim što se događalo na kraju.

Prema trenutnim specifikacijama, videozapis možete produžiti za otprilike 7 sekundi odjednom.Do 20 uzastopnih ponavljanja, pod uvjetom da izvorni isječak ne prelazi 141 sekundu, ima rezoluciju od 720p i omjer slike od 16:9 ili 9:16. Rezultat je jedna datoteka do 148 sekundi koja miješa početni snimak i novogenerirani segment.

Da bi proširenje ispravno radilo, bitno je da zadnja sekunda ulaznog videa sadrži radnju ili zvuk koji želite nastaviti.Na primjer, ako se glasovna naracija prekine prije zadnje sekunde, model će imati poteškoća s njezinim prirodnim produljenjem. Nešto slično se događa sa zvučnim efektima.

S gledišta korištenja, proširenje se izvodi prosljeđivanjem izvornog videa kao parametra. (referencirajući isječak koji je već generirao API, a ne proizvoljnu datoteku) zajedno s novom tekstualnom uputom koja pojašnjava što bi se trebalo dogoditi sljedeće: nastaviti spuštanje paraglajdingom, povećati brzinu potjere, nastaviti praćenje kroz šumu itd.

Kako asinhrone operacije funkcioniraju u generiranju videa

Izrada videa u oblaku nije trenutnaGoogle to rješava sustavom dugotrajnih zadataka. Kada uputite zahtjev Gemini API-ju za izradu videa pomoću Veo-a, ne primate datoteku odmah, već objekt operacije koji označava da je zadatak u tijeku.

Standardni način rada je implementacija petlje anketiranja Povremeno će provjeravati status te operacije sve dok odgovarajuće polje ne označi da je završena. U tom trenutku, odgovor će sadržavati URL ili resurs rezultirajućeg videa, koji možete preuzeti ili obraditi po potrebi.

Oglašene latencije kreću se od oko 11 sekundi u najboljem slučaju do nekoliko minuta tijekom vršnih sati.Ako želite integrirati Veo 3.1 u produkcijske tijekove rada ili aplikacije krajnjih korisnika, ključno je dobro upravljati tim vremenima, prikazivati ​​razumne trake napretka i upravljati redovima čekanja poslova.

Također, imajte na umu da se generirani videozapisi pohranjuju na Googleovim poslužiteljima samo dva dana.Ako planirate kasnije ponovno upotrijebiti isječak ili ga više puta produžiti, preporučljivo je preuzeti i spremiti lokalnu kopiju ili imati na umu da referenciranje videozapisa u novim zahtjevima resetira dvodnevni brojač.

  Google jača svoj odjel za umjetnu inteligenciju dodavanjem Windsurfovog tima za kodiranje

Ključni parametri Veo 3.1 API-ja i varijante modela

Službena tablica Veo parametara detaljno opisuje što se može podesiti u svakom modelu (Veo 3.1, Veo 3, Veo 2 i njihove brze varijante) i koje vrste podataka svaki od njih prihvaća. Iako tablicu nećemo kopirati točno onako kako je ovdje, ipak vrijedi pregledati najrelevantnija polja.

U odjeljku "instance" ističe se sljedeće: Tekstualni upit, početna slika, konačna slika za interpolaciju, specifične referentne slike (samo u Veo 3.1) i ulazni video za proširenja. Sve je to enkapsulirano kao objekti slike ili videa koje API razumije i obrađuje.

Konfigurabilni parametri uključuju omjer slike (s omjerom 16:9 kao zadanim i opcijom za 9:16), trajanje u sekundama (fiksne vrijednosti kao što su 4, 6 ili 8 ovisno o modelu), načini generiranja ljudi (s jasnim regionalnim ograničenjima za EU, UK, Švicarsku i MENA) i izlazna rezolucija.

Što se tiče verzija modela, Veo 3.1 i Veo 3.1 Fast nude se u preglednom načinu rada.S jednim videozapisom po zahtjevu, izvornim zvukom, unosom teksta i slike te približnim ograničenjem od 1024 tekstualnih tokena, Veo 3 i Veo 2 smatraju se stabilnijima, ali s manje značajki (na primjer, Veo 2 ne uključuje generirani zvuk, samo videozapise bez zvuka).

Postojanje "brzih" varijanti namijenjeno je komercijalnoj upotrebi. gdje je brzina jednako važna kao i održavanje visoke razine kvalitete: masovno generiranje oglasa, A/B testiranje kreativnih koncepata ili alati koji proizvode sadržaj za društvene mreže gotovo u stvarnom vremenu.

Sigurnost, vodeni žigovi i regionalna ograničenja

Vidim da primjenjuje sigurnosne filtere i provjere memorije usklađene s Geminijem. Kako bi se spriječilo stvaranje uvredljivog, opasnog ili sadržaja koji krši autorska prava. Ako uputa spada u siva područja, bit će blokirana i neće vam se naplatiti taj zahtjev.

Svi generirani videozapisi uključuju SynthID vodene žigove, vlasnička Googleova tehnologija dizajnirana za ugradnju neprimjetnih signala koji korisnicima omogućuju prepoznavanje da je sadržaj kreiran pomoću umjetne inteligencije i uklapa se u inicijative kao što su oznake autentičnostiOve oznake mogu se kasnije provjeriti pomoću platforme za validaciju SynthID.

Što se tiče stvaranja persona, postoje specifične kontrole ovisno o regiji.U Europskoj uniji, Ujedinjenom Kraljevstvu, Švicarskoj i zemljama Bliskog istoka i Sjeverne Afrike dopuštene vrijednosti za parametar generiranja osoba su strože: u Veo 3 dopuštene su samo određene vrste generiranja odraslih, a u Veo 2 zadana vrijednost je ne generirati ljude, osim ako nije drugačije naznačeno unutar označenih ograničenja.

Zadržavanje videozapisa je također reguliranoSvaki generirani isječak čuva se na Googleovim poslužiteljima maksimalno dva dana prije brisanja. Ako ponovno referencirate taj videozapis tijekom tog razdoblja (na primjer, da biste ga produžili), odbrojavanje se ponovno pokreće, ali uvijek biste trebali pretpostaviti da je pohrana privremena.

Kako napisati snažne upute za filmske videozapise

Pravi "trik" kako postići najbolje performanse Veo 3.1 Sve se svodi na to koliko dobro napišete upute. Google nudi cijeli vodič za dizajniranje video uputa gdje je vrlo jasno da detalji čine svu razliku.

S jedne strane, preporučuju korištenje deskriptivnog i konkretnog jezikas pridjevima i prilozima koji definiraju ton: veseo, melankoličan, uznemirujući, topao, hladan, nadrealan, vintage, futuristički itd. Također potiču navođenje kada želite da lice bude u fokusu slike, koristeći riječi poput portret, ekstremni krupni plan ili fokus na izraz lica.

S druge strane, predlažu raščlanjivanje ideje na dijeloveTo pomaže modelu da shvati kreativne prioritete i izbjegne gubljenje. Koji se subjekt pojavljuje, koju radnju izvodi, koji je filmski stil poželjan, kako se kamera kreće, kako je snimak komponiran, koja se vrsta objektiva simulira i koja rasvjeta i atmosfera boja dominiraju scenom.

Osim toga, moguće je koristiti "negativne upute" za označavanje elemenata koje ne želite vidjeti.Međutim, Google ovdje pravi neobičnu razliku: umjesto pisanja naredbi poput "ne pojavljuju se zgrade", poželjnije je opisati koncepte koje treba isključiti (na primjer, urbana pozadina, umjetne strukture, prijeteća atmosfera) kako bi model znao što treba izbjegavati, a da se ne zbuni s eksplicitnim negacijama.

Audio, dijalozi i zvučni efekti s Veo 3

S Veo 3, generiranje zvuka više nije dodatak treće strane. i postaje integriran u sam video model. Dijalog, zvučne efekte i ambijentalnu buku možete odrediti izravno u upitu, a sustav će ih pokušati sinkronizirati s vizualnom radnjom.

Googleova preporuka je korištenje navodnika za doslovni govor koje bi likovi trebali izgovoriti, jasno dajući do znanja tko govori i kojim tonom. Na primjer: „Ovo mora biti ključ“, promrmljao je, ili Žena: (napetim glasom) „Pa što je to?“. Ove vrste scenskih uputa pomažu u osiguravanju dosljedne intonacije.

Za zvučne efekte (SFX) potrebni su eksplicitni opisi.: škripanje guma, urlanje motora, koraci na mokrom tlu, pucketanje grana, zalupljivanje vratima itd. Slično tome, za ambijentalnu buku korisno je definirati opći zvučni krajolik: stalno električno zujanje, izolirane ptice u daljini, šum grada, nježni pozadinski valovi.

  YouTube će korisnicima omogućiti filtriranje kratkih videozapisa iz rezultata pretraživanja

Međutim, kada produžite videozapis, model može produžiti glas samo ako se taj glas pojavljuje u posljednjem dijelu izvornog isječka.Ako rečenica završi prije tog posljednjeg segmenta, sustav nema dovoljno osnove da je prirodno nastavi, pa obično bolje funkcionira s ambijentalnim efektima i glazbom nego s dijalozima koji mijenjaju sadržaj.

Flow, Flow TV i kako učiti kopiranjem stvarnih uputa

Osim API-ja, Google pokreće kreativno okruženje pod nazivom FlowFlow, koji je evolucija prethodnog eksperimenta poznatog kao VideoFX, nudi se pretplatnicima Google AI Pro i Google AI Ultra u Sjedinjenim Državama i usmjeren je na interaktivno stvaranje videa pomoću AI alata, uključujući rani pristup Veo 3 s izvornim zvukom.

Jedna od najzanimljivijih značajki za učenje pisanja dobrih uputa To je Flow TV, odjeljak u kojem možete gledati svojevrsni kanal videozapisa generiranih pomoću Flowa. Ključno je da možete vidjeti upute koje se koriste za stvaranje svakog isječka, tako da možete proučiti kako su strukturirane upute koje daju najbolje rezultate.

Nekoliko kreatora kaže da je ovo jedan od najboljih načina za brzo poboljšanje.Gledajte videozapise koji vam se sviđaju, pregledajte tekst koji ih je naveo i prilagodite tu strukturu vlastitim idejama, mijenjajući scenarije, likove ili stilove, ali zadržavajući bogatstvo detalja i logiku opisa.

Osim toga, neki korisnici koriste Gemini za provođenje dubinskog istraživanja. o tehnikama brzog reagiranja, prikupljanju savjeta, a zatim traženju od modela da pretvori ta izvješća u vizualne infografike koje sažimaju najbolje prakse. To je još jedan zanimljiv način korištenja Geminija i Veoa kao kreativnih alata za učenje, ne samo kao generatore informacija.

Zahtjevi i kako testirati videozapise s Geminijem izvan Sjedinjenih Država

Od danas, generiranje videa s Geminijem pomoću Veo 3 još nije dostupno svima.Sam Google navodi da se ova mogućnost zasad nudi korisnicima određenih plaćenih planova u Sjedinjenim Državama, što je mnoge kreatore iz drugih zemalja prisililo da traže prečace.

Za testiranje Veo 3 s Gemini web sučelja potrebne su vam dvije osnovne stvariaktivna pretplata na Google AI Pro (ili ekvivalentni plan koji omogućuje pristup najnovijim video značajkama) i veza koja se čini da se nalazi u Sjedinjenim Državama, obično putem renomiranog VPN-a.

Tipičan postupak koji preporučuju mnogi tutorijali je povezivanje s američkim poslužiteljem putem VPN-a.Za pristup Geminiju, otvorite ga u pregledniku (ova značajka trenutno nije dostupna u mobilnim aplikacijama) i potražite gumb Video na vrhu sučelja. Ponekad ovaj gumb brzo treperi ili nestaje, pa ljudi često ponovno učitavaju stranicu i imaju miš spreman za klik čim ga vide.

Nakon što je opcija omogućena, samo trebate opisati isječak koji želite stvoriti.Znajući da će sustav generirati otprilike 8 sekundi videozapisa u 720p MP4 formatu, najbolje je ne nagurati previše radnji u tako kratko vrijeme, već se usredotočiti na jednu, dobro definiranu scenu s jasnim vizualnim stilom.

Prema nekim korisnicima, broj videa koje možete generirati tjedno je ograničen.Iako Google to ne reklamira baš istaknuto, postoje izvješća o otprilike 10 ili 12 tjednih kreacija unutar određenih planova, stoga morate pažljivo upravljati svojim pokušajima i, ako je moguće, poboljšati svoje upute prije korištenja nove generacije.

Googleovi planovi za umjetnu inteligenciju i suradnja s filmašima

Google koristi pretplatničke planove AI Pro i AI Ultra kao ulaz u ove napredne mogućnosti.AI Pro omogućuje pristup bitnim značajkama Flowa i mjesečnom broju kreacija (na primjer, oko 100 mjesečno u nekim slučajevima), dok AI Ultra povećava ograničenja i otvara rani pristup Veo 3 s izvornim zvukom.

Paralelno, tvrtka surađuje s profesionalnim filmašima kako bi razumjeli kako se umjetna inteligencija uklapa u stvarne audiovizualne produkcijske tijekove rada. Redatelji poput Davea Clarka koristili su Googleove alate i druga AI rješenja za snimanje nedavnih kratkih filmova, eksperimentirajući s kombinacijom tradicionalnog snimanja i kadrova generiranih umjetnom inteligencijom.

Navedeni cilj je da nova generacija stvaratelja bude u mogućnosti ispričati svoje priče s manje tehničkih i ekonomskih prepreka.Iskorištavajući umjetnu inteligenciju za brze preglede i završne sekvence, Google je odabranim filmašima omogućio rani pristup Flowu, omogućujući im prikupljanje povratnih informacija za usavršavanje alata i njegovu prilagodbu jeziku i potrebama industrije.

Ovaj hibridni pristup objašnjava zašto Veo 3.1 uključuje toliko referenci na jezik kamere i klasične filmske stilove.Ideja nije samo generirati prekrasne videozapise za društvene mreže, već ponuditi dovoljno finu kontrolu nad kompozicijom, pokretom i atmosferom kako bi se mogli integrirati u ozbiljnije narativne projekte.

Imajući sve navedeno na umu, jasno je da je stvaranje filmskih videa s Gemini 3 i Veo 3.1 Nije toliko stvar pritiskanja gumba koliko učenja razmišljanja i pisanja poput filmske ekipe sažete u promptu: kada savladate omjer slike, parametre modela, referenciranje slika, zvuk i, prije svega, kako točno opisati scene, 8 sekundi svakog isječka postaje iznenađujuće snažno platno za pričanje priča i izgradnju vlastite estetike, bilo da se radi o osobnim projektima, društvenim mrežama ili čak većim profesionalnim radovima.

NotebookLM filmski videozapisi pokretani umjetnom inteligencijom
Povezani članak:
NotebookLM i novi filmski videozapisi pokretani umjetnom inteligencijom