Vídeos cinematográficos con Gemini 3 y Veo 3.1

Aventura Universal » General » Cómo crear vídeos cinematográficos con Gemini 3 y Veo 3.1

Veo 3.1 integrado en Gemini permite generar vídeos cortos en 720p, 1080p y 4K con audio nativo y estilos cinematográficos muy variados.
Para obtener resultados realmente profesionales es clave dominar los prompts: sujeto, acción, estilo, cámara, ambiente y posibles imágenes de referencia.
Flow y Flow TV son herramientas ideales para inspirarse, ver prompts reales y acelerar la creación de clips listos para redes sociales.
Actualmente el acceso completo a Veo 3.1 y a la generación de vídeo con Gemini está limitado a planes de pago y, en muchos casos, a usuarios de Estados Unidos.

La combinación de Gemini 3 con los modelos de vídeo Veo 3 y Veo 3.1 ha hecho que, de la noche a la mañana, todo el mundo esté compartiendo clips épicos en redes sociales, como los nuevos vídeos cinematográficos con IA. Si tú también quieres entrar en el juego y conseguir planos que parezcan sacados de una superproducción, necesitas algo más que escribir un par de líneas en el cuadro de texto: hace falta entender bien cómo funciona esta tecnología y cómo hablarle para que haga lo que tú quieres.

En las siguientes líneas vas a encontrar una guía muy completa, en castellano y con un tono cercano, donde se recoge prácticamente todo lo que se está explicando en la documentación oficial de Google, en hilos de X y en tutoriales especializados: desde cómo acceder a Veo 3 a través de Gemini, hasta cómo usar imágenes de referencia, controlar la relación de aspecto, jugar con el audio y exprimir Flow y Flow TV para robar (legalmente) los mejores prompts.

Qué es Veo 3.1 y cómo encaja con Gemini 3

Veo 3.1 es el modelo de vídeo de última generación de Google, pensado para generar clips muy cortos pero de altísima calidad visual, con resolución de hasta 4K y con audio creado de forma nativa. La gracia es que puedes controlarlo desde la API de Gemini, de forma programática, o desde la propia interfaz de Gemini en el navegador, dependiendo del plan que tengas.

Este modelo está optimizado para escenas de unos 8 segundos, a 24 fotogramas por segundo, y ofrece tres resoluciones principales: 720p, 1080p y 4K. Cuanto más subes la resolución, más tarda en generar el vídeo y más caro resulta a nivel de uso de API, así que conviene tenerlo presente si piensas producir mucho contenido.

Una de las grandes mejoras de Veo 3.1 respecto a versiones anteriores es que maneja muy bien diferentes estilos visuales: realismo cinematográfico, estética de cine negro, animación 3D tipo cartoon, vídeos surrealistas… y todo ello combinado con movimientos de cámara creíbles, profundidad de campo, juego de luces y un audio que encaja bastante bien con la escena.

Desde el punto de vista técnico, Veo 3.1 se integra en la familia de modelos de Gemini a través de endpoints específicos (por ejemplo, vea-3.1-generate-preview y su variante Fast). Esto permite a los desarrolladores pasar texto, imágenes o incluso vídeos previos como entrada y recibir un único clip de salida por petición, con audio incorporado.

Formatos, relación de aspecto y resolución para tus vídeos

Veo 3.1 trabaja con dos relaciones de aspecto fundamentales: horizontal 16:9 (la clásica de YouTube o cine en pantalla ancha) y vertical 9:16 (el estándar para TikTok, Reels y Shorts). Puedes indicarlo mediante un parámetro de configuración de aspecto en la API, o seleccionando el modo adecuado en las interfaces que lo soportan.

En cuanto a la resolución, el modelo permite generar vídeos en 720p, 1080p y 4K. El modo por defecto suele ser 720p, que es el que también se usa para las extensiones de vídeo (cuando alargas un clip que ya generaste). 1080p y 4K están disponibles, pero solo cuando la duración es de 8 segundos, y el coste y la latencia aumentan de forma notable.

La duración del vídeo es otro factor que tienes que tener muy presente al diseñar tus prompts. Veo 3.1 se desenvuelve sobre todo en clips de 4, 6 u 8 segundos, aunque en la práctica casi todo el mundo trabaja con 8 s para sacarle jugo a la escena, aprovechar la resolución máxima y poder usar funciones como las imágenes de referencia o las extensiones.

Los parámetros básicos que puedes ajustar en las llamadas a la API incluyen: el texto descriptivo (prompt), una imagen inicial opcional, imágenes de referencia adicionales, un vídeo previo para extenderlo, la relación de aspecto, la duración en segundos, la resolución y controles específicos para la generación de personas (con limitaciones en función de la región).

Texto a vídeo: cómo pedir a Gemini 3 que piense en cine

La gran mayoría de clips épicos que ves en redes parten de un buen prompt de texto. No basta con escribir “una ciudad futurista bonita”; si quieres que parezca una escena de película, hay que enseñar al modelo a pensar como si fuera un director de fotografía y un realizador a la vez.

La documentación de Veo insiste en varios elementos clave que deberían aparecer en casi todas tus instrucciones: el sujeto principal (persona, animal, objeto, paisaje), la acción que realiza, el estilo visual deseado, el posicionamiento y movimiento de cámara, la composición del encuadre, los efectos de lente y el ambiente de color e iluminación.

Por ejemplo, en lugar de una frase genérica como “hombre hablando por teléfono”, conviene detallar algo del tipo: plano corto cinematográfico, un hombre desesperado con abrigo verde marcando en un teléfono de disco, luz de neón verde proyectando sombras sobre una pared de ladrillo, enfoque muy superficial que resalta la tensión en su cara y desenfoca un fondo de luces urbanas. Esa diferencia de nivel de detalle se traduce directamente en un salto de calidad del vídeo generado.

También es buena idea añadir términos propios del lenguaje audiovisual: vista aérea, cámara a la altura de los ojos, desplazamiento con dolly, primerísimo primer plano, plano general, cámara en mano, movimiento lento en travelling, lente macro, gran angular, desenfoque suave… Cuanto más se parezca tu prompt a una descripción de guion técnico, mejor responde Veo.

Gemini 3.1: el nuevo golpe de Google en la carrera de la IA

Imágenes a vídeo: de una foto estática a una escena con movimiento

Además del texto, Veo 3.1 permite usar imágenes como fotograma inicial, algo ideal para animar ilustraciones, fotografías de producto, cuadros o renders hechos con otros modelos de imagen como Gemini 2.5 Flash Image (apodado Nano Banana en algunos ejemplos de Google).

La mecánica típica es generar primero una imagen muy cuidada que represente el primer plano de tu escena (por ejemplo, una foto macro de surfistas diminutos cabalgando olas dentro de un lavamanos de piedra, con un grifo antiguo creando espuma). Después, se pasa esa imagen a Veo 3.1 junto con un prompt que describe cómo debe moverse la cámara, qué elementos cambian y qué atmósfera y sonido buscas.

El modelo utiliza esa imagen como fotograma de arranque y genera a partir de ahí un breve clip en el que se animan los detalles: el agua fluyendo, los surfistas moviéndose, la cámara girando lentamente, el brillo del metal, etc. Es una forma muy potente de aprovechar el trabajo previo que hayas hecho con herramientas de generación de imágenes.

Ten en cuenta que Veo 3.1 solo admite hasta tres imágenes de referencia por petición y que determinadas funciones, como el uso simultáneo de referencias y resoluciones altas, obligan a fijar la duración en 8 segundos. Si combinas varias imágenes (por ejemplo, rostro, vestuario y accesorio), el modelo intentará respetar todos esos elementos en el resultado final.

Imágenes de referencia y control del estilo visual

Una de las grandes bazas de Veo 3.1 es la capacidad de usar imágenes de referencia dedicadas, diferentes de la imagen inicial que actúa como primer fotograma. Estas referencias sirven para mantener coherente la apariencia de personajes, productos o elementos clave a lo largo del vídeo.

Puedes subir hasta tres imágenes de referencia, que el sistema interpreta como “ingredientes” visuales: por ejemplo, un vestido concreto, el rostro de una mujer y un modelo de gafas determinado. Veo intentará que, en el clip generado, el personaje conserve esa ropa, rasgos faciales y complementos, aunque cambie la escena, el entorno o el tipo de plano.

Esta técnica resulta especialmente útil cuando quieres crear variaciones de un mismo protagonista (para anuncios, contenidos de marca, personajes recurrentes, etc.) sin que cada vídeo salga totalmente distinto. En los ejemplos oficiales se ve cómo se combina la referencia de un pez de aguas profundas con un disfraz de princesa infantil, para generar una versión animada del pez vestido y agitando una varita.

Además, Veo 3.1 incluye un modo en el que puedes definir primer y último fotograma. En ese caso, se pasan dos imágenes: una inicial y otra final, y el modelo crea una interpolación que conecta ambas, controlando así no solo el punto de partida sino también cómo termina la escena (por ejemplo, un coche pilotado por un gato que acaba despegando por un acantilado).

Extender vídeos: alargar la acción sin romper el estilo

Otra función exclusiva de Veo 3.1 es la extensión de vídeo, que te permite coger un clip que ya se generó con Veo y añadir unos segundos más de forma coherente con lo que estaba ocurriendo al final.

Según las especificaciones actuales, puedes ampliar un vídeo unos 7 segundos por vez, hasta 20 veces consecutivas, siempre que el clip original no supere los 141 segundos, tenga resolución 720p y relación de aspecto 16:9 o 9:16. El resultado es un único archivo de hasta 148 segundos que mezcla el metraje inicial y el nuevo tramo generado.

Para que la extensión funcione bien, es fundamental que el último segundo del vídeo de entrada contenga la acción o el audio que quieres continuar. Si, por ejemplo, hay una voz en off que se corta antes del último segundo, el modelo tendrá dificultades para prolongarla con naturalidad. Con los efectos de sonido ocurre algo parecido.

Desde la perspectiva de uso, la extensión se realiza pasando el vídeo original como parámetro (referenciando un clip ya generado por la API, no un archivo arbitrario) junto con una nueva instrucción de texto que aclare qué debería ocurrir a partir de ahí: seguir un descenso en parapente, aumentar la velocidad de una persecución, continuar un travelling por un bosque, etc.

Cómo funcionan las operaciones asíncronas en la generación de vídeo

Generar vídeo en la nube no es instantáneo, y Google lo resuelve mediante un sistema de trabajos de larga duración. Cuando haces una solicitud a la API de Gemini para crear un vídeo con Veo, no obtienes el archivo al momento, sino un objeto de operación que indica que el trabajo está en curso.

La forma estándar de trabajar es implementar un bucle de sondeo que vaya consultando periódicamente el estado de esa operación hasta que el campo correspondiente indique que ha terminado. En ese momento, la respuesta incluirá la URL o el recurso del vídeo resultante que puedes descargar o procesar como necesites.

Las latencias anunciadas se mueven entre unos 11 segundos en el mejor de los casos y hasta varios minutos en horas punta. Si quieres integrar Veo 3.1 en flujos de trabajo de producción o en aplicaciones de usuario final, es vital manejar bien estos tiempos, mostrar barras de progreso razonables y gestionar colas de trabajos.

Además, recuerda que los vídeos generados se almacenan en los servidores de Google solo durante dos días. Si vas a reutilizar un clip más adelante o a extenderlo varias veces, conviene descargar y guardar una copia local, o tener en cuenta que hacer referencia al vídeo en nuevas peticiones reinicia el contador de esos dos días.

Google presenta Disco: así es el navegador experimental con IA y pestañas GenTabs

Parámetros clave de la API de Veo 3.1 y variantes de modelo

En la tabla de parámetros oficial de Veo se detalla qué puede ajustarse en cada modelo (Veo 3.1, Veo 3, Veo 2 y sus variantes Fast), y qué tipos de datos acepta cada uno. Aunque aquí no vamos a copiar la tabla tal cual, sí conviene repasar los campos más relevantes.

En la parte de “instancias” destacan el prompt de texto, la imagen inicial, la imagen final para interpolación, las imágenes de referencia específicas (solo en Veo 3.1) y el vídeo de entrada para extensiones. Todos ellos se encapsulan como objetos de imagen o vídeo que la API entiende y procesa.

Entre los parámetros configurables figuran la relación de aspecto (con 16:9 como valor por defecto y opción a 9:16), la duración en segundos (valores fijos como 4, 6 u 8 según el modelo), los modos de generación de personas (con restricciones regionales claras para la UE, Reino Unido, Suiza y MENA) y la resolución de salida.

En cuanto a las versiones de modelo, Veo 3.1 y Veo 3.1 Fast se ofrecen en modo vista previa, con un único vídeo por solicitud, audio nativo, entrada de texto e imagen, y un límite aproximado de 1024 tokens de texto. Veo 3 y Veo 2 se consideran más estables, pero con menos funciones (por ejemplo, Veo 2 no incluye audio generado, solo vídeos silenciosos).

La existencia de variantes “Fast” está pensada para casos de uso comerciales donde importa tanto la velocidad como mantener un nivel de calidad alto: generación masiva de anuncios, pruebas A/B de conceptos creativos o herramientas que producen contenidos para redes sociales en tiempo casi real.

Seguridad, marcas de agua y limitaciones regionales

Veo aplica filtros de seguridad y comprobaciones de memorización alineadas con Gemini para evitar la generación de contenido ofensivo, peligroso o que incumpla derechos de autor. Si la instrucción entra en zonas grises, directamente se bloquea y no se te cobra por esa petición.

Todos los vídeos generados incluyen marcas de agua SynthID, una tecnología propietaria de Google diseñada para incrustar señales imperceptibles que permiten identificar que el contenido fue creado con IA y encaja con iniciativas como etiquetas de autenticidad. Estas marcas se pueden verificar posteriormente con la plataforma de validación de SynthID.

En lo referente a la creación de personas, hay controles específicos según la región. En la Unión Europea, Reino Unido, Suiza y países MENA, los valores permitidos para el parámetro de generación de personas son más estrictos: en Veo 3 solo se permite cierto tipo de generación de adultos, y en Veo 2 el valor por defecto es no generar personas, salvo que se indique lo contrario dentro de los límites marcados.

La retención de vídeos también está regulada: cualquier clip generado se mantiene en los servidores de Google un máximo de dos días antes de eliminarse. Si durante ese periodo vuelves a hacer referencia a ese vídeo (por ejemplo, para extenderlo), el contador vuelve a empezar, pero siempre deberías asumir que el almacenamiento es temporal.

Cómo escribir prompts potentes para vídeos cinematográficos

El verdadero “truco” para conseguir que Veo 3.1 saque lo mejor de sí está en lo bien que redactes tus instrucciones. Google ofrece toda una guía de diseño de prompts para vídeo donde se ve muy claro que los detalles marcan la diferencia.

Por un lado, recomiendan usar un lenguaje descriptivo y concreto, con adjetivos y adverbios que acoten el tono: alegre, melancólico, inquietante, cálido, frío, surrealista, vintage, futurista, etc. También animan a especificar cuando quieras que el rostro sea el foco de la imagen, usando palabras como retrato, primer plano extremo o enfoque en la expresión facial.

Por otro, invitan a desglosar la idea en partes: qué sujeto aparece, qué acción realiza, qué estilo cinematográfico se quiere, cómo se mueve la cámara, cómo se compone el plano, qué tipo de lente simula y qué ambiente de luz y color domina la escena. Esto ayuda al modelo a no perderse y a entender cuál es la prioridad creativa.

Además, es posible usar “instrucciones negativas” para indicar elementos que no deseas ver, aunque aquí Google hace una matización curiosa: en lugar de escribir órdenes tipo “no aparezcan edificios”, es preferible describir los conceptos a excluir (por ejemplo, fondo urbano, estructuras artificiales, atmósfera amenazante) para que el modelo sepa qué evitar sin liarse con negaciones explícitas.

Audio, diálogos y efectos de sonido con Veo 3

Con Veo 3, la generación de sonido deja de ser un añadido de terceros y pasa a integrarse dentro del propio modelo de vídeo. Puedes indicar diálogos, efectos de sonido y ruido ambiente directamente en el prompt, y el sistema intentará sincronizarlos con la acción visual.

La recomendación de Google es usar comillas para el discurso literal que deban pronunciar los personajes, dejando claro quién habla y con qué tono. Por ejemplo: “Esta debe de ser la llave”, murmuró, o Mujer: (voz tensa) “¿Entonces qué es?”. Ese tipo de acotaciones ayudan a que la entonación sea coherente.

Para efectos de sonido (SFX) piden descripciones explícitas: neumáticos que chirrían, motor rugiendo, pasos sobre tierra húmeda, ramas que se quiebran, puertas que golpean, etc. Del mismo modo, para el ruido ambiental conviene definir el paisaje sonoro general: un zumbido eléctrico constante, pájaros aislados en la distancia, murmullo de ciudad, oleaje suave de fondo.

Gameplays y tráilers de películas: emoción, técnica y universo

Eso sí, cuando extiendes un vídeo el modelo solo puede alargar la voz si esa voz aparece en el último tramo del clip original. Si la frase termina antes de ese segmento final, el sistema no tiene base suficiente para continuarla con naturalidad, por lo que suele funcionar mejor con efectos ambientales y música que con diálogos que cambian de contenido.

Flow, Flow TV y cómo aprender copiando prompts reales

Más allá de la API, Google está impulsando un entorno creativo llamado Flow, que es la evolución de un experimento anterior conocido como VideoFX. Flow se ofrece a suscriptores de Google AI Pro y Google AI Ultra en Estados Unidos, y está orientado a la creación interactiva de vídeos con herramientas de IA, incluyendo el acceso temprano a Veo 3 con audio nativo.

Una de las funciones más interesantes para aprender a escribir buenos prompts es Flow TV, un apartado donde puedes ver una especie de canal de vídeos generados con Flow. La clave está en que es posible consultar el prompt utilizado para crear cada clip, de manera que puedas estudiar cómo están estructuradas las instrucciones que dan mejores resultados.

Varios creadores comentan que esta es una de las mejores formas de mejorar rápidamente: mirar vídeos que te gusten, revisar el texto que les dio origen y adaptar esa estructura a tus propias ideas, cambiando escenarios, personajes o estilos, pero manteniendo la riqueza de detalles y la lógica de la descripción.

Además, algunos usuarios están aprovechando Gemini para realizar investigaciones exhaustivas sobre técnicas de prompts, recopilando consejos y pidiéndole luego al modelo que convierta esos informes en infografías visuales que resuman las mejores prácticas. Es otra forma curiosa de utilizar Gemini y Veo como herramientas de aprendizaje creativo, no solo como motores de generación.

Requisitos y cómo probar vídeos con Gemini fuera de Estados Unidos

A día de hoy, la generación de vídeos con Gemini usando Veo 3 todavía no está abierta a todo el mundo. La propia Google indica que, por ahora, esta capacidad se ofrece a usuarios de planes de pago específicos en Estados Unidos, lo que ha obligado a muchos creadores de otros países a buscar atajos.

Para probar Veo 3 desde la interfaz web de Gemini necesitas dos cosas básicas: una suscripción activa a Google AI Pro (o un plan equivalente que dé acceso a las funciones de vídeo más recientes) y una conexión que aparente estar localizada en Estados Unidos, normalmente a través de una VPN reputada.

El flujo típico que recomiendan muchos tutoriales es conectarse a un servidor estadounidense con la VPN, abrir Gemini en el navegador (de momento las apps móviles no exponen esta función), y buscar un botón de Vídeo que aparece en la parte superior de la interfaz. A veces ese botón parpadea o desaparece rápido, así que la gente recurre a recargar la página y a tener el ratón preparado para hacer clic en cuanto lo vea.

Una vez habilitada la opción, solo tienes que describir el clip que quieres crear, sabiendo que el sistema generará un vídeo de unos 8 segundos, en 720p y formato MP4. Conviene no exigir demasiadas acciones encadenadas en tan pocos segundos y centrarse en una única escena bien definida, con un estilo visual claro.

Según cuentan algunos usuarios, el número de vídeos que puedes generar por semana está limitado, aunque Google no lo anuncia de forma muy visible. Se habla de unas 10 o 12 creaciones semanales dentro de ciertos planes, por lo que hay que administrar bien los intentos y, si es posible, refinar los prompts antes de gastar una nueva generación.

Planes de Google AI y colaboración con cineastas

Google está utilizando los planes de suscripción AI Pro y AI Ultra como puerta de entrada a estas capacidades avanzadas. AI Pro da acceso a las funciones esenciales de Flow y a un número mensual de creaciones (por ejemplo, alrededor de 100 al mes en algunos casos), mientras que AI Ultra aumenta los límites y abre el acceso temprano a Veo 3 con audio nativo.

En paralelo, la compañía está colaborando con cineastas profesionales para entender cómo encaja la IA en flujos de trabajo reales de producción audiovisual. Directores como Dave Clark han usado herramientas de Google y otras soluciones de IA para rodar cortometrajes recientes, experimentando con mezcla de rodaje tradicional y planos generados.

El objetivo declarado es que una nueva generación de creadores pueda contar sus historias con menos barreras técnicas y económicas, aprovechando la IA tanto para previsualizaciones rápidas como para secuencias finales. Al dar acceso anticipado a Flow a ciertos cineastas, Google ha recibido feedback para pulir la herramienta y adaptarla al lenguaje y necesidades del sector.

Este enfoque híbrido explica por qué Veo 3.1 incluye tantas referencias al lenguaje de cámara y a estilos cinematográficos clásicos: la idea no es solo generar vídeos bonitos para redes sociales, sino ofrecer un control suficientemente fino sobre composición, movimiento y atmósfera como para integrarse en proyectos narrativos más serios.

Con todo lo anterior sobre la mesa, queda claro que crear vídeos cinematográficos con Gemini 3 y Veo 3.1 no es tanto cuestión de pulsar un botón como de aprender a pensar y escribir como un equipo de rodaje condensado en un prompt: cuando dominas la relación de aspecto, los parámetros de modelo, las imágenes de referencia, el audio y, sobre todo, la forma de describir escenas con precisión, los 8 segundos de cada clip se convierten en un lienzo sorprendentemente potente para contar historias y construir una estética propia, ya sea para proyectos personales, redes sociales o incluso piezas profesionales de mayor envergadura.

NotebookLM videos cinematográficos con IA

NotebookLM y los nuevos vídeos cinematográficos con IA