- Nano Banana es el apodo interno del modelo Gemini 2.5 Flash Image de Google para edición y creación de imágenes.
- Permite editar con lenguaje natural, mantener personajes y estilos coherentes y combinar varias fotos en una.
- Refuerza la calidad con mejoras en rostros y manos, marca de agua SynthID y filtros de seguridad.
- Disponible gratis en la app de Gemini con límites de uso; acceso profesional vía Google AI Studio y Vertex AI.
En los últimos días, el nombre “Nano Banana” ha ido ganando presencia en foros y redes como apodo de la nueva propuesta de Google para trabajar con imágenes mediante inteligencia artificial. Detrás de ese apodo está Gemini 2.5 Flash Image, un modelo que se integra en la app Gemini y que apuesta por una edición simple y precisa con instrucciones en lenguaje natural.
La idea es reducir la fricción al mínimo: subes una foto, describes qué quieres cambiar y el sistema ejecuta la orden en segundos. Lo diferencial es su capacidad para conservar el estilo, el personaje o el producto a lo largo de múltiples ajustes, evitando los típicos errores de consistencia que sufrían otros generadores y editores de IA.
Qué es “Nano Banana” y qué hay detrás del nombre
“Nano Banana” fue el nombre en clave que apareció en pruebas públicas y rankings como LMArena antes de su anuncio oficial. La compañía confirmó que se trata del modelo Gemini 2.5 Flash Image, diseñado para generar y editar imágenes de forma coherente y con un enfoque conversacional.
El modelo ataca dos frentes a la vez: por un lado, la creación desde cero; por otro, la edición iterativa sobre una imagen existente. Ese doble enfoque pone presión tanto a los generadores puros (como motores especializados) como a herramientas clásicas de retoque, al resolver tareas habituales con órdenes naturales.
Uno de los avances más celebrados es la coherencia visual entre ediciones: mantener el mismo personaje en escenas diferentes, conservar el aspecto de un producto desde varios ángulos o generar recursos de marca sin cambios indeseados en rasgos o proporciones.
Edición conversacional: funciones clave y casos de uso
La interacción es continua: puedes pedir “haz el cielo más dramático”, “elimina a esa persona”, “cambia el color del coche a rojo” o “añade un perro sentado en el banco” sin reiniciar el proceso. Esa edición dialogada reduce la prueba y error y acerca el flujo a dirigir a un diseñador humano.
Además, permite seleccionar áreas específicas para modificar y respeta iluminación, sombras y perspectiva al integrar nuevos elementos. Entre las acciones más comunes están borrar objetos, cambiar fondos por completo, recolorear prendas o ajustar contraste, color y blanco y negro con un solo mensaje.
Otra novedad útil es la posibilidad de combinar múltiples imágenes en una composición coherente. Subes varias fotos, indicas el objetivo y el sistema integra el contenido de una en otra, manteniendo el contexto y la estética general de la escena.
Gracias a esa consistencia, se abren usos creativos y profesionales: desde ilustraciones para campañas y materiales de marca hasta cómics, tarjetas o prototipos de producto. La clave es que el modelo aprovecha el conocimiento del mundo de Gemini para entender mejor lo que se pide y plasmarlo con menos artefactos.
También aporta “memoria” en la sesión, de manera que se pueden encadenar instrucciones hasta lograr el resultado buscado. Es decir, no hace falta repetir cada detalle: el sistema recuerda el estado de la imagen sobre la que estás trabajando.
Calidad, seguridad y disponibilidad
En calidad, Google subraya avances en fotorrealismo, con mejoras visibles en rostros y manos, dos puntos débiles clásicos de la IA. El objetivo es que los cambios se integren de forma natural y anatómicamente correcta, reduciendo deformaciones o incoherencias.
En seguridad, todas las imágenes generadas o editadas incorporan SynthID, una marca de agua digital e imperceptible para facilitar la verificación. Además, hay filtros para bloquear contenidos violentos o sexualmente explícitos y para evitar ediciones sensibles con personas reales o figuras conocidas.
El acceso para usuarios finales es gratuito desde la app de Gemini, tanto en la versión web como en móviles (iOS y Android). Google aplica límites de uso que puede actualizar periódicamente para garantizar la estabilidad del servicio.
Para desarrolladores y empresas, el modelo está disponible a través de Google AI Studio y Vertex AI. La compañía ofrece un esquema de precio por tokens (por ejemplo, 30 dólares por millón) orientado a integraciones y cargas de trabajo intensivas que requieren capacidad de cómputo.
Con esta apuesta, Google refuerza su presencia en la carrera de la IA generativa frente a rivales como OpenAI, Adobe o Stability AI. La combinación de edición conversacional, consistencia de personaje y controles de seguridad sitúa a “Nano Banana” como una pieza central de la plataforma Gemini.
La herramienta ha llamado la atención en evaluaciones comunitarias como LMArena y en demostraciones públicas, donde se ha visto su capacidad para mantener identidad y estilo al trasladar un mismo sujeto a distintos escenarios con instrucciones sencillas.
“Nano Banana” se perfila como una vía práctica para que cualquiera edite y genere imágenes sin conocimientos avanzados: instrucciones claras, resultados consistentes y una integración directa en Gemini que evita instalar software adicional.