- Modelo multiagente con deliberación prolongada para consultas complejas
- Mejora en benchmarks: 34,8% en HLE y 87,6% en LiveCodeBench 6
- Acceso para suscriptores del plan AI Ultra de 250 dólares al mes
- Respuestas más lentas pero de mayor calidad, con límites de uso diarios
Google empieza a desplegar Gemini 2.5 Deep Think en su app Gemini, una iteración centrada en el razonamiento que la compañía describe como su sistema más avanzado hasta la fecha. Este modelo está pensado para preguntas especialmente complejas, donde necesita dedicar varios minutos a analizar opciones antes de proponer una salida.
El acceso llega de forma restringida a quienes paguen el plan AI Ultra (250 dólares/mes), una decisión ligada al alto coste computacional de su funcionamiento. No es un experimento aislado: se integra en el ecosistema de Gemini y se activa cuando la tarea requiere una reflexión más profunda. Para conocer más sobre los avances de Google en IA y la integración de Gemini, puedes visitar este artículo sobre las funciones avanzadas de la IA de Google.
Qué es y cómo funciona Deep Think
Deep Think parte de la base de Gemini 2.5 Pro pero estira el tiempo de reflexión y el análisis en paralelo. En lugar de quedarse con una sola ruta, genera varios enfoques, contrasta hipótesis entre sí más allá de la primera opción y reajusta el razonamiento antes de decidir. Google afirma además haber incorporado nuevas técnicas de refuerzo para optimizar esas rutas de pensamiento.
No aparece como modelo independiente en el selector: al elegir Gemini 2.5 Pro, Deep Think se activa como herramienta integrada en flujos como Canvas o Deep Research cuando la consulta lo exige. En segundo plano, el sistema puede usar ejecución de código y Google Search de manera automática para sostener su razonamiento. Para ver cómo funciona en la práctica, revisa .
Su enfoque es claramente multimodal y está orientado a tareas que combinan texto, imágenes y otras señales. En las pruebas internas, Google destaca mejoras en desarrollo web, diseño iterativo, razonamiento científico y planificación paso a paso, con respuestas más largas y detalladas cuando la complejidad lo requiere.
Rendimiento, acceso y límites
En benchmarks, las cifras ubican a Deep Think por delante de competidores directos según datos de Google: alcanza un 34,8% en Humanity’s Last Exam (HLE, sin herramientas), frente al 25,4% de Grok 4 y el 20,3% de o3; y logra un 87,6% en LiveCodeBench 6, superando el 79% de Grok 4 y el 72% de o3 en programación competitiva.
Las matemáticas son uno de sus puntos fuertes: rinde especialmente bien en AIME, y una variante entrenada para razonamientos de horas obtuvo una medalla de oro en la Olimpiada Internacional de Matemáticas (OIM). La versión estándar, más cercana al producto de consumo, habría alcanzado una medalla de bronce en la OIM 2025, siempre según la compañía. Para entender mejor cómo Google desarrolla capacidades matemáticas en sus modelos, consulta este análisis sobre IA y matemáticas.
El acceso está condicionado por su coste de ejecución: cada respuesta puede tardar varios minutos y consumir muchos más recursos que un modelo tradicional. Por eso, Google lo ofrece en el plan AI Ultra (250 dólares/mes), mantiene un límite diario de consultas (no especificado y sujeto a cambios) y está comenzando a abrirlo de forma controlada en la app y a un grupo de desarrolladores vía API.
El despliegue también reabre el debate sobre la accesibilidad de la IA puntera. Varias empresas exploran sistemas multiagente por su calidad de resultados, pero su mantenimiento es más caro, lo que deriva en disponibilidad restringida. La compañía sostiene que este despliegue escalonado permite garantizar la calidad y recoger feedback real sin saturar la infraestructura.
Deep Think apuesta por pensar más y mejor a costa de tiempo y recursos: multiagente, deliberación prolongada y uso automático de herramientas para elevar el nivel en preguntas difíciles, con resultados sólidos en benchmarks y acceso limitado a la gama premium con cupos.