OpenAI prepara una IA que compone música desde texto y audio

Aventura Universal » General » Así será la IA de OpenAI para crear música con texto y audio

OpenAI desarrolla una herramienta de música generativa que compone a partir de texto y audio.
El proyecto contaría con anotaciones de estudiantes de Juilliard para elevar la calidad del entrenamiento.
Podría integrarse con ChatGPT o Sora, o lanzarse como producto independiente.
Aplicaciones claras en vídeo, publicidad y contenidos en Europa, con atención a derechos de autor.

La inteligencia artificial apunta ahora al terreno del sonido y la composición musical. Según ha trascendido en medios especializados, OpenAI trabaja en una herramienta capaz de generar acompañamientos, melodías y arreglos completos a partir de indicaciones escritas o de muestras de voz.

Este proyecto pondría el foco en una creación musical más accesible, permitiendo componer desde texto o audio de referencia, además de añadir música a vídeos o completar pistas vocales con instrumentos virtuales.

De los modelos de voz a la composición musical

En los últimos años, OpenAI ha avanzado con firmeza en síntesis y reconocimiento de voz, optimizando sistemas de text-to-speech y speech-to-text. El siguiente paso lógico, según las fuentes consultadas, es trasladar ese progreso a la generación musical.

El nuevo modelo aceptaría peticiones como “una pieza íntima de piano con atmósfera cinematográfica” o tomaría un tarareo como guía para que la IA desarrolle armonía, ritmo y estructura con coherencia estilística.

Festivales y eventos de música electrónica: actualidad, tendencias y protagonistas

Qué promete esta herramienta

Más allá de crear canciones desde cero, la propuesta contempla sumar guitarras, bajos o bases rítmicas a grabaciones vocales y crear música que se adapte a escenas de vídeo ya existentes.

La orientación sería claramente multimodal, de forma similar a otros proyectos de la casa, con la idea de que la IA entienda texto y audio como fuentes complementarias para construir resultados más naturales y experiencias artísticas inmersivas.

Colaboración con Juilliard y datos de entrenamiento

Uno de los aspectos diferenciales es la colaboración con estudiantes de la Juilliard School, que estarían anotando partituras para nutrir un conjunto de datos curado y detallado.

Ese material serviría para enseñar a la IA no solo la estructura formal, sino matices de interpretación como dinámica, intención y progresión armónica, claves para que el resultado suene menos mecánico.

Opciones de lanzamiento e integración

No hay fecha de despliegue confirmada, ni está claro si llegará como producto independiente o integrado en plataformas existentes. Tanto la incorporación en ChatGPT como la conexión con Sora se barajan como vías plausibles.

La experiencia de Daft Punk llega a Fortnite el 27 de septiembre

Una integración con Sora podría permitir que la música se adapte en tiempo real a las escenas generadas por IA, mientras que hacerlo en ChatGPT abriría el acceso a un público mucho más amplio.

Usos previstos y escenarios en España y Europa

El potencial para agencias, productoras y estudios en España es evidente: creación ágil de bandas sonoras, jingles y piezas personalizadas para publicidad, redes sociales o cine independiente.

En Europa, el despliegue deberá convivir con marcos como el AI Act y las normativas de derechos de autor, lo que sitúa en primer plano cuestiones de licencias, trazabilidad y permisos de uso de datos y salidas.

Competidores y contexto del sector

El movimiento de OpenAI llega en plena efervescencia de la música generativa, con startups como Suno marcando el ritmo en consumo y prototipado rápido.

También Google avanza con Lyria, su modelo musical disponible a través de Google Cloud, lo que configura un panorama competitivo en el que la calidad, las herramientas de control creativo y la claridad legal serán determinantes.

Música e historia entrelazadas en San Simón: Un festival único en un entorno con memoria

Antecedentes en OpenAI: MuseNet y Jukebox

OpenAI ya exploró este campo con MuseNet, capaz de imitar estilos y estructuras, y con Jukebox, orientado a voces sintéticas y canciones completas.

Aquellas experiencias sientan la base de un proyecto más ambicioso, ahora con datos curados y un enfoque multimodal y orientado a producción, que busca resultados más musicales y versátiles.

Qué falta por conocer

Quedan preguntas clave: el modelo de licencias para usos comerciales, las herramientas de edición fina para controlar arreglos o instrumentación, y el precio de acceso para profesionales y creadores independientes.

Tampoco se han detallado las políticas de contenido, la protección frente a imitaciones no autorizadas de voces o estilos y el alcance real de los datos empleados en el entrenamiento.

La expectativa es alta, pero lo prudente es esperar a pruebas públicas y ejemplos auditables para medir su calidad, control creativo y cumplimiento normativo en entornos reales de trabajo.