OpenAI, la empresa detrás de ChatGPT, dio a conocer su último avance tecnológico: Sora, una nueva inteligencia artificial diseñada para crear videos tipo cine a partir de texto.
“Sora es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo”, dice la compañía en su blog oficial.
Esta IA es capaz de generar videos de hasta un minuto de duración, manteniendo la calidad visual y cumpliendo con las indicaciones proporcionadas por el usuario. En una fase inicial, Sora está siendo utilizada por los miembros del equipo rojo de OpenAI para evaluar áreas críticas en busca de daños o riesgos.
Introducing Sora, our text-to-video model.
— OpenAI (@OpenAI) February 15, 2024
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
Además, se está brindando acceso a un selecto grupo de artistas visuales, diseñadores y cineastas para obtener comentarios que permitan mejorar el modelo y hacerlo más útil para los profesionales creativos.
“Estamos compartiendo el progreso de nuestra investigación desde el principio para comenzar a trabajar y recibir comentarios de personas ajenas a OpenAI y para dar al público una idea de qué capacidades de IA están en el horizonte”, añaden.
Sora se destaca por su capacidad para generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo.
Además, el modelo posee un profundo conocimiento del lenguaje, lo que le permite interpretar con precisión las indicaciones y generar personajes convincentes que expresan emociones.
Asimismo, Sora puede crear múltiples tomas dentro de un solo video generado, conservando con precisión los personajes y el estilo visual.
Sin embargo, se reconocen algunas debilidades en el modelo actual. Por ejemplo, puede tener dificultades para simular con precisión la física de una escena compleja o comprender instancias específicas de causa y efecto.
Por ejemplo, alguien podría morder una galleta, pero luego, es probable que la galleta no presente ninguna marca de mordida. Asimismo, puede confundir los detalles espaciales de un mensaje y tener dificultades con descripciones precisas de eventos que tienen lugar a lo largo del tiempo.
¿Qué estrategias de seguridad implementará OpenAI?
En cuanto a las estrategias de seguridad implementadas por OpenAI, se están llevando a cabo una serie de medidas fundamentales antes de que Sora esté disponible en los productos de la compañía.
En este sentido, se está colaborando estrechamente con los miembros del equipo rojo, expertos en áreas como la desinformación, el contenido de odio y los prejuicios, quienes someterán el modelo a rigurosas pruebas adversas.
Además, se están desarrollando herramientas para detectar contenido engañoso, como un clasificador de detección capaz de identificar cuándo Sora generó un video. Asimismo, se planea la inclusión de Metadatos C2PA en el futuro, en caso de que el modelo se despliegue en un producto de OpenAI.
Por ejemplo, una vez que esté integrado en un producto de OpenAI, se implementará un clasificador de texto que verificará y rechazará las instrucciones de entrada que violen las políticas de uso, como aquellas que soliciten violencia extrema, contenido sexual, imágenes de odio, semejanza de celebridades o propiedad intelectual de terceros.
Además, se están desarrollando sólidos clasificadores de imágenes para revisar los fotogramas de cada video generado, asegurando que se ajusten a las políticas de uso de OpenAI antes de ser mostrados al usuario.
Para garantizar una implementación segura y responsable de esta tecnología, OpenAI está involucrando a responsables políticos, educadores y artistas de todo el mundo.
Aunque se realizaron extensas investigaciones y pruebas, se reconoce que no se pueden prever todas las formas en que las personas utilizarán esta tecnología, sea buena o mala.
Por ello, se considera fundamental aprender del uso en el mundo real para continuar mejorando y lanzando sistemas de inteligencia artificial cada vez más seguros con el paso del tiempo.
Técnicas de investigación implementadas en esta nueva herramienta
En cuanto a las técnicas de investigación, Sora se presenta como un modelo de difusión que, de manera gradual, transforma un video comenzando con lo que parece ser ruido estático, eliminando este en múltiples pasos.
Esta capacidad se logra al proporcionar al modelo una previsión de múltiples fotogramas a la vez, resolviendo así un desafío importante para asegurar que un sujeto permanezca consistente incluso cuando se pierde de vista temporalmente.
Los videos e imágenes son representados como colecciones de unidades de datos más pequeñas llamadas ‘parches’, cada una de las cuales es similar a un token en GPT.
Esta unificación en la representación de datos posibilita entrenar transformadores de difusión en una gama más amplia de datos visuales, abarcando diferentes duraciones, resoluciones y relaciones de aspecto.
Sora se fundamenta en investigaciones previas en modelos DALL·E y GPT. Utiliza la técnica del subtitulado de DALL·E 3, la cual implica la generación de leyendas altamente descriptivas para los datos de entrenamiento visual. Gracias a esto, el modelo puede seguir de manera más fiel las instrucciones de texto del usuario en el video generado.
Además de su capacidad para generar videos únicamente a partir de instrucciones de texto, este modelo puede tomar una imagen fija existente y producir un video a partir de ella, animando con precisión el contenido de la imagen y prestando atención a los pequeños detalles. También puede ampliar o rellenar fotogramas faltantes en un video existente.
El Grupo de Diarios América (GDA), al cual pertenece ‘La Nación’, es una red de medios líderes fundada en 1991, que promueve los valores democráticos, la prensa independiente y la libertad de expresión en América Latina a través del periodismo de calidad para nuestras audiencias.