"Sora" es el nuevo modelo de IA de OpenAI capaz de generar videos realistas a partir de instrucciones de texto, superando a otras opciones en el mercado como Pika o Runway.
A pesar de los impresionantes resultados que puede lograr Sora, su desarrollo plantea varias preguntas. Por ejemplo, surge la duda sobre cómo se entrenó el modelo, es decir, qué bases de datos se utilizaron, y cómo la compañía está trabajando activamente para limitar su uso en la producción de contenido falso como deepfakes, especialmente en el contexto de las elecciones en Estados Unidos.
¿Qué es y cómo funciona Sora?
Según OpenAI, este nuevo modelo de IA puede generar videos de hasta un minuto de duración, manteniendo la calidad visual y cumpliendo con las indicaciones del usuario. Funciona a partir de elementos en movimiento y detalles precisos de la composición en escenas complejas, pero también comprende cómo otros elementos existen en el mundo físico, lo que lo hace más realista.
Además, al tener un "profundo conocimiento del lenguaje", puede interpretar indicaciones para generar personajes consistentes sin mostrar cambios en el estilo visual o en la precisión del video.
La compañía también detalla que Sora, al ser un modelo de difusión similar a los generadores de imágenes, produce un video iniciando con lo que parece ruido estático, transformándolo gradualmente y eliminando el ruido.
Con esto, el modelo es capaz de generar videos completos de una vez o ampliar aquellos ya generados para hacerlos más largos, garantizando que un sujeto permanezca igual aunque se pierda en el campo visual de forma temporal, algo que suele ocurrir en otros modelos.
Los peros en Sora
Por el momento, OpenAI no ha revelado el origen del material con el que este modelo fue entrenado, y según The New York Times, la compañía se negó a mencionar el número de videos con los que aprendió o su fuente, aunque aceptó que su capacitación incluyó no solo videos públicos, sino también otros con licencia de los titulares de derechos de autor.
Este hermetismo es comprensible, ya que mantener bajo secreto sus datos utilizados les proporciona una ventaja sobre sus competidores, al no poder replicar en principio sus mismas fuentes de entrenamiento.
La falta de transparencia sobre el origen de los datos de Sora también plantea varias dudas, ya que, al igual que sucedió en su momento con el auge de deepfakes y suplantaciones realizadas con Inteligencia Artificial, podría representar un problema al determinar si un contenido es real o no, sobre todo en el marco de las elecciones de Estados Unidos.
Esto se debe a que, al volverse cada vez más eficientes en la generación de contenido, también se convierten en un método mucho más rápido y económico de crear desinformación en línea, lo que dificulta el trabajo de desmentir o verificar dichos contenidos.
El riesgo de Sora
Eso sí, OpenAI dice ser consciente de los riesgos en el uso de Sora, por lo que actualmente se están tomando medidas de seguridad importantes antes de que Sora esté disponible, probando el modelo de manera adversa para conocer sus límites y la forma de controlarlo.
Además, la compañía reveló que se están creando nuevas herramientas que permiten detectar el contenido engañoso, que se podrán usar cuando Sora produzca un nuevo video.
Eso no es todo, pues también se están desarrollando otras técnicas para su despliegue que aprovechen los métodos de seguridad existentes en DALL-E 3, verificando y rechazando peticiones que vayan en contra de las políticas de uso, como violencia extrema, contenido sexual, imágenes de odio, celebridades, etc., así como analizando los fotogramas de cada video para garantizar que cumplan con su política antes de mostrarlos al usuario.
OpenAI no tiene por ahora una fecha de lanzamiento al público de Sora, y según la compañía, se seguirá limitando únicamente a los investigadores por un tiempo, hasta que se pueda evitar cualquier uso inadecuado de su herramienta.
El mal uso de la IA
El riesgo que plantea Sora en el contenido falso no es cierto, pues ya han existido otros casos en los que los usuarios han llevado al límite las capacidades de algún modelo para generar contenido, siendo uno de los más conocidos los deepfakes de Taylor Swift.
La actriz se vio envuelta en un "reto" junto a celebridades como Ariana Grande, Billie Eilish o Emma Watson, donde se pedía a modelos como DALLE, Microsoft Designer y Bing Image Creator crear imágenes pornográficas y se votaba cuáles prompts habían sido los más realistas.
Estas imágenes se generaron en 4chan, pero rápidamente migraron a otras plataformas como X (antes Twitter), donde la plataforma tuvo que bloquear las búsquedas y eliminar el contenido falso para intentar solucionar el problema.
Impulsando a la IA
El desarrollo en la IA tampoco se detiene. El CEO de OpenAI, Sam Altman, tiene otros planes sobre la mesa, como recaudar billones de dólares para impulsar la construcción mundial de chips, lo cual también se reflejaría en la capacidad para potenciar la IA.
En la actualidad, estos modelos de lenguaje utilizan chips de procesamiento gráfico (GPU) para hacer funcionar sus sistemas y que puedan procesar información, lo que se ha reflejado en los estados financieros de NVIDIA, cuya valoración ha aumentado gracias al interés de la industria en este tipo de productos.
Ver todos los comentarios en https://www.xataka.com.mx
VER 1 Comentario