Investigadores de la Universidad de California en Riverside han presentado un innovador modelo de inteligencia artificial diseñado para exponer vídeos falsos.
Amit Roy-Chowdhury, profesor de ingeniería eléctrica e informática, y el candidato a doctorado Rohit Kundu, ambos de la Facultad de Ingeniería Marlan y Rosemary Bourns de la UC Riverside, colaboraron con científicos de Google para desarrollar un modelo de IA que detecta la manipulación de videos, incluso cuando las manipulaciones se extienden más allá de los cambios de rostros y el habla alterada.
El sistema, denominado Red Universal para la Identificación de Vídeos Manipulados y Sintéticos (UNITE), examina fotogramas completos del vídeo, incluyendo fondos y patrones de movimiento, para detectar falsificaciones. Este análisis exhaustivo posiciona a UNITE como una de las primeras herramientas capaces de identificar vídeos sintéticos o manipulados evaluando más allá del simple contenido facial.
“Los deepfakes han evolucionado”, declaró Kundu en un comunicado de prensa. “Ya no se trata solo de intercambiar rostros. Ahora se crean videos completamente falsos, desde rostros hasta fondos, utilizando potentes modelos generativos. Nuestro sistema está diseñado para detectar todo eso”.
El desarrollo de UNITE coincide con la proliferación de herramientas de generación de texto a video e imagen a video, ampliamente accesibles en línea. Estas plataformas permiten a personas con habilidades moderadas crear videos falsos muy convincentes, lo que representa riesgos significativos para las personas, las instituciones e incluso la propia democracia.
“Da miedo lo accesibles que se han vuelto estas herramientas”, añadió Kundu. “Cualquiera con un nivel de conocimientos mediocre puede saltarse los filtros de seguridad y generar vídeos realistas de figuras públicas diciendo cosas que nunca dijeron”.
Kundu señaló que los detectores de deepfakes anteriores se centraban principalmente en las señales faciales, lo que los hacía ineficaces contra los videos sin rostros.
“Si no hay ningún rostro en el encuadre, muchos detectores simplemente no funcionan”, explicó. “Pero la desinformación puede presentarse de muchas formas. Alterar el fondo de una escena puede distorsionar la verdad con la misma facilidad”.
Para afrontar este reto, UNITE emplea un modelo de aprendizaje profundo basado en transformadores para analizar videoclips, detectando sutiles inconsistencias espaciales y temporales que los sistemas anteriores solían pasar por alto. El modelo aprovecha un marco fundamental de IA conocido como SigLIP, que extrae características independientemente de personas u objetos específicos. Además, una novedosa técnica de entrenamiento, conocida como “pérdida de atención-diversidad”, anima al sistema a distribuir su atención entre múltiples regiones visuales dentro de cada fotograma, evitando que se concentre excesivamente en los rasgos faciales.
Estas innovaciones dieron como resultado un detector universal capaz de identificar diversos tipos de falsificaciones, desde simples intercambios faciales hasta complejos vídeos totalmente sintéticos creados sin ninguna fuente de material genuino.
“Es un modelo que abarca todos estos escenarios”, añadió Kundu. “Eso es lo que lo hace universal”.
Los investigadores presentaron sus hallazgos en la prestigiosa Conferencia sobre Visión Artificial y Reconocimiento de Patrones (CVPR) de 2025 en Nashville, Tennessee. Su artículo describe la arquitectura y la metodología de entrenamiento de UNITE.
La pasantía de Kundu en Google facilitó el acceso a amplios conjuntos de datos y recursos informáticos necesarios para entrenar el modelo en diversas formas de contenido sintético, incluidos videos generados a partir de texto o imágenes fijas, formatos que a menudo confunden a los detectores existentes.
Aunque UNITE aún está en desarrollo, tiene el potencial de desempeñar un papel crucial en la lucha contra la desinformación en vídeo. Entre sus posibles usuarios se incluyen plataformas de redes sociales, verificadores de datos y salas de redacción dedicadas a prevenir la viralización de vídeos manipulados.
“La gente merece saber si lo que ve es real”, dijo Kundu. “Y a medida que la IA mejora su capacidad para falsificar la realidad, nosotros debemos mejorar nuestra capacidad para revelar la verdad”.
You must be logged in to post a comment Login