Investigadores de la UCR fortalecen la IA contra el recableado no autorizado

Amedida que los modelos de IA generativa migran de los enormes servidores en la nube a teléfonos y automóviles, se reducen para ahorrar energía. Sin embargo, lo que se reduce puede incluir la tecnología que les impide difundir discursos de odio o ofrecer hojas de ruta para actividades delictivas.

Para contrarrestar esta amenaza, los investigadores de la Universidad de California, Riverside, han desarrollado un método para preservar las protecciones de la IA incluso cuando los modelos de IA de código abierto se reducen para funcionar en dispositivos de menor consumo.

A diferencia de los sistemas de IA propietarios, los modelos de código abierto pueden ser descargados, modificados y ejecutados sin conexión por cualquier persona. Su accesibilidad promueve la innovación y la transparencia, pero también plantea desafíos en cuanto a la supervisión. Sin la infraestructura en la nube y la monitorización constante que ofrecen los sistemas cerrados, estos modelos son vulnerables al uso indebido.

Los investigadores de la UCR se centraron en un problema clave: las características de seguridad cuidadosamente diseñadas se deterioran cuando se reduce el tamaño de los modelos de IA de código abierto. Esto se debe a que las implementaciones de menor potencia suelen omitir capas de procesamiento interno para conservar memoria y potencia computacional. Eliminar capas mejora la velocidad y la eficiencia de los modelos, pero también podría resultar en respuestas que contengan pornografía o instrucciones detalladas para la fabricación de armas.

“Algunas de las capas omitidas resultan esenciales para prevenir resultados inseguros”, afirmó Amit Roy-Chowdhury, profesor de ingeniería eléctrica e informática y autor principal del estudio. “Si se omiten, el modelo podría empezar a responder preguntas que no debería”.

La solución del equipo fue reentrenar la estructura interna del modelo para preservar su capacidad de detectar y bloquear avisos peligrosos, incluso al eliminar las capas clave. Su enfoque evita filtros externos o parches de software. En cambio, modifica la forma en que el modelo comprende el contenido de riesgo a un nivel fundamental.

“Nuestro objetivo era asegurarnos de que el modelo no olvide cómo comportarse de manera segura cuando se reduce su tamaño”, dijo Saketh Bachu, estudiante de posgrado de la UCR y coautor principal del estudio.

Para probar su método, los investigadores utilizaron LLaVA 1.5, un modelo de lenguaje visual capaz de procesar texto e imágenes. Descubrieron que ciertas combinaciones, como asociar una imagen inofensiva con una pregunta maliciosa, podían eludir los filtros de seguridad del modelo. En un caso, el modelo modificado respondió con instrucciones detalladas para construir una bomba.

Sin embargo, después del reentrenamiento, el modelo se negó confiablemente a responder consultas peligrosas, incluso cuando se implementó con solo una fracción de su arquitectura original. 

“No se trata de añadir filtros ni barreras externas”, dijo Bachu. “Estamos modificando la comprensión interna del modelo, para que funcione correctamente por defecto, incluso cuando se modifica”.

Bachu y el coautor principal, Erfan Shayegani, también estudiante de posgrado, describen el trabajo como “hacking benévolo”, una forma de fortalecer los modelos antes de que se puedan explotar las vulnerabilidades. Su objetivo final es desarrollar técnicas que garanticen la seguridad en todas las capas internas, fortaleciendo la IA en condiciones reales.

Además de Roy-Chowdhury, Bachu y Shayegani, el equipo de investigación incluyó a los estudiantes de doctorado Arindam Dutta, Rohit Lal y Trishna Chakraborty, y a los profesores de la UCR Chengyu Song, Yue Dong y Nael Abu-Ghazaleh. Su trabajo se detalla en un artículo presentado este año en la Conferencia Internacional sobre Aprendizaje Automático en Vancouver, Canadá. 

«Aún queda mucho por hacer», afirmó Roy-Chowdhury. «Pero este es un paso concreto hacia el desarrollo de la IA de forma abierta y responsable».

You must be logged in to post a comment Login