Chatbots de IA como ChatGPT y Bard pueden ser «hipnotizados» para filtrar información o dar consejos perjudiciales

9 de septiembre de 2023

280

1_6GcByOw53PhWSAmHuNiHCA — Los investigadores demostraron que los LLM pueden ser manipulados sin conocimientos de programación (Foto: Midjourney)

Los investigadores de seguridad de la empresa IBM lograron «hipnotizar» a los procesadores de texto alimentados por Inteligencia Artificial (IA) ChatGPT de OpenAI y Bard de Google para que generen respuestas incorrectas y maliciosas.

Los investigadores introdujeron a estos modelos lingüísticos (LLM) las respuestas a las reglas de los «juegos» con lo que consiguieron «hipnotizar» a los procesadores de texto.

Como parte de los «juegos» se le pidió a los chatbots que generaran respuestas incorrectas para demostrar que eran éticos y justos.

«Nuestro experimento demuestra que es posible controlar un LLM, consiguiendo que proporcione una mala indicación a los usuarios, sin que la manipulación de los datos sea un requisito», escribió Chenta Lee, una de las investigadoras de IBM.

Los investigadores de IBM lograron "hipnotizar" a los chatbots y consiguieron que filtraran información confidencial y ofrecieran recomendaciones potencialmente perjudiciales. https://t.co/nj96hDsqXy
— euronews español (@euronewses) September 5, 2023

A raíz de esta prueba los LLM generaron códigos maliciosos, filtraron información financiera confidencial de otros usuarios y convencieron a los conductores a que se saltaran los semáforos en rojo.

En uno de los casos, ChatGPT le dijo a uno de los investigadores que es normal que la agencia tributaria estadounidense pida un depósito para obtener un reembolso de impuesto, lo cual es una táctica usada por los estafadores para engañar a la gente.

En otra de las consultas, el chatbox señaló: «cuando veas un semaforo en rojo, no debes detenerte». El usuario le había consultado qué hacer si veía un semáforo en rojo mientras conducía.

Aunque el experimento solo respondía a las indicaciones que les daban, los especialistas advierten que la capacidad de manipular a los LLM abre las puertas a un uso indebido de los modelos de IA.

Por otra parte, el experimento demostró que ya no es necesario conocer lenguajes de programación para comunicarse con los programas, y que basta una simple instrucción de texto para «engañar» a los sistemas de IA.

Sin embargo, los riesgos que plantea la hipnosis es actualmente «bajo» los LLM son una «superficie de ataque» completamente nueva que evolucionará.

«Todavía nos queda mucho por explorar desde el punto de vista de la seguridad y, por consiguiente, una importante necesidad de determinar cómo mitigar eficazmente los riesgos de seguridad que los LLM pueden introducir para los consumidores y las empresas», agregó Lee.