Cómo GPT-4o resuelve el Captcha Cognitivo de X (Twitter) a la primera

Desde que me topé con el Captcha Cognitivo de X (Twitter), he ido probando diferentes modelos multimodales como GPT4, GPT4-Vision, Bard, Gemini Ultra, o Anthropic Claude 3.0 Opus para ver si lo resolvían. La resolución de Captchas Cognitivos – como el de la agrupación de conjuntos que os dejé -, el uso de convertir el captcha escrito a audio, y usando Cognitive Services pasarlo a texto para saltarse reCaptcha v2 de Google, o el uso de los Multimodal LLMs como he dicho al principio, son una disciplina de investigación muy importante para utilizar la tecnología GenAI en el mundo de la Ciberseguridad. Lo que abre muchos nuevos riesgos, y muchas nuevas aproximaciones a los equipos Blue Team y Red Team.

Figura 1: Cómo GPT-4o resuelve el Captcha Cognitivo de X (Twitter) a la primera
Ayer le dije a mi amigo Julian Isla que probáramos el Captcha Cognitivo del puzzle con el trenecito que puedes ver en la imagen siguiente, donde hay que mover de un lado a otro con GPT-4o para ver si fallaba como los anteriores o lo resolvía a la primera.

Figura 2: El Captcha Cognitivo del Puzzle del Tren en X (Twitter)
El funcionamiento del test es, dada una vía, un tren, y una lista de estaciones, el “humano” debe ser capaz de seguir la vía movimiento el tren de estación a estación, eligiendo derecha o izquierda (sólo esas posibilidades hay), y el número de estaciones que hay que saltar. Como ya os conté, tanto GPT4, GPT4-Vision, Bard, Gemini Ultra, como Anthropic Claude 3.0 Opus necesitaban ayuda porque les costaba resolverlo a la primera.
Ahora con ChatGPT usando GPT-4o el resultado es que lo resuelve perfectamente a la primera, sólo hay que darle el mismo prompt explicativo del juego que le dimos a los anteriores modelos, para ver qué responde. Aquí tienes el problema con GPT4-Vision, donde podéis ver que falla.
En este caso responde en español – por el idioma del navegador -, pero se puede ver cómo es capaz de resolver el problema de Captcha Cogntivo con facilidad, lo que permite que cualquier ataque automatizado pueda tirar de GPT-4o cuando de resolver estos Captchas sea necesario.

Figura 5: Probando el captcha cognitivo del tren con GPT-4o
Y aquí tenéis la respuesta de lo que debes hacer para superar este Captcha Cognitivo, con lo que ya se podría automatizar en cualquier herramienta.

Figura 6: La respuesta correcta de GPT-4o
La parte de visión en GPT-4o ha mejorado mucho, y es que ya le puedes dar una imagen de una radiografía y una descripción del problema, para que te haga un diagnóstico médico. 

Figura 7: Una imagen de un tweet con unas radiografías
y una descripción del caso. Justo con un prompt “Solve this”

Y no lo hace nada mal, que como sabéis, es uno de los Benchmarks que se están comenzando a medir en estos modelos para su aplicación al diagnóstico clínico de un paciente.

Figura 8: La respuesta al caso

¿Alguien se atreve a imaginar cómo será esto en un par de años? Cada vez va más rápido, cada vez tiene más aplicación, cada vez impacta más en nuestro día a día, en nuestro trabajo, y en lo nuestra sociedad. Y al mismo tiempo, la cabeza está ebullición con nuevas ideas de innovación que pueden venir.
 
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)  

Leave Your Comment