Lovable AI es la más vulnerable a ataques de Jailbreak, lo que permite a los ciberdelincuentes crear páginas fraudulentas

Lovable, una plataforma impulsada por inteligencia artificial generativa (IA) que permite crear aplicaciones web full-stack a partir de indicaciones en lenguaje natural, ha sido identificada como la más vulnerable a los ataques de jailbreak, facilitando incluso que usuarios sin experiencia puedan configurar páginas falsas de captura de credenciales.

“Como herramienta creada específicamente para el desarrollo y despliegue de aplicaciones web, sus capacidades se alinean perfectamente con los deseos de cualquier estafador. Desde páginas fraudulentas perfectamente diseñadas hasta alojamiento en vivo, técnicas de evasión e incluso paneles de administración para monitorear los datos robados —Lovable no solo participó, desempeñó un papel destacado. Sin límites, sin titubeos”, comentó Nati Tal de Guardio Labs en un informe.

La técnica ha sido bautizada como VibeScamming, un juego de palabras derivado de vibe coding, un enfoque de programación dependiente de IA en el que se describe el problema en pocas frases para que un modelo de lenguaje (LLM) especializado en codificación genere la solución.

El uso malicioso de LLMs y chatbots basados en IA no es nuevo. En semanas recientes, investigaciones han revelado cómo actores maliciosos están aprovechando herramientas como ChatGPT de OpenAI y Gemini de Google para desarrollar malware, realizar investigaciones y crear contenido con fines ilegítimos.

Además, modelos como DeepSeek también han demostrado ser vulnerables a técnicas de prompt injection y jailbreaking, como Bad Likert Judge, Crescendo y Deceptive Delight, que les permiten eludir las barreras éticas y de seguridad para generar contenido prohibido. Esto incluye la creación de correos de phishing, muestras de keyloggers o ransomware, aunque usualmente requiere indicaciones adicionales y depuración.

En un informe reciente, Symantec —filial de Broadcom— describió cómo el agente de IA Operator de OpenAI podría ser usado con fines maliciosos para automatizar tareas como la búsqueda de correos electrónicos, la creación de scripts en PowerShell que recopilan información del sistema, almacenarla en Google Drive y enviar correos de phishing que engañen a los usuarios para ejecutar dichos scripts.

El creciente uso de herramientas de IA también implica que los atacantes tienen ahora menos barreras de entrada, ya que pueden aprovechar estas capacidades para generar malware funcional con poco o ningún conocimiento técnico.

Un ejemplo claro es el nuevo método de jailbreaking denominado Immersive World, que permite crear infostealers capaces de recolectar credenciales y datos sensibles almacenados en navegadores como Google Chrome. Esta técnica «utiliza ingeniería narrativa para evadir los controles de seguridad de los LLM», mediante la creación de un mundo ficticio detallado con personajes y reglas específicas que permiten burlar las restricciones.

El análisis más reciente de Guardio Labs va aún más allá, revelando que plataformas como Lovable y, en menor medida, Claude de Anthropic, podrían ser utilizadas para desarrollar campañas completas de estafa. Estas incluyen desde plantillas de mensajes de texto (SMS), uso de Twilio para enviar enlaces maliciosos, técnicas de ofuscación, evasión de defensas y hasta integración con Telegram.

El proceso de VibeScamming inicia con una instrucción directa al modelo de IA para automatizar cada paso del ciclo de ataque. Luego se evalúa su respuesta inicial y se emplea una estrategia de múltiples indicaciones para “guiar suavemente” al modelo a generar la respuesta maliciosa deseada. Esta fase, conocida como «level up«, consiste en mejorar la calidad de la página de phishing, optimizar los métodos de entrega y aumentar la credibilidad del fraude.

Según Guardio, Lovable no solo genera una página de inicio de sesión falsa que imita a la perfección la interfaz de Microsoft, sino que además la despliega automáticamente en una URL dentro de su propio subdominio (por ejemplo, *.lovable.app) y redirige a office[.]com una vez robadas las credenciales.

A esto se suma que tanto Claude como Lovable responden positivamente a indicaciones que buscan evitar que las páginas fraudulentas sean detectadas por soluciones de seguridad, además de permitir la exfiltración de credenciales robadas hacia servicios externos como Firebase, RequestBin, JSONBin o incluso canales privados de Telegram.

“Lo más alarmante no es solo la similitud gráfica, sino también la experiencia del usuario. Imita tan bien la experiencia real que incluso podríamos decir que es más fluida que el flujo de inicio de sesión de Microsoft. Esto demuestra el poder bruto de los agentes de IA enfocados en tareas específicas, y cómo, sin un refuerzo adecuado, pueden convertirse inadvertidamente en herramientas de abuso”, señaló Tal.

“No solo generó la página de estafa con almacenamiento completo de credenciales, sino que también nos entregó un panel de administración completamente funcional para revisar todos los datos capturados —credenciales, direcciones IP, marcas de tiempo y contraseñas en texto plano”.

Como complemento a sus hallazgos, Guardio ha lanzado la primera versión del llamado VibeScamming Benchmark, diseñado para evaluar la capacidad de los modelos de IA generativa frente a posibles abusos en flujos de trabajo de phishing. En esta evaluación, ChatGPT obtuvo una puntuación de 8 sobre 10, Claude alcanzó 4.3 y Lovable apenas 1.8, lo cual indica una alta vulnerabilidad.

“ChatGPT, aunque probablemente es el modelo general más avanzado, también resultó ser el más cauteloso. Claude, en cambio, comenzó con una fuerte resistencia, pero demostró ser fácilmente persuadible. Una vez que se enmarcó el objetivo como ‘investigación ética o de seguridad’, ofreció una guía sorprendentemente detallada”, explicó Tal.

Gracias por apoyar el libre conocimiento con tu donación!
Bitcoin: bc1q4sw9260twfcxatj8mjp7358cyvrf8whzlelyhj
Ethereum: 0xFb93D2a3c9d1A0b83EE629c2dE1725BCa192e581
Litecoin: LbFduJmHvQXcpCnwfUT7aJ4DYoWSL3iQw8
Dogecoin: D7QQVqNR5rk215A4zd2gyzV9P2bLQtZHFV
Transferencia bancaria en México:
Cuenta CLABE: 646180224401848086 Nombre: Masterhacks LATAM Banco: STP

Unete a nuestros grupos:
WhatsApp: https://chat.whatsapp.com/KdHY8EXqhAUCVp8kcum4QL
Telegram: https://t.me/masterhacks_net
Canal de WhatsApp https://whatsapp.com/channel/0029VaBBLCn5vKAH9NOWCl3K

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *