Lovable, una plataforma impulsada por inteligencia artificial generativa (IA) que permite crear aplicaciones web full-stack a partir de indicaciones en lenguaje natural, ha sido identificada como la más vulnerable a los ataques de jailbreak, facilitando incluso que usuarios sin experiencia puedan configurar páginas falsas de captura de credenciales.
“Como herramienta creada específicamente para el desarrollo y despliegue de aplicaciones web, sus capacidades se alinean perfectamente con los deseos de cualquier estafador. Desde páginas fraudulentas perfectamente diseñadas hasta alojamiento en vivo, técnicas de evasión e incluso paneles de administración para monitorear los datos robados —Lovable no solo participó, desempeñó un papel destacado. Sin límites, sin titubeos”, comentó Nati Tal de Guardio Labs en un informe.
La técnica ha sido bautizada como VibeScamming, un juego de palabras derivado de vibe coding, un enfoque de programación dependiente de IA en el que se describe el problema en pocas frases para que un modelo de lenguaje (LLM) especializado en codificación genere la solución.
El uso malicioso de LLMs y chatbots basados en IA no es nuevo. En semanas recientes, investigaciones han revelado cómo actores maliciosos están aprovechando herramientas como ChatGPT de OpenAI y Gemini de Google para desarrollar malware, realizar investigaciones y crear contenido con fines ilegítimos.
Además, modelos como DeepSeek también han demostrado ser vulnerables a técnicas de prompt injection y jailbreaking, como Bad Likert Judge, Crescendo y Deceptive Delight, que les permiten eludir las barreras éticas y de seguridad para generar contenido prohibido. Esto incluye la creación de correos de phishing, muestras de keyloggers o ransomware, aunque usualmente requiere indicaciones adicionales y depuración.
En un informe reciente, Symantec —filial de Broadcom— describió cómo el agente de IA Operator de OpenAI podría ser usado con fines maliciosos para automatizar tareas como la búsqueda de correos electrónicos, la creación de scripts en PowerShell que recopilan información del sistema, almacenarla en Google Drive y enviar correos de phishing que engañen a los usuarios para ejecutar dichos scripts.

El creciente uso de herramientas de IA también implica que los atacantes tienen ahora menos barreras de entrada, ya que pueden aprovechar estas capacidades para generar malware funcional con poco o ningún conocimiento técnico.
Un ejemplo claro es el nuevo método de jailbreaking denominado Immersive World, que permite crear infostealers capaces de recolectar credenciales y datos sensibles almacenados en navegadores como Google Chrome. Esta técnica «utiliza ingeniería narrativa para evadir los controles de seguridad de los LLM», mediante la creación de un mundo ficticio detallado con personajes y reglas específicas que permiten burlar las restricciones.

El análisis más reciente de Guardio Labs va aún más allá, revelando que plataformas como Lovable y, en menor medida, Claude de Anthropic, podrían ser utilizadas para desarrollar campañas completas de estafa. Estas incluyen desde plantillas de mensajes de texto (SMS), uso de Twilio para enviar enlaces maliciosos, técnicas de ofuscación, evasión de defensas y hasta integración con Telegram.
El proceso de VibeScamming inicia con una instrucción directa al modelo de IA para automatizar cada paso del ciclo de ataque. Luego se evalúa su respuesta inicial y se emplea una estrategia de múltiples indicaciones para “guiar suavemente” al modelo a generar la respuesta maliciosa deseada. Esta fase, conocida como «level up«, consiste en mejorar la calidad de la página de phishing, optimizar los métodos de entrega y aumentar la credibilidad del fraude.
Según Guardio, Lovable no solo genera una página de inicio de sesión falsa que imita a la perfección la interfaz de Microsoft, sino que además la despliega automáticamente en una URL dentro de su propio subdominio (por ejemplo, *.lovable.app
) y redirige a office[.]com
una vez robadas las credenciales.
A esto se suma que tanto Claude como Lovable responden positivamente a indicaciones que buscan evitar que las páginas fraudulentas sean detectadas por soluciones de seguridad, además de permitir la exfiltración de credenciales robadas hacia servicios externos como Firebase, RequestBin, JSONBin o incluso canales privados de Telegram.
“Lo más alarmante no es solo la similitud gráfica, sino también la experiencia del usuario. Imita tan bien la experiencia real que incluso podríamos decir que es más fluida que el flujo de inicio de sesión de Microsoft. Esto demuestra el poder bruto de los agentes de IA enfocados en tareas específicas, y cómo, sin un refuerzo adecuado, pueden convertirse inadvertidamente en herramientas de abuso”, señaló Tal.
“No solo generó la página de estafa con almacenamiento completo de credenciales, sino que también nos entregó un panel de administración completamente funcional para revisar todos los datos capturados —credenciales, direcciones IP, marcas de tiempo y contraseñas en texto plano”.
Como complemento a sus hallazgos, Guardio ha lanzado la primera versión del llamado VibeScamming Benchmark, diseñado para evaluar la capacidad de los modelos de IA generativa frente a posibles abusos en flujos de trabajo de phishing. En esta evaluación, ChatGPT obtuvo una puntuación de 8 sobre 10, Claude alcanzó 4.3 y Lovable apenas 1.8, lo cual indica una alta vulnerabilidad.
“ChatGPT, aunque probablemente es el modelo general más avanzado, también resultó ser el más cauteloso. Claude, en cambio, comenzó con una fuerte resistencia, pero demostró ser fácilmente persuadible. Una vez que se enmarcó el objetivo como ‘investigación ética o de seguridad’, ofreció una guía sorprendentemente detallada”, explicó Tal.