Google presenta RETVec, nueva defensa de Gmail contra el spam y correos electrónicos maliciosos

Descargar artículo en PDF

Google ha anunciado un innovador vectorizador de texto multilingüe llamado RETVec (acrónimo de Resilient and Efficient Text Vectorizer) diseñado para identificar contenido potencialmente perjudicial, como correos no deseados y mensajes electrónicos maliciosos en Gmail.

Según la descripción del proyecto en GitHub, «RETVec está capacitado para resistir manipulaciones a nivel de caracteres, tales como inserciones, eliminaciones, errores tipográficos, homoglifos, sustituciones LEET y más».

«El modelo RETVec se ha entrenado sobre un codificador de caracteres novedoso capaz de codificar eficientemente todos los caracteres y palabras UTF-8».

A pesar de que plataformas de gran envergadura como Gmail y YouTube confían en modelos de clasificación de texto para detectar ataques de phishing, comentarios inapropiados y estafas, se sabe que los actores de amenazas idean estrategias para eludir estas medidas de defensa.

Estos actores a menudo recurren a manipulaciones adversas de texto, que van desde el uso de homoglifos hasta el relleno de palabras clave e incluso la inserción de caracteres invisibles.

RETVec, que es compatible con más de 100 idiomas de manera predeterminada, tiene como objetivo contribuir a la creación de clasificadores de texto más resilientes y eficientes, tanto en servidores como en dispositivos, al tiempo que se vuelven más robustos y eficientes.

La vectorización es una metodología en el procesamiento del lenguaje natural (NLP) que asigna palabras o frases de vocabulario a una representación numérica correspondiente, permitiendo así análisis adicionales, como análisis de sentimientos, clasificación de texto y reconocimiento de entidades nombradas.

«Gracias a su arquitectura innovadora, RETVec funciona de manera eficiente en todos los idiomas y caracteres UTF-8 sin necesidad de procesamiento de texto previo, convirtiéndolo en la opción ideal para implementaciones de clasificación de texto en dispositivos, web y a gran escala», destacaron Elie Bursztein y Marina Zhang de Google.

La integración de este vectorizador en Gmail, según el gigante tecnológico, mejoró la tasa de detección de spam en un 38% en comparación con el valor base y redujo la tasa de falsos positivos en un 19,4%. Además, disminuyó el uso de la Unidad de Procesamiento Tensorial (TPU) del modelo en un 83%.

Bursztein y Zhang añadieron: «Los modelos entrenados con RETVec muestran una velocidad de inferencia más rápida gracias a su representación compacta. La reducción del tamaño de los modelos no solo disminuye los costos computacionales, sino que también reduce la latencia, aspecto crítico para aplicaciones a gran escala y modelos en dispositivos».

Deja una respuesta Cancelar la respuesta

Related News

Investigadores encontraron la forma de cerrar campañas de criptominería utilizando «Acciones Inválidas» y XMRogue

Nueva regla para obtener la Visa de EE. UU. requiere que los solicitantes establezcan la privacidad de cuentas de redes sociales como pública

Nueva campaña de malware para Android llega a los dispositivos a través de superposiciones, fraude de virtualización y robo de NFC