Google ha anunciado un innovador vectorizador de texto multilingüe llamado RETVec (acrónimo de Resilient and Efficient Text Vectorizer) diseñado para identificar contenido potencialmente perjudicial, como correos no deseados y mensajes electrónicos maliciosos en Gmail.
Según la descripción del proyecto en GitHub, «RETVec está capacitado para resistir manipulaciones a nivel de caracteres, tales como inserciones, eliminaciones, errores tipográficos, homoglifos, sustituciones LEET y más».
A pesar de que plataformas de gran envergadura como Gmail y YouTube confían en modelos de clasificación de texto para detectar ataques de phishing, comentarios inapropiados y estafas, se sabe que los actores de amenazas idean estrategias para eludir estas medidas de defensa.
Estos actores a menudo recurren a manipulaciones adversas de texto, que van desde el uso de homoglifos hasta el relleno de palabras clave e incluso la inserción de caracteres invisibles.
RETVec, que es compatible con más de 100 idiomas de manera predeterminada, tiene como objetivo contribuir a la creación de clasificadores de texto más resilientes y eficientes, tanto en servidores como en dispositivos, al tiempo que se vuelven más robustos y eficientes.
La vectorización es una metodología en el procesamiento del lenguaje natural (NLP) que asigna palabras o frases de vocabulario a una representación numérica correspondiente, permitiendo así análisis adicionales, como análisis de sentimientos, clasificación de texto y reconocimiento de entidades nombradas.
La integración de este vectorizador en Gmail, según el gigante tecnológico, mejoró la tasa de detección de spam en un 38% en comparación con el valor base y redujo la tasa de falsos positivos en un 19,4%. Además, disminuyó el uso de la Unidad de Procesamiento Tensorial (TPU) del modelo en un 83%.