Google presenta RETVec, nueva defensa de Gmail contra el spam y correos electrónicos maliciosos

Google ha anunciado un innovador vectorizador de texto multilingüe llamado RETVec (acrónimo de Resilient and Efficient Text Vectorizer) diseñado para identificar contenido potencialmente perjudicial, como correos no deseados y mensajes electrónicos maliciosos en Gmail.

Según la descripción del proyecto en GitHub, «RETVec está capacitado para resistir manipulaciones a nivel de caracteres, tales como inserciones, eliminaciones, errores tipográficos, homoglifos, sustituciones LEET y más».

«El modelo RETVec se ha entrenado sobre un codificador de caracteres novedoso capaz de codificar eficientemente todos los caracteres y palabras UTF-8».

A pesar de que plataformas de gran envergadura como Gmail y YouTube confían en modelos de clasificación de texto para detectar ataques de phishing, comentarios inapropiados y estafas, se sabe que los actores de amenazas idean estrategias para eludir estas medidas de defensa.

Estos actores a menudo recurren a manipulaciones adversas de texto, que van desde el uso de homoglifos hasta el relleno de palabras clave e incluso la inserción de caracteres invisibles.

RETVec, que es compatible con más de 100 idiomas de manera predeterminada, tiene como objetivo contribuir a la creación de clasificadores de texto más resilientes y eficientes, tanto en servidores como en dispositivos, al tiempo que se vuelven más robustos y eficientes.

La vectorización es una metodología en el procesamiento del lenguaje natural (NLP) que asigna palabras o frases de vocabulario a una representación numérica correspondiente, permitiendo así análisis adicionales, como análisis de sentimientos, clasificación de texto y reconocimiento de entidades nombradas.

«Gracias a su arquitectura innovadora, RETVec funciona de manera eficiente en todos los idiomas y caracteres UTF-8 sin necesidad de procesamiento de texto previo, convirtiéndolo en la opción ideal para implementaciones de clasificación de texto en dispositivos, web y a gran escala», destacaron Elie Bursztein y Marina Zhang de Google.

La integración de este vectorizador en Gmail, según el gigante tecnológico, mejoró la tasa de detección de spam en un 38% en comparación con el valor base y redujo la tasa de falsos positivos en un 19,4%. Además, disminuyó el uso de la Unidad de Procesamiento Tensorial (TPU) del modelo en un 83%.

Bursztein y Zhang añadieron: «Los modelos entrenados con RETVec muestran una velocidad de inferencia más rápida gracias a su representación compacta. La reducción del tamaño de los modelos no solo disminuye los costos computacionales, sino que también reduce la latencia, aspecto crítico para aplicaciones a gran escala y modelos en dispositivos».

Gracias por apoyar el libre conocimiento con tu donación!
Bitcoin: bc1q4sw9260twfcxatj8mjp7358cyvrf8whzlelyhj
Ethereum: 0xFb93D2a3c9d1A0b83EE629c2dE1725BCa192e581
Litecoin: LbFduJmHvQXcpCnwfUT7aJ4DYoWSL3iQw8
Dogecoin: D7QQVqNR5rk215A4zd2gyzV9P2bLQtZHFV
Transferencia bancaria en México:
Cuenta CLABE: 646180224401848086 Nombre: Masterhacks LATAM Banco: STP

Unete a nuestros grupos:
WhatsApp: https://chat.whatsapp.com/HcazyklpyeU4X3BF657KFQ
Telegram: https://t.me/masterhacks_net
Canal de WhatsApp https://whatsapp.com/channel/0029VaBBLCn5vKAH9NOWCl3K

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *