Aprendizaje automático: Sophos apuesta por la inteligencia artificial

Intercept X 2.0 está a punto de salir. La fase beta lleva ya un tiempo en marcha y es muy probable que el producto llegue este mismo mes (enero de 2018) como actualización gratuita. En este artículo, sin embargo, no hablaremos aún de Intercept X 2.0, sino que profundizaremos en la tecnología que incorpora.

Inteligencia artificial

En estos momentos el Machine Learning, o «aprendizaje automático» en español, está en boca de todos, igual que antes lo estuvieron la nube, la RV (realidad virtual) y la RA (realidad aumentada). Marketing suele presentarlo como IA, de Inteligencia Artificial. Da igual que hablemos de chatbots, asistentes virtuales, coches autónomos, herramientas de traducción, smartphones o software de fotografía: según los fabricantes, en todas partes hay IA integrada que debe facilitarnos la vida y hacer que el producto sea más inteligente.

Los smartphones de gama alta integran actualmente chips de IA (Neural Processing Unit, NPU) para el reconocimiento y análisis de patrones. Si pensamos hacia dónde va esto, pronto cada persona llevará en el bolsillo un pequeño superordenador prácticamente siempre conectado. El Internet descentralizado de Richard Hendriks en la serie de TV «Silicon Valley» se está acercando a la realidad. Ya existen proyectos de este tipo basados en blockchain para almacenamiento y capacidad de cómputo descentralizados.

Aquí va una recomendación muy clara de la serie de TV Silicon Valley.

Pero volvamos al tema. Ahora mismo todo el mundo hace publicidad con IA, aunque ni de lejos en todos los sitios donde pone IA realmente haya IA dentro. Las diferencias son enormes. Detrás del término IA no se esconde, en esencia, otra cosa que Machine Learning, que es precisamente la base en la que Sophos sustenta Intercept X 2.0.

¿Qué es exactamente eso del «Machine Learning»?

En Wikipedia se describe el aprendizaje automático de forma breve y acertada del siguiente modo:

“El aprendizaje automático es un término genérico que se refiere a la generación «artificial» de conocimiento a partir de la experiencia: un sistema artificial aprende de ejemplos y puede generalizarlos una vez finalizada la fase de aprendizaje. Esto significa que no se limita a memorizar los ejemplos, sino que «reconoce» patrones y regularidades en los datos de aprendizaje. De este modo, el sistema también puede evaluar datos desconocidos (transferencia de aprendizaje) o fracasar en el aprendizaje de datos desconocidos (sobreajuste).”

En sentido estricto, Sophos se basa en Deep Learning, una forma avanzada de aprendizaje automático.

A partir de la explicación anterior de Wikipedia, podéis haceros una idea aproximada del enorme impacto que puede tener el aprendizaje automático en un producto como Intercept X. Todos deberíamos tener claro que los antivirus basados en firmas dejaron de ser decisivos para la detección de virus ya en 2005, porque solo permiten combatir malware ya conocido y catalogado. Siempre se trata de una lucha entre los programadores de malware y los creadores de firmas. Es lógico que los programadores de malware lleven siempre una ligera ventaja: durante un tiempo, su software malicioso es desconocido. Y, en cuanto se detecta un nuevo programa dañino, suelen bastar pequeños cambios en el código para volver a hacerlo «desconocido» para los antivirus.

Sophos ya ha desarrollado muchos métodos alternativos para detectar malware y hace tiempo que no se basa únicamente en firmas. Aun así, no fue una mala jugada adquirir la empresa Invincea a principios de 2017 e incorporar así a los productos una tecnología capaz de proteger también frente a amenazas futuras y, por tanto, frente a código dañino aún desconocido.

Machine Learning tampoco es algo completamente nuevo. Los algoritmos existen desde los años 80 y apenas han cambiado. Lo que no había hasta ahora era Big Data ni la potencia de proceso necesaria. Por eso Machine Learning vivió un renacimiento hacia 2012. Lo mismo ocurre con los Genetic Algorithms, de los que, en mi opinión, los desarrolladores de malware se aprovecharán en el futuro.

¿Cómo funciona el aprendizaje automático en teoría?

Dicho de forma sencilla, se alimenta a la máquina con una gran cantidad de datos. El algoritmo los descompone y analiza los atributos de los archivos. Puede tratarse, por ejemplo, del tamaño del archivo, pero también de características mucho más complejas, como partes completas del código. Tras este proceso, no se obtiene solo un hash, como ocurre con la detección basada en firmas, sino una gran cantidad de indicadores. De este modo, un pequeño cambio en el código ya no basta para camuflarse como un malware completamente nuevo, porque otros atributos seguirían siendo idénticos.

Una vez definidos los atributos, se empieza a trabajar en los llamados «modelos». Para ello se necesitan realmente muchos datos. Y viene muy bien que cada día aparezcan más de 390 000 nuevos programas maliciosos, es decir, más de 16 000 por hora. También Sophos Sandstorm o Intercept X, en los que los datos se envían a Sophos Labs, ayudan a recopilar datos y a entrenar los modelos. Las URL maliciosas o el spam también proporcionan material de entrenamiento. No se necesitan solo programas dañinos, sino también archivos legítimos, para evitar posteriormente falsos positivos.

Se prueban varios modelos diferentes de forma paralela y se elige el que ofrezca los mejores resultados. A partir del modelo y las características se deriva un patrón que define cómo debe ser el malware y en qué se diferencia de un archivo legítimo. Estos patrones permiten evaluar archivos y calcular la probabilidad de que se trate de malware. Todo esto sucede en milisegundos y requiere mucha menos potencia de cómputo (CPU y RAM) que otros métodos de análisis. Con cada actualización solo se mejoran los patrones de detección, y no se descargan nuevas firmas cada X segundos como ocurre en la detección basada en firmas.

Quien quiera profundizar algo más en la materia puede consultar el artículo técnico de Sophos: Sophos Machine Learning cómo crear un mejor modelo de detección de amenazas

El PDF está en inglés, pero se puede traducir a muchos otros idiomas mediante Machine Learning con DeepL: https://www.deepl.com/translator. El conocido Google Translator, por supuesto, también utiliza Machine Learning, pero DeepL ha sido alimentado con mejores datos y los modelos están entrenados de forma claramente más eficaz.

El Machine Learning por sí solo no basta

El aprendizaje automático puede alcanzar ya tasas de detección impresionantes y las ventajas frente a la detección basada en firmas son evidentes. Sin embargo, Sophos no se apoya únicamente en estos nuevos patrones, sino que utiliza Machine Learning como una tecnología adicional con el objetivo de lograr una detección de malware lo más exhaustiva posible.

Gracias al Machine Learning, Intercept X 2.0 podrá ayudar aún más en la detección de ransomware y exploits y complementar otras tecnologías como Exploit Prevention, Malicious Traffic Detection, CryptoGuard y Synchronized Security Heartbeat. Es precisamente en estas tecnologías adicionales donde se separa el grano de la paja, o dicho de otro modo, el antivirus estándar de una solución profesional.

¿Basta con Intercept X como única protección?

Es legítimo preguntarse si el antivirus tradicional no ha quedado obsoleto cuando ya se tiene instalado Intercept X con todas estas tecnologías y, en adelante, también con Machine Learning. Si utilizáis el cliente Sophos Endpoint, este debería seguir funcionando en paralelo con Intercept X. El motivo es que Sophos Endpoint Client es mucho más que un simple antivirus que detecta software malicioso por firmas. Sophos Endpoint Client ofrece, por ejemplo, Web Security, Web Control / filtrado de URLs por categorías, Device Control o Application Control, por citar solo algunas funciones. Podéis encontrar una comparativa completa de las diferencias entre Sophos Endpoint Protection y Intercept X en esta ficha técnica.

Para el resto de programas antivirus «clásicos», sí que empiezo a ver que, de cara al futuro, aportan poco valor. Pero, a día de hoy, no hay nada en contra de ejecutar el antivirus en paralelo con Intercept X.

Más sobre Machine Learning

En la página de Sophos Labs hay desde hace poco estadísticas en tiempo real sobre la actividad diaria de spam y malware, generadas a partir de una enorme cantidad de datos.

Para todos los que disfrutan con este tipo de datos en tiempo real, hemos recopilado algunos enlaces. A nosotros mismos nos sigue impresionando ver cuántos ataques se producen realmente ahí fuera. Es increíble lo que sucede entre bastidores:

Norse Attack Map

Aquí se muestran ciberataques en tiempo real. Para ello se utilizan 8 millones de sensores y más de 6000 aplicaciones en servidores de 40 países, los llamados honeypots, que son trampas virtuales. Todo ello se traduce en más de 7 petabytes de datos de ataques recopilados.

Norse maintains the world’s largest dedicated threat intelligence network. With over eight million sensors that emulate over six thousand applications - from Apple laptops, to ATM machines, to critical infrastructure systems, to closed-circuit TV cameras - the Norse Intelligence Network gathers data on who the attackers are and what they’re after. Norse delivers that data through the Norse Appliance, which pre-emptively blocks attacks and improves your overall security ROI, and the Norse Intelligence Service, which provides professional continuous threat monitoring for large networks.

FireEye - Cyber Threat Map

El FireEye Cyber Threat Map muestra en un resumen diario todos los ataques DDoS globales.

Top 5 de sectores notificados
Principales atacantes por país
FireEye Cyber Threat Map

Kaspersky - Cyber Map

El mapa de ciberamenazas en tiempo real de Kaspersky muestra ataques detectados en tiempo real por sus distintos sistemas de origen.

Acceso al escáner en tiempo real
Escáner bajo demanda
Web Antivirus
Mail Antivirus
Sistema de detección de intrusos
Análisis de vulnerabilidades
Kaspersky Anti-Spam
Detección de actividad de botnets
Kaspersky Cyberthreat real-time map

Akamai - Real-Time Web Monitor

Akamai supervisa 24/7 las condiciones de Internet a escala global. A partir de estos datos en tiempo real identifica las regiones del mundo con mayor volumen de tráfico de ataques web, las ciudades con las conexiones web más lentas (latencia) y las zonas geográficas con el mayor tráfico web (densidad de tráfico).

Real-Time Web Monitor

Checkpoint - Live Cyber Attack Threat Map

Threat Cloud de Check Point también muestra datos de ataques. Además, incluye un ranking de países más atacados.

Checkpoint - Live Cyber Attack Threat Map

Deutsche Telekom - Sicherheitstacho

El Sicherheitstacho muestra los ciberataques a nivel mundial dirigidos contra la infraestructura de honeypots de DTAG y sus socios.

Sicherheitstacho

Digital Attack Map

Datos en vivo visualizados de ataques DDoS globales. Se desarrolló en colaboración entre Google Ideas y Arbor Networks. La herramienta ofrece datos de ataques anónimos con los que los usuarios pueden explorar tendencias históricas y consultar informes de interrupciones para un día concreto.

Digital Attack Map