Machine Learning - A Sophos aposta em inteligência artificial

Intercept X 2.0 está prestes a ser lançado. A fase Beta decorre já há algum tempo e o produto deverá ser disponibilizado ainda este mês (janeiro de 2018) como atualização gratuita. Neste artigo não vamos ainda abordar o Intercept X 2.0 em si, mas sim oferecer uma visão mais aprofundada da tecnologia que o sustenta.

Inteligência artificial

Atualmente, o Machine Learning, ou em português “aprendizagem automática”, está em todo o lado, tal como antes estiveram a cloud, a VR (Virtual Reality) e a AR (Augmented Reality). O marketing vende-o muitas vezes como IA (Inteligência Artificial). Sejam chatbots, assistentes virtuais, automóveis autónomos, ferramentas de tradução, smartphones ou software de fotografia - segundo os fabricantes, tudo integra IA para nos facilitar a vida e tornar os produtos mais inteligentes.

Nos smartphones topo de gama são atualmente integrados chips de IA (Neural Processing Unit - NPUs) para reconhecimento e análise de padrões. Se pensarmos na direção em que isto evolui, em breve cada pessoa terá no bolso um pequeno supercomputador, praticamente sempre online. O conceito de Internet descentralizada de Richard Hendriks, da série de TV “Silicon Valley”, tornar‑se‑á realidade em breve. Já existem projetos deste tipo em blockchain, tanto para armazenamento descentralizado como para capacidade de computação descentralizada.

Fica aqui uma recomendação muito clara para a série de TV Silicon Valley! 😉

Mas regressemos ao tema. Hoje em dia, tudo se publicita como IA, mas está longe de ser verdade que haja realmente inteligência artificial em tudo o que é rotulado como tal. As diferenças são enormes. Em última análise, por detrás do termo IA está “apenas” Machine Learning, que é também a base de Sophos com o Intercept X 2.0.

O que é exatamente este “Machine Learning”?

A aprendizagem automática é descrita de forma breve e precisa na Wikipédia da seguinte maneira:

“Maschinelles Lernen ist ein Oberbegriff für die „künstliche“ Generierung von Wissen aus Erfahrung: Ein künstliches System lernt aus Beispielen und kann diese nach Beendigung der Lernphase verallgemeinern. Das heisst, es werden nicht einfach die Beispiele auswendig gelernt, sondern es „erkennt“ Muster und Gesetzmässigkeiten in den Lerndaten. So kann das System auch unbekannte Daten beurteilen (Lerntransfer) oder aber am Lernen unbekannter Daten scheitern (Überanpassung).”

Rigorosamente falando, Sophos baseia‑se em Deep Learning, uma forma avançada de aprendizagem automática.

Com base na explicação da Wikipédia acima, é fácil imaginar o impacto significativo que a aprendizagem automática pode ter num produto como Intercept X. Convém recordar que os antivírus baseados em assinaturas deixaram de ser determinantes para a deteção de vírus desde 2005, por só conseguirem combater malware já conhecido e catalogado. É sempre uma corrida entre programadores de malware e criadores de assinaturas. Os programadores de malware têm, inevitavelmente, sempre uma ligeira vantagem, durante a qual o software malicioso permanece desconhecido. E, assim que o novo código malicioso é detetado, bastam pequenas alterações ao programa para o tornar novamente “desconhecido” para os antivírus.

Sophos já desenvolveu muitos métodos alternativos de deteção de malware e há muito que deixou de depender exclusivamente de assinaturas. Ainda assim, não foi uma má jogada adquirir a Invincea no início de 2017 e integrar a tecnologia desta empresa nos produtos, acrescentando proteção também contra ameaças futuras e, consequentemente, contra códigos maliciosos ainda desconhecidos.

O Machine Learning também não é algo completamente novo. Os algoritmos existem desde os anos 80 e pouco mudaram. O que não existia até há pouco tempo era Big Data e a capacidade de processamento necessária. Por isso, o Machine Learning teve um “renascimento” por volta de 2012. O mesmo se aplica a Genetic Algorithms que, na minha opinião, serão utilizados pelos autores de malware no futuro.

Como funciona a aprendizagem automática em teoria?

De forma muito simples: alimenta‑se a máquina com enormes quantidades de dados. O algoritmo decompõe‑nos e analisa as características dos ficheiros. Estas podem ser, por exemplo, o tamanho do ficheiro, mas também características mais complexas, como componentes inteiros do código. No final deste processo, não se obtém apenas um valor de hash, como na deteção baseada em assinaturas, mas sim um conjunto muito mais vasto de indicadores. Pequenas alterações no código já não são suficientes para disfarçar software malicioso como algo completamente novo, porque muitas outras características se mantêm.

Depois de extrair as características, passa‑se à criação dos chamados “modelos”. Para isso, são necessários dados em grande escala. E é aqui que entra o facto de surgirem diariamente mais de 390 000 novos programas maliciosos, ou seja, mais de 16 000 por hora. Também o Sophos Sandstorm ou o Intercept X, nos quais os dados são enviados para os Sophos Labs, contribuem para a recolha de dados e treino dos modelos. URLs maliciosas e spam fornecem igualmente material de aprendizagem. Não são necessários apenas programas maliciosos, mas também ficheiros benignos, para evitar falsos positivos no futuro.

São testados em paralelo vários modelos diferentes e seleciona‑se aquele que apresenta os melhores resultados. A partir do modelo e das características obtém‑se um padrão de como é o malware e em que difere de um ficheiro benigno. Estes padrões permitem então avaliar ficheiros e calcular a probabilidade de se tratar de malware. Tudo isto ocorre em milissegundos e exige muito menos recursos (CPU e RAM) do que outros métodos de análise. Nas atualizações, são apenas melhorados os mecanismos de reconhecimento de padrões, em vez de, como na deteção baseada em assinaturas, serem descarregadas novas assinaturas a cada x segundos.

Quem quiser aprofundar um pouco mais o tema pode consultar o artigo técnico de Sophos: Sophos Machine Learning como criar um modelo de deteção de ameaças melhor

O PDF está em inglês, mas pode ser traduzido para muitas outras línguas recorrendo a Machine Learning com o DeepL: https://www.deepl.com/translator. O conhecido Google Translator utiliza, naturalmente, também Machine Learning, mas o DeepL foi alimentado com dados de melhor qualidade e os modelos foram claramente treinados de forma mais eficaz.

Machine Learning por si só não é suficiente

A aprendizagem automática já atinge taxas de deteção incrivelmente elevadas e as vantagens face à deteção baseada em assinaturas são evidentes. Sophos não se baseia, porém, apenas nestes novos padrões; utiliza o Machine Learning como mais uma tecnologia para alcançar uma deteção de malware o mais abrangente possível.

Intercept X 2.0, graças ao Machine Learning, irá reforçar ainda mais a deteção de ransomware e exploits, complementando outras tecnologias, como por exemplo Exploit Prevention, Malicious Traffic Detection, CryptoGuard e o Synchronized Security Heartbeat. É precisamente nestas tecnologias adicionais que se separa o trigo do joio, ou seja, uma solução profissional de um simples antivírus básico.

Intercept X é suficiente como única proteção?

Pode surgir a questão de saber se o antivírus tradicional ainda faz sentido quando se tem Intercept X com estas tecnologias avançadas e, no futuro, também com Machine Learning. Se utilizarem o Sophos Endpoint Client, este deve continuar obrigatoriamente a correr em paralelo com o Intercept X. A razão é que o Sophos Endpoint Client é muito mais do que um antivírus tradicional que deteta software malicioso com base em assinaturas. O Sophos Endpoint Client oferece, por exemplo, Web Security, Web Control / filtragem de URLs por categoria, Device Control ou Application Control, só para referir alguns. Um resumo completo das diferenças entre Sophos Endpoint Protection e Intercept X encontra‑se esta ficha de dados.

Para todos os outros programas antivírus “clássicos”, não antevejo, de facto, grande utilidade no futuro. Neste momento, no entanto, nada impede que o antivírus seja executado em paralelo com o Intercept X.

Mais sobre o tema Machine Learning

Na página dos Sophos Labs existem, desde há pouco tempo, estatísticas em tempo real sobre atividades diárias de spam e malware, geradas a partir de grandes volumes de dados.

Para quem aprecia este tipo de dados em tempo real, compilámos alguns links. Também para nós continua a ser impressionante ver quantos ataques ocorrem realmente lá fora. É incrível o que se passa nos bastidores:

Norse Attack Map

Aqui são apresentados ciberataques em tempo real. Estão em uso 8 milhões de sensores e mais de 6000 aplicações em servidores de 40 países, os chamados honeypots, que funcionam como armadilhas virtuais. No total, isto resulta em mais de 7 petabytes de dados de ataques recolhidos.

Norse maintains the world’s largest dedicated threat intelligence network. With over eight million sensors that emulate over six thousand applications - from Apple laptops, to ATM machines, to critical infrastructure systems, to closed-circuit TV cameras - the Norse Intelligence Network gathers data on who the attackers are and what they’re after. Norse delivers that data through the Norse Appliance, which pre-emptively blocks attacks and improves your overall security ROI, and the Norse Intelligence Service, which provides professional continuous threat monitoring for large networks.

FireEye - Cyber Threat Map

O FireEye Cyber Threat Map apresenta, num resumo diário, todos os ataques DDoS globais.

Top 5 dos setores reportados
Principais países de origem dos atacantes
FireEye Cyber Threat Map

Kaspersky - Cyber Map

O mapa de ciberameaças em tempo real da Kaspersky mostra ataques em tempo real detetados pelas suas diversas fontes.

On-Access-Scanner
On-Demand-Scanner
Web Antivirus
Mail Antivirus
Sistema de deteção de intrusões
Scanner de vulnerabilidades
Kaspersky Anti-Spam
Deteção de atividade de botnets
Kaspersky Cyberthreat real-time map

Akamai - Real-Time Web Monitor

A Akamai monitoriza as condições globais da Internet 24 horas por dia. Com base nestes dados em tempo real, identifica as regiões do mundo com maior volume de tráfego de ataques Web, as cidades com ligações Web mais lentas (latência) e as áreas geográficas com maior volume de tráfego Web (densidade de tráfego).

Real-Time Web Monitor

Check Point - Live Cyber Attack Threat Map

A Threat Cloud da Check Point mostra igualmente dados de ataques. Existe também um ranking dos países mais visados.

Check Point - Live Cyber Attack Threat Map

Deutsche Telekom - Sicherheitstacho

O Sicherheitstacho mostra os ciberataques globais dirigidos à infraestrutura de honeypots da DTAG e dos seus parceiros.

Sicherheitstacho

Digital Attack Map

Dados em tempo real, visualizados, de ataques DDoS globais. Foi desenvolvido em cooperação entre a Google Ideas e a Arbor Networks. A ferramenta disponibiliza dados de ataques anónimos, permitindo aos utilizadores analisar tendências históricas e consultar relatórios de incidentes para um dia específico.

Digital Attack Map