Machine Learning - Sophos punta sull'intelligenza artificiale

Intercept X 2.0 è ormai prossimo al rilascio. La fase beta è in corso da tempo e il prodotto dovrebbe arrivare, con ogni probabilità, già questo mese (gennaio 2018) come aggiornamento gratuito. In questo articolo non parleremo ancora di Intercept X 2.0, ma daremo invece uno sguardo più approfondito alla tecnologia su cui si basa.

Intelligenza artificiale

Oggi il Machine Learning, o “Apprendimento Automatico” in italiano, è sulla bocca di tutti, proprio come lo sono stati in passato il cloud, la VR (Virtual Reality) e l’AR (Augmented Reality). Il marketing lo propone spesso come A.I., Artificial Intelligence, o in italiano IA, cioè intelligenza artificiale. Che si tratti di chatbot, assistenti virtuali, auto a guida autonoma, strumenti di traduzione, smartphone o software di fotoritocco: secondo i produttori, ovunque ci sarebbe dell’AI integrata, che dovrebbe semplificarci la vita e rendere il prodotto più “intelligente”.

Negli smartphone di fascia alta vengono oggi integrati chip AI (Neural Processing Unit, NPU) per il riconoscimento e l’analisi di pattern. Considerando la direzione in cui ci si sta muovendo, presto ognuno di noi avrà in tasca un piccolo supercomputer, praticamente sempre online. Il concetto di Internet decentralizzato di Richard Hendricks nella serie TV “Silicon Valley” diventerà presto realtà. Esistono già oggi progetti analoghi basati su blockchain per lo storage e la capacità di calcolo decentralizzati.

Qui non si può che consigliare caldamente la serie TV Silicon Valley!

Ma torniamo al tema. Oggi chiunque pubblicizza la propria soluzione come dotata di AI, ma non tutto ciò che è etichettato come AI contiene vera AI. Le differenze sono enormi. In fin dei conti, dietro al concetto di AI non si nasconde altro che Machine Learning, la stessa tecnologia su cui si basa anche Sophos con Intercept X 2.0.

Che cos’è esattamente questo “Machine Learning”?

Su Wikipedia il Machine Learning viene descritto in modo breve ed efficace come segue:

“L’apprendimento automatico (o Machine Learning) è un termine generico per la generazione “artificiale” di conoscenza dall’esperienza: un sistema artificiale impara da esempi e può generalizzarli al termine della fase di apprendimento. Ciò significa che gli esempi non vengono semplicemente imparati a memoria, ma il sistema “riconosce” modelli e regolarità nei dati di apprendimento. In questo modo, il sistema può valutare anche dati sconosciuti (trasferimento di apprendimento) oppure fallire nell’apprendimento di dati sconosciuti (overfitting).”

Più precisamente, Sophos si basa sul Deep Learning, una forma avanzata di apprendimento automatico.

Sulla base della spiegazione di Wikipedia qui sopra, è facile immaginare quali effetti notevoli il Machine Learning possa avere su un prodotto come Intercept X. Dobbiamo essere tutti consapevoli del fatto che gli antivirus basati su firme non sono più decisivi, dal 2005, per il rilevamento dei virus, poiché possono contrastare solo il malware già noto e catalogato. È quindi sempre una corsa tra sviluppatori di malware e autori di firme. Gli sviluppatori di malware hanno, per logica, sempre un leggero vantaggio, durante il quale il codice malevolo rimane sconosciuto. Non appena il nuovo malware viene identificato, bastano piccole modifiche al programma per renderlo di nuovo “sconosciuto” agli antivirus.

Sophos ha già sviluppato numerosi metodi alternativi per il rilevamento del malware e non si affida più soltanto alle firme. Non è stata certo una mossa sbagliata acquisire la società Invincea all’inizio del 2017 e integrare così nei prodotti una tecnologia in grado di proteggere anche dalle minacce future e quindi da codici malevoli ancora sconosciuti.

Il Machine Learning, peraltro, non è affatto una novità assoluta. Gli algoritmi esistono dagli anni ’80 e non sono cambiati poi così tanto. Finora, però, non si disponeva né del Big Data né della potenza di calcolo necessari. Per questo il Machine Learning ha vissuto un vero e proprio revival intorno al 2012. Lo stesso vale per i Genetic Algorithms, di cui a mio avviso gli sviluppatori di malware si serviranno sempre di più in futuro.

Come funziona in teoria il Machine Learning?

In termini molto semplici, la macchina viene “alimentata” con una quantità enorme di dati. L’algoritmo li scompone e analizza le caratteristiche dei file. Può trattarsi, ad esempio, delle dimensioni del file, ma anche di attributi più complessi come intere porzioni di codice. Al termine di questo processo non si dispone quindi solo di un hash, come nel rilevamento basato su firme, ma di un numero molto elevato di indicatori. Una piccola modifica del codice non è più sufficiente a camuffare un malware come qualcosa di completamente nuovo, perché altre caratteristiche rimangono invariate.

Una volta estratte le caratteristiche, si passa alla costruzione dei cosiddetti “modelli”. Per questo sono necessarie quantità davvero imponenti di dati. Ed è “comodo” che ogni giorno compaiano oltre 390.000 nuovi programmi malevoli, ovvero più di 16.000 all’ora. Anche Sophos Sandstorm o Intercept X, tramite cui i dati vengono inviati ai Sophos Labs, contribuiscono alla raccolta dei dati e all’addestramento dei modelli. Anche URL malevoli o spam forniscono materiale di training. Non servono solo campioni di malware, ma anche file benigni, affinché in seguito non si generino falsi positivi.

Si testano in parallelo diversi modelli e si seleziona quello che produce i risultati migliori. Dal modello e dalle caratteristiche emerge un pattern che rappresenta l’aspetto tipico del malware e ciò che lo distingue da un file legittimo. Questi pattern consentono quindi di classificare i file e calcolare la probabilità che si tratti di malware. Tutto ciò avviene nel giro di millisecondi e richiede molte meno risorse (CPU e RAM) rispetto ad altri metodi di analisi. Con un aggiornamento vengono migliorati solo i modelli di riconoscimento dei pattern, invece di scaricare continuamente nuove firme ogni x secondi come nel rilevamento basato su signature.

Chi desidera approfondire ulteriormente l’argomento può leggere l’articolo tecnico di Sophos: Sophos Machine Learning how to build a better threat detection Model

Il PDF è in inglese, ma può essere tradotto in molte altre lingue tramite Machine Learning con DeepL: https://www.deepl.com/translator. Anche il noto Google Translator utilizza naturalmente il Machine Learning, ma DeepL è stato alimentato con dati migliori e i modelli sono stati addestrati in modo sensibilmente più efficace.

Il Machine Learning da solo non basta

Il Machine Learning può già oggi raggiungere tassi di rilevamento straordinariamente elevati e i vantaggi rispetto al rilevamento basato su firme sono evidenti. Sophos tuttavia non si affida esclusivamente a questi nuovi pattern, ma utilizza il Machine Learning soltanto come un’ulteriore tecnologia per ottenere un rilevamento del malware quanto più possibile esaustivo.

Intercept X 2.0, grazie al Machine Learning, sarà quindi ancora più efficace nel rilevamento di ransomware ed exploit e andrà a integrare le altre tecnologie quali, ad esempio, Exploit Prevention, Malicious Traffic Detection, CryptoGuard e l’Synchronized Security Heartbeat. È proprio su queste tecnologie aggiuntive che si separa il grano dal loglio, o, in altre parole, l’antivirus standard da una soluzione professionale.

Intercept X è sufficiente come unica protezione?

Ci si potrebbe chiedere se l’antivirus tradizionale non sia ormai superato, dato che abbiamo installato Intercept X con tutte queste tecnologie avanzate e, in futuro, anche con il Machine Learning. Se utilizzate il client Sophos Endpoint, questo dovrebbe assolutamente continuare a funzionare in parallelo a Intercept X. Il motivo è che il client Sophos Endpoint è molto più di un semplice motore antivirus che rileva il malware tramite firme. Il client Sophos Endpoint può, ad esempio, fornire Web Security, Web Control / URL filtering basato su categorie, Device Control o Application Control, solo per citarne alcuni. Una panoramica completa delle differenze tra Sophos Endpoint Protection e Intercept X è disponibile in questa scheda tecnica.

Per tutti gli altri antivirus “classici”, in effetti non vedo un reale valore aggiunto per il futuro. Al momento, tuttavia, nulla vieta di utilizzare l’antivirus in parallelo con Intercept X.

Per saperne di più su Machine Learning

Sulla pagina Sophos Labs sono disponibili da poco ottime statistiche in tempo reale sulle attività giornaliere di spam e malware, generate a partire da una grande mole di dati.

Per tutti coloro che apprezzano questo tipo di dati in tempo reale abbiamo raccolto alcuni link. Anche noi troviamo sempre impressionante vedere quanti attacchi avvengono realmente là fuori. È incredibile ciò che succede dietro le quinte:

Norse Attack Map

Qui gli attacchi informatici vengono visualizzati in tempo reale. A tal fine vengono utilizzati 8 milioni di sensori e oltre 6000 applicazioni su server in 40 Paesi, i cosiddetti honeypot, vere e proprie trappole virtuali. Il tutto genera oltre 7 petabyte di dati sugli attacchi raccolti.

Norse maintains the world’s largest dedicated threat intelligence network. With over eight million sensors that emulate over six thousand applications - from Apple laptops, to ATM machines, to critical infrastructure systems, to closed-circuit TV cameras - the Norse Intelligence Network gathers data on who the attackers are and what they’re after. Norse delivers that data through the Norse Appliance, which pre-emptively blocks attacks and improves your overall security ROI, and the Norse Intelligence Service, which provides professional continuous threat monitoring for large networks.

FireEye - Cyber Threat Map

La FireEye Cyber Threat Map mostra, in un riepilogo giornaliero, tutti gli attacchi DDoS globali.

Top 5 dei settori segnalati
Principali aggressori per Paese
FireEye Cyber Threat Map

Kaspersky - Cyber Map

La mappa delle cyber minacce in tempo reale di Kaspersky mostra gli attacchi in tempo reale rilevati dai loro diversi sistemi di origine.

Accesso On-Scanner
Scanner On-Demand
Web Antivirus
Mail Antivirus
Sistema di rilevamento intrusioni
Scansione delle vulnerabilità
Kaspersky Anti-Spam
Rilevamento attività botnet
Kaspersky Cyberthreat real-time map

Akamai - Real-Time Web Monitor

Akamai monitora 24 ore su 24 le condizioni di Internet a livello globale. Sulla base di questi dati in tempo reale vengono identificate le aree del mondo con il maggior traffico di attacchi web, le città con le connessioni web più lente (latenza) e le regioni geografiche con il traffico web più elevato (densità di traffico).

Real-Time Web Monitor

Checkpoint - Live Cyber Attack Threat Map

La Threat Cloud di Check Point visualizza anch’essa dati sugli attacchi. È presente anche una classifica dei Paesi più colpiti.

Checkpoint - Live Cyber Attack Threat Map

Deutsche Telekom - Sicherheitstacho

Il Sicherheitstacho mostra gli attacchi informatici a livello mondiale che colpiscono l’infrastruttura di honeypot della DTAG e dei suoi partner.

Sicherheitstacho

Digital Attack Map

Visualizzazione in tempo reale degli attacchi DDoS globali. È stata sviluppata congiuntamente da Google Ideas e Arbor Networks. Lo strumento offre dati anonimi sugli attacchi, che consentono agli utenti di esplorare i trend storici e visualizzare i report sugli outage per un determinato giorno.

Digital Attack Map