Apprentissage automatique - Sophos mise sur l'intelligence artificielle

Intercept X 2.0 est sur le point de paraître. La phase bêta se poursuit déjà depuis un certain temps et le produit devrait vraisemblablement être publié courant janvier 2018, sous forme de mise à jour gratuite. Cet article ne traite pas encore directement de Intercept X 2.0, mais vise plutôt à offrir un aperçu approfondi de la technologie qu’il intègre.

Intelligence artificielle

Actuellement, le Machine Learning - ou, en français, « apprentissage automatique » - est sur toutes les lèvres, comme l’ont été avant lui le Cloud, la VR (Virtual Reality) et l’AR (Augmented Reality). Le marketing le met généralement en avant sous l’acronyme A.I. pour Artificial Intelligence, ou en français IA, pour intelligence artificielle. Chatbots, assistants virtuels, voitures autonomes, outils de traduction, smartphones, logiciels photo : les fabricants affirment tous intégrer de l’IA censée nous faciliter la vie et rendre les produits plus intelligents.

Les smartphones haut de gamme embarquent désormais des puces d’IA (Neural Processing Units, NPUs) dédiées à la reconnaissance et à l’analyse de motifs. Si l’on extrapole cette évolution, chacun aura bientôt dans sa poche un petit superordinateur quasiment toujours connecté. L’Internet décentralisé imaginé par Richard Hendriks dans la série TV « Silicon Valley » pourrait ainsi devenir réalité dans un avenir proche. Des projets de ce type existent déjà sur la blockchain, qu’il s’agisse de stockage décentralisé ou de puissance de calcul distribuée.

À ce stade, une recommandation sans réserve pour la série TV Silicon Valley !

Mais revenons au sujet. Aujourd’hui, tout le monde revendique l’IA, mais loin de là, tout ce qui en porte l’étiquette n’en contient réellement. Les différences sont considérables. Derrière le terme IA, on trouve en réalité essentiellement le Machine Learning, sur lequel Sophos s’appuie également avec Intercept X 2.0.

Qu’est-ce que ce « Machine Learning » au juste ?

L’apprentissage automatique est décrit sur Wikipédia de manière concise et pertinente comme suit :

« L’apprentissage automatique est un terme générique désignant la génération “artificielle” de connaissances à partir de l’expérience : un système artificiel apprend à partir d’exemples et peut généraliser ces exemples à l’issue de la phase d’apprentissage. Cela signifie que les exemples ne sont pas simplement appris par cœur, mais que le système “reconnaît” des motifs et des régularités dans les données d’apprentissage. De cette manière, le système peut évaluer des données inconnues (transfert d’apprentissage) ou échouer à apprendre à partir de données inconnues (surapprentissage). »

À proprement parler, Sophos repose sur le Deep Learning, une forme avancée d’apprentissage automatique.

Avec l’explication ci-dessus de Wikipédia, vous pouvez déjà vous faire une bonne idée de l’impact que l’apprentissage automatique peut avoir sur un produit comme Intercept X. Nous savons tous que les antivirus basés sur des signatures ne sont plus déterminants pour la détection des virus depuis 2005, puisqu’ils ne peuvent combattre que les malwares déjà connus et répertoriés. C’est en permanence une course entre les auteurs de malwares et les équipes qui élaborent les signatures. Les développeurs de malwares ont logiquement toujours une petite longueur d’avance, si bien que les logiciels malveillants restent inconnus pendant un certain temps. Dès qu’un nouveau code malveillant est identifié, de simples ajustements du programme suffisent à nouveau à le rendre « inconnu » pour les antivirus.

Sophos a déjà développé de nombreuses méthodes alternatives pour détecter les malwares et ne s’appuie depuis longtemps plus uniquement sur les signatures. Néanmoins, le rachat de l’entreprise Invincea début 2017 s’est avéré particulièrement judicieux, puisqu’il a permis d’intégrer dans les produits une technologie capable de protéger également contre les menaces futures et donc contre des codes malveillants encore inconnus.

Le Machine Learning n’est toutefois pas complètement nouveau. Les algorithmes existent depuis les années 1980 et ont peu évolué. Jusqu’à récemment, on ne disposait cependant ni du Big Data ni de la puissance de calcul nécessaire. C’est pourquoi le Machine Learning a connu un renouveau vers 2012. Il en va de même pour les Genetic Algorithms, dont, à mon avis, les auteurs de malwares s’inspireront à l’avenir.

Comment fonctionne l’apprentissage automatique en théorie ?

Pour simplifier, on commence par alimenter la machine avec un volume massif de données. L’algorithme les dissèque et analyse les caractéristiques des fichiers. Il peut s’agir, par exemple, de la taille du fichier, mais aussi de caractéristiques bien plus complexes, comme des segments entiers de code. Au terme de ce processus, on ne dispose donc pas seulement d’une valeur de hachage, comme dans la détection basée sur les signatures, mais d’une multitude d’indicateurs. Ainsi, une simple petite modification du code ne suffit plus pour se faire passer pour un nouveau malware, car d’autres caractéristiques demeurent identiques.

Une fois ces caractéristiques extraites, on commence à élaborer ce que l’on appelle des « modèles ». Pour cela, il faut une très grande quantité de données. Cela tombe bien : plus de 390 000 nouveaux malwares - soit plus de 16 000 par heure - apparaissent chaque jour. Sophos Sandstorm ou Intercept X, qui envoient leurs données aux Sophos Labs, contribuent eux aussi à la collecte et à l’entraînement des modèles. Les URL malveillantes ou les spams fournissent également du matériau d’apprentissage. Il ne faut pas seulement des malwares, mais aussi des fichiers légitimes, afin d’éviter plus tard les faux positifs.

Plusieurs modèles différents sont testés en parallèle, puis l’on retient celui qui fournit les meilleurs résultats. À partir de ce modèle et des caractéristiques, se dégage un motif décrivant à quoi doit ressembler un malware et en quoi il se distingue d’un fichier sain. Ces motifs permettent ensuite d’évaluer les fichiers et de calculer la probabilité qu’il s’agisse d’un malware. Tout cela se joue en quelques millisecondes et consomme nettement moins de ressources (CPU et RAM) que d’autres méthodes d’analyse. Lors d’une mise à jour, seules les fonctions de reconnaissance de motifs sont améliorées et non, comme dans la détection basée sur les signatures, de nouvelles signatures rechargées toutes les x secondes.

Ceux qui souhaitent approfondir le sujet pourront consulter l’article technique de Sophos : Sophos Machine Learning comment concevoir un meilleur modèle de détection des menaces

Le PDF est en anglais, mais peut être traduit dans de nombreuses autres langues grâce au Machine Learning de DeepL : https://www.deepl.com/translator. Le célèbre Google Traducteur utilise bien sûr lui aussi le Machine Learning, mais DeepL a été alimenté avec de meilleures données et ses modèles ont été nettement mieux entraînés.

Le Machine Learning seul ne suffit pas

L’apprentissage automatique permet déjà d’atteindre des taux de détection remarquablement élevés et ses avantages par rapport à la détection par signatures sont évidents. Sophos ne s’appuie toutefois pas uniquement sur ces nouveaux modèles, mais utilise le Machine Learning comme technologie complémentaire pour atteindre la détection de malwares la plus complète possible.

Intercept X 2.0 contribuera ainsi, grâce au Machine Learning, à une détection encore plus efficace des ransomwares et des exploits, et viendra compléter les autres technologies, comme par exemple Exploit Prevention, Malicious Traffic Detection, CryptoGuard et le Synchronized Security Heartbeat. C’est précisément au niveau de ces technologies additionnelles que l’on distingue le bon grain de l’ivraie ou, pour le dire autrement, un simple antivirus d’une solution professionnelle.

Intercept X suffit-il comme unique protection ?

On peut se demander si l’antivirus classique n’est pas devenu obsolète dès lors que l’on a installé Intercept X avec toutes ces technologies avancées, et désormais aussi le Machine Learning. Si vous utilisez le client Sophos Endpoint, celui-ci doit impérativement continuer à fonctionner en parallèle avec Intercept X. La raison en est que le client Sophos Endpoint est bien plus qu’un simple antivirus qui détecte les malwares à l’aide de signatures. Le client Sophos Endpoint propose par exemple Web Security, Web Control / filtrage d’URL par catégories, Device Control ou Application Control, pour ne citer que quelques fonctionnalités. Vous trouverez un aperçu complet des différences entre Sophos Endpoint Protection et Intercept X dans cette fiche technique.

Pour tous les autres antivirus « classiques », je ne vois effectivement plus vraiment d’utilité à l’avenir. Pour l’instant, rien ne s’oppose toutefois à faire cohabiter un antivirus existant avec Intercept X.

Pour en savoir plus sur le Machine Learning

Sur la page Sophos Labs, on trouve depuis peu d’excellentes statistiques en temps réel sur les activités quotidiennes de spam et de malware, générées à partir d’un vaste volume de données.

Pour tous ceux qui apprécient ce type de données en temps réel, nous avons rassemblé quelques liens. Nous-mêmes trouvons toujours impressionnant de constater combien d’attaques ont réellement lieu. C’est fou de voir ce qui se passe en coulisses :

Norse Attack Map

Les cyberattaques y sont représentées en temps réel. Pour cela, 8 millions de capteurs et plus de 6 000 applications sont déployés sur des serveurs répartis dans 40 pays : ce sont ce que l’on appelle des honeypots, de véritables pièges virtuels. Le tout représente plus de 7 pétaoctets de données d’attaque collectées.

Norse maintains the world’s largest dedicated threat intelligence network. With over eight million sensors that emulate over six thousand applications - from Apple laptops, to ATM machines, to critical infrastructure systems, to closed-circuit TV cameras - the Norse Intelligence Network gathers data on who the attackers are and what they’re after. Norse delivers that data through the Norse Appliance, which pre-emptively blocks attacks and improves your overall security ROI, and the Norse Intelligence Service, which provides professional continuous threat monitoring for large networks.

FireEye - Cyber Threat Map

La FireEye Cyber Threat Map présente, sous forme de récapitulatif quotidien, toutes les attaques DDoS globales.

Top 5 des secteurs signalés
Principaux attaquants par pays
FireEye Cyber Threat Map

Kaspersky - Cyber Map

La carte des cybermenaces en temps réel de Kaspersky affiche les attaques détectées en temps réel par leurs différentes sources.

Accès On-Scanner
Scanner On-Demand
Web Antivirus
Mail Antivirus
Système de détection d’intrusion
Scan de vulnérabilités
Kaspersky Anti-Spam
Détection d’activité de botnet
Kaspersky Cyberthreat real-time map

Akamai - Real-Time Web Monitor

Akamai surveille en continu, 24 h/24, l’état de l’Internet mondial. Grâce à ces données temps réel, ils identifient les régions du monde où le trafic d’attaques Web est le plus élevé, les villes avec les connexions Web les plus lentes (latence) et les zones géographiques avec le trafic Web le plus important (densité de trafic).

Real-Time Web Monitor

Checkpoint - Live Cyber Attack Threat Map

Threat Cloud de Check Point affiche lui aussi des données d’attaque. Un classement des pays les plus ciblés est également proposé.

Checkpoint - Live Cyber Attack Threat Map

Deutsche Telekom - Sicherheitstacho

Le « Sicherheitstacho » présente les cyberattaques mondiales détectées par l’infrastructure de honeypots de la DTAG et de ses partenaires.

Sicherheitstacho

Digital Attack Map

Visualisation en temps réel des attaques DDoS globales. Ce projet a été développé conjointement par Google Ideas et Arbor Networks. L’outil fournit des données d’attaque anonymisées permettant aux utilisateurs d’explorer les tendances historiques et de consulter des rapports sur les incidents à une date donnée.

Digital Attack Map