Machine Learning - Sophos zet in op kunstmatige intelligentie

Intercept X 2.0 staat op het punt om te worden uitgebracht. De bètafase loopt al geruime tijd en naar verwachting verschijnt het product nog deze maand (januari 2018) als gratis update. In dit artikel gaat het echter nog niet om Intercept X 2.0 zelf, maar vooral om een verdiepende blik op de technologie die daaraan ten grondslag ligt.

Kunstmatige intelligentie

Momenteel is Machine Learning, of in het Nederlands “machinaal leren”, een absolute hype - vergelijkbaar met hoe eerder de cloud, VR (Virtual Reality) en AR (Augmented Reality) dat waren. In de marketing wordt het vaak verkocht als A.I. voor Artificial Intelligence of in het Nederlands KI, kunstmatige intelligentie. Of het nu gaat om chatbots, virtuele assistenten, zelfrijdende auto’s, vertaaltools, smartphones of fotobewerkingssoftware: volgens de fabrikanten zit overal KI in, die ons leven moet vereenvoudigen en producten slimmer moet maken.

In high-end smartphones worden tegenwoordig AI-chips (Neural Processing Units, NPU’s) ingebouwd voor patroonherkenning en -analyse. Als je je voorstelt waar dit naartoe gaat, heeft straks iedereen een kleine supercomputer in zijn broekzak, die vrijwel altijd online is. Het gedecentraliseerde internet van Richard Hendriks uit de tv-serie “Silicon Valley” komt daarmee snel dichter bij de realiteit. Vergelijkbare projecten bestaan al op de blockchain, bijvoorbeeld voor gedecentraliseerde opslag of rekenkracht.

Op dit punt een zeer duidelijke kijktip voor de tv-serie Silicon Valley!

Maar terug naar het onderwerp. Iedereen adverteert momenteel met KI, maar lang niet overal waar KI op staat, zit ook echt KI in. De verschillen zijn enorm. Achter de term KI gaat in feite niets anders schuil dan Machine Learning - en juist daarop zet ook Sophos met Intercept X 2.0 in.

Wat is dat “Machine Learning” nu precies?

Machinaal leren wordt op Wikipedia kort en krachtig als volgt omschreven:

“Machinaal leren is een bovenliggend begrip voor het ‘kunstmatig’ genereren van kennis uit ervaring: een kunstmatig systeem leert van voorbeelden en kan deze na afloop van de leerfase generaliseren. Dat wil zeggen dat de voorbeelden niet eenvoudigweg uit het hoofd worden geleerd, maar dat het systeem patronen en wetmatigheden in de leergegevens ‘herkent’. Zo kan het systeem ook onbekende gegevens beoordelen (leertransfer) of falen bij het leren van onbekende gegevens (overfitting).”

Strikt genomen zet Sophos in op Deep Learning, een geavanceerde vorm van machinaal leren.

Aan de hand van deze Wikipedia-uitleg kun je je waarschijnlijk al enigszins voorstellen welke enorme impact machinaal leren kan hebben op een product als Intercept X. We weten inmiddels allemaal dat signatuurgebaseerde virusscanners sinds 2005 niet meer doorslaggevend zijn voor virusdetectie, omdat ze uitsluitend reeds bekende en vastgelegde malware kunnen bestrijden. Het is dus altijd een kat-en-muisspel tussen malwareprogrammeurs en signatuurschrijvers. De malwareontwikkelaars hebben logischerwijs steeds een kleine voorsprong, waardoor nieuwe schadelijke software altijd enige tijd onbekend blijft. Zodra een nieuw schadprogramma is ontdekt, volstaan bovendien kleine aanpassingen aan de code om het voor virusscanners opnieuw “onbekend” te maken.

Sophos heeft al tal van alternatieve methoden voor malwaredetectie ontwikkeld en vertrouwt al lang niet meer uitsluitend op signaturen. Toch was het een verstandige zet om begin 2017 het bedrijf Invincea over te nemen en zo een technologie in de producten te integreren die ook bescherming biedt tegen toekomstige dreigingen - en dus tegen onbekende malware.

Machine Learning is overigens niet volledig nieuw. De algoritmen bestaan al sinds de jaren tachtig en zijn sindsdien nauwelijks veranderd. Tot nu toe ontbraken echter zowel Big Data als de benodigde processorkracht. Daarom beleefde Machine Learning rond 2012 zijn revival. Hetzelfde geldt voor Genetic Algorithms, waarvan malwareontwikkelaars zich naar mijn mening in de toekomst zullen bedienen.

Hoe werkt machinaal leren in theorie?

Simpel gezegd voed je de machine met enorme hoeveelheden data. Het algoritme onderzoekt deze data en analyseert de kenmerken van de bestanden. Dat kan bijvoorbeeld de bestandsgrootte zijn, maar ook complexere eigenschappen, zoals hele codefragmenten. Na dit proces beschik je niet meer alleen over een hashwaarde, zoals bij signatuurgebaseerde detectie, maar over een groot aantal aanknopingspunten. Een kleine wijziging in de code is daardoor niet langer voldoende om zich als volledig nieuwe malware te vermommen, omdat andere kenmerken gelijk blijven.

Zodra de kenmerken zijn vastgesteld, begin je met het ontwikkelen van zogeheten “modellen”. Daarvoor is extreem veel data nodig. Dat komt goed uit, want er verschijnen dagelijks meer dan 390.000 nieuwe schadelijke programma’s - meer dan 16.000 per uur. Ook Sophos Sandstorm of Intercept X, waarbij data naar de Sophos Labs wordt gestuurd, helpen mee om gegevens te verzamelen en de modellen te trainen. Kwaadaardige URL’s of spam leveren eveneens trainingsmateriaal. Er zijn niet alleen schadelijke programma’s nodig, maar ook legitieme bestanden, om vals-positieve detecties later te voorkomen.

Er worden gelijktijdig meerdere verschillende modellen getest, waarna het model met de beste resultaten wordt gekozen. Op basis van het model en de bijbehorende eigenschappen ontstaat een patroon van hoe malware eruitziet en waarin deze zich onderscheidt van een legitiem bestand. Met behulp van deze patronen kunnen bestanden vervolgens worden beoordeeld en kan de waarschijnlijkheid worden berekend dat het om malware gaat. Dit alles gebeurt binnen milliseconden en vergt aanzienlijk minder resources (CPU en RAM) dan andere analysemethoden. Bij een update worden alleen de patroonherkenningen verbeterd en worden niet, zoals bij signatuurgebaseerde detectie, om de paar seconden nieuwe signaturen gedownload.

Wie graag nog wat dieper in de materie duikt, kan het artikel van Sophos hierover lezen: Sophos Machine Learning how to build a better threat detection Model

Het pdf-bestand is in het Engels, maar kan met behulp van Machine Learning via DeepL naar vele andere talen worden vertaald: https://www.deepl.com/translator. Ook de bekende Google Translate gebruikt uiteraard Machine Learning, maar DeepL is met betere data gevoed en de modellen zijn merkbaar beter getraind.

Machine Learning alleen is niet genoeg

Machinaal leren kan al ongelooflijk hoge detectieratio’s behalen en de voordelen ten opzichte van signatuurgebaseerde detectie liggen voor de hand. Sophos vertrouwt echter niet uitsluitend op deze nieuwe patronen, maar gebruikt Machine Learning als aanvullende technologie om een zo volledig mogelijke malwaredetectie te realiseren.

Intercept X 2.0 zal dankzij Machine Learning nog effectiever helpen bij de detectie van ransomware en exploits, en de andere technologieën - zoals Exploit Prevention, Malicious Traffic Detection, CryptoGuard en de Synchronized Security Heartbeat - aanvullen. Juist bij deze aanvullende technologieën wordt het kaf van het koren gescheiden; of anders gezegd: het verschil tussen een standaard antivirus en een professionele oplossing.

Is Intercept X voldoende als enige bescherming?

Je zou je nu kunnen afvragen of de klassieke antivirus zijn tijd niet heeft gehad, als je toch Intercept X met deze geavanceerde technologieën en in de toekomst ook met Machine Learning hebt geïnstalleerd. Gebruik je de Sophos Endpoint Client, dan moet deze beslist parallel aan Intercept X blijven draaien. De reden is dat de Sophos Endpoint Client veel meer is dan een gewone virusscanner die malware op basis van signaturen herkent. De Sophos Endpoint Client biedt bijvoorbeeld Web Security, Web Control / categoriegebaseerde URL-filtering, Device Control en Application Control, om er slechts enkele te noemen. Een volledig overzicht van de verschillen tussen Sophos Endpoint Protection en Intercept X vind je in dit gegevensblad.

Voor alle andere, “klassieke” antivirusprogramma’s zie ik in de toekomst inderdaad geen echte toegevoegde waarde meer. Op dit moment is er echter niets op tegen om een antivirus parallel aan Intercept X te gebruiken.

Meer over het onderwerp Machine Learning

Op de Sophos Labs-pagina zijn sinds kort mooie realtime statistieken te vinden over dagelijkse spam- en malware-activiteiten, die op basis van enorme hoeveelheden data worden gegenereerd.

Voor iedereen die van dit soort realtime data houdt, hebben we een aantal links verzameld. Wij vinden het telkens weer indrukwekkend om te zien hoeveel aanvallen er daadwerkelijk plaatsvinden. Ongelooflijk wat er allemaal achter de schermen gebeurt:

Norse Attack Map

Hier worden cyberaanvallen in realtime weergegeven. Daarvoor worden 8 miljoen sensoren en meer dan 6000 applicaties op servers in 40 landen ingezet: zogeheten honeypots, oftewel virtuele vallen. Dit alles resulteert in meer dan 7 petabyte aan verzamelde aanvaldata.

Norse maintains the world’s largest dedicated threat intelligence network. With over eight million sensors that emulate over six thousand applications - from Apple laptops, to ATM machines, to critical infrastructure systems, to closed-circuit TV cameras - the Norse Intelligence Network gathers data on who the attackers are and what they’re after. Norse delivers that data through the Norse Appliance, which pre-emptively blocks attacks and improves your overall security ROI, and the Norse Intelligence Service, which provides professional continuous threat monitoring for large networks.

FireEye - Cyber Threat Map

De FireEye Cyber Threat Map toont in een dagelijkse samenvatting alle wereldwijde DDoS-aanvallen.

Top 5 van aangemelde sectoren
Topaanvallers per land
FireEye Cyber Threat Map

Kaspersky - Cyber Map

De Cyberthreat realtimekaart van Kaspersky toont realtime aanvallen die door hun verschillende bronsystemen worden gedetecteerd.

On-Scanner-toegang
On-Demand-Scanner
Web Antivirus
Mail Antivirus
Inbraakmeldsysteem
Kwetsbaarheidsscan
Kaspersky Anti-Spam
Botnet-activiteitsdetectie
Kaspersky Cyberthreat real-time map

Akamai - Real-Time Web Monitor

Akamai bewaakt 24/7 de mondiale internetcondities. Op basis van deze realtime data identificeren zij de wereldwijde regio’s met het meeste webaanvalsverkeer, steden met de traagste webverbindingen (latency) en geografische gebieden met het hoogste webverkeer (verkeersdichtheid).

Real-Time Web Monitor

Check Point - Live Cyber Attack Threat Map

Threat Cloud van Check Point toont eveneens aanvaldata. Er is ook een ranking met de belangrijkste doelwitten per land.

Check Point - Live Cyber Attack Threat Map

Deutsche Telekom - Sicherheitstacho

De Sicherheitstacho toont wereldwijde cyberaanvallen op de honeypot-infrastructuur van DTAG en haar partners.

Sicherheitstacho

Digital Attack Map

Gevisualiseerde livegegevens van wereldwijde DDoS-aanvallen, ontwikkeld in samenwerking tussen Google Ideas en Arbor Networks. De tool biedt anonieme aanvaldata waarmee gebruikers historische trends kunnen onderzoeken en rapporten over verstoringen op een bepaalde dag kunnen opvragen.

Digital Attack Map