Machine Learning - Sophos satsar på artificiell intelligens
Intercept X 2.0 står nu strax inför release. Betafasen har pågått ett tag och produkten kommer troligen redan den här månaden (januari 2018) som en kostnadsfri uppdatering. I den här artikeln handlar det dock ännu inte om Intercept X 2.0, utan om en djupare inblick i den teknik som ingår.
Artificiell intelligens
Just nu är Machine Learning, eller på svenska ”maskininlärning”, på allas läppar - precis som molnet, VR (Virtual Reality) och AR (Augmented Reality) var tidigare. I marknadsföringen säljs det ofta som AI (Artificial Intelligence). Oavsett om det handlar om chattbotar, virtuella assistenter, självkörande bilar, översättningsverktyg, smartphones eller fotomjukvara sägs det enligt tillverkarna finnas inbyggd AI överallt, som ska förenkla våra liv och göra produkterna smartare.
I de mest avancerade smarta mobilerna sitter det numera AI‑chip (Neural Processing Unit, NPU) för mönsterigenkänning och ‑analys. Tittar man på vart utvecklingen är på väg kommer snart alla att ha en liten superdator i fickan som i princip alltid är uppkopplad. Då är det decentraliserade internet som Richard Hendriks beskriver i tv‑serien ”Silicon Valley” inte längre någon vision, utan snart verklighet. Liknande projekt finns redan på blockkedjan för decentraliserad lagring eller distribuerad beräkningskapacitet.
Här vill jag passa på att komma med en tydlig rekommendation för tv‑serien Silicon Valley!
Men tillbaka till ämnet. Just nu marknadsförs allt som AI, men långt ifrån överallt där det står AI på finns det faktiskt AI inuti. Skillnaderna är enorma. I praktiken döljer sig bakom begreppet AI oftast inget annat än Machine Learning - vilket även Sophos bygger på med Intercept X 2.0.
Vad är egentligen ”Machine Learning”?
Maskininlärning beskrivs på Wikipedia kort och träffsäkert så här:
”Maschinelles Lernen ist ein Oberbegriff für die „künstliche“ Generierung von Wissen aus Erfahrung: Ein künstliches System lernt aus Beispielen und kann diese nach Beendigung der Lernphase verallgemeinern. Das heisst, es werden nicht einfach die Beispiele auswendig gelernt, sondern es „erkennt“ Muster und Gesetzmässigkeiten in den Lerndaten. So kann das System auch unbekannte Daten beurteilen (Lerntransfer) oder aber am Lernen unbekannter Daten scheitern (Überanpassung).”
Strikt taget bygger Sophos på Deep Learning, en mer avancerad form av maskininlärning.
Med hjälp av förklaringen ovan från Wikipedia kan du säkert föreställa dig vilka stora effekter maskininlärning kan ha på en produkt som Intercept X. Vi vet alla att signaturbaserade virusskannrar sedan omkring 2005 inte längre är avgörande för att upptäcka virus, eftersom de bara kan bekämpa redan känd och registrerad malware. Det är alltså alltid en kapplöpning mellan utvecklare av skadeprogram och de som skapar signaturer. Malware‑utvecklarna har logiskt sett alltid ett visst försprång, vilket innebär att skadeprogram under en tid alltid är okända. Och så snart ett nytt skadeprogram har identifierats räcker det dessutom med små ändringar i programmet för att det återigen ska bli ”okänt” för virusskannrarna.
Sophos har redan utvecklat många alternativa metoder för att upptäcka malware och har sedan länge inte förlitat sig enbart på signaturer. Ändå var det ett smart drag att förvärva företaget Invincea i början av 2017 och på så sätt ta in en teknik i produkterna som även kan skydda mot framtida hot - och därmed också mot tidigare okända skadliga koder.
Machine Learning är dock inte något helt nytt. Algoritmerna har funnits sedan 80‑talet och har inte förändrats nämnvärt. Fram till nyligen saknades däremot både Big Data och den processorkraft som krävs. Därför upplevde Machine Learning en renässans runt 2012. Samma sak gäller för Genetic Algorithms, som enligt min mening kommer att bli ett verktyg för malware‑skribenter framöver.
Hur fungerar maskininlärning i teorin?
Förenklat uttryckt matar man maskinen med mycket stora datamängder. Algoritmen plockar isär dessa och analyserar filernas egenskaper. Det kan röra sig om enkla egenskaper som filstorlek, men även betydligt mer komplexa, exempelvis hela kodavsnitt. Efter denna process har man alltså inte bara en hash, som vid signaturbaserad detektion, utan en mängd olika indikatorer. Därmed räcker det inte längre med en liten kodändring för att maskera sig som ett helt nytt skadeprogram, eftersom andra egenskaper skulle vara oförändrade.
När egenskaperna har identifierats börjar man ta fram så kallade ”modeller”. För detta behövs enorma datamängder. Det passar väl, eftersom det varje dag dyker upp mer än 390 000 nya skadeprogram, alltså över 16 000 i timmen. Även Sophos Sandstorm eller Intercept X, där data skickas till Sophos Labs, bidrar till datainsamlingen och till att träna modellerna. Onda URL:er eller spam ger också träningsmaterial. Det behövs dessutom inte bara skadeprogram, utan även godartade filer, så att det senare inte uppstår falska positiva träffar.
Man testar flera olika modeller parallellt och väljer den som ger bäst resultat. Med hjälp av modellen och egenskaperna uppstår ett mönster för hur malware ”ska” se ut och vad som skiljer den från en legitim fil. Dessa mönster gör det sedan möjligt att bedöma filer och beräkna sannolikheten att det rör sig om malware. Allt detta sker på millisekunder och kräver avsevärt mindre resurser (CPU och RAM) än andra analysmetoder. Vid en uppdatering förbättras bara mönsterigenkänningen; man behöver inte, som vid signaturbaserad detektion, ladda nya signaturer var x:e sekund.
Den som vill gå lite djupare in i ämnet kan läsa fackartikeln från Sophos: Sophos Machine Learning hur man bygger en bättre hotdetekteringsmodell
PDF:en är på engelska, men kan med hjälp av Machine Learning via DeepL översättas till många andra språk: https://www.deepl.com/translator. Även den välkända Google Translate använder naturligtvis Machine Learning, men DeepL har matats med bättre data och modellerna har fått en märkbart bättre träning.
Maskininlärning räcker inte på egen hand
Maskininlärning kan redan i dag uppnå imponerande höga detektionsgrader, och fördelarna jämfört med signaturbaserad detektion är uppenbara. Sophos förlitar sig dock inte på dessa nya mönster ensamma, utan använder Machine Learning som ytterligare en teknik för att uppnå en så heltäckande malwaredetektion som möjligt.
Intercept X 2.0 kommer tack vare Machine Learning att kunna bidra ännu mer till att upptäcka ransomware och exploits, och kompletterar andra tekniker som exempelvis Exploit Prevention, Malicious Traffic Detection, CryptoGuard och Synchronized Security Heartbeat. Det är just genom dessa kompletterande tekniker som agnarna sållas från vetet - eller uttryckt på ett annat sätt: där standardantivirus skiljs från en professionell lösning.
Räcker Intercept X som enda skydd?
Man kan nu fråga sig om den vanliga antiviruslösningen har spelat ut sin roll när man ändå har installerat Intercept X med alla dessa avancerade tekniker och framöver även Machine Learning. Om du använder Sophos Endpoint Client bör den absolut fortsätta köras parallellt med Intercept X. Skälet är att Sophos Endpoint Client är långt mer än bara ett vanligt virusskydd som upptäcker skadeprogram utifrån signaturer. Sophos Endpoint Client erbjuder till exempel Web Security, Web Control / kategoribaserad URL‑filtrering, Device Control och Application Control - för att bara nämna några funktioner. En komplett översikt över skillnaderna mellan Sophos Endpoint Protection och Intercept X hittar du i detta datablad.
För alla andra ”klassiska” antivirusprogram ser jag faktiskt ingen framtida nytta. För närvarande finns det dock inget som talar emot att köra antivirus parallellt med Intercept X.
Mer om Machine Learning
- Defining the truth: how Sophos overcomes uncertain labels in machine learning
- Man vs machine: comparing artificial and biological neural networks
- 5 questions to ask about machine learning
- Demystifying deep learning: how Sophos builds machine learning models
På Sophos Labs‑sidan finns det sedan en tid tillbaka utmärkt realtidsstatistik över dagliga spam‑ och malwareaktiviteter som genereras utifrån en mycket stor mängd data.
För alla som gillar sådan realtidsdata har vi samlat några länkar. Vi själva tycker fortfarande att det är imponerande att se hur många attacker som faktiskt pågår där ute. Helt galet vad som händer bakom kulisserna:
Norse Attack Map
Här visas cyberangrepp i realtid. För detta används 8 miljoner sensorer och mer än 6 000 applikationer på servrar i 40 länder, så kallade honeypots - det vill säga virtuella fällor. Tillsammans ger detta mer än 7 petabyte insamlade angreppsdata.
Norse maintains the world’s largest dedicated threat intelligence network. With over eight million sensors that emulate over six thousand applications - from Apple laptops, to ATM machines, to critical infrastructure systems, to closed-circuit TV cameras - the Norse Intelligence Network gathers data on who the attackers are and what they’re after. Norse delivers that data through the Norse Appliance, which pre-emptively blocks attacks and improves your overall security ROI, and the Norse Intelligence Service, which provides professional continuous threat monitoring for large networks.
FireEye - Cyber Threat Map
FireEye Cyber Threat Map visar i en daglig sammanställning alla globala DDoS‑attacker.
- Topp 5 rapporterade branscher
- Toppangripare per land
- FireEye Cyber Threat Map
Kaspersky - Cyber Map
Cyberthreat‑realtidskarta från Kaspersky visar attacker i realtid som upptäcks av deras olika källsystem.
- On-Access-Scanner
- On‑Demand‑skanner
- Web Antivirus
- Mail Antivirus
- Inbrottsdetektering
- Sårbarhetsskanning
- Kaspersky Anti‑Spam
- Botnet‑aktivitetsdetektion
- Kaspersky Cyberthreat real-time map
Akamai - Real-Time Web Monitor
Akamai övervakar de globala internetförhållandena dygnet runt. Baserat på dessa realtidsdata identifierar de de regioner i världen där den största mängden webbangreppstrafik förekommer, städerna med de långsammaste webbanslutningarna (latens) och geografiska områden med högst webbtrafik (trafiktäthet).
Check Point - Live Cyber Attack Threat Map
Threat Cloud från Check Point visar också angreppsdata. Det finns även en ranking över de mest utsatta målländerna.
Deutsche Telekom - Sicherheitstacho
Sicherheitstacho visar globala cyberangrepp mot Deutsche Telekoms honeypot‑infrastruktur och deras partners.
Digital Attack Map
Visualiserade livedata över globala DDoS‑attacker. Detta har utvecklats i ett samarbete mellan Google Ideas och Arbor Networks. Verktyget erbjuder anonyma angreppsdata som gör att användare kan utforska historiska trender och hämta rapporter om avbrott en viss dag.