Machine Learning - Sophos setzt auf künstliche Intelligenz

Intercept X 2.0 steht kurz vor dem Release. Die Betaphase läuft nun schon länger und das Produkt kommt voraussichtlich noch diesen Monat (Januar 2018) als kostenloses Update. In diesem Artikel geht es noch nicht um Intercept X 2.0, sondern mehr um einen tieferen Einblick in die darin enthaltene Technologie.

Künstliche Intelligenz

Derzeit ist Machine Learning oder auf Deutsch „Maschinelles Lernen“ in aller Munde, so wie es die Cloud, VR (Virtual Reality) und AR (Augmented Reality) zuvor waren. Das Marketing verkauft es dann oft als A.I. für Artificial Intelligence oder zu Deutsch KI, was für künstliche Intelligenz steht. Ob es nun Chat-Bots, virtuelle Assistenten, autonom fahrende Autos, Übersetzungstools, Smartphones oder eine Fotosoftware ist – überall steckt laut Herstellern KI drin, was uns das Leben vereinfachen und das Produkt intelligenter machen soll.

In den Top Smartphones werden aktuell AI-Chips (Neural Processing Unit (NPUs)) zur Mustererkennung und -analyse verbaut. Wenn man sich vorstellt, wohin es geht, hat bald jeder einen kleinen Supercomputer in der Tasche, der nahezu immer online ist. Da wird das dezentrale Internet von Richard Hendriks aus der TV-Serie „Silicon Valley“ bald Realität. Solche Projekte gibt es bereits auf der Blockchain für dezentralen Speicher oder dezentrale Rechenleistung.

An dieser Stelle eine ganz klare Empfehlung für die TV-Serie Silicon Valley! 😉

Aber zurück zum Thema. Jeder wirbt aktuell mit KI, doch weit nicht überall, wo KI draufsteht, ist auch wirklich KI drin. Die Unterschiede sind gewaltig. Hinter dem Begriff KI verbirgt sich eigentlich nichts anderes, als Machine Learning, worauf auch Sophos mit Intercept X 2.0 setzt.

Was genau ist dieses „Machine Learning“?

Maschinelles Lernen wird auf Wikipedia kurz und treffend folgendermassen beschrieben:

„Maschinelles Lernen ist ein Oberbegriff für die „künstliche“ Generierung von Wissen aus Erfahrung: Ein künstliches System lernt aus Beispielen und kann diese nach Beendigung der Lernphase verallgemeinern. Das heisst, es werden nicht einfach die Beispiele auswendig gelernt, sondern es „erkennt“ Muster und Gesetzmässigkeiten in den Lerndaten. So kann das System auch unbekannte Daten beurteilen (Lerntransfer) oder aber am Lernen unbekannter Daten scheitern (Überanpassung).“

Genau genommen setzt Sophos auf Deep Learning, eine fortgeschrittene Form des maschinellen Lernens.

Nun ich denke, dass ihr euch anhand der oberen Erklärung von Wikipedia ungefähr vorstellen könnt, welche grossartigen Auswirkungen das maschinelle Lernen auf ein Produkt wie Intercept X haben kann. Wir sollten alle wissen, dass signaturbasierte Virenscanner seit 2005 nicht mehr entscheidend sind für die Erkennung der Viren, da nur bereits bekannte und erfasste Malware bekämpft werden kann. Es ist also immer ein Kampf zwischen Malware-Programmierern und Signaturschreibern. Die Malware-Programmierer haben logischerweise immer einen kurzen Vorsprung, womit die Schadsoftware auch immer eine gewisse Zeit unbekannt ist. Sobald das neue Schadprogramm bekannt ist, reichen aber bereits leichte Anpassungen am Programm, um dieses wieder erneut für Virenscanner „unbekannt“ zu machen.

Sophos hat bereits sehr viele alternative Methoden zur Erkennung von Malware entwickelt und verlässt sich längst nicht mehr auf Signaturen. Aber dennoch war es kein schlechter Schachzug, die Firma Invincea Anfang des Jahres 2017 zu übernehmen und damit eine Technologie in die Produkte zu bringen, die auch vor zukünftigen Bedrohungen und somit auch unbekannten Schädlingen zu schützen weiss.

Machine Learning ist aber auch nicht komplett neu. Die Algorithmen gibt es bereits seit den 80er Jahren und daran hat sich nicht viel verändert. Doch bis anhin hatte man nicht Big Data und so die Prozessorpower, die dafür notwendig ist. Daher erlebte Machine Learning ca. 2012 sein Revival. Dasselbe gilt für Genetic Algorithms, woran sich meiner Ansicht nach die Malware-Schreiber in Zukunft bedienen werden.

Wie funktioniert maschinelles Lernen in der Theorie?

Ganz einfach gesagt füttert man die Maschine mit richtig vielen Daten. Der Algorithmus nimmt diese auseinander und analysiert die Merkmale der Dateien. Das kann z. B. die Dateigrösse sein, aber auch komplexere Merkmale wie ganze Bestandteile des Codes. Nach diesem Prozess hat man also nicht einfach nur einen Hash-Wert, wie bei der signaturbasierten Erkennung, sondern sehr viele Anhaltspunkte. Somit reicht eine kleine Anpassung des Codes nicht mehr aus, um sich als komplett neue Schadsoftware zu tarnen, da andere Merkmale gleich bleiben würden.

Hat man nun die Merkmale, beginnt man mit dem Erarbeiten von sogenannten „Modellen“. Dafür werden richtig viele Daten benötigt. Da kommt es gerade gelegen, dass täglich mehr als 390’000 neue Schadprogramme, also über 16’000 pro Stunde, erscheinen. Auch Sophos Sandstorm oder Intercept X, bei denen die Daten an die Sophos Labs übertragen werden, helfen dabei mit, Daten zu sammeln und die Modell zu trainieren. Auch bösartige URLs oder Spams liefern Lernmaterial. Es braucht nicht nur Schadprogramme, sondern auch gute Dateien, damit später keine falsch-positive erkannt werden.

Man testet gleichzeitig mehrere verschiedene Modelle und nimmt das, welches die besten Ergebnisse liefert. Durch das Modell und die Eigenschaften entsteht ein Muster, wie Malware aussehen sollte und worin Sie sich von einer guten Datei unterscheidet. Diese Muster erlauben es dann, Dateien zu bewerten und die Wahrscheinlichkeit zu berechnen, ob es sich um eine Malware handelt. Dies passiert alles innerhalb von Millisekunden und benötigt massiv weniger Leistung (CPU und RAM), als andere Analyseverfahren. Bei einem Update werden nur die Mustererkennungen verbessert und nicht wie bei der signaturbasierten Erkennung alle x-Sekunden neue Signaturen geladen.

Wer gerne noch etwas tiefer in die Materie eintauchen möchte, kann sich den Fachartikel von Sophos dazu anschauen: Sophos Machine Learning how to build a better threat detection Model

Das PDF ist in Englisch, aber kann mittels Machine Learning von DeepL in viele andere Sprachen übersetzt werden: https://www.deepl.com/translator Der bekannte Google Translator benutzt natürlich auch Machine Learning, doch wurde DeepL mit besseren Daten gefüttert und die Maschine merklich besser trainiert.

Machine Learning alleine reicht nicht aus

Maschinelles Lernen kann bereits unglaublich gute Erkennungsraten erzielen und die Vorteile gegenüber der signaturbasierten Erkennung liegt auf der Hand. Sophos verlässt sich aber nicht nur alleine auf diese neuen Muster, sondern nutzt Machine Learning nur als weitere Technologie, um eine möglichst ausnahmslose Malwareerkennung zu erreichen.

Intercept X 2.0 wird Dank Machine Learning also noch stärker bei der Erkennung von Ransomware und Exploits helfen können und die anderen Technologien, wie z. B. Exploit Prevention, Malicious Traffic Detection, CryptoGuard und dem Synchronized Security Heartbeat, ergänzen. Genau bei diesen zusätzlichen Technologien trennt sich die Spreu vom Weizen oder anderst gesagt der Standard Antivirus von einer professionellen Lösung.

Reicht Intercept X als einziger Schutz aus?

Man könnte sich nun fragen, ob der normale Antivirus nicht ausgedient hat, wenn man doch Intercept X mit diesen tollen Technologien und nun in Zukunft auch mit Machine Learning installiert hat. Wenn ihr den Sophos Endpoint Client benutzt, sollte dieser unbedingt weiterhin parallel mit Intercept X laufen. Der Grund ist, dass der Sophos Endpoint Client weit mehr ist, als nur ein normaler Virenschutz, der Schadsoftware anhand Signaturen erkennt. Der Sophos Endpoint Client kann z. B. Web Security, Web Control / kategoriebasierte URL-Filterung, Device Control oder Application Control, um nur ein paar zu nennen. Eine komplette Übersicht der Unterschiede zwischen Sophos Endpoint Protection und Intercept X findet ihr in diesem Datenblatt.

Für alle anderen, „klassischen“ Antivirenprogramme, sehe ich in der Tat für die Zukunft keinen Nutzen mehr. Im Moment spricht aber nichts dagegen, den Antivirus parallel mit Intercept X zu betreiben.

Mehr über das Thema Machine Learning

Auf der Sophos Labs Seite , gibt es seit Kurzem tolle Statistiken in Echtzeit zu täglichen Spam- und Malware-Aktivitäten, die aus einer Menge von Daten generiert werden.

Für alle, die solche Echtzeitdaten mögen, haben wir ein paar Links zusammengetragen. Wir selbst finden es auch immer wieder beeindruckend zu sehen, wie viele Attacken da draussen wirklich passieren. Verrückt, was hinter den Kulissen so abgeht:

Norse Attack Map

Hier werden Cyberangriffe in Echtzeit dargestellt. Dazu sind 8 Millionen Sensoren und mehr als 6000 Applikationen auf Servern in 40 Ländern, sogenannte Honeypots, welche virtuelle Fallen sind. Das alles ergibt über 7 Petabyte an gesammelten Angriffsdaten.

Norse maintains the world’s largest dedicated threat intelligence network. With over eight million sensors that emulate over six thousand applications – from Apple laptops, to ATM machines, to critical infrastructure systems, to closed-circuit TV cameras – the Norse Intelligence Network gathers data on who the attackers are and what they’re after. Norse delivers that data through the Norse Appliance, which pre-emptively blocks attacks and improves your overall security ROI, and the Norse Intelligence Service, which provides professional continuous threat monitoring for large networks.

FireEye – Cyber Threat Map

Die FireEye Cyber Threat Map zeigt in einer täglichen Zusammenfassung alle globalen DDoS Attacken.

Top 5 der gemeldeten Branchen
Top Angreifer nach Land
FireEye Cyber Threat Map

Kaspersky – Cyber Map

Cyberthreat Echtzeitkarte von Kaspersky zeigt Echtzeitattacken, die von ihren verschiedenen Quellsystemen erkannt werden.

On-Scanner-Zugang
On-Demand-Scanner
Web Antivirus
Mail Antivirus
Einbruchmeldeanlage
Schwachstellen-Scan
Kaspersky Anti-Spam
Botnet Aktivitätsdetektion
Kaspersky Cyberthreat real-time map

Akamai – Real-Time Web Monitor

Akamai überwacht die globalen Internetbedingungen rund um die Uhr. Anhand dieser Echtzeitdaten identifizieren sie die globalen Regionen, in denen der grösste Webangriffsverkehr stattfindet, Städte mit den langsamsten Webverbindungen (Latenzzeit) und geografische Gebiete mit dem höchsten Webverkehr (Verkehrsdichte).

Real-Time Web Monitor

Checkpoint – Live Cyber Attack Threat Map

Threat Cloud von Check Point zeigt ebenfalls Angriffsdaten. Es gibt auch ein Ranking für die Top Zielländer.

Checkpoint – Live Cyber Attack Threat Map

Deutsche Telekom – Sicherheitstacho

Der Sicherheitstacho zeigt die weltweiten Cyberangriffe auf der Honeypotinfrastruktur der DTAG sowie ihren Partnern an.

Sicherheitstacho

Digital Attack Map

Visualisierte Livedaten von globalen DDoS-Angriffen. Entwickelt wurde dies in Zusammenarbeit zwischen Google Ideas und Arbor Networks. Das Tool bietet anonyme Angriffsdaten, mit denen Benutzer historische Trends erforschen und Berichte über Ausfälle an einem bestimmten Tag abrufen können.

Digital Attack Map

Machine Learning – Sophos setzt auf künstliche Intelligenz

Künstliche Intelligenz

Was genau ist dieses „Machine Learning“?

Wie funktioniert maschinelles Lernen in der Theorie?

Machine Learning alleine reicht nicht aus

Reicht Intercept X als einziger Schutz aus?

Mehr über das Thema Machine Learning

Norse Attack Map

FireEye – Cyber Threat Map

Kaspersky – Cyber Map

Akamai – Real-Time Web Monitor

Checkpoint – Live Cyber Attack Threat Map

Deutsche Telekom – Sicherheitstacho

Digital Attack Map

Patrizio

Künstliche Intelligenz

Was genau ist dieses „Machine Learning“?

Wie funktioniert maschinelles Lernen in der Theorie?

Machine Learning alleine reicht nicht aus

Reicht Intercept X als einziger Schutz aus?

Mehr über das Thema Machine Learning

Norse Attack Map

FireEye – Cyber Threat Map

Kaspersky – Cyber Map

Akamai – Real-Time Web Monitor

Checkpoint – Live Cyber Attack Threat Map

Deutsche Telekom – Sicherheitstacho

Digital Attack Map

Patrizio

Newsletter abonnieren