Digitale Forensik: Dem Cybercrime auf der Spur
14 Januar 2022
Am Forschungsinstitut CODE laufen derzeit über 30 Projekte aus verschiedenen Forschungsgebieten in den Bereichen IT-Sicherheit, Quantentechnologien und Smart Data. Im Interview erklären die beteiligten Forscherinnen und Forscher ihre Arbeit sowie mögliche praktische Anwendungsfälle. Heute: Prof. Dr. Harald Baier über sein Forschungsgebiet Digitale Forensik.
Herr Prof. Baier, was genau ist Digitale Forensik?
Digitale Forensik hat zur Aufgabe, strafbare beziehungsweise rechtswidrige Handlungen im Kontext von IT-Systemen aufzuarbeiten. Ausgangspunkt ist eine entsprechende juristische Fragestellung. Typische Beispiele solcher Fragen sind: Hat Person A kinderpornographische Schriften besessen und verbreitet? Oder: Gab es einen Einbruch in unser IT-Netzwerk? Falls ja, wer ist Urheber? Sind Daten widerrechtlich abgeflossen?
Zur Klärung der juristischen Frage wendet die Digitale Forensik wissenschaftliche Methoden der Informatik an. Von daher sind Kenntnisse aus den verschiedenen Disziplinen der Informatik und der Cybersicherheit wichtig, beispielsweise zu Netzwerken, Datenbanken oder Betriebssystemen. Im Rahmen der Aufarbeitung eines mutmaßlichen IT-Schadenfalls sind die digitalen Spuren zu identifizieren, zu sichern und zu analysieren, die zur Beantwortung der juristischen Frage beitragen können. Die Ergebnisse der IT-forensischen Untersuchung müssen dann meist noch präsentiert werden, etwa vor Gericht oder vor der IT-Abteilung einer von einem Angriff betroffenen Institution.
Erst kürzlich ist Strafverfolgungsbehörden aus verschiedenen Nationen ein bedeutender Schlag gegen die kriminelle Gruppe REvil gelungen, die sich auf Ransomware-Angriffe – also Erpressung mittels Schadsoftware – spezialisiert hat. Wie kann Digitale Forensik dabei helfen, solche Verbrechen zu bekämpfen?
An solchen Beispielen erkennt man gut, wie Digitale Forensik einerseits und die Reaktion auf Schadensfälle Hand in Hand gehen. Methoden der digitalen Forensik ermöglichen das Verständnis der Vorgehensweise des Angreifers: also der Art und Weise, wie dieser initial in das IT-System des Opfers eingedrungen ist, wie er sich dann in dessen Netzwerk ausgebreitet hat und wie er schließlich durch Verschlüsselung wichtiger Daten des Opfers Geld erpressen will. Dieses Verständnis des Modus Operandi ermöglicht das Etablieren von Schutzmaßnahmen für die Gegenwart und insbesondere für zukünftige Angriffe. Oft spricht man daher in diesem Zusammenhang von Digital Forensics and Incident Response (DFIR) als einer gemeinsamen Disziplin. Wenn der Täter identifiziert werden kann, können Strafverfolgerinnen mögliche juristische Schritte einleiten oder auch die IT-Infrastruktur des Angreifers lahmlegen.
"Das Verständnis des Modus Operandi der Angreifer ermöglicht das Etablieren von Schutzmaßnahmen für die Gegenwart und für zukünftige Angriffe."
Ein aktueller Trend von Angriffen sind Supply Chain Attacks, also Angriffe auf Software im Rahmen der Wertschöpfungskette von Unternehmen. Solche 'Wertschöpfungs-Software' wird von zahlreichen Unternehmen eingesetzt. Wenn ein Angreifer also die Software eines Herstellers für eine Supply Chain erfolgreich infiltriert, kommt er 'frei Haus' mit der eigentlich legitimen Software und kann in aller Ruhe in den zahlreichen Opfernetzwerken weitere Angriffsschritte durchführen. Ein wichtiges illegales Geschäftsmodell solcher Supply Chain Attacks ist das Ausspähen von Daten, zum Beispiel für Industriespionage oder spätere Erpressung.
Wie unterscheiden sich Forschung und Anwendung in diesem Bereich? Sind Wissenschaftler und Wissenschaftlerinnen gleichzeitig praktisch tätig, indem sie etwa Ermittlungen unterstützen – und tragen Fachleute aus der Praxis wiederum zu neuen wissenschaftlichen Erkenntnissen bei?
Da die Digitale Forensik eine praktische Disziplin der Informatik ist, kommen wichtige Impulse für die Forschung aus konkreten praktischen Fragestellungen von Strafverfolgern oder IT-Sachverständigen. Umgekehrt finden Forschungsergebnisse schneller ihren Weg in die alltägliche Arbeit von IT-Praktikerinnen als in theoretischeren Teildisziplinen der Informatik. Für den gegenseitigen Austausch gibt es eine Reihe von Plattformen wie Konferenzen oder Workshops, in denen Wissenschaftlerinnen und Praktiker aufeinander treffen.
Wichtige Fragen aus der Praxis, von denen die Forschung inspiriert wird, sind die Handhabung großer Datenmengen in einer IT-forensischen Untersuchung, der Umgang mit Verschlüsselung (von gespeicherten Daten, aber auch von Netzwerkverkehr), die Datenakquise von mobilen Geräten wie Smartphones oder Drohnen sowie die Evaluation von IT-forensischer Software im Hinblick auf ihre Zuverlässigkeit und Robustheit gegen anti-forensische Maßnahmen.
Wozu forschen Sie aktuell genau?
Ich beschäftige mich schon länger mit der Frage der Datenreduktion im Rahmen einer IT-forensischen Untersuchung. Wir haben es heute mit einer großen Spannbreite an Geräten zu tun, die jeweils Datenträger mit dreistelligen Gigabyte oder gar Terabyte an Daten enthalten. Alle diese Daten müssen nach der IT-forensischen Sicherung möglichst automatisiert im Hinblick auf die juristische Fragestellung gesichtet werden. Das gleicht der sprichwörtlichen Suche nach der Nadel im Heuhaufen. In meiner Arbeitsgruppe sind Verfahren des Approximate Matching entstanden, die es ermöglichen, in großen Datensätzen nach Datenstrukturen zu suchen, die fallrelevant sein könnten. Beispielsweise können wir mit Hilfe von Approximate Matching Fragmente von gelöschten kinderpornographischen Schriften finden und dieses Fragment dem ursprünglichen Bild zuordnen.
"Das Sichten von großen Datenmengen gleicht der sprichwörtlichen Suche nach der Nadel im Heuhaufen."
Heute existiert eine große Vielfalt von Geräten, auf denen enorme Datenmengen gespeichert sind. Für IT-forensische Untersuchungen ist Datenreduktion relevant, um gesuchte Informationen schneller zu finden.
In Hinblick auf die Evaluation IT-forensischer Software besteht ein wichtiges Problem darin, dass diese Software auf geeigneten Datensätzen getestet werden muss. Solche Datensätze müssen jeweils die forensisch relevanten Spuren enthalten. Auf Grund von Datenschutz- und Sicherheitsaspekten ist die Verwendung von realen Datensätzen schwierig. Außerdem muss für die Evaluation bekannt sein, was die IT-forensische Software überhaupt finden kann beziehungsweise muss. In der Informatik spricht man dabei von einem „gelabelten Datensatz“ bzw. einer bekannten „Ground Truth“. Die Bereitstellung solcher Datensätze ist sehr zeitaufwendig. Wir arbeiten an einer Lösung, die auf Basis einer einfachen Konfigurationsdatei einen fallbezogenen, gelabelten Datensatz erzeugt. Wir haben unsere Lösung „ForTrace“ genannt, in Anlehnung an die englischen Wörter „Trace“ und „Fortress“, denn die digitalen Spuren sind schwer für die zu evaluierende IT-forensische Software zu finden (so wie es schwer ist, eine Festung einzunehmen).
Das Datensynthese-Framework ForTrace ist dank seiner Client-Server-Architektur in der Lage typisches Nutzerverhalten an Endsystemen nachzuahmen um somit möglichst realistische Datensätze für die IT-forensische Auswertung automatisiert zu erzeugen.
Im Umgang mit Verschlüsselung von gespeicherten Daten haben wir uns mit der Aufgabe beschäftigt, Datenstrukturen im Hauptspeicher zu erkennen, die möglicherweise vom Betriebssystem gar nicht mehr verwendet werden. Ein Anwendungsfall ist auch hier das Auffinden kinderpornographischer Schriften, die auf der Festplatte nur verschlüsselt liegen, im Hauptspeicher des IT-Systems aber betrachtet wurden.
Moderne Schadsoftware persistiert immer weniger Daten auf dem Datenträger, sodass eine forensische Analyse ohne Hauptspeicherauswertung inzwischen undenkbar ist.
In der Digitalen Forensik hat man es mit enormen Datenmengen zu tun, die untersucht und analysiert werden müssen. Kann Künstliche Intelligenz hier unterstützend wirken?
Ich habe in diesem Interview schon zu einem Ansatz der Datenreduktion berichtet, der Approximate Matching verwendet. Die Forensik-Community hat daneben auch das Themenfeld der Künstlichen Intelligenz (KI) beziehungsweise des maschinellen Lernens (ML) entdeckt, um fallbezogene Datenstrukturen durch KI-Methoden aufzuspüren. Allerdings sind wir da noch in einem frühen Stadium im Vergleich zu anderen Disziplinen der Cybersicherheit. Ein wichtiges Problemfeld von KI im Kontext der digitalen Forensik ist, dass viele ML-Verfahren hinreichend gut angelernt, das heißt mit Daten gefüttert werden müssen. Und dazu benötigen wir eine kritische Masse an gelabelten Datensätzen, die aber leider rar sein. Von daher ist es wichtig, dass wir mit ForTrace auch KI-basierte Verfahren in der digitalen Forensik unterstützen.
Durch die zunehmende Digitalisierung hat sich ein Großteil der Kriminalität in den Cyberraum verlagert. Wird es in Zukunft mehr Expertinnen und Experten für IT-forensische Aufarbeitung brauchen?
In jedem Fall ist die Digitale Forensik ein starkes Wachstumsfeld innerhalb der Cybersicherheit, insbesondere in Verknüpfung mit der oben genannten Reaktion auf Schadensfälle (Incident Response). Ein wichtiger Indikator dafür ist die wachsende Zahl an dezidierten IT-Forensik-Studiengängen oder Modulen zur digitalen Forensik innerhalb allgemeiner Cybersicherheits-Studiengänge, die auf Bachelor- und Masterebene angeboten werden. Und Absolventen von mir kommen problemlos bei Strafverfolgungsbehörden, den IT-Forensik-Abteilungen der vier großen Wirtschaftsprüfungsgesellschaften oder anderen Sicherheitsunternehmen unter. Von daher freue ich mich, dass die UniBw M und CODE eine dezidierte Professur für Digitale Forensik besetzt hat.
Wie können sich Studierende der UniBw M für die Arbeit in der IT-Forensik qualifizieren?
Aktuell biete ich Lehrveranstaltungen zur Digitalen Forensik im Master Cyber-Sicherheit an der Fakultät für Informatik an. Die grundlegende Einführung in die Thematik findet im Rahmen des Pflicht-Moduls „IT-Forensik“ statt. Dabei lernen die Studierenden wichtige Grundlagenthemen wie Datenträger- sowie Dateisystemforensik kennen. Mit Hilfe moderner, frei verfügbarer Software bearbeiten sie praktische Aufgabenstellungen.
In den fortgeschrittenen Lehrveranstaltungen widmen wir uns dann Themen wie Betriebssystem-, Anwendungs- oder Hauptspeicherforensik. Neben den praxisorientierten Übungen biete ich auch gerne kleine Workshops zu einem Themengebiet an, die jeweils wie ein Capture-The-Flag (CTF)-Wettbewerb organisiert sind. Da es oft um sehr spezielles Wissen geht, ist mir Methodenkompetenz wichtig – das heißt, dass die Studierenden anhand praktisch relevanter Fragestellungen in der Lage sind, sich in ein neues Thema einzuarbeiten und die jeweilige Fragestellung beantworten können.
Weiterhin biete ich Seminare zur Digitalen Forensik an, in deren Rahmen ein fortgeschrittenes Thema von den Studierenden schriftlich aufzubereiten und zu präsentieren ist. Die Ausarbeitung soll wenn möglich auf Englisch geschrieben, als Formatvorlage eine Vorlage einer der großen Publisher verwendet werden.
Und ich freue mich, wenn sich Studierende vertieft im Rahmen einer Masterarbeit ein knappes halbes Jahr mit einem Thema der digitalen Forensik beschäftigen. In meiner gut einjährigen Zeit an der UniBw M habe ich Masterarbeiten aus den Bereichen Datensatzerzeugung, Automotive sowie Datenakquise mittels Chip-Off betreut. Ergebnisse aus zwei Masterarbeiten werden nach einem erfolgreichen Peer-Review sogar auf internationalen Konferenzen vorgestellt.
Prof. Dr. Harald Baier ist seit 1. September 2020 Professor für Digitale Forensik am Forschungsinstitut CODE. Seine Forschungsschwerpunkte sind der Umgang mit großen Datenmengen in IT-forensischen Untersuchungen, Erzeugung synthetischer Datensätze für die Bewertung IT-forensischer Tools, Anti-Forensik sowie Hauptspeicherforensik. Vor seiner Berufung an die UniBw M lehrte und forschte Prof. Baier zuletzt von April 2009 bis August 2020 an der Hochschule Darmstadt. Er leitete dort zahlreiche Drittmittelprojekte und war am Aufbau des heutigen Nationalen Zentrums für angewandte Cybersicherheit ATHENE beteiligt.
Ansprechpersonen:
Prof. Dr. Harald Baier
Forschungsinstitut CODE
Universität der Bundeswehr München
Tel.: +49 89 6004 7345
E-Mail: harald.baier@unibw.de
Bilder: © AdobeStock / Microgen; FI CODE/Prof. Baier