ADRIAN_Logo_grau_1140x400.png

 

Authority-Dependent Risk Identification and Analysis in online Networks

 

Das Teilprojekt ADRIAN hat zum Ziel, automatisiert ausgewählte (Lauf-)Apps zu überwachen und deren gesammelte Daten zu analysieren, mit Social-Media-Profilen zu korrelieren und Personencluster zu bilden, um potenzielle Ziele zu identifizieren und ihr Gefährdungspotenzial abzuschätzen. Werden diese Informationen noch mit weiteren eingestuften Materialien korreliert, lässt sich eine Gefährdungsplausibilität für entsprechende Personen(gruppen) oder Standorte ermitteln.

Projektbeschreibung

Durch die seit Jahren fortschreitende semantische Vernetzung im Web, entsteht eine riesige, frei zugängliche Informationsquelle für eine Vielzahl datengesteuerte Anwendungen, was unter Umständen ein persönliches Risiko darstellen kann. Immer effektiver werden nutzergenerierten Daten (sog. „User-generated Content“) mit bestehenden Ressourcen (sog. Wissensquellen) automatisiert verknüpft. Auf diese Weise können selbst trivial erscheinende und manchmal auch ungewollt offenbarte Einzelinformationen unter Umständen schädliche Folgen für einzelne Personen, Berufsgruppen oder ganze Institutionen haben. Insbesondere die Verknüpfung von Social-Media-Accounts und -Posts (bspw. Twitter oder Instagram) mit den Bewegungsprofilen und Standortdaten aus beliebten Lauf-Apps macht die Nutzerinnen und Nutzer sowie ihre Angehörigen identifizierbar, aufspürbar und potenziell zur Zielscheibe von Attacken im Netz. Dass militärische Standorte mithilfe der geteilten Geo-Daten von Laufstrecken lokalisiert werden können, ist in diesem Zusammenhang ein weiterer sicherheitsrelevanter Aspekt.

Im Rahmen dieses Vorhabens werden zunächst ausgewählte Lauf-Apps überwacht und die dabei gesammelten Geo-Daten anschließend analysiert. In einen zweiten Schritt werden die Profile der Nutzerinnen und Nutzer von Lauf-Apps und Social-Media-Plattformen korreliert, um so ein Personencluster bilden zu können und die Identifikation potenzieller Ziele zu ermöglichen. Da sich auf diese Weise im Rahmen der Datenanalyse und Wissensgewinnung ein so genannter „Digitaler (Lauf-)Zwilling“ rekonstruieren lässt, werden äußerst sensible Daten generiert. Können diese Daten noch mit weiteren vertraulichen Daten (u. a. von Sicherheitsbehörden oder militärische Dienststellen) korreliert werden, lässt sich eine Abschätzung der Gefährdungsplausibilität für entsprechende Personen(gruppen) oder Standorte vornehmen. Zur Erreichung dieser Ziele, müssen bei der technischen Umsetzung des Vorhabens u. a. Methoden des Information Retrievals mit Ansätzen aus der forensischen Linguistik kombiniert werden. Ferner werden Verfahren zur Netzwerkanalyse und Clusterbildung eingesetzt, um neuartige Bewertungsfunktionen für die Abschätzung von gefährdeten Zielen (Personen, Orten etc.) auf Basis der preisgegebenen Informationen im Web 2.0 zu entwickeln. Für die spätere Übermittlung der dabei gewonnenen Erkenntnisse an andere Dienste ist zudem der Einsatz einer hochsicheren Quantenverschlüsselung vorgesehen.

iStock-1138710946-MartinPrescott_1140x380.png

Abbildung 1: Das Teilprojekt ADRIAN befasst sich unter anderem mit dem Gefährdungspotenzial von Fitness-Apps (Bild: iStockphoto / Martin Prescott)

Framework

Eines der vorrangigen Ziele von ADRIAN ist es, ein Framework zu entwickeln, welches jeden einzelnen Schritt von der Datenakquise bis zur Analyse umfasst. Zum einen ist die Erweiterbarkeit während des Projektes relevant, zum anderen sollen die Ergebnisse auch nach Projektende wiederverwendbar sein. Für die Entwicklung des Frameworks wird das OSEMN-Framework (Obtain, Scrub, Explore, Model, and iNterpret) (Mason und Wiggins, 2010) zur Orientierung genommen. Es ist ein Standardisiertes und akzeptiertes Modell für wissenschaftliche Forschung im Bereich der Datenwissenschaft. Da es in der Datenwissenschaft mehrere Herausforderungen gibt, geht der OSEMN-Prozess auf diese ein, indem er eine präzise Abfolge von Operationen bereitstellt. Im Folgenden wird die Vorgehensweise für ADRIAN anhand jedes OSEMN-Schritt erläutert (Abbildung 2).

ADRIAN_OSEMN-Model.png

Abbildung 2: OSEMN-Modell

Die Phase ”Obtain“ beinhaltet die Identifizierung von potentiellen Datenlieferanten, der Datenakquise und wird abgeschlossen mit der Bereinigung der Daten. und die Datenaufbereitung. Die Phase ”Scrub“ behandelt vor allem die Aufbereitung der Daten. Diese müssen z. B. standardisiert und normalisiert werden. Im ”Explore“ Schritt des OSEMN-Frameworks sollen mit Hilfe von statistischen Analyse und Visualisierungen mittels z. B. Graphen relevante Datenpunkte identifiziert werden, um Beziehungen in den Daten zu untersuchen. Es wird z. B. Neo4j verwendet, um Daten aus verschiedenen Quellen zu speichern und zu analysieren. Es wird eine Webanwendung entwickelt für die Analyse und Visualisierung der verschiedenen Verfahren. In der ”Model“ Phase sollen synthetische Daten generiert werden. Diese sind für den Fall vorgesehen, falls bei der Datenerakquise von bestimmten Plattformen nicht genügend Daten gesammelt werden können. Weiterhin soll mit Hilfe von aktuellen KI-Modelle zusätzliches Wissen generiert werden und Beziehungen zwischen den Nutzerprofilen hergestellt werden. Dies kann dann beispielsweise genutzt werden, um Gruppen von Personen an bestimmten Orten zu identifizieren und so potenzielle Bedrohungen zu erkennen. Die Nutzung der Ergebnisse fällt in den Schritt ”iNterpret“. Auf der Grundlage der Analysen sollten Bedrohungen erkannt und vorhergesagt werden.

Kooperationspartner

Logo der Hochschule Bielefeld   UniBwM_DataScience_Logo.png