TextBroom: Wenn Worte (zu) viel verraten

4 August 2021

Am Forschungsinstitut CODE laufen derzeit über 20 drittmittelfinanzierte Projekte aus verschiedenen Forschungsgebieten in den Bereichen IT-Sicherheit, Quantentechnologien und Smart Data. Im Interview erklären die beteiligten Forscherinnen und Forscher ihre Arbeit sowie mögliche praktische Anwendungsfälle. Heute: Prof. Dr. Michaela Geierhos über das Tool „TextBroom“.

Frau Prof. Geierhos, was genau ist TextBroom?

TextBroom ist das Ergebnis mehrjähriger, intensiver und facettenreicher Forschung zum Themenkomplex „Privatsphäre im Web“, bei dem wir mit der Arbeitsgruppe „Angewandte KI“ von der FH Bielefeld eng kooperieren. Vor allem ist TextBroom aber ein Tool, mit dem offensichtliche und potenzielle Privatsphäreverletzungen in Online-Kommentaren erkannt werden können, wobei explizite oder inhärente Hinweise in den Texten aufdeckt und für Dritte sichtbar gemacht werden. Dadurch möchten wir bei den Verfasserinnen und Verfassern ihr Bewusstsein beim Umgang mit sensiblen, personenbezogenen Informationen schärfen.  Ein Parade-Anwendungsfall, bei dem TextBroom zum Einsatz kommt, sind Arztbewertungen. Insbesondere in diesem Bereich werden hinter dem vermeintlichen Schutz der Anonymität des Webs sehr viele private Informationen (z. B. zur Krankheitsgeschichte) von Patientinnen und Patienten preisgegeben, wenn sie ihren Arztbesuch bewerten.

Welche Informationen lassen sich anhand dieser semantischen Analysen über die Verfasser von Texten gewinnen?

Das hängt stark von der Textgattung und der Thematik ab, in welchem Maße die Verfasserinnen und Verfasser ihren Gedanken freien Lauf lassen. Je unbeschwerter im Web kommentiert wird, desto unbedachter können die Äußerungen sein und desto mehr private Details werden ausgeplaudert. Am intensivsten haben wir uns in der Vergangenheit mit Arztbewertungen auseinandergesetzt und die Informationspresigaben der Patientinnen und Patienten studiert: Es finden sich neben den offensichtlichen Informationen zu Krankheiten, Medikamenten und Arztbeziehungen auch Angaben zu Namen, Familienverhältnissen, Alter und Arbeitgebern. Auch trivial erscheinende Details wie z. B. Ernährungsgewohnheiten oder Informationen zur Art der Anreise können durch TextBroom gefunden werden.

"Uns machen vor allem die unbedachten Informationspreisgaben über Dritte (Eltern, Kinder, …) Sorgen."

Dabei machen uns vor allem die unbedachten Informationspreisgaben über Dritte (Eltern, Kinder, …) Sorgen. Zudem lässt sich durch geschicktes Kombinieren von Informationsbausteinen beispielsweise rekonstruieren, welche Krankengeschichte jemand hat, indem die beschriebenen Symptome in Verbindung mit den Namensnennungen der entsprechenden Fachärztinnen oder -ärzte  ausgewertet werden. Auch Arztnetzwerke lassen sich über die Weiterempfehlungen zu Spezialisten nachvollziehen, sodass transparent wird, an welche Kolleginnen oder Kollegen bevorzugt weiterüberwiesen wird.

Können Sie erklären, wie TextBroom davor warnen soll, dass solche privaten Daten öffentlich werden?

Die ursprüngliche Idee von TextBroom ist, dass es wie ein Browser-Plugin funktioniert. Es soll beim Schreiben von (Arzt-)Bewertungen auf den einschlägigen Plattformen eingesetzt werden, um vor Veröffentlichung der Texte die Autorinnen oder Autoren bei Bedarf zu warnen, wenn private Informationen enthalten sind. Allerdings soll es lediglich mögliche Gefahren farblich hervorheben und mittels Bewegung des Mauszeigers über die fragliche Stelle wird ein Hinweis gegeben, warum es zur Verletzung der Privatsphäre durch Preisgabe dieser Information kommen kann. Ob die Warnung dann ernst genommen wird, muss man selbst entscheiden. Da TextBroom dem Grundsatz transparenter Künstlicher Intelligenz folgt, hat die Nachvollziehbarkeit der einzelnen potenziellen Privatsphäregefährdungen für uns stets Priorität.

Funktionsweise des Tools TextBroom

TextBroom kann Autorinnen und Autoren vor möglichen Privatsphäreverletzungen warnen. Bild: M. Geierhos

Wie umfangreich sind die im Netz entstehenden Personenprofile? Was ist ein „digitaler Zwilling“?

Im Gegensatz zu anderen Forschungsdisziplinen verstehen wir unter einem „digitalen Zwilling“ eine digitale Repräsentation einer natürlichen Person, die auf Basis der freiwillig oder unfreiwillig, wissentlich oder unwissentlich geteilten personenbezogenen Informationen automatisiert erstellt werden kann. Grundsätzlich besteht ein digitaler Zwilling mindestens aus den Angaben, die als Pflichtangaben öffentlich einsehbar auf Portalen zu hinterlegen sind und Eigenschaften, die alle natürliche Personen teilen. Allerdings kann der Detailgrad je nach Bereich und Individuum stark variieren. Maßgeblich hängt aber der Informationsumfang von der Aktivität und Auskunftsbereitschaft der Web-Nutzerinnen und -Nutzer ab, wird aber auch durch die Bemühungen, die eigene Identität zu schützen, mitunter negativ beeinflusst. So bestücken manche Menschen ihre Beiträge gezielt mit Falschinformationen, die zur konkreten Beantwortung einer medizinischen Frage nicht erforderlich sind (z. B. das Alter, Wohnort, Geschlecht) und führen TextBroom somit in die Irre. So ist es nicht immer möglich, unterschiedliche Profile, die ein- und derselben Person gehören, dieser eindeutig zuzuordnen. 

Wem könnten die gewonnenen Daten nützen?

Unserer Meinung nach sind es weniger die Plattformbetreiber, die an diesen Daten originär, im Sinne einer inhaltlichen Auswertung, interessiert sind. Vielmehr bieten die preisgegeben Daten eine Angriffsfläche für Doxing – also das Sammeln und Veröffentlichen fremder privater Daten –  und Mobbing, aber auch für Diskriminierung. So kann beispielsweise die Kombination von Arbeitgeberdaten mit Krankheitsinformationen und Fehlzeiten Informationen offenlegen, die die Arbeitsunfähigkeitsbescheinigung zum Schutz des Arbeitsnehmers gegenüber dem Arbeitgeber explizit verbirgt.

"Die preisgegeben Daten bieten eine Angriffsfläche für Doxing – also das Sammeln und Veröffentlichen fremder privater Daten –  und Mobbing, aber auch für Diskriminierung."

Zudem konnten wir im Zuge der Qualitätssicherung bei der Auswertung nutzergenerierter Bewertungen bereits eine Vielzahl an Fake-Profilen identifizieren, widersprüchliche Angaben in Bewertungen aufdecken und ganze Bewertungsplattformen als Gegenstand umfangreicher, betreibergetriebener Fälschungsaktivitäten ausmachen. Dies kommt natürlich auch den Plattformbetreibern zugute. Hier können wir auf Vorarbeiten von Herrn Dr. Frederik Bäumer von der FH Bielefeld zurückgreifen, der Arztbewertungen plattformübergreifend  und auf internationaler Ebene im großen Stil untersucht hat.

An welchen Stellen könnten Tools wie TextBroom zukünftig in der Praxis eingesetzt werden?

In Zusammenarbeit mit Dr. Bäumer erarbeiten wir Szenarien, in denen TextBroom eingesetzt werden kann. Offensichtlich ist dabei der Einsatz bei den Portalanbietern selbst: Bevor ein Text veröffentlicht wird, wird dieser mittels TextBroom analysiert und mögliche Gefahren werden hervorgehoben und erläutert. Um jedoch auch den Selbstschutz zu stärken, arbeiten wir gleichzeitig an Konzepten für Browser-Erweiterungen. Wichtig dabei ist, die Nutzungshürde möglichst gering zu halten und alle Maßnahmen intuitiv zu gestalten.

Wie schließt sich TextBroom an Ihre weitere Forschung am FI CODE an?

Einer meiner Forschungsschwerpunkte in diesem Kontext ist es, neue Wege zur Analyse von Online-Bewertungsportalen zu finden. Da es immer mehr Möglichkeiten gibt, Produkte oder Leistungen zu bewerten, steigt die Zahl der Bewertungen rasant an und stellt uns vor einige Herausforderungen: Wie repräsentativ, wie objektiv und wie wichtig sind die Bewertungen? Hinzu kommt, dass die frei formulierten Ratschläge in ihrem Aufbau und Inhalt deutlich voneinander abweichen können. Auch Sterne- und Noten-Skalen können im Widerspruch zum Kommentar stehen. Deshalb entwickeln wir derzeit Verfahren zur Inhaltsanalyse, um Bewertungsdimensionen in Freitexten automatisiert zu erkennen und damit ihre Vergleichbarkeit herzustellen. Während zu erwarten wäre, dass dieselben Äußerungen zu ähnlicher Notengebung führen müssten, ist dies nicht immer der Fall. Um mehr Transparenz in Online-Bewertungen zu schaffen, müssen Inkonsistenzen zwischen quantitativen und qualitativen Werturteilen zunächst in dieser Fülle an Informationen aufgedeckt werden. Auf diese Weise können die wesentlichen Argumente in den Bewertungskommentaren automatisch identifiziert werden, um zu verstehen, was Rezensenten bewegt. Zum Schutz der Privatsphäre und für einen fairen und transparenten Informationsaustausch im Web 2.0 entwickeln wir an der Professur für Data Science nicht nur Ansätze wie TextBroom, sondern verfolgen einen ganzheitlichen Ansatz, der sich auch der Erkennung von Falschinformationen, Desinformationkampagnen, Deepfakes und weiteren trügerischen Web-Inhalten widmet.

Was fasziniert Sie an Ihrem Forschungsgebiet?
Ein Data Scienist wurde mal in einer Online-Stellenanzeige als technikbegeisterter Tüftler, lebensnaher Forscher und verantwortungsbewusster Visionär beschrieben.  Ich glaube, dass diese Eigenschaften auch auf mich zutreffen. Warum? Durch die zunehmende Digitalisierung hat Data Science mittlerweile in nahezu alle Bereiche des täglichen Lebens Einzug gehalten. Oft ist das Potenzial, wie viel Wissen man daraus ableiten kann, noch nicht erkannt.

"Die Herausforderung besteht darin, die Daten so zu interpretieren, dass sie zu etwas nütze sind. Das ist die eigentlich Magie der Disziplin."

Zwar strebt Data Science danach, Erkenntnisse aus Daten zu gewinnen, doch die Herausforderung besteht darin, die Daten so zu interpretieren, dass sie zu etwas nütze sind. Das ist die eigentlich Magie der Disziplin. Dabei wird meine Neugierde als Forscherin geweckt: Wie können wir mittels geschickter Datenauswertung bestimmte Probleme lösen? Über was geben uns Daten überhaupt Aufschluss und wo sind uns (technische) Grenzen gesetzt? Diese und noch mehr spannende Fragen treiben mich als Forscherin an – und wer weiß, welche Geheimnisse wir den Daten noch entlocken können.


Das Programm TextBroom ist im Rahmen eines Forschungsprojekts an der Universität Paderborn unter der Leitung von Frederik Bäumer entstanden. Unterstützt wurde die Entwicklung durch die Gesellschaft für Angewandte Linguistik e.V. und die Fakultät der Kulturwissenschaften der Universität Paderborn. Die Weiterentwicklung von TextBroom wurde ab dem 01.07.2020 an die UniBw M und das FI CODE übertragen. Die Leitung liegt bei Prof. Dr. Michaela Geierhos.


Prof. Dr. Michaela Geierhos ist seit 1. April 2020 Professorin für Data Science am Forschungsinstitut CODE. Ihre Forschung bewegt sich an der Schnittstelle zwischen Computerlinguistik und Informatik. Hierfür werden stets praktische Probleme bei der maschinellen Sprachverarbeitung in konkreten industrienahen Anwendungsszenarien behandelt. Ihre Expertise liegt auf dem Gebiet des Natural Language Processing (insbesondere der Semantischen Informationsverarbeitung).

Weitere Informationen über die Professur für Data Science und zu Prof. Dr. Geierhos finden Sie auf ihrer >>Website.


Teaserbild: iStock/metamorworks