Beitrag in Sonderheft von Natural Language Engineering

25 Juli 2022

Mit dem Anstieg nutzergenerierter Inhalte in sozialen Medien ist auch die Erkennung von missbräuchlicher oder unangemessener Sprache von zunehmender Bedeutung geworden. Vor diesem Hintergrund ist die Entwicklung automatischer Erkennungssysteme, welche die Klassifizierung von beleidigenden Inhalten in sozialen Medien mittels maschinellen Lernens übernehmen, erstrebenswert. Grundlage für die maschinellen Lernverfahren sind jedoch konsistent gelabelte Trainingsdaten, die in ausreichender Menge zur Verfügung stehen müssen. Die Vielfalt der verwendeten Begriffe und Formulierungen in beleidigenden Inhalten ist hierbei eine besondere Herausforderung.

In Ihrem Beitrag „The Problem of Varying Annotations to Identify Abusive Language in Social Media Content“ analysieren Nina Seemann, Yeong Su Lee, Julian Höllig und Michaela Geierhos insgesamt neun deutsch- und englischsprachige Datensätze, die speziell für die Erkennung von missbräuchlichen Online-Inhalten entwickelt wurden. Sie liefern eine detaillierte Beschreibung der Datensätze, d.h. für welchen Zweck der Datensatz erstellt wurde, wie die Daten gesammelt wurden und welche Annotationsrichtlinien verwendet wurden. Die Analyse zeigt, dass es keine Standarddefinition für missbräuchliche Sprache gibt, was oft zu Inkonsistenzen bei der Annotation bzw. beim Labeling führt. Infolgedessen ist es schwierig, Schlussfolgerungen themenübergreifend zu ziehen, Datensätze auszutauschen oder Modelle für andere Zwecke im Zusammenhang mit missbräuchlicher Sprache in sozialen Medien zu verwenden. Darüber hinaus hat die manuelle Inspektion einer Stichprobe jedes Datensatzes kontroverse Beispiele zutage gefördert. Anhand von ausgewählten Beispielen werden zusätzlich die Herausforderungen bei der Datenannotation aufgezeigt und häufige Probleme im Annotationsprozess, wie etwa widersprüchliche Annotationen und fehlende Kontextinformationen, exemplarisch dargestellt. Ergänzend zur theoretischen Arbeit führen die Autoren auch Generalisierungsexperimente mit drei deutschsprachigen Datensätzen durch.

Der Artikel wurde nun bei der renommierten Zeitschrift „Natural Language Engineering“ zur Veröffentlichung angenommen und erscheint dort im Sonderheft zum Thema „Offensive Content Online“.

Mehr Informationen: https://www.cambridge.org/core/journals/natural-language-engineering


Bildquelle: Cambridge University Press

 

< Zur Newsübersicht