Artikel in Sonderausgabe der Datenbank-Spektrum

15 Februar 2023

Die Erkennung missbräuchlicher Sprache ist zu einem integralen Bestandteil der Forschung geworden, was sich in zahlreichen Veröffentlichungen und mehreren in den letzten Jahren durchgeführten Shared Tasks widerspiegelt. Es hat sich gezeigt, dass die entwickelten Modelle auf den Datensätzen, auf denen sie trainiert wurden, gut funktionieren, sich jedoch nur schwer auf andere Datensätze übertragen lassen.

Der Artikel "Generalizability of Abusive Language Detection Models on Homogeneous German Datasets" von Nina Seemann, Yeong Su Lee, Julian Höllig und Michaela Geierhos konzentriert sich auf die Generalisierbarkeit von Sprachmodellen. Im Gegensatz zu bisherigen Arbeiten wurden für die Experimente homogene Datensätze verwendet, da die Forschenden annahmen, dass diese eine höhere Generalisierbarkeit aufweisen. Die Gruppe wollte herausfinden, wie ähnlich die Datensätze sein müssen, damit trainierte Modelle verallgemeinert werden können, und ob die Generalisierbarkeit von der Methode abhängt, die zur Gewinnung eines Modells verwendet wurde. Zu diesem Zweck wurden vier deutsche Datensätze aus bekannten Shared Tasks ausgewählt. Darüber hinaus evaluierten die Wissenschaftlerinnen und Wissenschaftler zwei Deep-Learning-Methoden sowie drei traditionelle Methoden des Maschinellen Lernens, um aus den Ergebnissen Tendenzen der Generalisierbarkeit abzuleiten. Ihre Experimente zeigten, dass die Generalisierbarkeit nur teilweise gegeben ist, obwohl die Annotationsschemata für die ausgewählten Datensätze nahezu identisch waren. Die Ergebnisse zeigten außerdem, dass die Generalisierbarkeit ausschließlich von den (Kombinationen der) Trainingsdaten abhängt und konsistent ist, unabhängig von der zugrunde liegenden Methode.

Der Artikel wurde nun bei der Zeitschrift "Datenbank-Spektrum" zur Veröffentlichung angenommen und erscheint dort im März in der "Special Issue on Trends in Social Media Analysis to Address Fake News, Hate Speech, or Bias".
Als offizielles Organ der Fachgruppe Datenbanken und Information Retrieval der Gesellschaft für Informatik (GI) e.V. widmet sich die Zeitschrift "Datenbank-Spektrum" den Themen Datenbanken, Datenbankanwendungen und Information Retrieval. Neben einem fundierten Wissen über aktuelle Technologien und Standards wird auch deren Einsatz sowie kommerzielle Relevanz vermittelt: https://www.springer.com/journal/13222


Bild: Freepik

 

< Zur Newsübersicht