Paper bei der LREC-COLING 2024 angenommen
23 Februar 2024
Named Entity Recognition (NER), d. h. das Erkennen von benannten Entitäten wie Personen, Ortsnamen etc., ist ein häufig eingesetztes Verfahren des Maschinellen Lernens. Zum Einsatz kommt es in verschiedenen Anwendungen der natürlichen Sprachverarbeitung (NLP). Wie bei anderen Anwendungen des maschinellen Lernens haben sich auch NER-Modelle als anfällig für geschlechtsspezifische Verzerrungen erwiesen. Letzteres wird häufig anhand von Benchmark-Datensätzen beurteilt, welche wiederum speziell für eine bestimmte Aufgabe des NLP kuratiert werden.
Ana Cimitan, Ana Alves Pinto und Michaela Geierhos untersuchen im Artikel "Curation of Benchmark Templates for Measuring Gender Bias in Named Entity Recognition Models" die Robustheit von Benchmark-Templates zur Erkennung von geschlechtsspezifischen Verzerrungen und schlagen eine neue Methode zur Verbesserung der Kuration solcher Datensätze vor. Ihre auf maskierter Token-Vorhersage basierende Methode zielt darauf ab, solche Benchmark-Templates herauszufiltern, die eine höhere Wahrscheinlichkeit für die Erkennung von geschlechtsspezifischen Verzerrungen in NER-Modellen haben. Die geschlechtsspezifischen Lücken, die mit den von der Methode als angemessen eingestuften Templates entdeckt wurden, waren statistisch gesehen größer als die, die mit ungeeigneten Templates entdeckt wurden. Zur Evaluierung ihrer Methode wendeten die Autorinnen diese auf englische und deutsche NER-Modelle an. Für beide Sprachen wurden ähnliche Ergebnisse erzielt und unterstützen somit die zukünftige Verwendung ihrer Methode bei der Kuratierung von Templates zur Erkennung von geschlechtsspezifischen Verzerrungen.
Der Artikel, der in Kooperation mit der ZITiS entstand, wurde nun bei der 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024) in Turin, Italien, angenommen.
Mehr zu diesem Beitrag: https://lrec-coling-2024.org/
Bildquelle: freepik