Exploring Bias in Data & Knowledge Engineering
13 Oktober 2023
Ob es bei der Bewertung von Ärztinnen und Ärzten mit Migrationshintergrund ethnische und geschlechtsspezifische Verzerrungen gibt, wurde bereits in der Vergangenheit untersucht. Dabei wurde unter anderem festgestellt, dass Hausärzte mit nichtdeutschen Namen schlechter bewertet wurden als Hausärzte mit deutschen Namen. Darüber hinaus ergaben weitere Analysen, dass Ärztinnen weniger positiv bewertet wurden. Da diese ethnischen und geschlechtsspezifischen Verzerrungen bereits von anderer Seite nachgewiesen wurden, stellt sich die Frage, ob sich diese Verzerrungen in den Daten auch auf die fein abgestimmten Large Language Models (LLMs) auswirken.
Im Artikel "Towards comparable ratings: Exploring bias in German physician reviews" untersuchen Joschka Kersting, Falk Maoro und Michaela Geierhos in mehreren Szenarien, wie sich die Feinabstimmung von deutschen oder mehrsprachigen LLMs auf die potenziell verzerrten Daten auswirkt. Die Ergebnisse geben Aufschluss über die Fairness fein abgestimmter Sprachmodelle.
Der jetzt in der Fachzeitschrift Data & Knowledge Engineering erschienene Artikel entstand im Rahmen des Forschungsprojekts VIKING, das sich unter anderem mit der Erforschung, Entwicklung und Evaluierung von Debiasing-Methoden beschäftigt.
Da KI-Modelle anhand von Trainingsdaten lernen, bestimmte Aufgaben zu lösen, ist die Qualität der Daten entscheidend für die Ergebnisqualität der Modelle. Wenn beispielsweise Personen einer bestimmten Herkunft, einer bestimmten Altersgruppe oder eines bestimmten Geschlechts in den Daten überrepräsentiert sind, kann dies zu einer Verzerrung führen, die diese Personengruppen benachteiligt. Um dies zu vermeiden, sind ausgewogene Trainingsdaten erforderlich. Stehen diese nicht zur Verfügung, können Methoden zur Verzerrungsreduktion (Debiasing) eingesetzt werden.
Bild: Freepik