Zweiter Platz beim CVPR 2024-Wettbewerb Affective Behavior Analysis in-the-wild

15 Juli 2024

Emotionale Mimikry ist ein grundlegender Aspekt menschlicher Interaktion, der es Individuen ermöglicht, die emotionalen Ausdrücke anderer zu replizieren und dadurch Empathie und soziale Bindungen zu fördern. Dieser Prozess umfasst die Nachahmung einer Reihe von Ausdrücken, darunter Mimik, Gestik, Stimmlage und Körpersprache, die für eine wirksame Kommunikation, insbesondere in therapeutischen Kontexten, wichtig sind. Das Datenmaterial umfasste Videoaufnahmen mit Bild und Ton von Personen, die versuchten, Emotionen nachzuahmen, die ihnen visuell und akustisch vermittelt wurden. Zu verstehen, wie emotionale Mimikry entsteht, kann in therapeutischen Kontexten hilfreich sein, damit Therapeuten ihre Patienten besser verstehen und ihre Emotionen spiegeln können, um ihr Vertrauen zu gewinnen. Aufgrund der begrenzten Rechenleistung und des begrenzten Speichers mussten wir unsere Modelle so optimieren, dass sie auf der verfügbaren Hardware effektiv laufen. Um diesen Einschränkungen zu begegnen und gleichzeitig die Effizienz im Auge zu behalten, haben wir uns entschieden, nur die Audio-Modalität zu analysieren.

In unserer Forschung wurde die Wav2Vec 2.0-Architektur eingesetzt, die auf einer Vielzahl von Podcast-Daten vortrainiert wurde. Die Podcast-Daten, die ein breites Spektrum an umgangssprachlicher und spontaner Sprache umfassen, ermöglichen es dem Modell, linguistische und paralinguistische Merkmale effektiv zu erfassen, die für die Analyse emotionaler Ausdrücke wesentlich sind. Ein Schlüsselaspekt unseres Ansatzes ist die Multi-Task-Fusionsstrategie, die diese Audiomerkmale mit einem vortrainierten Valenz-Arousal-Dominanz-Modell (VAD) kombiniert. Diese Methode verbessert die Genauigkeit unserer Vorhersagen zur Emotionsintensität durch die gleichzeitige Verarbeitung mehrerer emotionaler Dimensionen.

Diese Forschung wurde in Zusammenarbeit mit Tobias Hallmen und Elisabeth André von der Universität Augsburg sowie mit Fabian Deuser und Norbert Oswald von der Universität der Bundeswehr durchgeführt. Gemeinsam haben wir eine neuartige Methodik zur genaueren Bewertung von emotionaler Mimikry in Webvideos entwickelt. Unsere gemeinsamen Bemühungen führten zu einem zweiten Platz in der Emotional Mimicry Intensity Challenge auf dem 6th Workshop and Competition on Affective Behaviour Analysis in the Wild (ABAW). Die Ergebnisse wurden auf der CVPR-Konferenz 2024 in Seattle vorgestellt.

 

 

Unimodal Multi-Task Fusion for Emotional Mimicry Intensity Prediction
Tobias Hallmen, Fabian Deuser, Norbert Oswald, Elisabeth André

[arXiv] [CVPR 2024]