Paper bei der NAACL 2022 in Seattle angenommen
29 Juni 2022
Im Bereich der visiolinguistischen Forschung ("Vision and Language") wurden in den letzten Jahren eine Vielzahl von Transformer-basierten Modellen publiziert. Hierbei wurden Architekturen verbessert und Modelle auf immer größeren Datenmengen vortrainiert. Jedoch gibt es nur wenig Forschungsarbeiten, die versuchen zu verstehen, welche Konzepte in diesen Modellen gelernt werden.
Philipp J. Rösch, externer Doktorand an der Professur für Data Science, und Dr. Jindřich Libovický von der Karls-Universität in Prag haben in ihrer Arbeit "Probing the Role of Positional Information in Vision-Language Models" den Einfluss von Positionsinformation von Objekten untersucht, sowie neue Trainingsstrategien eingeführt. Die Modelle wurden u. a. auf dem GQA-Datensatz evaluiert, bei dem auf eine texuelle Frage zu einem Bild die korrekte Antwort gegeben werden muss. Ihre Arbeit wurde bei der 2022 Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL) in Seattle, USA, angenommen und wird in den Findings of NAACL 2022 veröffentlicht.
Mehr Information unter: https://www.unibw.de/vis-en/naacl2022
Bildquelle: Unsplash.com/Zhifei Zhou