Visual Answer Localization with Cross-modal Mutual Knowledge Transfer

26 October 2022

Papers citing "Visual Answer Localization with Cross-modal Mutual Knowledge Transfer"

6 / 6 papers shown

Title
Overview of the NLPCC 2025 Shared Task 4: Multi-modal, Multilingual, and Multi-hop Medical Instructional Video Question Answering Challenge Bin Li Shenxi Liu Yixuan Weng Yue Du Yuhang Tian Shoujun Zhou 16 0 0 11 May 2025
Ask2Loc: Learning to Locate Instructional Visual Answers by Asking Questions Chang Zong Bin Li Shoujun Zhou Jian Wan Lei Zhang 117 0 0 22 Apr 2025
Learning to Unify Audio, Visual and Text for Audio-Enhanced Multilingual Visual Answer Localization Zhibin Wen Bin Li 29 1 0 05 Nov 2024
Mastering Symbolic Operations: Augmenting Language Models with Compiled Neural Networks Yixuan Weng Minjun Zhu Fei Xia Bin Li Shizhu He Kang Liu Jun Zhao 28 4 0 04 Apr 2023
A Dataset for Medical Instructional Video Classification and Question Answering D. Gupta Kush Attal Dina Demner-Fushman 37 31 0 30 Jan 2022
Transformers in Vision: A Survey Salman Khan Muzammal Naseer Munawar Hayat Syed Waqas Zamir F. Khan M. Shah ViT 227 2,428 0 04 Jan 2021