SlideSpeech: A Large-Scale Slide-Enriched Audio-Visual Corpus

11 September 2023

Papers citing "SlideSpeech: A Large-Scale Slide-Enriched Audio-Visual Corpus"

6 / 6 papers shown

Title
DocVideoQA: Towards Comprehensive Understanding of Document-Centric Videos through Question Answering H. Wang Kai Hu Liangcai Gao 129 0 0 20 Mar 2025
M2-omni: Advancing Omni-MLLM for Comprehensive Modality Support with Competitive Performance Qingpei Guo Kaiyou Song Zipeng Feng Ziping Ma Qinglong Zhang ... Yunxiao Sun Tai-WeiChang Jingdong Chen Ming Yang Jun Zhou MLLM VLM 82 3 0 26 Feb 2025
Multi-modal Speech Transformer Decoders: When Do Multiple Modalities Improve Accuracy? Yiwen Guan V. Trinh Vivek Voleti Jacob Whitehill 34 1 0 13 Sep 2024
MaLa-ASR: Multimedia-Assisted LLM-Based ASR Guanrou Yang Ziyang Ma Fan Yu Zhifu Gao Shiliang Zhang Xie Chen AuLLM 36 2 0 09 Jun 2024
End-to-end Audio-visual Speech Recognition with Conformers Pingchuan Ma Stavros Petridis M. Pantic 79 224 0 12 Feb 2021
VoxCeleb2: Deep Speaker Recognition Joon Son Chung Arsha Nagrani Andrew Zisserman 214 2,233 0 14 Jun 2018