Multi-modal Speech Transformer Decoders: When Do Multiple Modalities Improve Accuracy?

13 September 2024

Jacob Whitehill

Papers citing "Multi-modal Speech Transformer Decoders: When Do Multiple Modalities Improve Accuracy?"

1 / 1 papers shown

Title
Chinese-LiPS: A Chinese audio-visual speech recognition dataset with Lip-reading and Presentation Slides Jinghua Zhao Yuhang Jia Shiyao Wang Jiaming Zhou Hui Wang Yong Qin 25 0 0 21 Apr 2025