Deep Lip Reading: a comparison of models and an online application

15 June 2018

Joon Son Chung

Papers citing "Deep Lip Reading: a comparison of models and an online application"

21 / 21 papers shown

Title
SwinLip: An Efficient Visual Speech Encoder for Lip Reading Using Swin Transformer Young-Hu Park R.-H. Park Hyung-Min Park 49 0 0 07 May 2025
The Sound of Water: Inferring Physical Properties from Pouring Liquids Piyush Bagad Makarand Tapaswi Cees G. M. Snoek Andrew Zisserman 45 0 0 18 Nov 2024
Joint Speaker Features Learning for Audio-visual Multichannel Speech Separation and Recognition Guinan Li Jiajun Deng Youjun Chen Mengzhe Geng Shujie Hu ... Zengrui Jin Tianzi Wang Xurong Xie Helen Meng Xunying Liu VLM 31 0 0 14 Jun 2024
Learning to Dub Movies via Hierarchical Prosody Models Gaoxiang Cong Liang Li Yuankai Qi Zhengjun Zha Qi Wu Wen-yu Wang Bin Jiang Ming Yang Qin Huang 75 25 0 08 Dec 2022
Learning Speaker-specific Lip-to-Speech Generation Munender Varshney Ravindra Yadav Vinay P. Namboodiri R. Hegde 16 7 0 04 Jun 2022
Audio-visual multi-channel speech separation, dereverberation and recognition Guinan Li Jianwei Yu Jiajun Deng Xunying Liu Helen Meng 13 7 0 05 Apr 2022
LipSound2: Self-Supervised Pre-Training for Lip-to-Speech Reconstruction and Lip Reading Leyuan Qu C. Weber S. Wermter 33 23 0 09 Dec 2021
Neural Dubber: Dubbing for Videos According to Scripts Chenxu Hu Qiao Tian Tingle Li Yuping Wang Yuxuan Wang Hang Zhao DiffM VGen 36 39 0 15 Oct 2021
USEV: Universal Speaker Extraction with Visual Cue Zexu Pan Meng Ge Haizhou Li 34 41 0 30 Sep 2021
Speaker disentanglement in video-to-speech conversion Dan Oneaţă Adriana Stan H. Cucu 21 9 0 20 May 2021
Space-Time Crop & Attend: Improving Cross-modal Video Representation Learning Mandela Patrick Yuki M. Asano Bernie Huang Ishan Misra Florian Metze Joao Henriques Andrea Vedaldi AI4TS 29 33 0 18 Mar 2021
Seeing wake words: Audio-visual Keyword Spotting Liliane Momeni Triantafyllos Afouras Themos Stafylakis Samuel Albanie Andrew Zisserman 44 43 0 02 Sep 2020
Attentive Fusion Enhanced Audio-Visual Encoding for Transformer Based Robust Speech Recognition L. Wei Jie Zhang Junfeng Hou Lirong Dai 11 14 0 06 Aug 2020
Discriminative Multi-modality Speech Recognition Bo Xu Cheng Lu Yandong Guo Jacob Wang 18 98 0 12 May 2020
Pseudo-Convolutional Policy Gradient for Sequence-to-Sequence Lip-Reading Mingshuang Luo Shuang Yang Shiguang Shan Xilin Chen 19 41 0 09 Mar 2020
Audio-visual Recognition of Overlapped speech for the LRS2 dataset Jianwei Yu Shi-Xiong Zhang Jian Wu Shahram Ghorbani Bo Wu Shiyin Kang Shansong Liu Xunying Liu Helen Meng Dong Yu 24 72 0 06 Jan 2020
Predicting 3D Human Dynamics from Video Jason Y. Zhang Panna Felsen Angjoo Kanazawa Jitendra Malik 3DH 24 110 0 13 Aug 2019
Deep Audio-Visual Speech Recognition Triantafyllos Afouras Joon Son Chung A. Senior Oriol Vinyals Andrew Zisserman 22 687 0 06 Sep 2018
Zero-shot keyword spotting for visual speech recognition in-the-wild Themos Stafylakis Georgios Tzimiropoulos 27 38 0 23 Jul 2018
Lip Reading Sentences in the Wild Joon Son Chung A. Senior Oriol Vinyals Andrew Zisserman 164 784 0 16 Nov 2016
Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation Yonghui Wu M. Schuster Z. Chen Quoc V. Le Mohammad Norouzi ... Alex Rudnick Oriol Vinyals G. Corrado Macduff Hughes J. Dean AIMat 716 6,743 0 26 Sep 2016