v1v2 (latest)

A Cascade Sequence-to-Sequence Model for Chinese Mandarin Lip Reading

ACM Multimedia Asia (MMAsia), 2019

14 August 2019

Papers citing "A Cascade Sequence-to-Sequence Model for Chinese Mandarin Lip Reading"

26 / 26 papers shown

AvatarSync: Rethinking Talking-Head Animation through Phoneme-Guided Autoregressive Perspective

182

15 Sep 2025

Learning Speaker-Invariant Visual Features for Lipreading

196

09 Jun 2025

ViCocktail: Automated Multi-Modal Data Collection for Vietnamese Audio-Visual Speech Recognition

Thai-Binh Nguyen

T. Nguyen

Quoc Truong Do

Chi Mai Luong

193

05 Jun 2025

Chinese-LiPS: A Chinese audio-visual speech recognition dataset with Lip-reading and Presentation Slides

330

21 Apr 2025

STSA: Spatial-Temporal Semantic Alignment for Visual Dubbing

373

29 Mar 2025

RAL:Redundancy-Aware Lipreading Model Based on Differential Learning with Symmetric Views

Zejun gu

Junxia jiang

306

09 Sep 2024

A Large-scale Universal Evaluation Benchmark For Face Forgery Detection

Jie Song

Mingli Song

Zunlei Feng

CVBM

441

13 Jun 2024

Landmark-Guided Cross-Speaker Lip Reading with Mutual Information Regularization

Tiejun Liu

197

24 Mar 2024

JEP-KD: Joint-Embedding Predictive Architecture Based Knowledge Distillation for Visual Speech Recognition

184

04 Mar 2024

MCF-VC: Mitigate Catastrophic Forgetting in Class-Incremental Learning for Multimodal Video Captioning

243

27 Feb 2024

AnnoTheia: A Semi-Automatic Annotation Toolkit for Audio-Visual Speech Technologies

José-M. Acosta-Triana

David Gimeno-Gómez

Carlos David Martínez Hinarejos

VLM VGen

306

20 Feb 2024

Lip Reading for Low-resource Languages by Learning and Combining General Speech Knowledge and Language-specific KnowledgeIEEE International Conference on Computer Vision (ICCV), 2023

Minsu Kim

Jeong Hun Yeo

J. Choi

Y. Ro

234

18 Aug 2023

Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion EncoderIEEE International Conference on Multimedia and Expo (ICME), 2023

298

14 Aug 2023

Automated Speaker Independent Visual Speech Recognition: A Comprehensive SurveyImage and Vision Computing (IVC), 2023

179

14 Jun 2023

Learning Cross-lingual Visual Speech RepresentationsIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023

177

14 Mar 2023

MixSpeech: Cross-Modality Self-Learning with Audio-Visual Stream Mixup for Visual Speech Translation and RecognitionIEEE International Conference on Computer Vision (ICCV), 2023

Xize Cheng

Rongjie Huang

Zhou Zhao

240

09 Mar 2023

MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition and Robust Speech-to-Text TranslationInterspeech (Interspeech), 2023

254

01 Mar 2023

LipFormer: Learning to Lipread Unseen Speakers based on Visual-Landmark Transformers

Feng Xue

Yu Li

Deyin Liu

Yincen Xie

Lin Wu

Richang Hong

198

04 Feb 2023

A Multi-Purpose Audio-Visual Corpus for Multi-Modal Persian Speech Recognition: the Arman-AV DatasetExpert systems with applications (ESWA), 2023

Mohammad Reza Mohammadi

N. Mozayani

352

21 Jan 2023

Visual Speech Recognition for Multiple Languages in the WildNature Machine Intelligence (Nat. Mach. Intell.), 2022

429

199

26 Feb 2022

LipSound2: Self-Supervised Pre-Training for Lip-to-Speech Reconstruction and Lip Reading

Leyuan Qu

C. Weber

S. Wermter

276

09 Dec 2021

Advances and Challenges in Deep Lip Reading

Mohammad Akbari

167

15 Oct 2021

Perception Point: Identifying Critical Learning Periods in Speech for Bilingual Networks

167

13 Oct 2021

Synchronous Bidirectional Learning for Multilingual Lip Reading

Zitao Liu

176

08 May 2020

Can We Read Speech Beyond the Lips? Rethinking RoI Selection for Deep Visual Speech RecognitionIEEE International Conference on Automatic Face & Gesture Recognition (FG), 2020

372

06 Mar 2020

Hearing Lips: Improving Lip Reading by Distilling Speech RecognizersAAAI Conference on Artificial Intelligence (AAAI), 2019

249

103

26 Nov 2019