v1v2v3 (latest)

Transformer-Based Video Front-Ends for Audio-Visual Speech Recognition for Single and Multi-Person Video

Interspeech (Interspeech), 2022

25 January 2022

Papers citing "Transformer-Based Video Front-Ends for Audio-Visual Speech Recognition for Single and Multi-Person Video"

26 / 26 papers shown

Phoneme-Level Visual Speech Recognition via Point-Visual Fusion and Language Model Reconstruction

Matthew Kit Khinn Teng

Haibo Zhang

Takeshi Saitoh

200

25 Jul 2025

CNVSRC 2024: The Second Chinese Continuous Visual Speech Recognition Challenge

336

27 May 2025

VALLR: Visual ASR Language Model for Lip Reading

Marshall Thomas

Edward Fish

Richard Bowden

389

27 Mar 2025

Audio-Visual Representation Learning via Knowledge Distillation from Speech Foundation ModelsPattern Recognition (Pattern Recogn.), 2025

355

09 Feb 2025

mWhisper-Flamingo for Multilingual Audio-Visual Noise-Robust Speech RecognitionIEEE Signal Processing Letters (IEEE SPL), 2025

598

03 Feb 2025

Efficient Audiovisual Speech Processing via MUTUD: Multimodal Training and Unimodal Deployment

286

30 Jan 2025

Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual InputsNeural Information Processing Systems (NeurIPS), 2024

420

04 Nov 2024

Large Language Models are Strong Audio-Visual Speech Recognition LearnersIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

Umberto Cappellazzo

Minsu Kim

Honglie Chen

Pingchuan Ma

Stavros Petridis

Daniele Falavigna

Alessio Brutti

Maja Pantic

467

18 Sep 2024

SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization

Sangha Park

256

18 Jun 2024

Enhancing Lip Reading with Multi-Scale Video and Multi-Encoder

Lei Xie

291

08 Apr 2024

BRAVEn: Improving Self-Supervised Pre-training for Visual and Auditory Speech RecognitionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

344

02 Apr 2024

Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast ConformerIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

Maxime Burchi

Krishna C. Puvvada

Jagadeesh Balam

Boris Ginsburg

Radu Timofte

266

14 Mar 2024

TorchAudio 2.1: Advancing speech recognition, self-supervised learning, and audio processing components for PyTorchAutomatic Speech Recognition & Understanding (ASRU), 2023

...

308

27 Oct 2023

AV-CPL: Continuous Pseudo-Labeling for Audio-Visual Speech Recognition

272

29 Sep 2023

AKVSR: Audio Knowledge Empowered Visual Speech Recognition by Compressing Audio Knowledge of a Pretrained ModelIEEE transactions on multimedia (IEEE TMM), 2023

Jeong Hun Yeo

260

15 Aug 2023

Adaptation of Tongue Ultrasound-Based Silent Speech Interfaces Using Spatial Transformer NetworksInterspeech (Interspeech), 2023

L. Tóth

Amin Honarmandi Shandiz

G. Gosztolya

T. Csapó

351

30 May 2023

SynthVSR: Scaling Up Visual Speech Recognition With Synthetic SupervisionComputer Vision and Pattern Recognition (CVPR), 2023

Xubo Liu

Egor Lakomkin

Konstantinos Vougioukas

...

513

30 Mar 2023

Auto-AVSR: Audio-Visual Speech Recognition with Automatic LabelsIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023

Pingchuan Ma

A. Haliassos

Adriana Fernandez-Lopez

Honglie Chen

Stavros Petridis

Maja Pantic

412

191

25 Mar 2023

Conformers are All You Need for Visual Speech Recognition

330

17 Feb 2023

AV-data2vec: Self-supervised Learning of Audio-Visual Speech Representations with Contextualized Target RepresentationsAutomatic Speech Recognition & Understanding (ASRU), 2023

429

10 Feb 2023

Jointly Learning Visual and Auditory Speech Representations from Raw DataInternational Conference on Learning Representations (ICLR), 2022

338

12 Dec 2022

Streaming Audio-Visual Speech Recognition with Alignment RegularizationInterspeech (Interspeech), 2022

258

03 Nov 2022

Predict-and-Update Network: Audio-Visual Speech Recognition Inspired by Human Speech PerceptionIEEE Transactions on Audio, Speech, and Language Processing (TASLP), 2022

Jiadong Wang

Xinyuan Qian

Haizhou Li

209

05 Sep 2022

Visual Context-driven Audio Feature Enhancement for Robust End-to-End Audio-Visual Speech RecognitionInterspeech (Interspeech), 2022

304

13 Jul 2022

FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech SynthesisACM Multimedia (ACM MM), 2022

Yongqiang Wang

Zhou Zhao

345

08 Jul 2022

Visual Speech Recognition for Multiple Languages in the WildNature Machine Intelligence (Nat. Mach. Intell.), 2022

457

202

26 Feb 2022