Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2401.03424
Cited By

MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech
Recognition

v1v2v3 (latest)

MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition

7 January 2024

Lei Xie

ArXiv (abs)PDF HTML Github (1826★)

Papers citing "MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition"

5 / 5 papers shown

DCIM-AVSR : Efficient Audio-Visual Speech Recognition via Dual Conformer Interaction Module

DCIM-AVSR : Efficient Audio-Visual Speech Recognition via Dual Conformer Interaction ModuleIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

Haolin Huang

Yu Fang

Mengjie Xu

Qian Wang

521

2

0

31 Aug 2024

Learning Video Temporal Dynamics with Cross-Modal Attention for Robust
Audio-Visual Speech Recognition

Learning Video Temporal Dynamics with Cross-Modal Attention for Robust Audio-Visual Speech Recognition

Sungnyun Kim

Hoirin Kim

Se-Young Yun

294

8

0

04 Jul 2024

MaLa-ASR: Multimedia-Assisted LLM-Based ASR

MaLa-ASR: Multimedia-Assisted LLM-Based ASR

Ziyang Ma

Shiliang Zhang

Xie Chen

410

5

0

09 Jun 2024

Enhancing Lip Reading with Multi-Scale Video and Multi-Encoder

Enhancing Lip Reading with Multi-Scale Video and Multi-Encoder

Lei Xie

299

5

0

08 Apr 2024

A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition

A Study of Dropout-Induced Modality Bias on Robustness to Missing Video Frames for Audio-Visual Speech Recognition

Jun Du

Ruoyu Wang

324

13

0

07 Mar 2024

Page 1 of 1