Seeing Through the Conversation: Audio-Visual Speech Separation based on
Diffusion Model

Seeing Through the Conversation: Audio-Visual Speech Separation based on Diffusion Model

30 October 2023

Joon Son Chung

Papers citing "Seeing Through the Conversation: Audio-Visual Speech Separation based on Diffusion Model"

5 / 5 papers shown

Title
SwinLip: An Efficient Visual Speech Encoder for Lip Reading Using Swin Transformer Young-Hu Park R.-H. Park Hyung-Min Park 46 0 0 07 May 2025
VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency Ruohan Gao Kristen Grauman CVBM 185 196 0 08 Jan 2021
Lipreading using Temporal Convolutional Networks Brais Martínez Pingchuan Ma Stavros Petridis M. Pantic 165 237 0 23 Jan 2020
VoxCeleb2: Deep Speaker Recognition Joon Son Chung Arsha Nagrani Andrew Zisserman 214 2,224 0 14 Jun 2018
U-Net: Convolutional Networks for Biomedical Image Segmentation Olaf Ronneberger Philipp Fischer Thomas Brox SSeg 3DV 229 74,467 0 18 May 2015