Joint Learning of Visual-Audio Saliency Prediction and Sound Source Localization on Multi-face Videos

5 November 2021

Bing Li

Papers citing "Joint Learning of Visual-Audio Saliency Prediction and Sound Source Localization on Multi-face Videos"

3 / 3 papers shown

Title
DTFSal: Audio-Visual Dynamic Token Fusion for Video Saliency Prediction Kiana Hoshanfar Alireza Hosseini Ahmad Kalhor Babak N. Araabi 238 0 0 14 Apr 2025
Unified Image and Video Saliency Modeling Richard Droste Jianbo Jiao J. A. Noble 68 157 0 11 Mar 2020
Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting Xingjian Shi Zhourong Chen Hao Wang Dit-Yan Yeung W. Wong W. Woo 242 7,932 0 13 Jun 2015