v1v2v3 (latest)

ViNet: Pushing the limits of Visual Modality for Audio-Visual Saliency Prediction

IEEE/RJS International Conference on Intelligent RObots and Systems (IROS), 2020

11 December 2020

Subramanian Ramanathan

Vineet Gandhi

ViT

ArXiv (abs)PDF HTML Github (67★)

Papers citing "ViNet: Pushing the limits of Visual Modality for Audio-Visual Saliency Prediction"

23 / 23 papers shown

Simplifying Knowledge Transfer in Pretrained Models

Siddharth Jain

Shyamgopal Karthik

Vineet Gandhi

182

25 Oct 2025

The ISLab Solution to the Algonauts Challenge 2025: A Multimodal Deep Learning Approach to Brain Response Prediction

25 Jul 2025

DTFSal: Audio-Visual Dynamic Token Fusion for Video Saliency Prediction

1.0K

14 Apr 2025

Minimalistic Video Saliency Prediction via Efficient Decoder & Spatio Temporal Action CuesIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2025

234

01 Feb 2025

Relevance-guided Audio Visual Fusion for Video Saliency Prediction

363

18 Nov 2024

AV-PedAware: Self-Supervised Audio-Visual Fusion for Dynamic Pedestrian AwarenessIEEE/RJS International Conference on Intelligent RObots and Systems (IROS), 2023

563

11 Nov 2024

CaRDiff: Video Salient Object Ranking Chain of Thought Reasoning for Saliency Prediction with DiffusionAAAI Conference on Artificial Intelligence (AAAI), 2024

507

21 Aug 2024

Saliency Detection in Educational Videos: Analyzing the Performance of Current Models, Identifying Limitations and Advancement DirectionsInternational Conference on Information and Knowledge Management (CIKM), 2024

Evelyn Navarrete

Ralph Ewerth

Anett Hoppe

164

08 Aug 2024

Unified Dynamic Scanpath Predictors Outperform Individually Trained Neural Models

Fares Abawi

Di Fu

Stefan Wermter

351

05 May 2024

SalFoM: Dynamic Saliency Prediction with Video Foundation ModelsInternational Conference on Pattern Recognition (ICPR), 2024

250

03 Apr 2024

DiffSal: Joint Audio and Video Learning for Diffusion Saliency Prediction

Wei Huang

243

02 Mar 2024

Transformer-based Video Saliency Prediction with High Temporal Dimension Decoding

Morteza Moradi

S. Palazzo

C. Spampinato

222

15 Jan 2024

UniST: Towards Unifying Saliency Transformer for Video Saliency Prediction and Detection

Wei Huang

181

15 Sep 2023

NPF-200: A Multi-Modal Eye Fixation Dataset and Method for Non-Photorealistic VideosACM Multimedia (ACM MM), 2023

228

23 Aug 2023

Gated Driver Attention Predictor

Tianci Zhao

Xue Bai

Jianwu Fang

Jianru Xue

244

01 Aug 2023

TinyHD: Efficient Video Saliency Prediction with Heterogeneous Decoders using Hierarchical Maps DistillationIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

Feiyan Hu

S. Palazzo

Federica Proietto Salanitri

242

11 Jan 2023

Learning in Audio-visual Context: A Review, Analysis, and New Perspective

323

20 Aug 2022

A Comprehensive Survey on Video Saliency Detection with Auditory Information: the Audio-visual Consistency Perceptual is the Key!

Chenglizhao Chen

253

20 Jun 2022

Joint Learning of Visual-Audio Saliency Prediction and Sound Source Localization on Multi-face Videos

Bing Li

162

05 Nov 2021

A trained humanoid robot can perform human-like crossmodal social attention and conflict resolutionInternational Journal of Social Robotics (JSR), 2021

482

02 Nov 2021

Spatio-Temporal Self-Attention Network for Video Saliency PredictionIEEE transactions on multimedia (IEEE Trans. Multimedia), 2021

410

24 Aug 2021

Temporal-Spatial Feature Pyramid for Video Saliency Detection

Qinyao Chang

Shiping Zhu

245

10 May 2021

Noise-Aware Video Saliency PredictionBritish Machine Vision Conference (BMVC), 2021

186

16 Apr 2021