Title
Vision and Intention Boost Large Language Model in Long-Term Action Anticipation Congqi Cao Lanshu Hu Yating Yu Y. Zhang VLM 9 0 0 03 May 2025
Empowering Agentic Video Analytics Systems with Video Language Models Yuxuan Yan Shiqi Jiang Ting Cao Y. Yang Qianqian Yang Yuanchao Shu Y. Yang Lili Qiu VLM 33 0 0 01 May 2025
A Survey of Interactive Generative Video Jiwen Yu Yiran Qin Haoxuan Che Quande Liu X. Wang Pengfei Wan Di Zhang Kun Gai Hao Chen Xihui Liu VGen 43 1 0 30 Apr 2025
MultiMind: Enhancing Werewolf Agents with Multimodal Reasoning and Theory of Mind Z. Zhang Nuoqian Xiao Qi Chai Deheng Ye Hao Wang LLMAG LRM 61 0 0 25 Apr 2025
Hierarchical and Multimodal Data for Daily Activity Understanding Ghazal Kaviani Yavuz Yarici Seulgi Kim M. Prabhushankar Ghassan AlRegib Mashhour Solh Ameya Patil 32 64 0 24 Apr 2025
Interact with me: Joint Egocentric Forecasting of Intent to Interact, Attitude and Social Actions Tongfei Bian Yiming Ma Mathieu Chollet Victor Sanchez T. Guha EgoV 74 0 0 21 Dec 2024
CaRe-Ego: Contact-aware Relationship Modeling for Egocentric Interactive Hand-object Segmentation Yuejiao Su Yi Wang Lap-Pui Chau 32 1 0 08 Jul 2024
A Review of Speaker Diarization: Recent Advances with Deep Learning Tae Jin Park Naoyuki Kanda Dimitrios Dimitriadis Kyu Jeong Han Shinji Watanabe Shrikanth Narayanan VLM 234 246 0 24 Jan 2021
VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency Ruohan Gao Kristen Grauman CVBM 161 175 0 08 Jan 2021
Bayesian HMM clustering of x-vector sequences (VBx) in speaker diarization: theory, implementation and analysis on standard tasks Federico Landini Jan Profant Mireia Díez L. Burget 176 175 0 29 Dec 2020
Detecting Attended Visual Targets in Video Eunji Chong Yongxin Wang Nataniel Ruiz James M. Rehg 162 87 0 05 Mar 2020
Audiovisual SlowFast Networks for Video Recognition Fanyi Xiao Yong Jae Lee Kristen Grauman Jitendra Malik Christoph Feichtenhofer 162 193 0 23 Jan 2020
VoxCeleb2: Deep Speaker Recognition Joon Son Chung Arsha Nagrani Andrew Zisserman 181 1,954 0 14 Jun 2018
BSN: Boundary Sensitive Network for Temporal Action Proposal Generation Tianwei Lin Xu Zhao Haisheng Su Chongjing Wang Ming Yang 119 646 0 08 Jun 2018
TrackingNet: A Large-Scale Dataset and Benchmark for Object Tracking in the Wild Matthias Muller Adel Bibi Silvio Giancola Salman Al-Subaihi Bernard Ghanem 166 676 0 28 Mar 2018
Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting Xingjian Shi Zhourong Chen Hao Wang Dit-Yan Yeung W. Wong W. Woo 180 7,095 0 13 Jun 2015