Title
MultiOOD: Scaling Out-of-Distribution Detection for Multiple Modalities Hao Dong Yue Zhao Eleni Chatzi Olga Fink OODD 189 25 0 27 May 2024
The SkatingVerse Workshop & Challenge: Methods and Results Jian Zhao Lei Jin Jianshu Li Zheng Zhu Yinglei Teng ... Shiníchi Satoh Yandong Guo Cewu Lu Junliang Xing Jane Shengmei Shen AI4TS 171 0 0 27 May 2024
Flow Snapshot Neurons in Action: Deep Neural Networks Generalize to Biological Motion Perception Shuangpeng Han Ziyu Wang Mengmi Zhang 245 1 0 26 May 2024
ARVideo: Autoregressive Pretraining for Self-Supervised Video Representation Learning Sucheng Ren Hongru Zhu Chen Wei Yijiang Li Yaoyao Liu Cihang Xie AI4TS VGen SSL 187 2 0 24 May 2024
MuDreamer: Learning Predictive World Models without Reconstruction Maxime Burchi Radu Timofte 154 5 0 23 May 2024
Improving Gloss-free Sign Language Translation by Reducing Representation DensityNeural Information Processing Systems (NeurIPS), 2024 Jinhui Ye Xing Wang Wenxiang Jiao Junwei Liang Hui Xiong 231 23 0 23 May 2024
Counterfactual Gradients-based Quantification of Prediction Trust in Neural Networks Mohit Prabhushankar Ghassan AlRegib UQCV 203 0 0 22 May 2024
From CNNs to Transformers in Multimodal Human Action Recognition: A Survey Muhammad Bilal Shaikh Syed Mohammed Shamsul Islam Douglas Chai Naveed Akhtar 281 29 0 22 May 2024
BIMM: Brain Inspired Masked Modeling for Video Representation Learning Zhifan Wan Jie Zhang Chang-bo Li Shiguang Shan 205 0 0 21 May 2024
A Survey on Multi-modal Machine Translation: Tasks, Methods and Challenges Huangjun Shen Liangying Shao Wenbo Li Zhibin Lan Zhanyu Liu Jinsong Su 290 4 0 21 May 2024
Continuous Sign Language Recognition with Adapted Conformer via Unsupervised Pretraining Neena Aloysius M. Geetha Prema Nedungadi SLR 201 5 0 20 May 2024
Adaptive Batch Normalization Networks for Adversarial Robustness Shao-Yuan Lo Vishal M. Patel AAML OOD 172 1 0 20 May 2024
"Previously on ..." From Recaps to Story SummarizationComputer Vision and Pattern Recognition (CVPR), 2024 Aditya Kumar Singh Dhruv Srivastava Makarand Tapaswi 213 3 0 19 May 2024
From Sora What We Can See: A Survey of Text-to-Video Generation Rui Sun Yumin Zhang Tejal Shah Jiahao Sun Shuoying Zhang Wenqi Li Haoran Duan Bo Wei R. Ranjan EGVM 243 38 0 17 May 2024
Beyond Traditional Single Object Tracking: A Survey Omar Abdelaziz Mohamed Shehata Mohamed Mohamed 293 1 0 16 May 2024
The impact of Compositionality in Zero-shot Multi-label action recognition for Object-based tasks Carmela Calabrese Stefano Berti Giulia Pasquale Lorenzo Natale VLM 239 0 0 14 May 2024
No Time to Waste: Squeeze Time into Channel for Mobile Video Understanding Yingjie Zhai Wenshuo Li Yehui Tang Xinghao Chen Yunhe Wang ViT 203 2 0 14 May 2024
Learning Latent Dynamic Robust Representations for World ModelsInternational Conference on Machine Learning (ICML), 2024 Ruixiang Sun Hongyu Zang Xin-hui Li Riashat Islam 211 11 0 10 May 2024
A Survey on Backbones for Deep Video Action Recognition Zixuan Tang Youjun Zhao Yuhang Wen Mengyuan Liu 148 3 0 09 May 2024
Sora and V-JEPA Have Not Learned The Complete Real World Model -- A Philosophical Analysis of Video AIs Through the Theory of Productive Imagination Jianqiu Zhang VGen 83 0 0 06 May 2024
Video Diffusion Models: A Survey Andrew Melnik Michal Ljubljanac Cong Lu Qi Yan Weiming Ren Helge J. Ritter VGen 325 30 0 06 May 2024
Track2Act: Predicting Point Tracks from Internet Videos enables Diverse Zero-shot Robot ManipulationEuropean Conference on Computer Vision (ECCV), 2024 Homanga Bharadhwaj Roozbeh Mottaghi Abhinav Gupta Shubham Tulsiani 3DPC 213 3 0 02 May 2024
Multi-view Action Recognition via Directed Gromov-Wasserstein Discrepancy Hoang-Quan Nguyen Thanh-Dat Truong Khoa Luu 263 1 0 02 May 2024
Multimodal Fusion on Low-quality Data: A Comprehensive Survey Qingyang Zhang Yake Wei Zongbo Han Huazhu Fu Xi Peng ... Qinghua Hu Cai Xu Jie Wen Di Hu Changqing Zhang 300 59 0 27 Apr 2024
Learning text-to-video retrieval from image captioning Lucas Ventura Cordelia Schmid Gül Varol 3DV 214 8 0 26 Apr 2024
PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning Lin Xu Yilin Zhao Daquan Zhou Zhijie Lin See Kiong Ng Jiashi Feng MLLM VLM 248 267 0 25 Apr 2024
SFMViT: SlowFast Meet ViT in Chaotic World Jiaying Lin Jiajun Wen Mengyuan Liu Jinfu Liu Baiqiao Yin Yue Li ViT 178 1 0 25 Apr 2024
TI2V-Zero: Zero-Shot Image Conditioning for Text-to-Video Diffusion Models Haomiao Ni Bernhard Egger Suhas Lohit A. Cherian Ye Wang T. Koike-Akino S. X. Huang Tim K. Marks DiffM 154 20 0 25 Apr 2024
Mamba-360: Survey of State Space Models as Transformer Alternative for Long Sequence Modelling: Methods, Applications, and Challenges Badri N. Patro Vijay Srinivas Agneeswaran Mamba 300 73 0 24 Apr 2024
DENOISER: Rethinking the Robustness for Open-Vocabulary Action Recognition Haozhe Cheng Chen Ju Haicheng Wang Jinxiang Liu Mengting Chen Qiang Hu Xiaoyun Zhang Yanfeng Wang DiffM VLM 214 8 0 23 Apr 2024
Latency-Distortion Tradeoffs in Communicating Classification Results over Noisy Channels N. Teku Sudarshan Adiga Ravi Tandon 140 2 0 22 Apr 2024
TAVGBench: Benchmarking Text to Audible-Video Generation Yuxin Mao Xuyang Shen Jing Zhang Zhen Qin Jinxing Zhou Mochu Xiang Yiran Zhong Yuchao Dai 155 24 0 22 Apr 2024
STAT: Towards Generalizable Temporal Action Localization Yangcen Liu Ziyi Liu Yuanhao Zhai Wen Li David Doerman Junsong Yuan 197 3 0 20 Apr 2024
PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation Tianyuan Zhang Hong-Xing Yu Rundi Wu Brandon Yushan Feng Changxi Zheng Noah Snavely Jiajun Wu William T. Freeman AI4CE VGen 261 127 0 19 Apr 2024
Aligning Actions and Walking to LLM-Generated Textual Descriptions Radu Chivereanu Adrian Cosma Andy Catruna R. Rughinis I. Radoi 231 3 0 18 Apr 2024
Simultaneous Detection and Interaction Reasoning for Object-Centric Action Recognition Xunsong Li Pengzhan Sun Yangcen Liu Lixin Duan Wen Li 378 6 0 18 Apr 2024
Multi-Task Multi-Modal Self-Supervised Learning for Facial Expression Recognition Marah Halawa Florian Blume Pia Bideau Martin Maier Rasha Abdel Rahman Olaf Hellwich CVBM 196 4 0 16 Apr 2024
EgoPet: Egomotion and Interaction Data from an Animal's Perspective Amir Bar Arya Bakhtiar Danny Tran Antonio Loquercio Jathushan Rajasegaran Yann LeCun Amir Globerson Trevor Darrell EgoV 234 8 0 15 Apr 2024
Design and Analysis of Efficient Attention in Transformers for Social Group Activity Recognition Masato Tamura 126 4 0 15 Apr 2024
Learning Tracking Representations from Single Point Annotations Qiangqiang Wu Antoni B. Chan 197 1 0 15 Apr 2024
Leveraging Temporal Contextualization for Video Action Recognition Minji Kim Dongyoon Han Taekyung Kim Bohyung Han 274 10 0 15 Apr 2024
Task-Driven Exploration: Decoupling and Inter-Task Feedback for Joint Moment Retrieval and Highlight Detection Jin Yang Ping Wei Huan Li Ziyang Ren 215 26 0 14 Apr 2024
Exploring Explainability in Video Action Recognition Avinab Saha Shashank Gupta S. Ankireddy Karl Chahine Joydeep Ghosh 85 7 0 13 Apr 2024
ChimpVLM: Ethogram-Enhanced Chimpanzee Behaviour Recognition Otto Brookes Majid Mirmehdi H. Kühl T. Burghardt 138 5 0 13 Apr 2024
Multimodal Attack Detection for Action Recognition Models Furkan Mumcu Yasin Yılmaz AAML 196 3 0 13 Apr 2024
ActNetFormer: Transformer-ResNet Hybrid Method for Semi-Supervised Action Recognition in VideosInternational Conference on Pattern Recognition (ICPR), 2024 Sharana Dharshikgan Suresh Dass H. Barua Ganesh Krishnasamy Raveendran Paramesran Raphael C.-W. Phan ViT 133 5 0 09 Apr 2024
TIM: A Time Interval Machine for Audio-Visual Action Recognition Jacob Chalk Jaesung Huh Evangelos Kazakos Andrew Zisserman Dima Damen 266 24 0 08 Apr 2024
UniMD: Towards Unifying Moment Retrieval and Temporal Action Detection Yingsen Zeng Yujie Zhong Chengjian Feng Lin Ma 453 14 0 07 Apr 2024
Study of the effect of Sharpness on Blind Video Quality Assessment Anantha Prabhu David Pratap Narayana Darapeni R. AnweshP 156 0 0 06 Apr 2024
SportsHHI: A Dataset for Human-Human Interaction Detection in Sports Videos Tao Wu Runyu He Gangshan Wu Limin Wang 3DH 267 14 0 06 Apr 2024