Title
Multi-modal Instance Refinement for Cross-domain Action Recognition Yuan Qing Naixing Wu Shaohua Wan Lixin Duan 14 0 0 24 Nov 2023
What Makes Pre-Trained Visual Representations Successful for Robust Manipulation? Kaylee Burns Zach Witzel Jubayer Ibn Hamid Tianhe Yu Chelsea Finn Karol Hausman OOD SSL 23 22 0 03 Nov 2023
RoboVQA: Multimodal Long-Horizon Reasoning for Robotics P. Sermanet Tianli Ding Jeffrey Zhao Fei Xia Debidatta Dwibedi ... Pannag R. Sanketi Karol Hausman Izhak Shafran Brian Ichter Yuan Cao LM&Ro 20 50 0 01 Nov 2023
Audio-Visual Speaker Tracking: Progress, Challenges, and Future Directions Jinzheng Zhao Yong-mei Xu Xinyuan Qian Davide Berghi Peipei Wu Meng Cui Jianyuan Sun Philip J. B. Jackson Wenwu Wang BDL 37 7 0 23 Oct 2023
Universal Visual Decomposer: Long-Horizon Manipulation Made Easy Zichen Zhang Yunshuang Li Osbert Bastani Abhishek Gupta Dinesh Jayaraman Yecheng Jason Ma Luca Weihs 30 17 0 12 Oct 2023
EgoPCA: A New Framework for Egocentric Hand-Object Interaction Understanding Yue Xu Yong-Lu Li Zhemin Huang Michael Xu Liu Cewu Lu Yu-Wing Tai Chi-Keung Tang EgoV 18 9 0 05 Sep 2023
Structured World Models from Human Videos Russell Mendonca Shikhar Bahl Deepak Pathak LM&Ro 21 85 0 21 Aug 2023
Learning Fine-grained View-Invariant Representations from Unpaired Ego-Exo Videos via Temporal Alignment Zihui Xue Kristen Grauman EgoV 16 29 0 08 Jun 2023
EXOT: Exit-aware Object Tracker for Safe Robotic Manipulation of Moving Object Hyunseo Kim Hye Jung Yoon Minji Kim Dong-Sig Han Byoung-Tak Zhang 16 0 0 08 Jun 2023
Human-Object Interaction Prediction in Videos through Gaze Following Zhifan Ni Esteve Valls Mascaro Hyemin Ahn Dongheui Lee 22 10 0 06 Jun 2023
EgoHumans: An Egocentric 3D Multi-Human Benchmark Rawal Khirodkar Aayush Bansal Lingni Ma Richard A. Newcombe Minh Vo Kris M. Kitani EgoV 24 33 0 25 May 2023
GoferBot: A Visual Guided Human-Robot Collaborative Assembly System Zheyu Zhuang Yizhak Ben-Shabat Jiahao Zhang Stephen Gould Robert E. Mahony 25 6 0 18 Apr 2023
Affordances from Human Videos as a Versatile Representation for Robotics Shikhar Bahl Russell Mendonca Lili Chen Unnat Jain Deepak Pathak 30 160 0 17 Apr 2023
LASER: A Neuro-Symbolic Framework for Learning Spatial-Temporal Scene Graphs with Weak Supervision Jiani Huang Ziyang Li Mayur Naik Ser-Nam Lim 35 3 0 15 Apr 2023
Multiscale Audio Spectrogram Transformer for Efficient Audio Classification Wenjie Zhu M. Omar 35 22 0 19 Mar 2023
Connecting Vision and Language with Video Localized Narratives P. Voigtlaender Soravit Changpinyo Jordi Pont-Tuset Radu Soricut V. Ferrari VGen 31 21 0 22 Feb 2023
MINOTAUR: Multi-task Video Grounding From Multimodal Queries Raghav Goyal E. Mavroudi Xitong Yang Sainbayar Sukhbaatar Leonid Sigal Matt Feiszli Lorenzo Torresani Du Tran 8 7 0 16 Feb 2023
Balanced Audiovisual Dataset for Imbalance Analysis Wenke Xia Xu Zhao Xincheng Pang Changqing Zhang Di Hu 24 1 0 14 Feb 2023
Baseline Method for the Sport Task of MediaEval 2022 with 3D CNNs using Attention Mechanisms Pierre-Etienne Martin 6 1 0 06 Feb 2023
Simplifying Open-Set Video Domain Adaptation with Contrastive Learning Giacomo Zara Victor G. Turrisi da Costa Subhankar Roy Paolo Rota Elisa Ricci 25 1 0 09 Jan 2023
A Survey on Human Action Recognition Zhou Shuchang 19 0 0 20 Dec 2022
EgoLoc: Revisiting 3D Object Localization from Egocentric Videos with Visual Queries Jinjie Mai Abdullah Hamdi Silvio Giancola Chen Zhao Bernard Ghanem EgoV 25 14 0 14 Dec 2022
OpenPack: A Large-scale Dataset for Recognizing Packaging Works in IoT-enabled Logistic Environments Naoya Yoshimura Jaime Morales T. Maekawa Takahiro Hara 22 19 0 10 Dec 2022
Tencent AVS: A Holistic Ads Video Dataset for Multi-modal Scene Segmentation Jie Jiang Zhimin Li Jiangfeng Xiong Rongwei Quan Qinglin Lu Wei Liu 16 2 0 09 Dec 2022
Learning to Imitate Object Interactions from Internet Videos Austin Patel Andrew E. Wang Ilija Radosavovic Jitendra Malik 23 21 0 23 Nov 2022
Tell Me What Happened: Unifying Text-guided Video Completion via Multimodal Masked Video Generation Tsu-jui Fu Licheng Yu Ning Zhang Cheng-Yang Fu Jong-Chyi Su William Yang Wang Sean Bell VGen 40 37 0 23 Nov 2022
Video Unsupervised Domain Adaptation with Deep Learning: A Comprehensive Survey Yuecong Xu Haozhi Cao Zhenghua Chen Xiaoli Li Lihua Xie Jianfei Yang 24 14 0 17 Nov 2022
Egocentric Hand-object Interaction Detection Yao Lu Yanan Liu 27 2 0 16 Nov 2022
Discovering A Variety of Objects in Spatio-Temporal Human-Object Interactions Yong-Lu Li Hongwei Fan Zuoyu Qiu Yiming Dou Liang Xu ... Peiyang Guo Haisheng Su Dongliang Wang Wei Yu Wu Cewu Lu 22 7 0 14 Nov 2022
EvEntS ReaLM: Event Reasoning of Entity States via Language Models Evangelia Spiliopoulou Artidoro Pagnoni Yonatan Bisk Eduard H. Hovy LRM ReLM 23 10 0 10 Nov 2022
Bringing Online Egocentric Action Recognition into the wild Gabriele Goletto M. Planamente Barbara Caputo Giuseppe Averta EgoV 17 3 0 06 Nov 2022
Human in the loop approaches in multi-modal conversational task guidance system development R. Manuvinakurike Sovan Biswas G. Raffa R. Beckwith A. Rhodes Meng Shi Gesem Gudino Mejia Saurav Sahay L. Nachman 25 2 0 03 Nov 2022
Rethinking Learning Approaches for Long-Term Action Anticipation Megha Nawhal Akash Abdu Jyothi Greg Mori AI4TS 34 26 0 20 Oct 2022
S4ND: Modeling Images and Videos as Multidimensional Signals Using State Spaces Eric N. D. Nguyen Karan Goel Albert Gu Gordon W. Downs Preey Shah Tri Dao S. Baccus Christopher Ré VLM 22 38 0 12 Oct 2022
BoxMask: Revisiting Bounding Box Supervision for Video Object Detection K. Hashmi A. Pagani D. Stricker Muhammad Zeshan Afzal VOS 35 10 0 12 Oct 2022
Motion Aware Self-Supervision for Generic Event Boundary Detection Ayush Rai Tarun Krishna J. Dietlmeier Kevin McGuinness A. Smeaton Noel E. O'Connor 21 2 0 11 Oct 2022
Learning State-Aware Visual Representations from Audible Interactions Himangi Mittal Pedro Morgado Unnat Jain Abhinav Gupta 66 22 0 27 Sep 2022
EPIC-KITCHENS VISOR Benchmark: VIdeo Segmentations and Object Relations Ahmad Darkhalil Dandan Shan Bin Zhu Jian Ma Amlan Kar Richard E. L. Higgins Sanja Fidler David Fouhey Dima Damen VOS 39 98 0 26 Sep 2022
MECCANO: A Multimodal Egocentric Dataset for Humans Behavior Understanding in the Industrial-like Domain Francesco Ragusa Antonino Furnari G. Farinella EgoV 33 23 0 19 Sep 2022
BON: An extended public domain dataset for human activity recognition G. Tadesse Oliver E. Bent Komminist Weldemariam Md. Abrar Istiak Taufiq Hasan Andrea Cavallaro 19 1 0 12 Sep 2022
Efficient Attention-free Video Shift Transformers Adrian Bulat Brais Martínez Georgios Tzimiropoulos ViT 27 1 0 23 Aug 2022
Action Recognition based on Cross-Situational Action-object Statistics Satoshi Tsutsui Xizi Wang Guangyuan Weng Yayun Zhang David J. Crandall Chen Yu 38 2 0 15 Aug 2022
Multimodal Generation of Novel Action Appearances for Synthetic-to-Real Recognition of Activities of Daily Living Zdravko Marinov David Schneider Alina Roitberg Rainer Stiefelhagen VGen 24 2 0 03 Aug 2022
Exploring Fine-Grained Audiovisual Categorization with the SSW60 Dataset Grant Van Horn Rui Qian Kimberly Wilber Hartwig Adam Oisin Mac Aodha Serge J. Belongie 19 10 0 21 Jul 2022
Is an Object-Centric Video Representation Beneficial for Transfer? Chuhan Zhang Ankush Gupta Andrew Zisserman ViT 19 26 0 20 Jul 2022
Human-to-Robot Imitation in the Wild Shikhar Bahl Abhi Gupta Deepak Pathak 9 163 0 19 Jul 2022
Disentangled Action Recognition with Knowledge Bases Zhekun Luo Shalini Ghosh Devin Guillory Keizo Kato Trevor Darrell Huijuan Xu 21 7 0 04 Jul 2022
Timestamp-Supervised Action Segmentation with Graph Convolutional Networks Hamza Khan S. Haresh Awais Ahmed Shakeeb Siddiqui Andrey Konin Mohammad Zeeshan Quoc-Huy Tran 16 22 0 30 Jun 2022
Unified Recurrence Modeling for Video Action Anticipation Tsung-Ming Tai G. Fiameni Cheng-Kuang Lee Simon See O. Lanz 19 8 0 02 Jun 2022
Weakly-Supervised Action Detection Guided by Audio Narration Keren Ye Adriana Kovashka 22 0 0 12 May 2022