Assembly101: A Large-Scale Multi-View Video Dataset for Understanding Procedural Activities

28 March 2022

Angela Yao

Papers citing "Assembly101: A Large-Scale Multi-View Video Dataset for Understanding Procedural Activities"

25 / 25 papers shown

Title
Thoughts without Thinking: Reconsidering the Explanatory Value of Chain-of-Thought Reasoning in LLMs through Agentic Pipelines R. Manuvinakurike Emanuel Moss E. A. Watkins Saurav Sahay G. Raffa L. Nachman LRM 19 0 0 01 May 2025
Hierarchical and Multimodal Data for Daily Activity Understanding Ghazal Kaviani Yavuz Yarici Seulgi Kim M. Prabhushankar Ghassan AlRegib Mashhour Solh Ameya Patil 49 0 0 24 Apr 2025
Modeling Multiple Normal Action Representations for Error Detection in Procedural Tasks Wei-Jin Huang Yuan-Ming Li Zhi-Wei Xia Yu-Ming Tang Kun-Yu Lin Jian-Fang Hu Wei-Shi Zheng 39 0 0 28 Mar 2025
Cost-Sensitive Learning for Long-Tailed Temporal Action Segmentation Zhanzhong Pang Fadime Sener Shrinivas Ramasubramanian Angela Yao 48 1 0 24 Mar 2025
End-to-End Action Segmentation Transformer Tieqiao Wang Sinisa Todorovic ViT 37 0 0 08 Mar 2025
Task Graph Maximum Likelihood Estimation for Procedural Activity Understanding in Egocentric Videos Luigi Seminara G. Farinella Antonino Furnari 72 0 0 25 Feb 2025
Learning Human Skill Generators at Key-Step Levels Yilu Wu Chenhui Zhu Shuai Wang Hanlin Wang Jing Wang Zhaoxiang Zhang Limin Wang VGen 112 0 0 12 Feb 2025
Differentiable Task Graph Learning: Procedural Activity Representation and Online Mistake Detection from Egocentric Videos Luigi Seminara G. Farinella Antonino Furnari 46 7 0 10 Jan 2025
Towards Unbiased and Robust Spatio-Temporal Scene Graph Generation and Anticipation Rohith Peddi Saurabh Ayush Abhay Shrivastava Parag Singla Vibhav Gogate 65 0 0 20 Nov 2024
Egocentric and Exocentric Methods: A Short Survey Anirudh Thatipelli Shao-Yuan Lo Amit K. Roy-Chowdhury EgoV 39 2 0 27 Oct 2024
HOI-Ref: Hand-Object Interaction Referral in Egocentric Vision Siddhant Bansal Michael Wray Dima Damen 31 3 0 15 Apr 2024
X-MIC: Cross-Modal Instance Conditioning for Egocentric Action Generalization Anna Kukleva Fadime Sener Edoardo Remelli Bugra Tekin Eric Sauser Bernt Schiele Shugao Ma VLM EgoV 23 1 0 28 Mar 2024
EgoExoLearn: A Dataset for Bridging Asynchronous Ego- and Exo-centric View of Procedural Activities in Real World Yifei Huang Guo Chen Jilan Xu Mingfang Zhang Lijin Yang ... Hongjie Zhang Lu Dong Yali Wang Limin Wang Yu Qiao EgoV 49 32 0 24 Mar 2024
ThermoHands: A Benchmark for 3D Hand Pose Estimation from Egocentric Thermal Images Fangqiang Ding Yunzhou Zhu Xiangyu Wen Gaowen Liu Chris Xiaoxuan Lu 32 1 0 14 Mar 2024
ParaHome: Parameterizing Everyday Home Activities Towards 3D Generative Modeling of Human-Object Interactions Jeonghwan Kim Jisoo Kim Jeonghyeon Na Hanbyul Joo 36 19 0 18 Jan 2024
Get a Grip: Reconstructing Hand-Object Stable Grasps in Egocentric Videos Zhifan Zhu Dima Damen 16 7 0 25 Dec 2023
HandDiffuse: Generative Controllers for Two-Hand Interactions via Diffusion Models Pei-Ying Lin Sihang Xu Hongdi Yang Yiran Liu Xin Chen Jingya Wang Jingyi Yu Lan Xu 23 9 0 08 Dec 2023
Spacewalk-18: A Benchmark for Multimodal and Long-form Procedural Video Understanding in Novel Domains Rohan Myer Krishnan Zitian Tang Zhiqiu Yu Chen Sun 30 1 0 30 Nov 2023
Is ImageNet worth 1 video? Learning strong image encoders from 1 long unlabelled video Shashanka Venkataramanan Mamshad Nayeem Rizve João Carreira Yuki M. Asano Yannis Avrithis SSL 23 18 0 12 Oct 2023
Every Mistake Counts in Assembly Guodong Ding Fadime Sener Shugao Ma Angela Yao 27 12 0 31 Jul 2023
AntGPT: Can Large Language Models Help Long-term Action Anticipation from Videos? Qi Zhao Shijie Wang Ce Zhang Changcheng Fu Minh Quan Do Nakul Agarwal Kwonjoon Lee Chen Sun LM&Ro 37 48 0 31 Jul 2023
Interactive Spatiotemporal Token Attention Network for Skeleton-based General Interactive Action Recognition Yuhang Wen Zixuan Tang Yunsheng Pang Beichen Ding Mengyuan Liu 19 20 0 14 Jul 2023
Learning Fine-grained View-Invariant Representations from Unpaired Ego-Exo Videos via Temporal Alignment Zihui Xue Kristen Grauman EgoV 14 30 0 08 Jun 2023
Human in the loop approaches in multi-modal conversational task guidance system development R. Manuvinakurike Sovan Biswas G. Raffa R. Beckwith A. Rhodes Meng Shi Gesem Gudino Mejia Saurav Sahay L. Nachman 19 2 0 03 Nov 2022
Ego4D: Around the World in 3,000 Hours of Egocentric Video Kristen Grauman Andrew Westbury Eugene Byrne Zachary Chavis Antonino Furnari ... Mike Zheng Shou Antonio Torralba Lorenzo Torresani Mingfei Yan Jitendra Malik EgoV 212 682 0 13 Oct 2021