AssistQ: Affordance-centric Question-driven Task Completion for Egocentric Assistant

8 March 2022

Papers citing "AssistQ: Affordance-centric Question-driven Task Completion for Egocentric Assistant"

22 / 22 papers shown

Title
EgoBlind: Towards Egocentric Visual Assistance for the Blind People Junbin Xiao Nanxin Huang Hao Qiu Zhulin Tao Xun Yang Richang Hong M. Wang Angela Yao EgoV VLM 63 0 0 11 Mar 2025
EgoLife: Towards Egocentric Life Assistant Jingkang Yang Shuai Liu Hongming Guo Yuhao Dong X. Zhang ... Joerg Widmer Francesco Gringoli Lei Yang Bo Li Z. Liu EgoV 49 2 0 05 Mar 2025
EgoOops: A Dataset for Mistake Action Detection from Egocentric Videos Referring to Procedural Texts Yuto Haneji Taichi Nishimura Hirotaka Kameko Keisuke Shirai Tomoya Yoshida Keiya Kajimura Koki Yamamoto Taiyu Cui Tomohiro Nishimoto Shinsuke Mori EgoV 44 0 0 07 Oct 2024
Diff-Tracker: Text-to-Image Diffusion Models are Unsupervised Trackers Zhengbo Zhang Li Xu Duo Peng Hossein Rahmani Jun Liu 29 9 0 11 Jul 2024
EgoExo-Fitness: Towards Egocentric and Exocentric Full-Body Action Understanding Yuan-Ming Li Wei-Jin Huang An-Lan Wang Ling-an Zeng Jing-Ke Meng Wei-Shi Zheng 27 10 0 13 Jun 2024
EgoExoLearn: A Dataset for Bridging Asynchronous Ego- and Exo-centric View of Procedural Activities in Real World Yifei Huang Guo Chen Jilan Xu Mingfang Zhang Lijin Yang ... Hongjie Zhang Lu Dong Yali Wang Limin Wang Yu Qiao EgoV 49 32 0 24 Mar 2024
DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) Zongxin Yang Guikun Chen Xiaodi Li Wenguan Wang Yi Yang LM&Ro LLMAG 39 35 0 16 Jan 2024
HoloAssist: an Egocentric Human Interaction Dataset for Interactive AI Assistants in the Real World Linghao Yang Taein Kwon Mahdi Rad Bowen Pan Ishani Chakraborty ... Ashley Feniello Rui Tian Felipe Vieira Frujeri Neel Joshi Marc Pollefeys EgoV 18 44 0 29 Sep 2023
An Outlook into the Future of Egocentric Vision Chiara Plizzari Gabriele Goletto Antonino Furnari Siddhant Bansal Francesco Ragusa G. Farinella Dima Damen Tatiana Tommasi EgoV 25 37 0 14 Aug 2023
A Solution to CVPR'2023 AQTC Challenge: Video Alignment for Multi-Step Inference Chao Zhang Shiwei Wu Sirui Zhao Tong Bill Xu Enhong Chen 17 0 0 26 Jun 2023
First Place Solution to the CVPR'2023 AQTC Challenge: A Function-Interaction Centric Approach with Spatiotemporal Visual-Language Alignment Tom Tongjia Chen Hongshan Yu Zhengeng Yang Ming Li Zechuan Li Jingwen Wang Wei Miao Wei Sun Chen Chen 14 2 0 23 Jun 2023
AssistGPT: A General Multi-modal Assistant that can Plan, Execute, Inspect, and Learn Difei Gao Lei Ji Luowei Zhou Kevin Lin Joya Chen Zihan Fan Mike Zheng Shou MLLM 19 71 0 14 Jun 2023
EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought Yao Mu Qinglong Zhang Mengkang Hu Wen Wang Mingyu Ding Jun Jin Bin Wang Jifeng Dai Yu Qiao Ping Luo LM&Ro LRM 15 212 0 24 May 2023
Affordance Grounding from Demonstration Video to Target Image Joya Chen Difei Gao Kevin Qinghong Lin Mike Zheng Shou 6 22 0 26 Mar 2023
MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form Video Question Answering Difei Gao Luowei Zhou Lei Ji Linchao Zhu Yezhou Yang Mike Zheng Shou 30 60 0 19 Dec 2022
Technical Report for CVPR 2022 LOVEU AQTC Challenge Hyeonyu Kim Jongeun Kim Jeonghun Kang S. Park Dongchan Park Taehwan Kim 11 0 0 29 Jun 2022
Winning the CVPR'2022 AQTC Challenge: A Two-stage Function-centric Approach Shiwei Wu Weidong He Tong Bill Xu Hao Wang Enhong Chen EgoV 11 2 0 20 Jun 2022
The Metaverse Data Deluge: What Can We Do About It? Beng Chin Ooi Gang Chen Mike Zheng Shou K. Tan A. Tung X. Xiao J. Yip Meihui Zhang 9 10 0 14 Jun 2022
Egocentric Video-Language Pretraining Kevin Qinghong Lin Alex Jinpeng Wang Mattia Soldan Michael Wray Rui Yan ... Hongfa Wang Dima Damen Bernard Ghanem Wei Liu Mike Zheng Shou VLM EgoV 21 140 0 03 Jun 2022
Ego4D: Around the World in 3,000 Hours of Egocentric Video Kristen Grauman Andrew Westbury Eugene Byrne Zachary Chavis Antonino Furnari ... Mike Zheng Shou Antonio Torralba Lorenzo Torresani Mingfei Yan Jitendra Malik EgoV 218 1,017 0 13 Oct 2021
Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius Heng Wang Lorenzo Torresani ViT 278 1,939 0 09 Feb 2021
Neural Modular Control for Embodied Question Answering Abhishek Das Georgia Gkioxari Stefan Lee Devi Parikh Dhruv Batra LM&Ro 117 126 0 26 Oct 2018