Detect What You Can: Detecting and Representing Objects using Holistic
Models and Body Parts

Detect What You Can: Detecting and Representing Objects using Holistic Models and Body Parts

8 June 2014

Roozbeh Mottaghi

Sanja Fidler

Papers citing "Detect What You Can: Detecting and Representing Objects using Holistic Models and Body Parts"

12 / 12 papers shown

Title
Reasoning Segmentation for Images and Videos: A Survey Yiqing Shen Chenjia Li Fei Xiong Jeong-O Jeong Tianpeng Wang Michael Latman Mathias Unberath VOS 118 0 0 24 May 2025
SynRES: Towards Referring Expression Segmentation in the Wild via Synthetic Data Dong-Hee Kim Hyunjee Song Donghyun Kim 173 0 0 23 May 2025
D-Feat Occlusions: Diffusion Features for Robustness to Partial Visual Occlusions in Object Recognition Rupayan Mallick Sibo Dong Nataniel Ruiz Sarah Adel Bargal DiffM 133 0 0 08 Apr 2025
GroundingSuite: Measuring Complex Multi-Granular Pixel Grounding R. Hu Lianghui Zhu Yuxuan Zhang Tianheng Cheng Lei Liu Heng Liu Longjin Ran Xiaoxin Chen Wenyu Liu Xinggang Wang ObjD 107 0 0 13 Mar 2025
SMITE: Segment Me In TimE Amirhossein Alimohammadi Sauradip Nag Saeid Asgari Taghanaki Andrea Tagliasacchi Ghassan Hamarneh Ali Mahdavi-Amiri VLM VOS 418 2 0 20 Feb 2025
The Devil is in Temporal Token: High Quality Video Reasoning Segmentation Sitong Gong Yunzhi Zhuge Lu Zhang Zhiyong Yang Pingping Zhang Huchuan Lu 68 2 0 15 Jan 2025
Visual Agents as Fast and Slow Thinkers Guangyan Sun Mingyu Jin Zhenting Wang Cheng-Long Wang Siqi Ma Qifan Wang Ying Nian Wu Ying Nian Wu Dongfang Liu Dongfang Liu LLMAG LRM 92 15 0 16 Aug 2024
EVF-SAM: Early Vision-Language Fusion for Text-Prompted Segment Anything Model Yuxuan Zhang Tianheng Cheng Lianghui Zhu Lei Liu Heng Liu Longjin Ran Xiaoxin Chen Xiaoxin Chen Wenyu Liu Xinggang Wang VLM 103 27 0 28 Jun 2024
DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception Run Luo Yunshui Li Longze Chen Wanwei He Ting-En Lin ... Zikai Song Xiaobo Xia Tongliang Liu Min Yang Binyuan Hui VLM DiffM 89 19 0 24 May 2024
Bidirectional Multi-Step Domain Generalization for Visible-Infrared Person Re-Identification Mahdi Alehdaghi Pourya Shamsolmoali Rafael M. O. Cruz Eric Granger 60 1 0 16 Mar 2024
Multi-Moments in Time: Learning and Interpreting Models for Multi-Action Video Understanding Mathew Monfort Bowen Pan K. Ramakrishnan A. Andonian Barry A. McNamara A. Lascelles Quanfu Fan Dan Gutfreund Rogerio Feris A. Oliva VLM 59 68 0 01 Nov 2019
Unite the People: Closing the Loop Between 3D and 2D Human Representations Christoph Lassner Javier Romero Martin Kiefel Federica Bogo Michael J. Black Peter V. Gehler 3DH 48 546 0 10 Jan 2017