Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks

14 January 2025

Papers citing "Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks"

2 / 2 papers shown

Title
Perspective-Aware Reasoning in Vision-Language Models via Mental Imagery Simulation Phillip Y. Lee Jihyeon Je Chanho Park Mikaela Angelina Uy Leonidas J. Guibas Minhyuk Sung LRM 31 0 0 24 Apr 2025
URECA: Unique Region Caption Anything Sangbeom Lim J. Kim Heeji Yoon Jaewoo Jung Seungryong Kim 24 0 0 07 Apr 2025