Advancing Visual Grounding with Scene Knowledge: Benchmark and Method

Advancing Visual Grounding with Scene Knowledge: Benchmark and Method

21 July 2023

Xiang Wan

Papers citing "Advancing Visual Grounding with Scene Knowledge: Benchmark and Method"

10 / 10 papers shown

Title
HiMTok: Learning Hierarchical Mask Tokens for Image Segmentation with Large Multimodal Model Tao Wang Changxu Cheng Lingfeng Wang Senda Chen Wuyue Zhao VLM 64 0 0 17 Mar 2025
DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding Xinyu Ma Ziyang Ding Zhicong Luo C. L. P. Chen Zonghao Guo Derek F. Wong Xiaoyi Feng Maosong Sun VLM LRM 66 0 0 17 Mar 2025
MMVU: Measuring Expert-Level Multi-Discipline Video Understanding Yilun Zhao Lujing Xie Haowei Zhang Guo Gan Yitao Long ... Xiangru Tang Zhenwen Liang Y. Liu Chen Zhao Arman Cohan 51 5 0 21 Jan 2025
Context-Infused Visual Grounding for Art Selina Khan Nanne van Noord ObjD 20 1 0 16 Oct 2024
Revisiting Referring Expression Comprehension Evaluation in the Era of Large Multimodal Models Jierun Chen Fangyun Wei Jinjing Zhao Sizhe Song Bohuai Wu Zhuoxuan Peng S.-H. Gary Chan Hongyang R. Zhang 33 8 0 24 Jun 2024
Seeing Beyond Classes: Zero-Shot Grounded Situation Recognition via Language Explainer Jiaming Lei Lin Li Chunping Wang Jun Xiao Long Chen 29 4 0 24 Apr 2024
Adversarial Testing for Visual Grounding via Image-Aware Property Reduction Zhiyuan Chang Mingyang Li Junjie Wang Cheng Li Boyu Wu Fanjiang Xu Qing Wang AAML 28 0 0 02 Mar 2024
Towards Weakly Supervised Text-to-Audio Grounding Xuenan Xu Ziyang Ma Mengyue Wu Kai Yu AI4TS 23 8 0 05 Jan 2024
Bridging Vision and Language Encoders: Parameter-Efficient Tuning for Referring Image Segmentation Zunnan Xu Zhihong Chen Yong Zhang Yibing Song Xiang Wan Guanbin Li VLM 9 47 0 21 Jul 2023
Multi-task Collaborative Network for Joint Referring Expression Comprehension and Segmentation Gen Luo Yiyi Zhou Xiaoshuai Sun Liujuan Cao Chenglin Wu Cheng Deng Rongrong Ji ObjD 159 282 0 19 Mar 2020