Learning Cross-modal Context Graph for Visual Grounding

20 November 2019

Papers citing "Learning Cross-modal Context Graph for Visual Grounding"

25 / 25 papers shown

Title
How to Understand "Support"? An Implicit-enhanced Causal Inference Approach for Weakly-supervised Phrase Grounding Jiamin Luo Jianing Zhao Jingjing Wang Guodong Zhou 46 0 0 29 Feb 2024
Language-Guided Diffusion Model for Visual Grounding Sijia Chen Baochun Li 37 5 0 18 Aug 2023
Interpretable Multimodal Misinformation Detection with Logic Reasoning Hui Liu Wenya Wang Haoliang Li 40 22 0 10 May 2023
DQ-DETR: Dual Query Detection Transformer for Phrase Extraction and Grounding Siyi Liu Yaoyuan Liang Feng Li Shijia Huang Hao Zhang Hang Su Jun Zhu Lei Zhang ObjD 50 25 0 28 Nov 2022
Look Around and Refer: 2D Synthetic Semantics Knowledge Distillation for 3D Visual Grounding Eslam Mohamed Bakr Yasmeen Alsaedy Mohamed Elhoseiny 3DPC 21 41 0 25 Nov 2022
Extending Phrase Grounding with Pronouns in Visual Dialogues Panzhong Lu Xin Zhang Meishan Zhang Min Zhang ObjD 30 4 0 23 Oct 2022
Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding Fengyuan Shi Ruopeng Gao Weilin Huang Limin Wang 27 23 0 28 Sep 2022
PPMN: Pixel-Phrase Matching Network for One-Stage Panoptic Narrative Grounding Zihan Ding Zixiang Ding Tianrui Hui Junshi Huang Xiaoming Wei Xiaolin K. Wei Si Liu 15 12 0 11 Aug 2022
Cross-Modal Alignment Learning of Vision-Language Conceptual Systems Taehyeong Kim H. Song Byoung-Tak Zhang 24 4 0 31 Jul 2022
RefCrowd: Grounding the Target in Crowd with Referring Expressions Heqian Qiu Hongliang Li Taijin Zhao Lanxiao Wang Qingbo Wu Fanman Meng ObjD 21 6 0 16 Jun 2022
Shifting More Attention to Visual Backbone: Query-modulated Refinement Networks for End-to-End Visual Grounding Jiabo Ye Junfeng Tian Ming Yan Xiaoshan Yang Xuwu Wang Ji Zhang Liang He Xin Lin ObjD 11 61 0 29 Mar 2022
VU-BERT: A Unified framework for Visual Dialog Tong Ye Shijing Si Jianzong Wang Rui Wang Ning Cheng Jing Xiao MLLM 35 5 0 22 Feb 2022
Unpaired Referring Expression Grounding via Bidirectional Cross-Modal Matching Hengcan Shi Munawar Hayat Jianfei Cai ObjD 18 10 0 18 Jan 2022
LanguageRefer: Spatial-Language Model for 3D Visual Grounding Junha Roh Karthik Desingh Ali Farhadi D. Fox 22 95 0 07 Jul 2021
Giving Commands to a Self-Driving Car: How to Deal with Uncertain Situations? Thierry Deruyttere Victor Milewski Marie-Francine Moens 30 15 0 08 Jun 2021
Relation-aware Instance Refinement for Weakly Supervised Visual Grounding Yongfei Liu Bo Wan Lin Ma Xuming He ObjD 16 55 0 24 Mar 2021
Decoupled Spatial Temporal Graphs for Generic Visual Grounding Qi Feng Yunchao Wei Mingming Cheng Yi Yang 27 5 0 18 Mar 2021
Few-Shot Visual Grounding for Natural Human-Robot Interaction Georgios Tziafas S. Kasaei 19 6 0 17 Mar 2021
InstanceRefer: Cooperative Holistic Understanding for Visual Grounding on Point Clouds through Instance Multi-level Contextual Referring Zhihao Yuan Xu Yan Yinghong Liao Ruimao Zhang Sheng Wang Zhen Li Shuguang Cui 71 129 0 01 Mar 2021
Graph Neural Networks: Taxonomy, Advances and Trends Yu Zhou Haixia Zheng Xin Huang Shufeng Hao Dengao Li Jumin Zhao AI4TS 25 115 0 16 Dec 2020
VLG-Net: Video-Language Graph Matching Network for Video Grounding Mattia Soldan Mengmeng Xu Sisi Qu Jesper N. Tegnér Guohao Li 33 69 0 19 Nov 2020
MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase Grounding Qinxin Wang Hao Tan Sheng Shen Michael W. Mahoney Z. Yao ObjD 42 11 0 12 Oct 2020
Referring Expression Comprehension: A Survey of Methods and Datasets Yanyuan Qiao Chaorui Deng Qi Wu ObjD 50 93 0 19 Jul 2020
Visual Translation Embedding Network for Visual Relation Detection Hanwang Zhang Zawlin Kyaw Shih-Fu Chang Tat-Seng Chua ViT 151 560 0 27 Feb 2017
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding Akira Fukui Dong Huk Park Daylen Yang Anna Rohrbach Trevor Darrell Marcus Rohrbach 152 1,464 0 06 Jun 2016