Parallel Attention: A Unified Framework for Visual Object Discovery
through Dialogs and Queries

Parallel Attention: A Unified Framework for Visual Object Discovery through Dialogs and Queries

17 November 2017

Bohan Zhuang

Qi Wu

Chunhua Shen

Papers citing "Parallel Attention: A Unified Framework for Visual Object Discovery through Dialogs and Queries"

19 / 19 papers shown

Title
GPT-4 Enhanced Multimodal Grounding for Autonomous Driving: Leveraging Cross-Modal Attention with Large Language Models Haicheng Liao Huanming Shen Zhenning Li Chengyue Wang Guofa Li Yiming Bie Chengzhong Xu 34 50 0 06 Dec 2023
Multi-Modal Mutual Attention and Iterative Interaction for Referring Image Segmentation Chang Liu Henghui Ding Yulun Zhang Xudong Jiang 19 47 0 24 May 2023
YORO -- Lightweight End to End Visual Grounding Chih-Hui Ho Srikar Appalaraju Bhavan A. Jasani R. Manmatha Nuno Vasconcelos ObjD 21 21 0 15 Nov 2022
Improving Visual Grounding with Visual-Linguistic Verification and Iterative Reasoning Li Yang Yan Xu Chunfen Yuan Wei Liu Bing Li Weiming Hu ObjD 34 113 0 30 Apr 2022
TubeDETR: Spatio-Temporal Video Grounding with Transformers Antoine Yang Antoine Miech Josef Sivic Ivan Laptev Cordelia Schmid ViT 28 94 0 30 Mar 2022
Incremental Object Grounding Using Scene Graphs J. Yi Yoonwoo Kim Sonia Chernova LM&Ro 20 9 0 06 Jan 2022
TransVG: End-to-End Visual Grounding with Transformers Jiajun Deng Zhengyuan Yang Tianlang Chen Wen-gang Zhou Houqiang Li ViT 21 329 0 17 Apr 2021
Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD Images Haolin Liu Anran Lin Xiaoguang Han Lei Yang Yizhou Yu Shuguang Cui 17 39 0 14 Mar 2021
Language-guided Navigation via Cross-Modal Grounding and Alternate Adversarial Learning Weixia Zhang Chao Ma Qi Wu Xiaokang Yang 23 44 0 22 Nov 2020
Referring Expression Comprehension: A Survey of Methods and Datasets Yanyuan Qiao Chaorui Deng Qi Wu ObjD 42 93 0 19 Jul 2020
Give Me Something to Eat: Referring Expression Comprehension with Commonsense Knowledge Peng Wang Dongyang Liu Hui Li Qi Wu ObjD 22 19 0 02 Jun 2020
A Real-time Global Inference Network for One-stage Referring Expression Comprehension Yiyi Zhou Rongrong Ji Gen Luo Xiaoshuai Sun Jinsong Su Xinghao Ding Chia-Wen Lin Q. Tian ObjD 22 60 0 07 Dec 2019
Zero-Shot Grounding of Objects from Natural Language Queries Arka Sadhu Kan Chen Ram Nevatia ObjD 28 156 0 20 Aug 2019
Variational Context: Exploiting Visual and Textual Context for Grounding Referring Expressions Yulei Niu Hanwang Zhang Zhiwu Lu Shih-Fu Chang ObjD BDL 28 24 0 08 Jul 2019
Reasoning Visual Dialogs with Structural and Partial Observations Zilong Zheng Wenguan Wang Siyuan Qi Song-Chun Zhu 28 117 0 11 Apr 2019
Improving Referring Expression Grounding with Cross-modal Attention-guided Erasing Xihui Liu Zihao W. Wang Jing Shao Xiaogang Wang Hongsheng Li ObjD 19 180 0 03 Mar 2019
MUREL: Multimodal Relational Reasoning for Visual Question Answering Rémi Cadène H. Ben-younes Matthieu Cord Nicolas Thome LRM 19 271 0 25 Feb 2019
Neighbourhood Watch: Referring Expression Comprehension via Language-guided Graph Attention Networks Peng Wang Qi Wu Jiewei Cao Chunhua Shen Lianli Gao A. Hengel ObjD 22 252 0 12 Dec 2018
FineGAN: Unsupervised Hierarchical Disentanglement for Fine-Grained Object Generation and Discovery Krishna Kumar Singh Utkarsh Ojha Yong Jae Lee OCL 11 131 0 27 Nov 2018