Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding

16 March 2022

Gao Huang

Papers citing "Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding"

32 / 32 papers shown

Title
Towards Visual Grounding: A Survey Linhui Xiao Xiaoshan Yang X. Lan Yaowei Wang Changsheng Xu ObjD 44 3 0 31 Dec 2024
Paint Outside the Box: Synthesizing and Selecting Training Data for Visual Grounding Zilin Du Haoxin Li Jianfei Yu Boyang Li 89 0 0 01 Dec 2024
ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding Minghang Zheng Jiahua Zhang Qingchao Chen Yuxin Peng Yang Liu ObjD 19 2 0 29 Aug 2024
Sequence-aware Pre-training for Echocardiography Probe Guidance Haojun Jiang Zhenguo Sun Yu Sun Ning Jia Meng Li Shaqi Luo Shiji Song Gao Huang 24 1 0 27 Aug 2024
Surgical-VQLA++: Adversarial Contrastive Learning for Calibrated Robust Visual Question-Localized Answering in Robotic Surgery Long Bai Guankun Wang Mobarakol Islam Lalithkumar Seenivasan An-Chi Wang Hongliang Ren 38 13 0 09 Aug 2024
Learning Visual Grounding from Generative Vision and Language Model Shijie Wang Dahun Kim A. Taalimi Chen Sun Weicheng Kuo ObjD 32 5 0 18 Jul 2024
Pseudo-RIS: Distinctive Pseudo-supervision Generation for Referring Image Segmentation Seonghoon Yu Paul Hongsuck Seo Jeany Son DiffM 48 4 0 10 Jul 2024
SafaRi:Adaptive Sequence Transformer for Weakly Supervised Referring Expression Segmentation Sayan Nag Koustava Goswami Srikrishna Karanam 42 2 0 02 Jul 2024
Structure-aware World Model for Probe Guidance via Large-scale Self-supervised Pre-train Haojun Jiang Meng Li Zhenguo Sun Ning Jia Yu Sun Shaqi Luo Shiji Song Gao Huang 41 2 0 28 Jun 2024
Cardiac Copilot: Automatic Probe Guidance for Echocardiography with World Model Haojun Jiang Zhenguo Sun Ning Jia Meng Li Yu Sun Shaqi Luo Shiji Song Gao Huang 21 5 0 19 Jun 2024
Commonsense for Zero-Shot Natural Language Video Localization Meghana Holla Ismini Lourentzou 21 2 0 29 Dec 2023
Context Disentangling and Prototype Inheriting for Robust Visual Grounding Wei Tang Liang Li Xuejing Liu Lu Jin Jinhui Tang Zechao Li 27 23 0 19 Dec 2023
Recent Advances in Multi-modal 3D Scene Understanding: A Comprehensive Survey and Evaluation Yinjie Lei Zixuan Wang Feng Chen Guoqing Wang Peng Wang Yang Yang 27 8 0 24 Oct 2023
Referring Image Segmentation Using Text Supervision Fang Liu Yuhao Liu Yuqiu Kong Ke Xu L. Zhang Baocai Yin Gerhard Hancke Rynson W. H. Lau 24 25 0 28 Aug 2023
GVCCI: Lifelong Learning of Visual Grounding for Language-Guided Robotic Manipulation Junghyun Kim Gi-Cheon Kang Jaein Kim Suyeon Shin Byoung-Tak Zhang LM&Ro 21 6 0 12 Jul 2023
Zero-Shot Dense Video Captioning by Jointly Optimizing Text and Moment Yongrae Jo Seongyun Lee Aiden Seung Joon Lee Hyunji Lee Hanseok Oh Minjoon Seo 16 1 0 05 Jul 2023
CLIP-VG: Self-paced Curriculum Adapting of CLIP for Visual Grounding Linhui Xiao Xiaoshan Yang Fang Peng Ming Yan Yaowei Wang Changsheng Xu ObjD VLM 29 28 0 15 May 2023
What does CLIP know about a red circle? Visual prompt engineering for VLMs Aleksandar Shtedritski Christian Rupprecht Andrea Vedaldi VLM MLLM 19 137 0 13 Apr 2023
Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement Xiang-yu Zhu Renrui Zhang Bowei He A-Long Zhou Dong Wang Bingyan Zhao Peng Gao VLM 27 76 0 03 Apr 2023
From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language Models Jiaxian Guo Junnan Li Dongxu Li A. M. H. Tiong Boyang Albert Li Dacheng Tao Steven C. H. Hoi VLM MLLM 16 106 0 21 Dec 2022
SMAUG: Sparse Masked Autoencoder for Efficient Video-Language Pre-training Yuanze Lin Chen Wei Huiyu Wang Alan Yuille Cihang Xie 3DGS 26 15 0 21 Nov 2022
Cross-Modal Adapter for Text-Video Retrieval Haojun Jiang Jianke Zhang Rui Huang Chunjiang Ge Zanlin Ni Jiwen Lu Jie Zhou S. Song Gao Huang 38 35 0 17 Nov 2022
A Unified Mutual Supervision Framework for Referring Expression Segmentation and Generation Shijia Huang Feng Li Hao Zhang Siyi Liu Lei Zhang Liwei Wang 16 5 0 15 Nov 2022
Language-free Training for Zero-shot Video Grounding Dahye Kim Jungin Park Jiyoung Lee S. Park K. Sohn 22 20 0 24 Oct 2022
RSVG: Exploring Data and Models for Visual Grounding on Remote Sensing Data Yangfan Zhan Zhitong Xiong Yuan. Yuan 66 103 0 23 Oct 2022
Modal-specific Pseudo Query Generation for Video Corpus Moment Retrieval Minjoon Jung Seongho Choi Joo-Kyung Kim Jin-Hwa Kim Byoung-Tak Zhang 29 7 0 23 Oct 2022
REVIVE: Regional Visual Representation Matters in Knowledge-Based Visual Question Answering Yuanze Lin Yujia Xie Dongdong Chen Yichong Xu Chenguang Zhu Lu Yuan 38 71 0 02 Jun 2022
Glance and Focus Networks for Dynamic Visual Recognition Gao Huang Yulin Wang Kangchen Lv Haojun Jiang Wenhui Huang Pengfei Qi S. Song 3DH 58 49 0 09 Jan 2022
A Survey of Visual Transformers Yang Liu Yao Zhang Yixin Wang Feng Hou Jin Yuan Jiang Tian Yang Zhang Zhongchao Shi Jianping Fan Zhiqiang He 3DGS ViT 66 325 0 11 Nov 2021
CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models Yuan Yao Ao Zhang Zhengyan Zhang Zhiyuan Liu Tat-Seng Chua Maosong Sun MLLM VPVLM VLM 194 218 0 24 Sep 2021
Zero-shot Natural Language Video Localization Jinwoo Nam Daechul Ahn Dongyeop Kang S. Ha Jonghyun Choi 81 43 0 29 Aug 2021
A Real-Time Cross-modality Correlation Filtering Method for Referring Expression Comprehension Yue Liao Si Liu Guanbin Li Fei-Yue Wang Yanjie Chen Chao Qian Bo-wen Li ObjD 62 174 0 16 Sep 2019