RTGen: Generating Region-Text Pairs for Open-Vocabulary Object Detection

RTGen: Generating Region-Text Pairs for Open-Vocabulary Object Detection

30 May 2024

Hao Chen

Marios Savvides

Papers citing "RTGen: Generating Region-Text Pairs for Open-Vocabulary Object Detection"

10 / 10 papers shown

Title
DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception Junjie Wang Bin Chen Yulin Li Bin Kang Y. Chen Zhuotao Tian VLM 36 0 0 07 May 2025
Paint Outside the Box: Synthesizing and Selecting Training Data for Visual Grounding Zilin Du Haoxin Li Jianfei Yu Boyang Li 87 0 0 01 Dec 2024
DiffusionGPT: LLM-Driven Text-to-Image Generation System Jie Qin Jie Wu Weifeng Chen Yuxi Ren Huixian Li Hefeng Wu Xuefeng Xiao Rui Wang S. Wen DiffM 48 22 0 18 Jan 2024
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 244 4,186 0 30 Jan 2023
Towards Robust Referring Video Object Segmentation with Cyclic Relational Consensus Xiang Li Jinglu Wang Xiaohao Xu Xiao Li Bhiksha Raj Yan Lu VOS 45 28 0 04 Jul 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 382 4,010 0 28 Jan 2022
Open-vocabulary Object Detection via Vision and Language Knowledge Distillation Xiuye Gu Tsung-Yi Lin Weicheng Kuo Yin Cui VLM ObjD 220 698 0 28 Apr 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 293 2,875 0 11 Feb 2021
Simple Copy-Paste is a Strong Data Augmentation Method for Instance Segmentation Golnaz Ghiasi Yin Cui A. Srinivas Rui Qian Tsung-Yi Lin E. D. Cubuk Quoc V. Le Barret Zoph ISeg 223 835 0 13 Dec 2020
You Only Look Once: Unified, Real-Time Object Detection Joseph Redmon S. Divvala Ross B. Girshick Ali Farhadi ObjD 269 35,677 0 08 Jun 2015