RLIPv2: Fast Scaling of Relational Language-Image Pre-training

RLIPv2: Fast Scaling of Relational Language-Image Pre-training

18 August 2023

Papers citing "RLIPv2: Fast Scaling of Relational Language-Image Pre-training"

15 / 15 papers shown

Title
Dynamic Scene Understanding from Vision-Language Representations Shahaf Pruss Morris Alper Hadar Averbuch-Elor OCL 74 0 0 20 Jan 2025
End-to-end Open-vocabulary Video Visual Relationship Detection using Multi-modal Prompting Yongqi Wang Xinxiao Wu Shuo Yang Jiebo Luo 28 0 0 19 Sep 2024
A Review of Human-Object Interaction Detection Yuxiao Wang Qiwei Xiong Yu Lei Weiying Xue Qi Liu Zhenao Wei 41 2 0 20 Aug 2024
Open-World Human-Object Interaction Detection via Multi-modal Prompts Jie-jin Yang Bingliang Li Ailing Zeng L. Zhang Ruimao Zhang VLM 27 8 0 11 Jun 2024
SceneGenie: Scene Graph Guided Diffusion Models for Image Synthesis Azade Farshad Yousef Yeganeh Yucong Chi Cheng-nan Shen Bjorn Ommer Nassir Navab DiffM 33 11 0 28 Apr 2023
SPAN: Learning Similarity between Scene Graphs and Images with Transformers Yuren Cong Wentong Liao Bodo Rosenhahn M. Yang 17 6 0 02 Apr 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 244 4,186 0 30 Jan 2023
DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for Open-world Detection Lewei Yao Jianhua Han Youpeng Wen Xiaodan Liang Dan Xu Wei Zhang Zhenguo Li Chunjing Xu Hang Xu CLIP VLM 109 98 0 20 Sep 2022
DAB-DETR: Dynamic Anchor Boxes are Better Queries for DETR Shilong Liu Feng Li Hao Zhang X. Yang Xianbiao Qi Hang Su Jun Zhu Lei Zhang ViT 132 703 0 28 Jan 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 380 4,010 0 28 Jan 2022
RelTR: Relation Transformer for Scene Graph Generation Yuren Cong M. Yang Bodo Rosenhahn ViT 70 130 0 27 Jan 2022
Bipartite Graph Network with Adaptive Message Passing for Unbiased Scene Graph Generation Rongjie Li Songyang Zhang Bo Wan Xuming He 160 209 0 01 Apr 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 293 2,875 0 11 Feb 2021
PPDM: Parallel Point Detection and Matching for Real-time Human-Object Interaction Detection Yue Liao Si Liu Fei-Yue Wang Yanjie Chen Chen Qian Jiashi Feng 63 259 0 30 Dec 2019
Aggregated Residual Transformations for Deep Neural Networks Saining Xie Ross B. Girshick Piotr Dollár Z. Tu Kaiming He 261 10,106 0 16 Nov 2016