Single-Stream Multi-Level Alignment for Vision-Language Pretraining

Single-Stream Multi-Level Alignment for Vision-Language Pretraining

27 March 2022

Manmohan Chandraker

Papers citing "Single-Stream Multi-Level Alignment for Vision-Language Pretraining"

19 / 19 papers shown

Title
UP-Person: Unified Parameter-Efficient Transfer Learning for Text-based Person Retrieval Yating Liu Yaowei Li Xiangyuan Lan Wenming Yang Zimo Liu Q. Liao 24 0 0 14 Apr 2025
COST: Contrastive One-Stage Transformer for Vision-Language Small Object Tracking Chunhui Zhang Li Liu Jialin Gao Xin Sun Hao Wen Xi Zhou Shiming Ge Y. Wang 33 0 0 02 Apr 2025
Resolving Inconsistent Semantics in Multi-Dataset Image Segmentation Qilong Zhangli Di Liu Abhishek Aich Dimitris Metaxas S. Schulter 14 0 0 15 Sep 2024
Generating Enhanced Negatives for Training Language-Based Object Detectors Shiyu Zhao Long Zhao Vijay Kumar B.G Yumin Suh Dimitris N. Metaxas Manmohan Chandraker S. Schulter ObjD VLM 29 5 0 29 Dec 2023
Exploring Question Decomposition for Zero-Shot VQA Zaid Khan B. Vijaykumar S. Schulter Manmohan Chandraker Yun Fu ReLM 17 9 0 25 Oct 2023
VLATTACK: Multimodal Adversarial Attacks on Vision-Language Tasks via Pre-trained Models Ziyi Yin Muchao Ye Tianrong Zhang Tianyu Du Jinguo Zhu Han Liu Jinghui Chen Ting Wang Fenglong Ma AAML VLM CoGe 23 36 0 07 Oct 2023
A Survey on Image-text Multimodal Models Ruifeng Guo Jingxuan Wei Linzhuang Sun Khai Le-Duc Guiyong Chang Dawei Liu Sibo Zhang Zhengbing Yao Mingjun Xu Liping Bu VLM 21 5 0 23 Sep 2023
Taming Self-Training for Open-Vocabulary Object Detection Shiyu Zhao S. Schulter Long Zhao Zhixing Zhang Vijay Kumar B.G Yumin Suh Manmohan Chandraker Dimitris N. Metaxas VLM ObjD 30 3 0 11 Aug 2023
Q: How to Specialize Large Vision-Language Models to Data-Scarce VQA Tasks? A: Self-Train on Unlabeled Images! Zaid Khan B. Vijaykumar S. Schulter Xiang Yu Y. Fu Manmohan Chandraker VLM MLLM 14 17 0 06 Jun 2023
Semantic Composition in Visually Grounded Language Models Rohan Pandey CoGe 11 1 0 15 May 2023
OmniLabel: A Challenging Benchmark for Language-Based Object Detection S. Schulter G. VijayKumarB. Yumin Suh Konstantinos M. Dafnis Zhixing Zhang Shiyu Zhao Dimitris N. Metaxas ObjD 17 11 0 22 Apr 2023
Contrastive Alignment of Vision to Language Through Parameter-Efficient Transfer Learning Zaid Khan Yun Fu VLM 20 11 0 21 Mar 2023
Filtering, Distillation, and Hard Negatives for Vision-Language Pre-Training Filip Radenovic Abhimanyu Dubey Abhishek Kadian Todor Mihaylov Simon Vandenhende Yash J. Patel Y. Wen Vignesh Ramanathan D. Mahajan VLM 18 80 0 05 Jan 2023
Cross-modal Attention Congruence Regularization for Vision-Language Relation Alignment Rohan Pandey Rulin Shao Paul Pu Liang Ruslan Salakhutdinov Louis-Philippe Morency 8 12 0 20 Dec 2022
CyCLIP: Cyclic Contrastive Language-Image Pretraining Shashank Goel Hritik Bansal S. Bhatia Ryan A. Rossi Vishwa Vinay Aditya Grover CLIP VLM 160 131 0 28 May 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 382 4,010 0 28 Jan 2022
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 293 2,875 0 11 Feb 2021
Unifying Vision-and-Language Tasks via Text Generation Jaemin Cho Jie Lei Hao Tan Mohit Bansal MLLM 249 518 0 04 Feb 2021
Audiovisual SlowFast Networks for Video Recognition Fanyi Xiao Yong Jae Lee Kristen Grauman Jitendra Malik Christoph Feichtenhofer 192 204 0 23 Jan 2020