EVA-CLIP: Improved Training Techniques for CLIP at Scale

27 March 2023

Papers citing "EVA-CLIP: Improved Training Techniques for CLIP at Scale"

50 / 357 papers shown

Title
Visual Anchors Are Strong Information Aggregators For Multimodal Large Language Model Haogeng Liu Quanzeng You Xiaotian Han Yongfei Liu Huaibo Huang Ran He Hongxia Yang 26 2 0 28 May 2024
V-Zen: Efficient GUI Understanding and Precise Grounding With A Novel Multimodal LLM Abdur Rahman Rajat Chawla Muskaan Kumar Arkajit Datta Adarsh Jha NS Mukunda Ishaan Bhola 40 2 0 24 May 2024
A Lost Opportunity for Vision-Language Models: A Comparative Study of Online Test-time Adaptation for Vision-Language Models Mario Döbler Robert A. Marsden Tobias Raichle Bin Yang VLM 27 5 0 23 May 2024
Dense Connector for MLLMs Huanjin Yao Wenhao Wu Taojiannan Yang Yuxin Song Mengxi Zhang Haocheng Feng Yifan Sun Zhiheng Li Wanli Ouyang Jingdong Wang MLLM VLM 32 16 0 22 May 2024
No Filter: Cultural and Socioeconomic Diversity in Contrastive Vision-Language Models Angeline Pouget Lucas Beyer Emanuele Bugliarello Xiao Wang Andreas Steiner Xiao-Qi Zhai Ibrahim M. Alabdulmohsin VLM 31 7 0 22 May 2024
A Survey of Deep Learning-based Radiology Report Generation Using Multimodal Data Xinyi Wang Grazziela Figueredo Ruizhe Li W. Zhang Weitong Chen Xin Chen MedIm ViT 41 2 0 21 May 2024
Rethinking Overlooked Aspects in Vision-Language Models Yuan Liu Le Tian Xiao Zhou Jie Zhou VLM 30 2 0 20 May 2024
Automated Multi-level Preference for MLLMs Mengxi Zhang Wenhao Wu Yu Lu Yuxin Song Kang Rong ... Jianbo Zhao Fanglong Liu Yifan Sun Haocheng Feng Jingdong Wang MLLM 61 10 0 18 May 2024
EVA-X: A Foundation Model for General Chest X-ray Analysis with Self-supervised Learning Jingfeng Yao Xinggang Wang Yuehao Song Huangxuan Zhao Jun Ma Yajie Chen Wenyu Liu Bo Wang ViT 21 5 0 08 May 2024
What matters when building vision-language models? Hugo Laurençon Léo Tronchon Matthieu Cord Victor Sanh VLM 30 155 0 03 May 2024
Understanding Retrieval-Augmented Task Adaptation for Vision-Language Models Yifei Ming Yixuan Li VLM 23 7 0 02 May 2024
Technical Report of NICE Challenge at CVPR 2024: Caption Re-ranking Evaluation Using Ensembled CLIP and Consensus Scores Kiyoon Jeong Woojun Lee Woongchan Nam Minjeong Ma Pilsung Kang 25 2 0 02 May 2024
Exploring Self-Supervised Vision Transformers for Deepfake Detection: A Comparative Analysis H. Nguyen Junichi Yamagishi Isao Echizen 34 6 0 01 May 2024
NTIRE 2024 Quality Assessment of AI-Generated Content Challenge Xiaohong Liu Xiongkuo Min Guangtao Zhai Chunyi Li Tengchuan Kou ... Qi Yan Youran Qu Xiaohui Zeng Lele Wang Renjie Liao 48 29 0 25 Apr 2024
Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings Olivia Wiles Chuhan Zhang Isabela Albuquerque Ivana Kajić Su Wang ... Jordi Pont-Tuset Aida Nematzadeh Anant Nawalgaria Jordi Pont-Tuset Aida Nematzadeh EGVM 120 13 0 25 Apr 2024
PuLID: Pure and Lightning ID Customization via Contrastive Alignment Zinan Guo Yanze Wu Zhuowei Chen Lang Chen Qian He DiffM 41 57 0 24 Apr 2024
Bayesian Example Selection Improves In-Context Learning for Speech, Text, and Visual Modalities Siyin Wang Chao-Han Huck Yang Ji Wu Chao Zhang BDL 32 4 0 23 Apr 2024
AutoAD III: The Prequel -- Back to the Pixels Tengda Han Max Bain Arsha Nagrani Gül Varol Weidi Xie Andrew Zisserman VGen DiffM 36 20 0 22 Apr 2024
PCQA: A Strong Baseline for AIGC Quality Assessment Based on Prompt Condition Xi Fang Weigang Wang Xiaoxin Lv Jun Yan EGVM 18 3 0 20 Apr 2024
How Does the Textual Information Affect the Retrieval of Multimodal In-Context Learning? Yang Luo Zangwei Zheng Zirui Zhu Yang You 41 5 0 19 Apr 2024
The Solution for the CVPR2024 NICE Image Captioning Challenge Longfei Huang Shupeng Zhong Xiangyu Wu Ruoxuan Li 19 0 0 19 Apr 2024
BLINK: Multimodal Large Language Models Can See but Not Perceive Xingyu Fu Yushi Hu Bangzheng Li Yu Feng Haoyu Wang Xudong Lin Dan Roth Noah A. Smith Wei-Chiu Ma Ranjay Krishna VLM LRM MLLM 41 107 0 18 Apr 2024
How to Benchmark Vision Foundation Models for Semantic Segmentation? Tommie Kerssies Daan de Geus Gijs Dubbelman VLM 27 7 0 18 Apr 2024
AccidentBlip: Agent of Accident Warning based on MA-former Yihua Shao Hongyi Cai Xinwei Long Weiyi Lang Ziyang Yan Haoran Wu Yan Wang Jiayi Yin Yang Yang Yisheng Lv 20 2 0 18 Apr 2024
Omniview-Tuning: Boosting Viewpoint Invariance of Vision-Language Pre-training Models Shouwei Ruan Yinpeng Dong Hanqing Liu Yao Huang Hang Su Xingxing Wei VLM 37 1 0 18 Apr 2024
Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models Haotian Zhang Haoxuan You Philipp Dufter Bowen Zhang Chen Chen ... Tsu-jui Fu William Yang Wang Shih-Fu Chang Zhe Gan Yinfei Yang ObjD MLLM 99 42 0 11 Apr 2024
Two Effects, One Trigger: On the Modality Gap, Object Bias, and Information Imbalance in Contrastive Vision-Language Models Simon Schrodi David T. Hoffmann Max Argus Volker Fischer Thomas Brox VLM 47 0 0 11 Apr 2024
CoReS: Orchestrating the Dance of Reasoning and Segmentation Xiaoyi Bao Siyang Sun Shuailei Ma Kecheng Zheng Yuxin Guo Guosheng Zhao Yun Zheng Xingang Wang LRM 28 7 0 08 Apr 2024
MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens Kirolos Ataallah Xiaoqian Shen Eslam Abdelrahman Essam Sleiman Deyao Zhu Jian Ding Mohamed Elhoseiny VLM 39 64 0 04 Apr 2024
Rethinking Pruning for Vision-Language Models: Strategies for Effective Sparsity and Performance Restoration Shwai He Ang Li Tianlong Chen VLM 31 1 0 03 Apr 2024
ViTamin: Designing Scalable Vision Models in the Vision-Language Era Jienneg Chen Qihang Yu Xiaohui Shen Alan L. Yuille Liang-Chieh Chen 3DV VLM 28 24 0 02 Apr 2024
CosmicMan: A Text-to-Image Foundation Model for Humans Shikai Li Jianglin Fu Kaiyuan Liu Wentao Wang Kwan-Yee Lin Wayne Wu DiffM 35 18 0 01 Apr 2024
M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models Fan Bai Yuxin Du Tiejun Huang Max Q.-H. Meng Bo-Lu Zhao 18 33 0 31 Mar 2024
ST-LLM: Large Language Models Are Effective Temporal Learners Ruyang Liu Chen Li Haoran Tang Yixiao Ge Ying Shan Ge Li 27 68 0 30 Mar 2024
Generative Multi-modal Models are Good Class-Incremental Learners Xusheng Cao Haori Lu Linlan Huang Xialei Liu Ming-Ming Cheng CLL 41 10 0 27 Mar 2024
Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning Hao Shao Shengju Qian Han Xiao Guanglu Song Zhuofan Zong Letian Wang Yu Liu Hongsheng Li VGen LRM MLLM 58 35 0 25 Mar 2024
InternVideo2: Scaling Video Foundation Models for Multimodal Video Understanding Yi Wang Kunchang Li Xinhao Li Jiashuo Yu Yinan He ... Hongjie Zhang Yifei Huang Yu Qiao Yali Wang Limin Wang 27 44 0 22 Mar 2024
VidLA: Video-Language Alignment at Scale Mamshad Nayeem Rizve Fan Fei Jayakrishnan Unnikrishnan Son Tran Benjamin Z. Yao Belinda Zeng Mubarak Shah Trishul M. Chilimbi VLM AI4TS 43 4 0 21 Mar 2024
When Do We Not Need Larger Vision Models? Baifeng Shi Ziyang Wu Maolin Mao Xin Wang Trevor Darrell VLM LRM 44 40 0 19 Mar 2024
Griffon v2: Advancing Multimodal Perception with High-Resolution Scaling and Visual-Language Co-Referring Yufei Zhan Yousong Zhu Hongyin Zhao Fan Yang Ming Tang Jinqiao Wang ObjD 31 12 0 14 Mar 2024
Annotations on a Budget: Leveraging Geo-Data Similarity to Balance Model Performance and Annotation Cost Oana Ignat Longju Bai Joan Nwatu Rada Mihalcea 36 6 0 12 Mar 2024
FocusCLIP: Multimodal Subject-Level Guidance for Zero-Shot Transfer in Human-Centric Tasks Muhammad Gul Zain Ali Khan Muhammad Ferjad Naeem F. Tombari Luc Van Gool Didier Stricker Muhammad Zeshan Afzal VLM CLIP 30 3 0 11 Mar 2024
ObjectCompose: Evaluating Resilience of Vision-Based Models on Object-to-Background Compositional Changes H. Malik Muhammad Huzaifa Muzammal Naseer Salman Khan Fahad Shahbaz Khan DiffM 40 2 0 07 Mar 2024
Finetuned Multimodal Language Models Are High-Quality Image-Text Data Filters Weizhi Wang Khalil Mrini Linjie Yang Sateesh Kumar Yu Tian Xifeng Yan Heng Wang 30 16 0 05 Mar 2024
ShapeLLM: Universal 3D Object Understanding for Embodied Interaction Zekun Qi Runpei Dong Shaochen Zhang Haoran Geng Chunrui Han Zheng Ge Li Yi Kaisheng Ma 39 49 0 27 Feb 2024
NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation Jiazhao Zhang Kunyu Wang Rongtao Xu Gengze Zhou Yicong Hong Xiaomeng Fang Qi Wu Zhizheng Zhang Wang He LM&Ro 27 44 0 24 Feb 2024
Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability Xue-Qing Qian Yu Wang Simian Luo Yinda Zhang Ying Tai ... Xiangyang Xue Bo Zhao Tiejun Huang Yunsheng Wu Yanwei Fu 27 6 0 19 Feb 2024
CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation Xinbei Ma Zhuosheng Zhang Hai Zhao LLMAG 33 21 0 19 Feb 2024
Efficient Multimodal Learning from Data-centric Perspective Muyang He Yexin Liu Boya Wu Jianhao Yuan Yueze Wang Tiejun Huang Bo-Lu Zhao MLLM 30 82 0 18 Feb 2024
On Good Practices for Task-Specific Distillation of Large Pretrained Visual Models Juliette Marrie Michael Arbel Julien Mairal Diane Larlus VLM MQ 30 1 0 17 Feb 2024