v1v2 (latest)

Improving CLIP Training with Language Rewrites

Neural Information Processing Systems (NeurIPS), 2023

31 May 2023

ArXiv (abs)PDF HTML HuggingFace (2 upvotes)Github (280★)

Papers citing "Improving CLIP Training with Language Rewrites"

29 / 79 papers shown

Finetuning CLIP to Reason about Pairwise Differences

362

15 Sep 2024

TempMe: Video Temporal Token Merging for Efficient Text-Video RetrievalInternational Conference on Learning Representations (ICLR), 2024

Leqi Shen

Tianxiang Hao

Tao He

Sicheng Zhao

Pengzhang Liu

Yongjun Bao

Guiguang Ding

451

02 Sep 2024

RSTeller: Scaling Up Visual Language Modeling in Remote Sensing with Rich Linguistic Semantics from Openly Available Data and Large Language ModelsIsprs Journal of Photogrammetry and Remote Sensing (ISPRS J. Photogramm. Remote Sens.), 2024

618

27 Aug 2024

VolDoGer: LLM-assisted Datasets for Domain Generalization in Vision-Language Tasks

309

29 Jul 2024

LocalValueBench: A Collaboratively Built and Extensible Benchmark for Evaluating Localized Value Alignment and Ethical Safety in Large Language Models

Achintya Gopal

Nicholas Wai Long Lau

257

27 Jul 2024

AgentPeerTalk: Empowering Students through Agentic-AI-Driven Discernment of Bullying and Joking in Peer Interactions in Schools

Aditya Paul

Chi Lok Yu

Eva Adelina Susanto

Nicholas Wai Long Lau

Gwenyth Isobel Meadows

LLMAG

266

27 Jul 2024

Open Vocabulary Multi-Label Video Classification

Rohit Gupta

Mamshad Nayeem Rizve

Jayakrishnan Unnikrishnan

241

12 Jul 2024

Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions

Pavan Kumar Anasosalu Vasu

382

09 Jul 2024

A Survey of Multimodal Large Language Model from A Data-centric Perspective

...

Conghui He

383

26 May 2024

Data Augmentation for Text-based Person Retrieval Using Large Language Models

Caili Guo

200

20 May 2024

The Devil is in the Few Shots: Iterative Visual Knowledge Completion for Few-shot Learning

275

15 Apr 2024

Heterogeneous Contrastive Learning for Foundation Models and Beyond

237

30 Mar 2024

Just Say the Name: Online Continual Learning with Category Names Only via Data Generation

350

16 Mar 2024

A Deep Learning Method for Classification of Biophilic Artworks

Benedict Carpenter van Barthold

178

08 Mar 2024

Spurious Feature Eraser: Stabilizing Test-Time Adaptation for Vision-Language Foundation Model

522

01 Mar 2024

Pre-training Cross-lingual Open Domain Question Answering with Large-scale Synthetic Supervision

300

26 Feb 2024

Fine-tuning CLIP Text Encoders with Two-step Paraphrasing

238

23 Feb 2024

Leveraging Generative Language Models for Weakly Supervised Sentence Component Analysis in Video-Language Joint Learning

Zaber Ibn Abdul Hakim

309

10 Dec 2023

Mitigating Open-Vocabulary Caption Hallucinations

395

06 Dec 2023

SocialCounterfactuals: Probing and Mitigating Intersectional Social Biases in Vision-Language Models with Counterfactual ExamplesComputer Vision and Pattern Recognition (CVPR), 2023

Anahita Bhiwandiwalla

Vasudev Lal

328

30 Nov 2023

ShareGPT4V: Improving Large Multi-Modal Models with Better CaptionsEuropean Conference on Computer Vision (ECCV), 2023

Conghui He

Dahua Lin

380

934

21 Nov 2023

Deep Tensor Network

Yifan Zhang

370

18 Nov 2023

VeCLIP: Improving CLIP Training via Visual-enriched CaptionsEuropean Conference on Computer Vision (ECCV), 2023

...

361

11 Oct 2023

Towards reporting bias in visual-language datasets: bimodal augmentation by decoupling object-attribute association

288

02 Oct 2023

Improving Multimodal Datasets with Image CaptioningNeural Information Processing Systems (NeurIPS), 2023

Thao Nguyen

260

125

19 Jul 2023

JourneyDB: A Benchmark for Generative Image UnderstandingNeural Information Processing Systems (NeurIPS), 2023

Keqiang Sun

...

Yi Wang

Jifeng Dai

Yu Qiao

Limin Wang

Jiaming Song

340

166

03 Jul 2023

Improving Image Captioning Descriptiveness by Ranking and LLM-based Fusion

252

20 Jun 2023

Retrieval-Enhanced Contrastive Vision-Text ModelsInternational Conference on Learning Representations (ICLR), 2023

287

12 Jun 2023

Vision-Language Models for Vision Tasks: A SurveyIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

497

1,014

03 Apr 2023