Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2402.04252
Cited By

EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters

EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters

6 February 2024

ArXiv (abs)PDF HTML HuggingFace (29 upvotes)

Papers citing "EVA-CLIP-18B: Scaling CLIP to 18 Billion Parameters"

26 / 26 papers shown

ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering

ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering

Alberto Compagnoni

Federico Cocchi

Davide Caffagni

Marcella Cornia

Lorenzo Baraldi

213

1

0

27 Nov 2025

EBind: a practical approach to space binding

EBind: a practical approach to space binding

Frederik Hvilshøj

201

0

0

18 Nov 2025

A Parameter-Efficient Mixture-of-Experts Framework for Cross-Modal Geo-Localization

A Parameter-Efficient Mixture-of-Experts Framework for Cross-Modal Geo-Localization

203

0

0

23 Oct 2025

UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning

UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning

212

7

0

15 Oct 2025

RangeSAM: On the Potential of Visual Foundation Models for Range-View represented LiDAR segmentation

RangeSAM: On the Potential of Visual Foundation Models for Range-View represented LiDAR segmentation

Paul Julius Kühn

Dieter W. Fellner

289

0

0

19 Sep 2025

Category-level Text-to-Image Retrieval Improved: Bridging the Domain Gap with Diffusion Models and Vision Encoders

Category-level Text-to-Image Retrieval Improved: Bridging the Domain Gap with Diffusion Models and Vision Encoders

Faizan Farooq Khan

Vladan Stojnić

Mohamed Elhoseiny

100

0

0

29 Aug 2025

MobileViCLIP: An Efficient Video-Text Model for Mobile Devices

MobileViCLIP: An Efficient Video-Text Model for Mobile Devices

197

0

0

10 Aug 2025

Guiding Cross-Modal Representations with MLLM Priors via Preference Alignment

Guiding Cross-Modal Representations with MLLM Priors via Preference Alignment

251

1

0

08 Jun 2025

Rapid Urban Visibility Hotspots: Quantifying Building Vertex Visibility from Connected Vehicle Trajectories using Spatial Indexing

Rapid Urban Visibility Hotspots: Quantifying Building Vertex Visibility from Connected Vehicle Trajectories using Spatial Indexing

Adriana-Simona Mihaita

313

2

0

03 Jun 2025

mRAG: Elucidating the Design Space of Multi-modal Retrieval-Augmented Generation

mRAG: Elucidating the Design Space of Multi-modal Retrieval-Augmented Generation

359

2

0

29 May 2025

Spa-VLM: Stealthy Poisoning Attacks on RAG-based VLM

Spa-VLM: Stealthy Poisoning Attacks on RAG-based VLM

187

3

0

28 May 2025

Breaking the Batch Barrier (B3) of Contrastive Learning via Smart Batch Mining

Breaking the Batch Barrier (B3) of Contrastive Learning via Smart Batch Mining

Raghuveer Thirukovalluru

336

12

0

16 May 2025

Simple yet Effective Semi-supervised Knowledge Distillation from Vision-Language Models via Dual-Head Optimization

Simple yet Effective Semi-supervised Knowledge Distillation from Vision-Language Models via Dual-Head Optimization

431

1

0

12 May 2025

OMGM: Orchestrate Multiple Granularities and Modalities for Efficient Multimodal Retrieval

OMGM: Orchestrate Multiple Granularities and Modalities for Efficient Multimodal RetrievalAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

351

5

0

10 May 2025

No Other Representation Component Is Needed: Diffusion Transformers Can Provide Representation Guidance by Themselves

No Other Representation Component Is Needed: Diffusion Transformers Can Provide Representation Guidance by Themselves

Liuzhuozheng Li

538

16

0

05 May 2025

Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs

Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs

907

35

0

24 Apr 2025

Perception Encoder: The best visual embeddings are not at the output of the network

Perception Encoder: The best visual embeddings are not at the output of the network

Po-Yao (Bernie) Huang

...

Christoph Feichtenhofer

670

112

0

17 Apr 2025

MMKB-RAG: A Multi-Modal Knowledge-Based Retrieval-Augmented Generation Framework

MMKB-RAG: A Multi-Modal Knowledge-Based Retrieval-Augmented Generation Framework

404

6

0

14 Apr 2025

Mind the (Data) Gap: Evaluating Vision Systems in Small Data Applications

Mind the (Data) Gap: Evaluating Vision Systems in Small Data Applications

188

3

0

08 Apr 2025

FALCONEye: Finding Answers and Localizing Content in ONE-hour-long videos with multi-modal LLMs

FALCONEye: Finding Answers and Localizing Content in ONE-hour-long videos with multi-modal LLMs

Ruben Martinez-Cantin

347

0

0

25 Mar 2025

HEIE: MLLM-Based Hierarchical Explainable AIGC Image Implausibility Evaluator

HEIE: MLLM-Based Hierarchical Explainable AIGC Image Implausibility EvaluatorComputer Vision and Pattern Recognition (CVPR), 2024

453

10

0

26 Nov 2024

Multi-View and Multi-Scale Alignment for Contrastive Language-Image Pre-training in Mammography

Multi-View and Multi-Scale Alignment for Contrastive Language-Image Pre-training in MammographyInformation Processing in Medical Imaging (IPMI), 2024

Yuexi Du

211

8

0

26 Sep 2024

CanvOI, an Oncology Intelligence Foundation Model: Scaling FLOPS
Differently

CanvOI, an Oncology Intelligence Foundation Model: Scaling FLOPS Differently

Jonathan Zalach

Christine Swisher

182

0

0

04 Sep 2024

Scaling White-Box Transformers for Vision

Scaling White-Box Transformers for Vision

582

13

0

30 May 2024

VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos

VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos

Elias Stengel-Eskin

Gedas Bertasius

Mohit Bansal

474

151

0

29 May 2024

Omniview-Tuning: Boosting Viewpoint Invariance of Vision-Language
Pre-training Models

Omniview-Tuning: Boosting Viewpoint Invariance of Vision-Language Pre-training Models

Yinpeng Dong

Hang Su

345

3

0

18 Apr 2024