Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs

24 June 2024

Sanghyun Woo

ArXiv (abs)PDF HTML HuggingFace (61 upvotes)

Papers citing "Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs"

50 / 413 papers shown

COMPACT: COMPositional Atomic-to-Complex Visual Capability Tuning

396

24 Dec 2025

Multimodal Reinforcement Learning with Agentic Verifier for AI Agents

...

189

03 Dec 2025

Text-Printed Image: Bridging the Image-Text Modality Gap for Text-centric Training of Large Vision-Language Models

232

03 Dec 2025

Jina-VLM: Small Multilingual Vision Language Model

351

03 Dec 2025

PAI-Bench: A Comprehensive Benchmark For Physical AI

156

01 Dec 2025

From Pixels to Feelings: Aligning MLLMs with Human Cognitive Perception of Images

27 Nov 2025

Geometrically-Constrained Agent for Spatial Reasoning

103

27 Nov 2025

Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following

...

188

26 Nov 2025

EM-KD: Distilling Efficient Multimodal Large Language Model with Unbalanced Vision Tokens

171

26 Nov 2025

SpatialBench: Benchmarking Multimodal Large Language Models for Spatial Cognition

342

26 Nov 2025

DialBench: Towards Accurate Reading Recognition of Pointer Meter using Large Foundation Models

26 Nov 2025

VeriSciQA: An Auto-Verified Dataset for Scientific Visual Question Answering

142

25 Nov 2025

Thinking in 360°: Humanoid Visual Search in the Wild

...

334

25 Nov 2025

AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs

304

25 Nov 2025

Text-Guided Semantic Image Encoder

Raghuveer Thirukovalluru

156

25 Nov 2025

LAST: LeArning to Think in Space and Time for Generalist Vision-Language Models

142

24 Nov 2025

Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens

Yiming Qin

Bomin Wei

Jiaxin Ge

Konstantinos Kallidromitis

251

24 Nov 2025

Perceptual Taxonomy: Evaluating and Guiding Hierarchical Scene Reasoning in Vision-Language Models

...

24 Nov 2025

SO-Bench: A Structural Output Evaluation of Multimodal LLMs

...

23 Nov 2025

When Better Teachers Don't Make Better Students: Revisiting Knowledge Distillation for CLIP Models in VQA

Peerat Limkonchotiwat

VLM

124

22 Nov 2025

ChainV: Atomic Visual Hints Make Multimodal Reasoning Shorter and Better

197

21 Nov 2025

IndustryNav: Exploring Spatial Reasoning of Embodied Agents in Dynamic Industrial Navigation

...

163

21 Nov 2025

Attention Guided Alignment in Efficient Vision-Language Models

141

21 Nov 2025

BOP-ASK: Object-Interaction Reasoning for Vision-Language Models

Prashanth Krishnamurthy

239

20 Nov 2025

Can We Predict the Next Question? A Collaborative Filtering Approach to Modeling User Behavior

197

17 Nov 2025

Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data

...

615

16 Nov 2025

Simple Vision-Language Math Reasoning via Rendered Text

352

12 Nov 2025

Multimodal LLMs Do Not Compose Skills Optimally Across Modalities

Paula Ontalvilla

Aitor Ormazabal

Gorka Azkune

129

11 Nov 2025

SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards

374

10 Nov 2025

Revisiting the Data Sampling in Multimodal Post-training from a Difficulty-Distinguish View

249

10 Nov 2025

Visual Spatial Tuning

...

345

07 Nov 2025

iFlyBot-VLM Technical Report

331

07 Nov 2025

Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at ScaleAnnual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR), 2025

Prithviraj Ammanabrolu

343

07 Nov 2025

Cambrian-S: Towards Spatial Supersensing in Video

...

178

06 Nov 2025

Benchmark Designers Should "Train on the Test Set" to Expose Exploitable Non-Visual Shortcuts

230

06 Nov 2025

IndicVisionBench: Benchmarking Cultural and Multilingual Understanding in VLMs

164

06 Nov 2025

SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding

358

06 Nov 2025

Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models

...

112

03 Nov 2025

TIR-Bench: A Comprehensive Benchmark for Agentic Thinking-with-Images Reasoning

462

03 Nov 2025

Masked Diffusion Captioning for Visual Feature Learning

251

30 Oct 2025

NaviTrace: Evaluating Embodied Navigation of Vision-Language Models

396

30 Oct 2025

Do Vision-Language Models Measure Up? Benchmarking Visual Measurement Reading with MeasureBench

142

30 Oct 2025

Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks

...

721

29 Oct 2025

SafeVision: Efficient Image Guardrail with Robust Policy Adherence and Explainability

256

28 Oct 2025

UrbanVLA: A Vision-Language-Action Model for Urban Micromobility

147

27 Oct 2025

MergeMix: A Unified Augmentation Paradigm for Visual and Multi-Modal Understanding

143

27 Oct 2025

Dexbotic: Open-Source Vision-Language-Action Toolbox

...

192

27 Oct 2025

EmbodiedBrain: Expanding Performance Boundaries of Task Planning for Embodied Intelligence

...

159

23 Oct 2025

Data-Centric Lessons To Improve Speech-Language Pretraining

140

22 Oct 2025

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

...

219

21 Oct 2025