Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs

24 June 2024

Sanghyun Woo

ArXiv (abs)PDF HTML HuggingFace (61 upvotes)

Papers citing "Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs"

50 / 413 papers shown

Interpretable and Testable Vision Features via Sparse Autoencoders

403

10 Feb 2025

UniMoD: Efficient Unified Multimodal Transformers with Mixture-of-Depths

704

10 Feb 2025

PixFoundation: Are We Heading in the Right Direction with Pixel-level Vision Foundation Models?

Mennatullah Siam

VLM

791

06 Feb 2025

D-Attn: Decomposed Attention for Large Vision-and-Language Models

533

04 Feb 2025

LLMDet: Learning Strong Open-Vocabulary Object Detectors under the Supervision of Large Language ModelsComputer Vision and Pattern Recognition (CVPR), 2025

453

31 Jan 2025

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

693

419

28 Jan 2025

BiFold: Bimanual Cloth Folding with Language GuidanceIEEE International Conference on Robotics and Automation (ICRA), 2025

Oriol Barbany

Adrià Colomé

Carme Torras

341

27 Jan 2025

TB-Bench: Training and Testing Multi-Modal AI for Understanding Spatio-Temporal Traffic Behaviors from Dashcam Images/Videos

Korawat Charoenpitaks

147

10 Jan 2025

OpenOmni: Advancing Open-Source Omnimodal Large Language Models with Progressive Multimodal Alignment and Real-Time Self-Aware Emotional Speech Synthesis

...

697

08 Jan 2025

Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos

...

612

07 Jan 2025

Visual Large Language Models for Generalized and Specialized Applications

465

06 Jan 2025

Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model EvaluationComputer Vision and Pattern Recognition (CVPR), 2025

...

420

06 Jan 2025

Demystifying CLIP DataInternational Conference on Learning Representations (ICLR), 2023

Hu Xu

Saining Xie

Xiaoqing Ellen Tan

Po-Yao (Bernie) Huang

Christoph Feichtenhofer

VLM CLIP

593

206

31 Dec 2024

A High-Quality Text-Rich Image Instruction Tuning Dataset via Hybrid Instruction GenerationInternational Conference on Computational Linguistics (COLING), 2024

290

20 Dec 2024

DINOv2 Meets Text: A Unified Framework for Image- and Pixel-Level Vision-Language AlignmentComputer Vision and Pattern Recognition (CVPR), 2024

...

356

20 Dec 2024

LLaVA-UHD v2: an MLLM Integrating High-Resolution Semantic Pyramid via Hierarchical Window Transformer

...

366

18 Dec 2024

Apollo: An Exploration of Video Understanding in Large Multimodal ModelsComputer Vision and Pattern Recognition (CVPR), 2024

...

424

13 Dec 2024

Olympus: A Universal Task Router for Computer Vision TasksComputer Vision and Pattern Recognition (CVPR), 2024

1.2K

12 Dec 2024

SafeWatch: An Efficient Safety-Policy Following Video Guardrail Model with Transparent Explanations

347

09 Dec 2024

Chimera: Improving Generalist Model with Domain-Specific Experts

...

618

08 Dec 2024

VisionZip: Longer is Better but Not Necessary in Vision Language ModelsComputer Vision and Pattern Recognition (CVPR), 2024

293

107

05 Dec 2024

Florence-VL: Enhancing Vision-Language Models with Generative Vision Encoder and Depth-Breadth FusionComputer Vision and Pattern Recognition (CVPR), 2024

329

05 Dec 2024

FLAIR: VLM with Fine-grained Language-informed Image RepresentationsComputer Vision and Pattern Recognition (CVPR), 2024

Rui Xiao

Sanghwan Kim

Mariana-Iuliana Georgescu

Zeynep Akata

Stephan Alaniz

VLM CLIP

315

04 Dec 2024

VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language ModelsComputer Vision and Pattern Recognition (CVPR), 2024

396

02 Dec 2024

AgriBench: A Hierarchical Agriculture Benchmark for Multimodal Large Language Models

Yutong Zhou

Masahiro Ryo

408

30 Nov 2024

On Domain-Adaptive Post-Training for Multimodal Large Language Models

494

29 Nov 2024

ChatRex: Taming Multimodal LLM for Joint Perception and Understanding

562

27 Nov 2024

NEMO: Can Multimodal LLMs Identify Attribute-Modified Objects?

338

26 Nov 2024

What's in the Image? A Deep-Dive into the Vision of Vision Language ModelsComputer Vision and Pattern Recognition (CVPR), 2024

214

26 Nov 2024

Efficient Multi-modal Large Language Models via Visual Token Grouping

364

26 Nov 2024

VL-RewardBench: A Challenging Benchmark for Vision-Language Generative Reward ModelsComputer Vision and Pattern Recognition (CVPR), 2024

...

539

26 Nov 2024

DOGR: Towards Versatile Visual Document Grounding and Referring

557

26 Nov 2024

Factorized Visual Tokenization and Generation

295

25 Nov 2024

Probing the Mid-level Vision Capabilities of Self-Supervised LearningComputer Vision and Pattern Recognition (CVPR), 2024

Xuweiyi Chen

Markus Marks

Zezhou Cheng

484

25 Nov 2024

FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any GranularityComputer Vision and Pattern Recognition (CVPR), 2024

332

23 Nov 2024

Panther: Illuminate the Sight of Multimodal LLMs with Instruction-Guided Visual Prompts

481

21 Nov 2024

From Holistic to Localized: Local Enhanced Adapters for Efficient Visual Instruction Fine-Tuning

444

19 Nov 2024

BlueLM-V-3B: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile DevicesComputer Vision and Pattern Recognition (CVPR), 2024

...

210

16 Nov 2024

MLAN: Language-Based Instruction Tuning Preserves and Transfers Knowledge in Multimodal Language Models

...

335

15 Nov 2024

Analyzing The Language of Visual Tokens

105

07 Nov 2024

Exploring Hierarchical Molecular Graph Representation in Multimodal LLMs

Chengxin Hu

Hao Li

Yihe Yuan

Jing Li

Ivor Tsang

429

07 Nov 2024

KptLLM: Unveiling the Power of Large Language Model for Keypoint ComprehensionNeural Information Processing Systems (NeurIPS), 2024

338

04 Nov 2024

Revealing and Reducing Gender Biases in Vision and Language Assistants (VLAs)International Conference on Learning Representations (ICLR), 2024

432

25 Oct 2024

Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data

...

Yufeng Cui

Xinlong Wang

Yaoqi Liu

Fangxiang Feng

Guang Liu

SyDa VLM MLLM

448

24 Oct 2024

PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction

...

Yuhang Cao

Jiaqi Wang

337

136

22 Oct 2024

Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance

Zhe Chen

...

404

21 Oct 2024

Beyond Filtering: Adaptive Image-Text Quality Enhancement for MLLM Pretraining

Weipeng Chen

194

21 Oct 2024

LLaVA-KD: A Framework of Distilling Multimodal Large Language Models

440

21 Oct 2024

SemiHVision: Enhancing Medical Multimodal Models with a Semi-Human Annotated Dataset and Fine-Tuned Instruction Generation

298

19 Oct 2024

E3D-GPT: Enhanced 3D Visual Foundation for Medical Vision-Language Model

165

18 Oct 2024