Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs

24 June 2024

Sanghyun Woo

ArXiv (abs)PDF HTML HuggingFace (61 upvotes)

Papers citing "Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs"

13 / 413 papers shown

ANOLE: An Open, Autoregressive, Native Large Multimodal Models for Interleaved Image-Text Generation

Ethan Chern

235

08 Jul 2024

VCR: A Task for Pixel-Level Complex Reasoning in Vision Language Models via Restoring Occluded TextInternational Conference on Learning Representations (ICLR), 2024

Tianyu Zhang

Ge Zhang

265

10 Jun 2024

Don't Miss the Forest for the Trees: Attentional Vision Calibration for Large Vision Language Models

328

28 May 2024

A Survey of Multimodal Large Language Model from A Data-centric Perspective

...

Conghui He

383

26 May 2024

Pensieve: Retrospect-then-Compare Mitigates Visual Hallucination

Dingchen Yang

Bowen Cao

Guang Chen

Changjun Jiang

237

21 Mar 2024

A Comprehensive Study of Multimodal Large Language Models for Image Quality Assessment

Lei Zhang

218

16 Mar 2024

Yi: Open Foundation Models by 01.AI

...

833

766

07 Mar 2024

ImgTrojan: Jailbreaking Vision-Language Models with ONE Image

Qi Liu

393

05 Mar 2024

What Is Missing in Multilingual Visual Reasoning and How to Fix It

Yueqi Song

Simran Khanuja

Graham Neubig

VLM LRM

609

03 Mar 2024

SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models

...

Yu Qiao

512

139

08 Feb 2024

Dense Video Object Captioning from Disjoint SupervisionInternational Conference on Learning Representations (ICLR), 2023

287

20 Jun 2023

WizardCoder: Empowering Code Large Language Models with Evol-InstructInternational Conference on Learning Representations (ICLR), 2023

723

857

14 Jun 2023

ScreenQA: Large-Scale Question-Answer Pairs over Mobile App ScreenshotsNorth American Chapter of the Association for Computational Linguistics (NAACL), 2022

Victor Carbune

Jason Lin

Maria Wang

Yun Zhu

Jindong Chen

RALM

965

16 Sep 2022