v1v2 (latest)

ALLaVA: Harnessing GPT4V-Synthesized Data for Lite Vision-Language Models

18 February 2024

Xiang Wan

ArXiv (abs)PDF HTML HuggingFace (2 upvotes)Github (281★)

Papers citing "ALLaVA: Harnessing GPT4V-Synthesized Data for Lite Vision-Language Models"

50 / 82 papers shown

Text-Printed Image: Bridging the Image-Text Modality Gap for Text-centric Training of Large Vision-Language Models

293

03 Dec 2025

LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight

173

25 Nov 2025

Downscaling Intelligence: Exploring Perception and Reasoning Bottlenecks in Small Multimodal Models

Mark Endo

Serena Yeung-Levy

LRM

284

21 Nov 2025

NVIDIA Nemotron Nano V2 VL

Nvidia

Amala Sanjay Deshmukh

...

397

06 Nov 2025

FineVision: Open Data Is All You Need

Aritra Roy Gosthipaty

Andrés Marafioti

VLM

231

20 Oct 2025

From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

213

16 Oct 2025

Where on Earth? A Vision-Language Benchmark for Probing Model Geolocation Skills Across Scales

...

125

13 Oct 2025

Dirichlet-Prior Shaping: Guiding Expert Specialization in Upcycled MoEs

118

01 Oct 2025

CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning

209

26 Sep 2025

MindVL: Towards Efficient and Effective Training of Multimodal Large Language Models on Ascend NPUs

445

15 Sep 2025

OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation

412

03 Sep 2025

UItron: Foundational GUI Agent with Advanced Perception and Planning

225

29 Aug 2025

UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding

...

281

16 Aug 2025

MoIIE: Mixture of Intra- and Inter-Modality Experts for Large Vision Language Models

243

13 Aug 2025

NEP: Autoregressive Image Editing via Next Editing Token Prediction

185

08 Aug 2025

MAGE: Multimodal Alignment and Generation Enhancement via Bridging Visual and Semantic SpacesInternational Joint Conference on Artificial Intelligence (IJCAI), 2025

221

29 Jul 2025

LMM-Det: Make Large Multimodal Models Excel in Object Detection

420

24 Jul 2025

Advancing Multimodal LLMs by Large-Scale 3D Visual Instruction Dataset Generation

300

11 Jul 2025

RationalVLA: A Rational Vision-Language-Action Model with Dual System

...

552

12 Jun 2025

VisualSphinx: Large-Scale Synthetic Vision Logic Puzzles for RL

Bhaskar Ramasubramanian

196

29 May 2025

Slot-MLLM: Object-Centric Visual Tokenization for Multimodal LLM

1.0K

23 May 2025

Instructify: Demystifying Metadata to Visual Instruction Tuning Data Conversion

540

23 May 2025

Visual Instruction Tuning with Chain of Region-of-Interest

326

11 May 2025

Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

...

1.4K

05 May 2025

Low-hallucination Synthetic Captions for Large-Scale Vision-Language Model Pre-training

580

17 Apr 2025

Data Metabolism: An Efficient Data Design Schema For Vision Language Model

405

10 Apr 2025

MM-IFEngine: Towards Multimodal Instruction Following

647

10 Apr 2025

UniToken: Harmonizing Multimodal Understanding and Generation through Unified Visual Encoding

340

06 Apr 2025

UniViTAR: Unified Vision Transformer with Native Resolution

557

02 Apr 2025

Skip-Vision: Efficient and Scalable Acceleration of Vision-Language Models via Adaptive Token Skipping

772

26 Mar 2025

Instruction-Oriented Preference Alignment for Enhancing Multi-Modal Comprehension Capability of MLLMs

376

26 Mar 2025

From Head to Tail: Towards Balanced Representation in Large Vision-Language Models through Adaptive Data CalibrationComputer Vision and Pattern Recognition (CVPR), 2025

616

17 Mar 2025

HiMTok: Learning Hierarchical Mask Tokens for Image Segmentation with Large Multimodal Model

455

17 Mar 2025

Vamba: Understanding Hour-Long Videos with Hybrid Mamba-Transformers

444

14 Mar 2025

Oasis: One Image is All You Need for Multimodal Instruction Data Synthesis

545

11 Mar 2025

Referring to Any Person

975

11 Mar 2025

PP-DocBee: Improving Multimodal Document Understanding Through a Bag of Tricks

477

06 Mar 2025

RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to ConcreteComputer Vision and Pattern Recognition (CVPR), 2025

...

583

114

28 Feb 2025

M2-omni: Advancing Omni-MLLM for Comprehensive Modality Support with Competitive Performance

...

749

26 Feb 2025

Megrez-Omni Technical Report

...

265

19 Feb 2025

Soundwave: Less is More for Speech-Text Alignment in LLMsAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

320

18 Feb 2025

Vision-Language Models for Edge Networks: A Comprehensive SurveyIEEE Internet of Things Journal (IEEE IoT J.), 2025

404

11 Feb 2025

InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling

...

675

148

21 Jan 2025

Social-LLaVA: Enhancing Robot Navigation through Human-Language Reasoning in Social Spaces

483

17 Jan 2025

VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language TasksNeural Information Processing Systems (NeurIPS), 2024

...

1.0K

141

03 Jan 2025

VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling

...

1.0K

145

31 Dec 2024

HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language EmbeddingComputer Vision and Pattern Recognition (CVPR), 2024

...

591

20 Dec 2024

VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language ModelsComputer Vision and Pattern Recognition (CVPR), 2024

489

02 Dec 2024

On Domain-Adaptive Post-Training for Multimodal Large Language Models

550

29 Nov 2024

ChatRex: Taming Multimodal LLM for Joint Perception and Understanding

653

27 Nov 2024