v1v2 (latest)

FOLDER: Accelerating Multi-modal Large Language Models with Enhanced Performance

5 January 2025

ArXiv (abs)PDF HTML Github (15★)

Papers citing "FOLDER: Accelerating Multi-modal Large Language Models with Enhanced Performance"

50 / 80 papers shown

Explore More, Learn Better: Parallel MLLM Embeddings under Mutual Information Minimization

268

03 Nov 2025

Wave-Particle (Continuous-Discrete) Dualistic Visual Tokenization for Unified Understanding and Generation

160

03 Nov 2025

VisionSelector: End-to-End Learnable Visual Token Compression for Efficient Multimodal LLMs

296

18 Oct 2025

Efficient Multi-modal Large Language Models via Progressive Consistency Distillation

...

227

01 Oct 2025

METEOR: Multi-Encoder Collaborative Token Pruning for Efficient Vision Language Models

252

28 Jul 2025

A Survey of Token Compression for Efficient Multimodal Large Language Models

721

27 Jul 2025

Generic Token Compression in Multimodal Large Language Models from an Explainability Perspective

305

01 Jun 2025

VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models

403

28 May 2025

HoliTom: Holistic Token Merging for Fast Video Large Language Models

774

27 May 2025

Video-MMLU: A Massive Multi-Discipline Lecture Understanding Benchmark

543

20 Apr 2025

Squeeze Out Tokens from Sample for Finer-Grained Data Governance

...

331

18 Mar 2025

TokenCarve: Information-Preserving Visual Token Compression in Multimodal Large Language Models

521

13 Mar 2025

VisionZip: Longer is Better but Not Necessary in Vision Language ModelsComputer Vision and Pattern Recognition (CVPR), 2024

338

145

05 Dec 2024

Advancing Myopia To Holism: Fully Contrastive Language-Image Pre-trainingComputer Vision and Pattern Recognition (CVPR), 2024

...

407

30 Nov 2024

Geometric Analysis of Reasoning Trajectories: A Phase Space Approach to Understanding Valid and Invalid Multi-Hop Reasoning in LLMs

Javier Marin

LRM

686

276

06 Oct 2024

Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders

Subhashree Radhakrishnan

...

452

128

28 Aug 2024

Goldfish: Vision-Language Understanding of Arbitrarily Long Videos

290

17 Jul 2024

Turbo: Informativity-Driven Acceleration Plug-In for Vision-Language Large Models

246

16 Jul 2024

MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding

Xinyu Fang

Kangrui Mao

Haodong Duan

Xiangyu Zhao

Yining Li

Dahua Lin

Kai Chen

VLM

265

175

20 Jun 2024

Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

...

889

1,086

31 May 2024

DENOISER: Rethinking the Robustness for Open-Vocabulary Action Recognition

266

23 Apr 2024

BRAVE: Broadening the visual encoding of vision-language modelsEuropean Conference on Computer Vision (ECCV), 2024

375

10 Apr 2024

Are We on the Right Way for Evaluating Large Vision-Language Models?

...

Yu Qiao

Dahua Lin

Feng Zhao

VLM

513

706

29 Mar 2024

LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models

Yan Yan

715

285

22 Mar 2024

Wear-Any-Way: Manipulable Virtual Try-on via Sparse Correspondence Alignment

306

19 Mar 2024

Audio-Visual Segmentation via Unlabeled Frame Exploitation

389

17 Mar 2024

An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language ModelsEuropean Conference on Computer Vision (ECCV), 2024

Shuai Bai

Chang Zhou

Baobao Chang

MLLM VLM

433

468

11 Mar 2024

Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMsComputer Vision and Pattern Recognition (CVPR), 2024

Shengbang Tong

518

668

11 Jan 2024

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

Weijie Su

...

Ping Luo

Yu Qiao

792

2,644

21 Dec 2023

Turbo: Informativity-Driven Acceleration Plug-In for Vision-Language Models

366

12 Dec 2023

MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGIComputer Vision and Pattern Recognition (CVPR), 2023

...

969

1,945

27 Nov 2023

Video-LLaVA: Learning United Visual Representation by Alignment Before Projection

Bin Lin

1.8K

1,402

16 Nov 2023

Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video UnderstandingComputer Vision and Pattern Recognition (CVPR), 2023

638

401

14 Nov 2023

HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language ModelsComputer Vision and Pattern Recognition (CVPR), 2023

Fuxiao Liu

...

Furong Huang

630

471

23 Oct 2023

Butterfly Effects of SGD Noise: Error Amplification in Behavior Cloning and AutoregressionInternational Conference on Learning Representations (ICLR), 2023

Max Simchowitz

319

17 Oct 2023

MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning

Raghuraman Krishnamoorthi

1.7K

677

14 Oct 2023

Improved Baselines with Visual Instruction TuningComputer Vision and Pattern Recognition (CVPR), 2023

746

4,820

05 Oct 2023

Ring Attention with Blockwise Transformers for Near-Infinite ContextInternational Conference on Learning Representations (ICLR), 2023

Hao Liu

Matei A. Zaharia

Pieter Abbeel

803

446

03 Oct 2023

AttrSeg: Open-Vocabulary Semantic Segmentation via Attribute Decomposition-AggregationNeural Information Processing Systems (NeurIPS), 2023

517

31 Aug 2023

Beyond Generic: Enhancing Image Captioning with Real-World Knowledge using Vision-Language Pre-Training ModelACM Multimedia (ACM MM), 2023

213

02 Aug 2023

SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension

Ying Shan

635

875

30 Jul 2023

Audio-aware Query-enhanced Transformer for Audio-Visual Segmentation

433

25 Jul 2023

FlashAttention-2: Faster Attention with Better Parallelism and Work PartitioningInternational Conference on Learning Representations (ICLR), 2023

Tri Dao

LRM

627

2,480

17 Jul 2023

MMBench: Is Your Multi-modal Model an All-around Player?European Conference on Computer Vision (ECCV), 2023

...

Conghui He

Ziwei Liu

Kai-xiang Chen

Dahua Lin

995

1,956

12 Jul 2023

Multi-Modal Prototypes for Open-World Semantic SegmentationInternational Journal of Computer Vision (IJCV), 2023

Jiangchao Yao

438

05 Jul 2023

MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models

...

1.1K

1,448

23 Jun 2023

Q: How to Specialize Large Vision-Language Models to Data-Scarce VQA Tasks? A: Self-Train on Unlabeled Images!Computer Vision and Pattern Recognition (CVPR), 2023

340

06 Jun 2023

Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video UnderstandingConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Hang Zhang

Xin Li

Lidong Bing

MLLM

798

1,669

05 Jun 2023

Annotation-free Audio-Visual SegmentationIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

456

18 May 2023

Evaluating Object Hallucination in Large Vision-Language ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

855

1,526

17 May 2023