Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Home
Papers

All Papers

0 / 0 papers shown

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2312.07533
Cited By

VILA: On Pre-training for Visual Language Models

v1v2v3v4 (latest)

VILA: On Pre-training for Visual Language Models

Computer Vision and Pattern Recognition (CVPR), 2023

12 December 2023

Pavlo Molchanov

Mohammad Shoeybi

Song Han

ArXiv (abs)PDF HTML HuggingFace (23 upvotes)

Papers citing "VILA: On Pre-training for Visual Language Models"

50 / 280 papers shown

CartoMapQA: A Fundamental Benchmark Dataset Evaluating Vision-Language Models on Cartographic Map Understanding

CartoMapQA: A Fundamental Benchmark Dataset Evaluating Vision-Language Models on Cartographic Map Understanding

Guillaume Habault

Yasutaka Nishimura

Roberto Legaspi

...

104

0

0

03 Dec 2025

SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL

SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL

Mikaela Angelina Uy

Adithyavairavan Murali

Stan Birchfield

Jonathan Tremblay

138

0

0

03 Dec 2025

Describe Anything Anywhere At Any Moment

Describe Anything Anywhere At Any Moment

350

0

0

29 Nov 2025

SFA: Scan, Focus, and Amplify toward Guidance-aware Answering for Video TextVQA

SFA: Scan, Focus, and Amplify toward Guidance-aware Answering for Video TextVQA

108

0

0

25 Nov 2025

Vision-Language Memory for Spatial Reasoning

Vision-Language Memory for Spatial Reasoning

249

0

0

25 Nov 2025

Growing with the Generator: Self-paced GRPO for Video Generation

Growing with the Generator: Self-paced GRPO for Video Generation

120

0

0

24 Nov 2025

LAST: LeArning to Think in Space and Time for Generalist Vision-Language Models

LAST: LeArning to Think in Space and Time for Generalist Vision-Language Models

138

1

0

24 Nov 2025

Discover, Learn, and Reinforce: Scaling Vision-Language-Action Pretraining with Diverse RL-Generated Trajectories

Discover, Learn, and Reinforce: Scaling Vision-Language-Action Pretraining with Diverse RL-Generated Trajectories

Tianxiang Zhang

205

0

0

24 Nov 2025

SineProject: Machine Unlearning for Stable Vision Language Alignment

SineProject: Machine Unlearning for Stable Vision Language Alignment

Hemanth Saratchandran

221

0

0

23 Nov 2025

Insight-A: Attribution-aware for Multimodal Misinformation Detection

Insight-A: Attribution-aware for Multimodal Misinformation Detection

40

0

0

17 Nov 2025

Multimodal LLMs Do Not Compose Skills Optimally Across Modalities

Multimodal LLMs Do Not Compose Skills Optimally Across Modalities

Paula Ontalvilla

Aitor Ormazabal

129

0

0

11 Nov 2025

SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards

SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards

359

0

0

10 Nov 2025

LiveStar: Live Streaming Assistant for Real-World Online Video Understanding

LiveStar: Live Streaming Assistant for Real-World Online Video Understanding

Shengsheng Qian

OffRL AI4TS VLM

260

0

0

07 Nov 2025

What do vision-language models see in the context? Investigating multimodal in-context learning

What do vision-language models see in the context? Investigating multimodal in-context learning

G. O. D. Santos

Esther Colombini

102

0

0

28 Oct 2025

PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity

PixelRefer: A Unified Framework for Spatio-Temporal Object Referring with Arbitrary Granularity

362

0

0

27 Oct 2025

STATUS Bench: A Rigorous Benchmark for Evaluating Object State Understanding in Vision-Language Models

STATUS Bench: A Rigorous Benchmark for Evaluating Object State Understanding in Vision-Language Models

233

0

0

26 Oct 2025

Visual Attention Reasoning via Hierarchical Search and Self-Verification

Visual Attention Reasoning via Hierarchical Search and Self-Verification

160

0

0

21 Oct 2025

Exploring a Unified Vision-Centric Contrastive Alternatives on Multi-Modal Web Documents

Exploring a Unified Vision-Centric Contrastive Alternatives on Multi-Modal Web Documents

Alex Jinpeng Wang

Mike Zheng Shou

132

1

0

21 Oct 2025

Input Domain Aware MoE: Decoupling Routing Decisions from Task Optimization in Mixture of Experts

Input Domain Aware MoE: Decoupling Routing Decisions from Task Optimization in Mixture of Experts

212

0

0

18 Oct 2025

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM

OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM

Chao-Han Huck Yang

...

Pavlo Molchanov

174

3

0

17 Oct 2025

Efficient Video Sampling: Pruning Temporally Redundant Tokens for Faster VLM Inference

Efficient Video Sampling: Pruning Temporally Redundant Tokens for Faster VLM Inference

Eugene Khvedchenia

Borys Tymchenko

...

Yonatan Geifman

Ran Zilberstein

Tuomas Rintamaki

128

1

0

16 Oct 2025

Train a Unified Multimodal Data Quality Classifier with Synthetic Data

Train a Unified Multimodal Data Quality Classifier with Synthetic Data

Sanket Lokegaonkar

92

0

0

16 Oct 2025

UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning

UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning

211

5

0

15 Oct 2025

CompoDistill: Attention Distillation for Compositional Reasoning in Multimodal LLMs

CompoDistill: Attention Distillation for Compositional Reasoning in Multimodal LLMs

144

1

0

14 Oct 2025

DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search

DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search

Vishal M. Patel

256

4

0

14 Oct 2025

video-SALMONN S: Streaming Audio-Visual LLMs Beyond Length Limits via Memory

video-SALMONN S: Streaming Audio-Visual LLMs Beyond Length Limits via Memory

84

1

0

13 Oct 2025

UniFlow: A Unified Pixel Flow Tokenizer for Visual Understanding and Generation

UniFlow: A Unified Pixel Flow Tokenizer for Visual Understanding and Generation

...

180

7

0

12 Oct 2025

Don't Run with Scissors: Pruning Breaks VLA Models but They Can Be Recovered

Don't Run with Scissors: Pruning Breaks VLA Models but They Can Be Recovered

Jason J. Jabbour

Vijay Janapa Reddi

Shayegan Omidshafiei

132

1

0

09 Oct 2025

Vision-Language-Action Models for Robotics: A Review Towards Real-World Applications

Vision-Language-Action Models for Robotics: A Review Towards Real-World ApplicationsIEEE Access (IEEE Access), 2025

Kento Kawaharazuka

259

24

0

08 Oct 2025

Automated Repeatable Adversary Threat Emulation with Effects Language (EL)

Automated Repeatable Adversary Threat Emulation with Effects Language (EL)

Suresh Damodaran

132

9

0

07 Oct 2025

A.I.R.: Enabling Adaptive, Iterative, and Reasoning-based Frame Selection For Video Question Answering

A.I.R.: Enabling Adaptive, Iterative, and Reasoning-based Frame Selection For Video Question Answering

104

0

0

06 Oct 2025

FrameOracle: Learning What to See and How Much to See in Videos

FrameOracle: Learning What to See and How Much to See in Videos

120

0

0

04 Oct 2025

Embracing Evolution: A Call for Body-Control Co-Design in Embodied Humanoid Robot

Embracing Evolution: A Call for Body-Control Co-Design in Embodied Humanoid Robot

136

1

0

03 Oct 2025

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

...

84

0

0

30 Sep 2025

VELA: An LLM-Hybrid-as-a-Judge Approach for Evaluating Long Image Captions

VELA: An LLM-Hybrid-as-a-Judge Approach for Evaluating Long Image Captions

Shinnosuke Hirano

152

1

0

30 Sep 2025

Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training

Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training

Filippos Kokkinos

191

6

0

30 Sep 2025

NeMo: Needle in a Montage for Video-Language Understanding

NeMo: Needle in a Montage for Video-Language Understanding

...

Jing-ling Huang

161

2

0

29 Sep 2025

Vid-LLM: A Compact Video-based 3D Multimodal LLM with Reconstruction-Reasoning Synergy

Vid-LLM: A Compact Video-based 3D Multimodal LLM with Reconstruction-Reasoning Synergy

146

1

0

29 Sep 2025

Euclid's Gift: Enhancing Spatial Perception and Reasoning in Vision-Language Models via Geometric Surrogate Tasks

Euclid's Gift: Enhancing Spatial Perception and Reasoning in Vision-Language Models via Geometric Surrogate Tasks

231

1

0

29 Sep 2025

Estimating the Empowerment of Language Model Agents

Estimating the Empowerment of Language Model Agents

Max Kleiman-Weiner

134

1

0

26 Sep 2025

InfiMed-Foundation: Pioneering Advanced Multimodal Medical Models with Compute-Efficient Pre-Training and Multi-Stage Fine-Tuning

InfiMed-Foundation: Pioneering Advanced Multimodal Medical Models with Compute-Efficient Pre-Training and Multi-Stage Fine-Tuning

185

0

0

26 Sep 2025

GaussianVision: Vision-Language Alignment from Compressed Image Representations using 2D Gaussian Splatting

GaussianVision: Vision-Language Alignment from Compressed Image Representations using 2D Gaussian Splatting

Tsachy Weissman

282

0

0

26 Sep 2025

Meta-Memory: Retrieving and Integrating Semantic-Spatial Memories for Robot Spatial Reasoning

Meta-Memory: Retrieving and Integrating Semantic-Spatial Memories for Robot Spatial Reasoning

120

0

0

25 Sep 2025

MAPO: Mixed Advantage Policy Optimization

MAPO: Mixed Advantage Policy Optimization

...

Leszek Rutkowski

235

4

0

23 Sep 2025

VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary Reconstruction

VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary Reconstruction

...

Sebastian Zwirner

Daisuke Kawahara

134

0

0

23 Sep 2025

OmniVLA: An Omni-Modal Vision-Language-Action Model for Robot Navigation

OmniVLA: An Omni-Modal Vision-Language-Action Model for Robot Navigation

Catherine Glossop

188

3

0

23 Sep 2025

PEEK: Guiding and Minimal Image Representations for Zero-Shot Generalization of Robot Manipulation Policies

PEEK: Guiding and Minimal Image Representations for Zero-Shot Generalization of Robot Manipulation Policies

125

1

0

22 Sep 2025

MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer

MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer

...

Zhengdong Zhang

204

4

0

19 Sep 2025

Embodied Arena: A Comprehensive, Unified, and Evolving Evaluation Platform for Embodied AI

Embodied Arena: A Comprehensive, Unified, and Evolving Evaluation Platform for Embodied AI

...

194

1

0

18 Sep 2025

3D Aware Region Prompted Vision Language Model

3D Aware Region Prompted Vision Language Model

...

Pavlo Molchanov

139

8

0

16 Sep 2025