v1v2 (latest)

OpenVLA: An Open-Source Vision-Language-Action Model

13 June 2024

Quan Vuong

Dorsa Sadigh

Percy Liang

Chelsea Finn

LM&Ro

VLM

ArXiv (abs)PDF HTML HuggingFace (40 upvotes)

Papers citing "OpenVLA: An Open-Source Vision-Language-Action Model"

50 / 723 papers shown

FALCON: Actively Decoupled Visuomotor Policies for Loco-Manipulation with Foundation-Model-Based Coordination

160

04 Dec 2025

Vision-Language-Action Models for Selective Robotic Disassembly: A Case Study on Critical Component Extraction from Desktops

04 Dec 2025

MOVE: A Simple Motion-Based Data Collection Paradigm for Spatial Generalization in Robotic Manipulation

04 Dec 2025

SIMA 2: A Generalist Embodied Agent for Virtual Worlds

...

254

04 Dec 2025

Hierarchical Vision Language Action Model Using Success and Failure Demonstrations

214

03 Dec 2025

SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL

Adithyavairavan Murali

163

03 Dec 2025

Multimodal Reinforcement Learning with Agentic Verifier for AI Agents

...

195

03 Dec 2025

RoboScape-R: Unified Reward-Observation World Models for Generalizable Robotics Training via RL

...

118

03 Dec 2025

Diagnose, Correct, and Learn from Manipulation Failures via Visual Symbols

Youcheng Li

104

02 Dec 2025

SAM2Grasp: Resolve Multi-modal Grasping via Prompt-conditioned Temporal Action Prediction

132

02 Dec 2025

Video2Act: A Dual-System Video Diffusion Policy with Robotic Spatio-Motional Modeling

313

02 Dec 2025

IGen: Scalable Data Generation for Robot Learning from Open-World Images

...

163

01 Dec 2025

DiG-Flow: Discrepancy-Guided Flow Matching for Robust VLA Models

173

01 Dec 2025

ManualVLA: A Unified VLA Model for Chain-of-Thought Manual Generation and Robotic Manipulation

...

161

01 Dec 2025

CycleManip: Enabling Cyclic Task Manipulation via Effective Historical Perception and Understanding

30 Nov 2025

Transforming Monolithic Foundation Models into Embodied Multi-Agent Architectures for Human-Robot Collaboration

113

30 Nov 2025

VLASH: Real-Time VLAs via Future-State-Aware Asynchronous Inference

30 Nov 2025

Sigma: The Key for Vision-Language-Action Models toward Telepathic Alignment

Libo Wang

135

30 Nov 2025

SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minimal Overhead

...

117

30 Nov 2025

RealAppliance: Let High-fidelity Appliance Assets Controllable and Workable as Aligned Real Manuals

...

29 Nov 2025

LatBot: Distilling Universal Latent Actions for Vision-Language-Action Models

160

28 Nov 2025

SafeHumanoid: VLM-RAG-driven Control of Upper Body Impedance for Humanoid Robot

Miguel Altamirano Cabrera

Muhammad Haris Khan

Artem Lykov

Dzmitry Tsetserukou

119

28 Nov 2025

CoT4AD: A Vision-Language-Action Model with Explicit Chain-of-Thought Reasoning for Autonomous Driving

173

27 Nov 2025

Distracted Robot: How Visual Clutter Undermine Robotic Manipulation

Amir Rasouli

Montgomery Alban

Sajjad Pakdamansavoji

27 Nov 2025

Mechanistic Finetuning of Vision-Language-Action Models via Few-Shot Demonstrations

27 Nov 2025

LLM-Based Generalizable Hierarchical Task Planning and Execution for Heterogeneous Robot Teams with Event-Driven Replanning

27 Nov 2025

DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action

112

27 Nov 2025

From Observation to Action: Latent Action-based Primitive Segmentation for VLA Pre-training in Industrial Settings

Jiajie Zhang

Sören Schwertfeger

Alexander Kleiner

104

26 Nov 2025

VacuumVLA: Boosting VLA Capabilities via a Unified Suction and Gripping Tool for Complex Robotic Manipulation

190

26 Nov 2025

Attention-Guided Patch-Wise Sparse Adversarial Attacks on Vision-Language-Action Models

797

26 Nov 2025

Hyper-GoalNet: Goal-Conditioned Manipulation Policy Learning with HyperNetworks

26 Nov 2025

$$\mathcal{E}_0$: Enhancing Generalization and Fine-Grained Control in VLA Models via Continuized Discrete Diffusion$

\mathcal{E}_0

: Enhancing Generalization and Fine-Grained Control in VLA Models via Continuized Discrete Diffusion

...

213

26 Nov 2025

TraceGen: World Modeling in 3D Trace Space Enables Learning from Cross-Embodiment Videos

...

109

26 Nov 2025

When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models

490

26 Nov 2025

Unifying Perception and Action: A Hybrid-Modality Pipeline with Implicit Visual Chain-of-Thought for Robotic Action Generation

215

25 Nov 2025

DeeAD: Dynamic Early Exit of Vision-Language Action for Efficient Autonomous Driving

213

25 Nov 2025

LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight

133

25 Nov 2025

Arcadia: Toward a Full-Lifecycle Framework for Embodied Lifelong Learning

...

102

25 Nov 2025

Semantic Router: On the Feasibility of Hijacking MLLMs via a Single Adversarial Perturbation

250

25 Nov 2025

Dynamic Test-Time Compute Scaling in Control Policy: Difficulty-Aware Stochastic Interpolant Policy

143

25 Nov 2025

Reinforcing Action Policies by Prophesying

233

25 Nov 2025

Percept-WAM: Perception-Enhanced World-Awareness-Action Model for Robust End-to-End Autonomous Driving

...

160

24 Nov 2025

Mixture of Horizons in Action Chunking

248

24 Nov 2025

Discover, Learn, and Reinforce: Scaling Vision-Language-Action Pretraining with Diverse RL-Generated Trajectories

209

24 Nov 2025

MergeVLA: Cross-Skill Model Merging Toward a Generalist Vision-Language-Action Agent

315

24 Nov 2025

Compressor-VLA: Instruction-Guided Visual Token Compression for Efficient Robotic Manipulation

24 Nov 2025

AVA-VLA: Improving Vision-Language-Action models with Active Visual Attention

353

24 Nov 2025

ActDistill: General Action-Guided Self-Derived Distillation for Efficient Vision-Language-Action Models

170

22 Nov 2025

EchoVLA: Robotic Vision-Language-Action Model with Synergistic Declarative Memory for Mobile Manipulation

...

238

22 Nov 2025

MobileVLA-R1: Reinforcing Vision-Language-Action for Mobile Robots

132

22 Nov 2025