Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2406.09246
Cited By

OpenVLA: An Open-Source Vision-Language-Action Model

v1v2 (latest)

OpenVLA: An Open-Source Vision-Language-Action Model

13 June 2024

Siddharth Karamcheti

Ashwin Balakrishna

Rafael Rafailov

Ethan P. Foster

Pannag R Sanketi

Quan Vuong

Benjamin Burchfiel

Dorsa Sadigh

Percy Liang

Chelsea Finn

ArXiv (abs)PDF HTML HuggingFace (40 upvotes)

Papers citing "OpenVLA: An Open-Source Vision-Language-Action Model"

50 / 710 papers shown

SAGE: Scene Graph-Aware Guidance and Execution for Long-Horizon Manipulation Tasks

SAGE: Scene Graph-Aware Guidance and Execution for Long-Horizon Manipulation Tasks

129

0

0

26 Sep 2025

VLBiMan: Vision-Language Anchored One-Shot Demonstration Enables Generalizable Bimanual Robotic Manipulation

VLBiMan: Vision-Language Anchored One-Shot Demonstration Enables Generalizable Bimanual Robotic Manipulation

190

0

0

26 Sep 2025

Developing Vision-Language-Action Model from Egocentric Videos

Developing Vision-Language-Action Model from Egocentric Videos

Taichi Nishimura

104

1

0

26 Sep 2025

On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations

On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations

...

272

3

0

26 Sep 2025

WoW: Towards a World omniscient World model Through Embodied Interaction

WoW: Towards a World omniscient World model Through Embodied Interaction

...

Shanghang Zhang

160

2

0

26 Sep 2025

From Watch to Imagine: Steering Long-horizon Manipulation via Human Demonstration and Future Envisionment

From Watch to Imagine: Steering Long-horizon Manipulation via Human Demonstration and Future Envisionment

182

1

0

26 Sep 2025

ReLAM: Learning Anticipation Model for Rewarding Visual Robotic Manipulation

ReLAM: Learning Anticipation Model for Rewarding Visual Robotic Manipulation

Jing-Cheng Pang

156

0

0

26 Sep 2025

Pixel Motion Diffusion is What We Need for Robot Control

Pixel Motion Diffusion is What We Need for Robot Control

Kanchana Ranasinghe

Michael S. Ryoo

137

0

0

26 Sep 2025

RetoVLA: Reusing Register Tokens for Spatial Reasoning in Vision-Language-Action Models

RetoVLA: Reusing Register Tokens for Spatial Reasoning in Vision-Language-Action Models

Andrew Jaeyong Choi

70

1

0

25 Sep 2025

AnywhereVLA: Language-Conditioned Exploration and Mobile Manipulation

AnywhereVLA: Language-Conditioned Exploration and Mobile Manipulation

Konstantin Gubernatorov

Sergei Pasynkov

Dzmitry Tsetserukou

109

0

0

25 Sep 2025

Diffusion-Based Impedance Learning for Contact-Rich Manipulation Tasks

Diffusion-Based Impedance Learning for Contact-Rich Manipulation Tasks

Johannes Lachner

180

0

0

24 Sep 2025

RoboSSM: Scalable In-context Imitation Learning via State-Space Models

RoboSSM: Scalable In-context Imitation Learning via State-Space Models

Roberto Martín-Martín

108

0

0

24 Sep 2025

mindmap: Spatial Memory in Deep Feature Maps for 3D Action Policies

mindmap: Spatial Memory in Deep Feature Maps for 3D Action Policies

Vikram Ramasamy

191

1

0

24 Sep 2025

One Filters All: A Generalist Filter for State Estimation

One Filters All: A Generalist Filter for State Estimation

160

1

0

24 Sep 2025

Embodied AI: From LLMs to World Models

Embodied AI: From LLMs to World Models

329

8

0

24 Sep 2025

Parse-Augment-Distill: Learning Generalizable Bimanual Visuomotor Policies from Single Human Video

Parse-Augment-Distill: Learning Generalizable Bimanual Visuomotor Policies from Single Human Video

Georgios Tziafas

Hamidreza Kasaei

148

0

0

24 Sep 2025

Beyond Human Demonstrations: Diffusion-Based Reinforcement Learning to Generate Data for VLA Training

Beyond Human Demonstrations: Diffusion-Based Reinforcement Learning to Generate Data for VLA Training

...

250

2

0

24 Sep 2025

FreezeVLA: Action-Freezing Attacks against Vision-Language-Action Models

FreezeVLA: Action-Freezing Attacks against Vision-Language-Action Models

...

170

1

0

24 Sep 2025

Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving

Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving

112

7

0

24 Sep 2025

3D Flow Diffusion Policy: Visuomotor Policy Learning via Generating Flow in 3D Space

3D Flow Diffusion Policy: Visuomotor Policy Learning via Generating Flow in 3D Space

98

1

0

23 Sep 2025

Agentic Scene Policies: Unifying Space, Semantics, and Affordances for Robot Action

Agentic Scene Policies: Unifying Space, Semantics, and Affordances for Robot Action

Kumaraditya Gupta

Charlie Gauthier

133

0

0

23 Sep 2025

Do You Need Proprioceptive States in Visuomotor Policies?

Do You Need Proprioceptive States in Visuomotor Policies?

...

177

1

0

23 Sep 2025

How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective

How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective

...

319

9

0

23 Sep 2025

Residual Off-Policy RL for Finetuning Behavior Cloning Policies

Residual Off-Policy RL for Finetuning Behavior Cloning Policies

Anusha Nagabandi

221

2

0

23 Sep 2025

Pure Vision Language Action (VLA) Models: A Comprehensive Survey

Pure Vision Language Action (VLA) Models: A Comprehensive Survey

294

15

0

23 Sep 2025

OmniVLA: An Omni-Modal Vision-Language-Action Model for Robot Navigation

OmniVLA: An Omni-Modal Vision-Language-Action Model for Robot Navigation

Catherine Glossop

188

3

0

23 Sep 2025

SOE: Sample-Efficient Robot Policy Self-Improvement via On-Manifold Exploration

SOE: Sample-Efficient Robot Policy Self-Improvement via On-Manifold Exploration

176

0

0

23 Sep 2025

VGGT-DP: Generalizable Robot Control via Vision Foundation Models

VGGT-DP: Generalizable Robot Control via Vision Foundation Models

84

0

0

23 Sep 2025

EgoBridge: Domain Adaptation for Generalizable Imitation from Egocentric Human Data

EgoBridge: Domain Adaptation for Generalizable Imitation from Egocentric Human Data

Patcharapong Aphiwetsa

Lawrence Y. Zhu

221

3

0

23 Sep 2025

Growing with Your Embodied Agent: A Human-in-the-Loop Lifelong Code Generation Framework for Long-Horizon Manipulation Skills

Growing with Your Embodied Agent: A Human-in-the-Loop Lifelong Code Generation Framework for Long-Horizon Manipulation Skills

162

0

0

23 Sep 2025

OpenGVL -- Benchmarking Visual Temporal Progress for Data Curation

OpenGVL -- Benchmarking Visual Temporal Progress for Data Curation

Paweł Budzianowski

Viktor Petrenko

Krzysztof Walas

165

0

0

22 Sep 2025

PEEK: Guiding and Minimal Image Representations for Zero-Shot Generalization of Robot Manipulation Policies

PEEK: Guiding and Minimal Image Representations for Zero-Shot Generalization of Robot Manipulation Policies

129

1

0

22 Sep 2025

UniPixel: Unified Object Referring and Segmentation for Pixel-Level Visual Reasoning

UniPixel: Unified Object Referring and Segmentation for Pixel-Level Visual Reasoning

368

2

0

22 Sep 2025

Latent Action Pretraining Through World Modeling

Latent Action Pretraining Through World Modeling

211

1

0

22 Sep 2025

History-Aware Visuomotor Policy Learning via Point Tracking

History-Aware Visuomotor Policy Learning via Point Tracking

152

2

0

21 Sep 2025

FILIC: Dual-Loop Force-Guided Imitation Learning with Impedance Torque Control for Contact-Rich Manipulation Tasks

FILIC: Dual-Loop Force-Guided Imitation Learning with Impedance Torque Control for Contact-Rich Manipulation Tasks

92

0

0

21 Sep 2025

TranTac: Leveraging Transient Tactile Signals for Contact-Rich Robotic Manipulation

TranTac: Leveraging Transient Tactile Signals for Contact-Rich Robotic Manipulation

132

0

0

20 Sep 2025

CoReVLA: A Dual-Stage End-to-End Autonomous Driving Framework for Long-Tail Scenarios via Collect-and-Refine

CoReVLA: A Dual-Stage End-to-End Autonomous Driving Framework for Long-Tail Scenarios via Collect-and-Refine

151

4

0

19 Sep 2025

A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning

A Vision-Language-Action-Critic Model for Robotic Real-World Reinforcement Learning

192

10

0

19 Sep 2025

See&Trek: Training-Free Spatial Prompting for Multimodal Large Language Model

See&Trek: Training-Free Spatial Prompting for Multimodal Large Language Model

120

1

0

19 Sep 2025

Compose by Focus: Scene Graph-based Atomic Skills

Compose by Focus: Scene Graph-based Atomic Skills

260

1

0

19 Sep 2025

I-FailSense: Towards General Robotic Failure Detection with Vision-Language Models

I-FailSense: Towards General Robotic Failure Detection with Vision-Language Models

Clemence Grislain

Mohamed Chetouani

170

0

0

19 Sep 2025

GP3: A 3D Geometry-Aware Policy with Multi-View Images for Robotic Manipulation

GP3: A 3D Geometry-Aware Policy with Multi-View Images for Robotic Manipulation

129

3

0

19 Sep 2025

RLinf: Flexible and Efficient Large-scale Reinforcement Learning via Macro-to-Micro Flow Transformation

RLinf: Flexible and Efficient Large-scale Reinforcement Learning via Macro-to-Micro Flow Transformation

...

Guohao Dai

Yu Wang

124

3

0

19 Sep 2025

ExT: Towards Scalable Autonomous Excavation via Large-Scale Multi-Task Pretraining and Fine-Tuning

ExT: Towards Scalable Autonomous Excavation via Large-Scale Multi-Task Pretraining and Fine-Tuning

Lorenzo Terenzi

Diego Garcia Soto

175

0

0

18 Sep 2025

CollabVLA: Self-Reflective Vision-Language-Action Model Dreaming Together with Human

CollabVLA: Self-Reflective Vision-Language-Action Model Dreaming Together with Human

118

1

0

18 Sep 2025

COMPASS: Confined-space Manipulation Planning with Active Sensing Strategy

COMPASS: Confined-space Manipulation Planning with Active Sensing Strategy

100

0

0

18 Sep 2025

Ask-to-Clarify: Resolving Instruction Ambiguity through Multi-turn Dialogue

Ask-to-Clarify: Resolving Instruction Ambiguity through Multi-turn Dialogue

242

0

0

18 Sep 2025

RealMirror: A Comprehensive, Open-Source Vision-Language-Action Platform for Embodied AI

RealMirror: A Comprehensive, Open-Source Vision-Language-Action Platform for Embodied AI

...

152

1

0

18 Sep 2025

Self-Improving Embodied Foundation Models

Self-Improving Embodied Foundation Models

Seyed Kamyar Seyed Ghasemipour

Jonathan Tompson

Pannag R Sanketi

144

5

0

18 Sep 2025

1 2 3 4 5 6...13 14 15