SAM 2: Segment Anything in Images and Videos

International Conference on Learning Representations (ICLR), 2024

1 August 2024

Roman Rädle

Kalyan Vasudev Alwala

Nicolas Carion

Chao-Yuan Wu

Ross B. Girshick

Piotr Dollár

Christoph Feichtenhofer

VLM

MLLM

ArXiv (abs)PDF HTML HuggingFace (116 upvotes)

Papers citing "SAM 2: Segment Anything in Images and Videos"

50 / 863 papers shown

^2

: Weakly Supervised Segmentation using Before-After Supervision in Waste Sorting

118

08 Sep 2025

Co-Seg: Mutual Prompt-Guided Collaborative Learning for Tissue and Nuclei SegmentationInternational Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI), 2025

Qing Xu

Wenting Duan

Daming Gao

156

08 Sep 2025

GELATO: Multi-Instruction Trajectory Reshaping via Geometry-Aware Multiagent-based Orchestration

148

07 Sep 2025

MonoGlass3D: Monocular 3D Glass Detection with Plane Regression and Adaptive Feature Fusion

126

06 Sep 2025

Enhancing Self-Driving Segmentation in Adverse Weather Conditions: A Dual Uncertainty-Aware Training Approach to SAM Optimization

111

05 Sep 2025

PAOLI: Pose-free Articulated Object Learning from Sparse-view Images

248

04 Sep 2025

SLENet: A Guidance-Enhanced Network for Underwater Camouflaged Object Detection

148

04 Sep 2025

Strefer: Empowering Video LLMs with Space-Time Referring and Reasoning via Synthetic Instruction Data

130

03 Sep 2025

PixFoundation 2.0: Do Video Multi-Modal LLMs Use Motion in Visual Grounding?

Mennatullah Siam

VGen

118

02 Sep 2025

Scalable Option Learning in High-Throughput Environments

208

30 Aug 2025

Visually Grounded Narratives: Reducing Cognitive Burden in Researcher-Participant Interaction

144

30 Aug 2025

DGL-RSIS: Decoupling Global Spatial Context and Local Class Semantics for Training-Free Remote Sensing Image Segmentation

114

30 Aug 2025

3D-LATTE: Latent Space 3D Editing from Textual Instructions

300

29 Aug 2025

SPGrasp: Spatiotemporal Prompt-driven Grasp Synthesis in Dynamic Scenes

157

28 Aug 2025

Dino U-Net: Exploiting High-Fidelity Dense Features from Foundation Models for Medical Image Segmentation

118

28 Aug 2025

Generalizable Object Re-Identification via Visual In-Context Prompting

Zhizhong Huang

Xiaoming Liu

28 Aug 2025

Color Bind: Exploring Color Perception in Text-to-Image Models

213

27 Aug 2025

FreeVPS: Repurposing Training-Free SAM2 for Generalizable Video Polyp Segmentation

153

27 Aug 2025

SWIRL: A Staged Workflow for Interleaved Reinforcement Learning in Mobile GUI Control

220

27 Aug 2025

ZeST: an LLM-based Zero-Shot Traversability Navigation for Unknown Environments

151

26 Aug 2025

Autoregressive Universal Video Segmentation Model

242

26 Aug 2025

ArgusCogito: Chain-of-Thought for Cross-Modal Synergy and Omnidirectional Reasoning in Camouflaged Object Segmentation

140

25 Aug 2025

SafeBimanual: Diffusion-based Trajectory Optimization for Safe Bimanual Manipulation

116

25 Aug 2025

Quickly Tuning Foundation Models for Image Segmentation

140

24 Aug 2025

LodeStar: Long-horizon Dexterity via Synthetic Data Augmentation from Human Demonstrations

161

24 Aug 2025

WebSight: A Vision-First Architecture for Robust Web Agents

Tanvir Bhathal

Asanshay Gupta

LRM

134

23 Aug 2025

NeuralMeshing: Complete Object Mesh Extraction from Casual Captures

144

22 Aug 2025

Seeing Clearly, Forgetting Deeply: Revisiting Fine-Tuned Video Generators for Driving Simulation

265

22 Aug 2025

Towards Open World Detection: A Survey

Andrei-Stefan Bulzan

Cosmin Cernazanu-Glavan

ObjD VLM

220

22 Aug 2025

Self-Validated Learning for Particle Separation: A Correctness-Based Self-Training Framework Without Human Labels

112

22 Aug 2025

Lang2Lift: A Framework for Language-Guided Pallet Detection and Pose Estimation Integrated in Autonomous Outdoor Forklift Operation

104

21 Aug 2025

SceneGen: Single-Image 3D Scene Generation in One Feedforward Pass

393

21 Aug 2025

WorldWeaver: Generating Long-Horizon Video Worlds via Rich Perception

171

21 Aug 2025

WeedSense: Multi-Task Learning for Weed Segmentation, Height Estimation, and Growth Stage Classification

Toqi Tahamid Sarker

Khaled R Ahmed

Taminul Islam

Cristiana Bernardi Rankrape

Karla Gage

114

20 Aug 2025

GaussianArt: Unified Modeling of Geometry and Motion for Articulated Objects

207

20 Aug 2025

RynnEC: Bringing MLLMs into Embodied World

216

19 Aug 2025

Train Once, Deploy Anywhere: Realize Data-Efficient Dynamic Object Manipulation

122

19 Aug 2025

subCellSAM: Zero-Shot (Sub-)Cellular Segmentation for Hit Validation in Drug Discovery

111

19 Aug 2025

MR6D: Benchmarking 6D Pose Estimation for Mobile Robots

139

19 Aug 2025

Unleashing Semantic and Geometric Priors for 3D Scene Completion

131

19 Aug 2025

Odo: Depth-Guided Diffusion for Identity-Preserving Body Reshaping

214

18 Aug 2025

Precise Action-to-Video Generation Through Visual Action Prompts

147

18 Aug 2025

AIM 2025 Rip Current Segmentation (RipSeg) Challenge Report

...

241

18 Aug 2025

SIS-Challenge: Event-based Spatio-temporal Instance Segmentation Challenge at the CVPR 2025 Event-based Vision Workshop

...

219

18 Aug 2025

DynamicPose: Real-time and Robust 6D Object Pose Tracking for Fast-Moving Cameras and Objects

127

16 Aug 2025

Remove360: Benchmarking Residuals After Object Removal in 3D Gaussian Splatting

131

15 Aug 2025

LEARN: A Story-Driven Layout-to-Image Generation Framework for STEM Instruction

15 Aug 2025

Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception

142

15 Aug 2025

Privacy-enhancing Sclera Segmentation Benchmarking Competition: SSBC 2025

...

Raghavendra Ramachandra

148

14 Aug 2025

Towards Agentic AI for Multimodal-Guided Video Object Segmentation

184

14 Aug 2025