Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2408.00714
Cited By

SAM 2: Segment Anything in Images and Videos

SAM 2: Segment Anything in Images and Videos

International Conference on Learning Representations (ICLR), 2024

1 August 2024

Valentin Gabeur

Chaitanya K. Ryali

Roman Rädle

Laura Gustafson

Kalyan Vasudev Alwala

Ross B. Girshick

Piotr Dollár

Christoph Feichtenhofer

ArXiv (abs)PDF HTML HuggingFace (116 upvotes)

Papers citing "SAM 2: Segment Anything in Images and Videos"

50 / 863 papers shown

RemoteReasoner: Towards Unifying Geospatial Reasoning Workflow

RemoteReasoner: Towards Unifying Geospatial Reasoning Workflow

250

8

0

24 Dec 2025

Prompt2Craft: Generating Functional Craft Assemblies with LLMs

Prompt2Craft: Generating Functional Craft Assemblies with LLMs

Takuya Kiyokawa

126

0

0

04 Dec 2025

Mitigating Object and Action Hallucinations in Multimodal LLMs via Self-Augmented Contrastive Alignment

Mitigating Object and Action Hallucinations in Multimodal LLMs via Self-Augmented Contrastive Alignment

275

1

0

04 Dec 2025

Refaçade: Editing Object with Given Reference Texture

Refaçade: Editing Object with Given Reference Texture

185

0

0

04 Dec 2025

SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL

SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL

Mikaela Angelina Uy

Adithyavairavan Murali

Stan Birchfield

Jonathan Tremblay

162

0

0

03 Dec 2025

ViDiC: Video Difference Captioning

ViDiC: Video Difference Captioning

174

0

0

03 Dec 2025

OpenTrack3D: Towards Accurate and Generalizable Open-Vocabulary 3D Instance Segmentation

OpenTrack3D: Towards Accurate and Generalizable Open-Vocabulary 3D Instance Segmentation

71

0

0

03 Dec 2025

DirectDrag: High-Fidelity, Mask-Free, Prompt-Free Drag-based Image Editing via Readout-Guided Feature Alignment

DirectDrag: High-Fidelity, Mask-Free, Prompt-Free Drag-based Image Editing via Readout-Guided Feature Alignment

Wen-Huang Cheng

135

0

0

03 Dec 2025

CRAFT-E: A Neuro-Symbolic Framework for Embodied Affordance Grounding

CRAFT-E: A Neuro-Symbolic Framework for Embodied Affordance Grounding

Sathyanarayanan N. Aakur

39

0

0

03 Dec 2025

DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling

DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling

...

415

0

0

02 Dec 2025

ReVSeg: Incentivizing the Reasoning Chain for Video Segmentation with Reinforcement Learning

ReVSeg: Incentivizing the Reasoning Chain for Video Segmentation with Reinforcement Learning

396

0

0

02 Dec 2025

SAM2Grasp: Resolve Multi-modal Grasping via Prompt-conditioned Temporal Action Prediction

SAM2Grasp: Resolve Multi-modal Grasping via Prompt-conditioned Temporal Action Prediction

131

0

0

02 Dec 2025

Video Diffusion Models Excel at Tracking Similar-Looking Objects Without Supervision

Video Diffusion Models Excel at Tracking Similar-Looking Objects Without Supervision

Chenshuang Zhang

238

0

0

02 Dec 2025

Experimental Characterization of Fingertip Trajectory following for a 3-DoF Series-Parallel Hybrid Robotic Finger

Experimental Characterization of Fingertip Trajectory following for a 3-DoF Series-Parallel Hybrid Robotic Finger

Nicholas Baiata

Nilanjan Chakraborty

170

0

0

02 Dec 2025

Hear What Matters! Text-conditioned Selective Video-to-Audio Generation

Hear What Matters! Text-conditioned Selective Video-to-Audio Generation

113

0

0

02 Dec 2025

Generative Video Motion Editing with 3D Point Tracks

DiffM VGen 3DPC

273

0

0

01 Dec 2025

AlignVid: Training-Free Attention Scaling for Semantic Fidelity in Text-Guided Image-to-Video Generation

90

0

0

01 Dec 2025

Learning Visual Affordance from Audio

Learning Visual Affordance from Audio

153

0

0

01 Dec 2025

SpriteHand: Real-Time Versatile Hand-Object Interaction with Autoregressive Video Generation

192

0

0

01 Dec 2025

UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits

UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits

77

0

0

01 Dec 2025

VSRD++: Autolabeling for 3D Object Detection via Instance-Aware Volumetric Silhouette Rendering

VSRD++: Autolabeling for 3D Object Detection via Instance-Aware Volumetric Silhouette Rendering

Masatoshi Okutomi

112

0

0

01 Dec 2025

SAM3-UNet: Simplified Adaptation of Segment Anything Model 3

SAM3-UNet: Simplified Adaptation of Segment Anything Model 3

174

0

0

01 Dec 2025

PAI-Bench: A Comprehensive Benchmark For Physical AI

169

3

0

01 Dec 2025

Better, Stronger, Faster: Tackling the Trilemma in MLLM-based Segmentation with Simultaneous Textual Mask Prediction

Better, Stronger, Faster: Tackling the Trilemma in MLLM-based Segmentation with Simultaneous Textual Mask Prediction

96

0

0

29 Nov 2025

What about gravity in video generation? Post-Training Newton's Laws with Verifiable Rewards

What about gravity in video generation? Post-Training Newton's Laws with Verifiable Rewards

Vicky Kalogeiton

Dimitris Samaras

91

1

0

29 Nov 2025

UniGeoSeg: Towards Unified Open-World Segmentation for Geospatial Scenes

UniGeoSeg: Towards Unified Open-World Segmentation for Geospatial Scenes

225

1

0

28 Nov 2025

InstanceV: Instance-Level Video Generation

InstanceV: Instance-Level Video Generation

Jiangning Zhang

127

0

0

28 Nov 2025

Object-Centric Data Synthesis for Category-level Object Detection

Object-Centric Data Synthesis for Category-level Object Detection

Vikhyat Agarwal

Srilakshmi Pattabiraman

229

0

0

28 Nov 2025

Video-CoM: Interactive Video Reasoning via Chain of Manipulations

Video-CoM: Interactive Video Reasoning via Chain of Manipulations

Ming-Hsuan Yang

Fahad Shahbaz Khan

168

0

0

28 Nov 2025

MultiBanana: A Challenging Benchmark for Multi-Reference Text-to-Image Generation

MultiBanana: A Challenging Benchmark for Multi-Reference Text-to-Image Generation

Kohsei Matsutani

Masahiro Suzuki

67

0

0

28 Nov 2025

Optimizing Multimodal Language Models through Attention-based Interpretability

Optimizing Multimodal Language Models through Attention-based Interpretability

Alexander Sergeev

Evgeny Kotelnikov

200

0

0

28 Nov 2025

DiffStyle360: Diffusion-Based 360° Head Stylization via Style Fusion Attention

DiffStyle360: Diffusion-Based 360° Head Stylization via Style Fusion Attention

Furkan Guzelant

Aysegül Dündar

78

0

0

27 Nov 2025

Improving Robotic Manipulation Robustness via NICE Scene Surgery

Improving Robotic Manipulation Robustness via NICE Scene Surgery

Sajjad Pakdamansavoji

Mozhgan Pourkeshavarz

84

0

0

27 Nov 2025

Geometrically-Constrained Agent for Spatial Reasoning

Geometrically-Constrained Agent for Spatial Reasoning

121

0

0

27 Nov 2025

Comparing SAM 2 and SAM 3 for Zero-Shot Segmentation of 3D Medical Data

Comparing SAM 2 and SAM 3 for Zero-Shot Segmentation of 3D Medical Data

Satrajit Chakrabarty

196

0

0

26 Nov 2025

AVFakeBench: A Comprehensive Audio-Video Forgery Detection Benchmark for AV-LMMs

AVFakeBench: A Comprehensive Audio-Video Forgery Detection Benchmark for AV-LMMs

243

0

0

26 Nov 2025

ReSAM: Refine, Requery, and Reinforce: Self-Prompting Point-Supervised Segmentation for Remote Sensing Images

ReSAM: Refine, Requery, and Reinforce: Self-Prompting Point-Supervised Segmentation for Remote Sensing Images

M.Naseer Subhani

224

1

0

26 Nov 2025

CanKD: Cross-Attention-based Non-local operation for Feature-based Knowledge Distillation

CanKD: Cross-Attention-based Non-local operation for Feature-based Knowledge Distillation

224

0

0

26 Nov 2025

CtrlVDiff: Controllable Video Generation via Unified Multimodal Video Diffusion

CtrlVDiff: Controllable Video Generation via Unified Multimodal Video Diffusion

...

213

0

0

26 Nov 2025

Zoo3D: Zero-Shot 3D Object Detection at Scene Level

Zoo3D: Zero-Shot 3D Object Detection at Scene Level

Andrey Lemeshko

Bulat Gabdullin

Maksim Kolodiazhnyi

441

0

0

25 Nov 2025

SAM-MI: A Mask-Injected Framework for Enhancing Open-Vocabulary Semantic Segmentation with SAM

SAM-MI: A Mask-Injected Framework for Enhancing Open-Vocabulary Semantic Segmentation with SAM

149

0

0

25 Nov 2025

Motion Marionette: Rethinking Rigid Motion Transfer via Prior Guidance

Motion Marionette: Rethinking Rigid Motion Transfer via Prior Guidance

Ramana Rao Kompella

197

0

0

25 Nov 2025

GigaWorld-0: World Models as Data Engine to Empower Embodied AI

GigaWorld-0: World Models as Data Engine to Empower Embodied AI

...

391

2

0

25 Nov 2025

The Image as Its Own Reward: Reinforcement Learning with Adversarial Reward for Image Generation

The Image as Its Own Reward: Reinforcement Learning with Adversarial Reward for Image Generation

Mike Zheng Shou

278

0

0

25 Nov 2025

MedSAM3: Delving into Segment Anything with Medical Concepts

MedSAM3: Delving into Segment Anything with Medical Concepts

484

0

0

24 Nov 2025

Ref-SAM3D: Bridging SAM3D with Text for Reference 3D Reconstruction

Ref-SAM3D: Bridging SAM3D with Text for Reference 3D Reconstruction

75

0

0

24 Nov 2025

LAST: LeArning to Think in Space and Time for Generalist Vision-Language Models

LAST: LeArning to Think in Space and Time for Generalist Vision-Language Models

175

1

0

24 Nov 2025

RADSeg: Unleashing Parameter and Compute Efficient Zero-Shot Open-Vocabulary Segmentation Using Agglomerative Models

RADSeg: Unleashing Parameter and Compute Efficient Zero-Shot Open-Vocabulary Segmentation Using Agglomerative Models

Darshil Jariwala

A. Bhattacharya

Sebastian A. Scherer

183

0

0

24 Nov 2025

CataractCompDetect: Intraoperative Complication Detection in Cataract Surgery

CataractCompDetect: Intraoperative Complication Detection in Cataract Surgery

Bhuvan Sachdeva

Rudransh Agarwal

Shalaka Kumaraswamy

Niharika Singri Prasad

...

Raphael Lechtenboehmer

99

0

0

24 Nov 2025

IDSplat: Instance-Decomposed 3D Gaussian Splatting for Driving Scenes

IDSplat: Instance-Decomposed 3D Gaussian Splatting for Driving Scenes

Carl Lindström

Mahan Rafidashti

Lars Hammarstrand

Martin R. Oswald

Lennart Svensson

191

1

0

24 Nov 2025

1 2 3 4...16 17 18

Page 1 of 18

Pageof 18