v1v2 (latest)

SSTVOS: Sparse Spatiotemporal Transformers for Video Object Segmentation

Computer Vision and Pattern Recognition (CVPR), 2021

21 January 2021

ArXiv (abs)PDF HTML Github (87★)

Papers citing "SSTVOS: Sparse Spatiotemporal Transformers for Video Object Segmentation"

50 / 100 papers shown

Segment Anything Across Shots: A Method and Benchmark

404

17 Nov 2025

MOSEv2: A More Challenging Dataset for Video Object Segmentation in Complex Scenes

416

07 Aug 2025

Advancing Complex Video Object Segmentation via Progressive Concept Construction

305

21 Jul 2025

OpenAVS: Training-Free Open-Vocabulary Audio Visual Segmentation with Foundational Models

329

30 Apr 2025

MoSAM: Motion-Guided Segment Anything Model with Spatial-Temporal Memory Selection

373

30 Apr 2025

EdgeTAM: On-Device Track Anything ModelComputer Vision and Pattern Recognition (CVPR), 2025

...

Raghuraman Krishnamoorthi

369

13 Jan 2025

Efficient Track Anything

...

Raghuraman Krishnamoorthi

Bilge Soran

Vikas Chandra

VLM VOS

307

28 Nov 2024

SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree

434

21 Oct 2024

ImmersePro: End-to-End Stereo Video Synthesis Via Implicit Disparity Learning

303

30 Sep 2024

X-Prompt: Multi-modal Visual Prompt for Video Object SegmentationACM Multimedia (MM), 2024

Pinxue Guo

Wanyun Li

Hao Huang

Lingyi Hong

Xinyu Zhou

Zhaoyu Chen

Jinglun Li

Kaixun Jiang

Wei Zhang

Wenqiang Zhang

VLM VOS

298

28 Sep 2024

AVESFormer: Efficient Transformer Design for Real-Time Audio-Visual Segmentation

286

03 Aug 2024

Learning Natural Consistency Representation for Face Forgery Video Detection

382

15 Jul 2024

Learning Spatial-Semantic Features for Robust Video Object Segmentation

373

10 Jul 2024

RMem: Restricted Memory Banks Improve Video Object Segmentation

481

12 Jun 2024

Progressive Confident Masking Attention Network for Audio-Visual Segmentation

Yuxuan Wang

Feng Dong

Jinchao Zhu

Shuyue Zhu

VOS

433

04 Jun 2024

Spatial-Temporal Multi-level Association for Video Object SegmentationEuropean Conference on Computer Vision (ECCV), 2024

Deshui Miao

Xin Li

Zhenyu He

Huchuan Lu

Ming-Hsuan Yang

VOS

207

09 Apr 2024

Efficient Video Object Segmentation via Modulated Cross-Attention Memory

Abdelrahman M. Shaker

Salman Khan

Fahad Shahbaz Khan

230

26 Mar 2024

Video Object Segmentation with Dynamic Query ModulationIEEE International Conference on Multimedia and Expo (ICME), 2024

Hantao Zhou

Runze Hu

Xiu Li

VOS

210

18 Mar 2024

OneVOS: Unifying Video Object Segmentation with All-in-One Transformer FrameworkEuropean Conference on Computer Vision (ECCV), 2024

Wanyun Li

Pinxue Guo

Xinyu Zhou

Lingyi Hong

383

13 Mar 2024

Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues

348

04 Feb 2024

Self-supervised Video Object Segmentation with Distillation Learning of Deformable Attention

393

25 Jan 2024

TAM-VT: Transformation-Aware Multi-scale Video Transformer for Segmentation and TrackingIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

318

13 Dec 2023

Cooperation Does Matter: Exploring Multi-Order Bilateral Relations for Audio-Visual Segmentation

Pengfei Gao

Pengfei Yan

262

11 Dec 2023

Putting the Object Back into Video Object Segmentation

500

212

19 Oct 2023

Multimodal Variational Auto-encoder based Audio-Visual SegmentationIEEE International Conference on Computer Vision (ICCV), 2023

Yuchao Dai

213

12 Oct 2023

Cross-modal Cognitive Consensus guided Audio-Visual SegmentationIEEE transactions on multimedia (IEEE TMM), 2023

Zhaofeng Shi

Qingbo Wu

Fanman Meng

Linfeng Xu

Hongliang Li

VOS

521

10 Oct 2023

Segmenting the motion components of a video: A long-term unsupervised modelIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

E. Meunier

P. Bouthemy

550

02 Oct 2023

QDFormer: Towards Robust Audiovisual Segmentation in Complex Environments with Quantization-based Semantic DecompositionComputer Vision and Pattern Recognition (CVPR), 2023

Xiang Li

Bhiksha Raj

416

29 Sep 2023

CATR: Combinatorial-Dependence Audio-Queried Transformer for Audio-Visual Video SegmentationACM Multimedia (ACM MM), 2023

Lei Chen

357

18 Sep 2023

Discovering Sounding Objects by Audio Queries for Audio Visual SegmentationInternational Joint Conference on Artificial Intelligence (IJCAI), 2023

217

18 Sep 2023

Integrating Boxes and Masks: A Multi-Object Framework for Unified Visual Tracking and SegmentationIEEE International Conference on Computer Vision (ICCV), 2023

419

25 Aug 2023

Joint Modeling of Feature, Correspondence, and a Compressed Memory for Video Object Segmentation

326

25 Aug 2023

Scalable Video Object Segmentation with Simplified FrameworkIEEE International Conference on Computer Vision (ICCV), 2023

252

19 Aug 2023

Improving Audio-Visual Segmentation with Bidirectional GenerationAAAI Conference on Artificial Intelligence (AAAI), 2023

Yuchao Dai

253

16 Aug 2023

Isomer: Isomerous Transformer for Zero-shot Video Object SegmentationIEEE International Conference on Computer Vision (ICCV), 2023

Huchuan Lu

Lei Zhang

254

13 Aug 2023

Learning Referring Video Object Segmentation from Weak Annotation

Yang You

291

04 Aug 2023

Contrastive Conditional Latent Diffusion for Audio-visual SegmentationIEEE Transactions on Image Processing (IEEE TIP), 2023

474

31 Jul 2023

Audio-aware Query-enhanced Transformer for Audio-Visual Segmentation

440

25 Jul 2023

Hierarchical Spatiotemporal Transformers for Video Object Segmentation

205

17 Jul 2023

MSViT: Dynamic Mixed-Scale Tokenization for Vision Transformers

Jakob Drachmann Havtorn

Amelie Royer

Tijmen Blankevoort

B. Bejnordi

327

05 Jul 2023

AVSegFormer: Audio-Visual Segmentation with TransformerAAAI Conference on Artificial Intelligence (AAAI), 2023

535

03 Jul 2023

Hiera: A Hierarchical Vision Transformer without the Bells-and-WhistlesInternational Conference on Machine Learning (ICML), 2023

...

Christoph Feichtenhofer

3DH

463

373

01 Jun 2023

SOC: Semantic-Assisted Object Cluster for Referring Video Object SegmentationNeural Information Processing Systems (NeurIPS), 2023

Yujiu Yang

237

26 May 2023

Referred by Multi-Modality: A Unified Temporal Transformer for Video Object SegmentationAAAI Conference on Artificial Intelligence (AAAI), 2023

Ziyu Guo

Wei Zhang

Yu Qiao

Zhongjiang He

383

25 May 2023

Annotation-free Audio-Visual SegmentationIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023

456

18 May 2023

Transavs: End-To-End Audio-Visual Segmentation With TransformerIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023

Jiangning Zhang

Yabiao Wang

211

12 May 2023

Boosting Video Object Segmentation via Space-time Correspondence LearningComputer Vision and Pattern Recognition (CVPR), 2023

Wenjun Zhang

276

13 Apr 2023

Co-attention Propagation Network for Zero-Shot Video Object SegmentationIEEE Transactions on Image Processing (IEEE TIP), 2023

303

08 Apr 2023

Online Lane Graph Extraction from Onboard Video

Y. Can

Alexander Liniger

D. Paudel

Luc Van Gool

243

03 Apr 2023

Sparsifiner: Learning Sparse Instance-Dependent Attention for Efficient Vision TransformersComputer Vision and Pattern Recognition (CVPR), 2023

223

24 Mar 2023