End-to-End Referring Video Object Segmentation with Multimodal Transformers

29 November 2021

Adam Botach

Evgenii Zheltonozhskii

Chaim Baskin

VOS

ArXiv PDF HTML

Papers citing "End-to-End Referring Video Object Segmentation with Multimodal Transformers"

23 / 23 papers shown

Title
Referring Video Object Segmentation via Language-aligned Track Selection Seongchan Kim Woojeong Jin Sangbeom Lim Heeji Yoon Hyunwook Choi Seungryong Kim VOS 89 0 0 02 Dec 2024
SAMWISE: Infusing Wisdom in SAM2 for Text-Driven Video Segmentation Claudia Cuttano Gabriele Trivigno Gabriele Rosi Carlo Masone Giuseppe Averta VOS 101 2 0 26 Nov 2024
ViLLa: Video Reasoning Segmentation with Large Language Model Rongkun Zheng Lu Qi Xi Chen Yi Wang Kun Wang Yu Qiao Hengshuang Zhao VOS LRM 52 2 0 18 Jul 2024
1st Place Solution for MeViS Track in CVPR 2024 PVUW Workshop: Motion Expression guided Video Segmentation Mingqi Gao Jingnan Luo Jinyu Yang Jungong Han Feng Zheng 29 2 0 11 Jun 2024
Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation Zixin Zhu Xuelu Feng Dongdong Chen Junsong Yuan Chunming Qiao Gang Hua DiffM 29 7 0 18 Mar 2024
1st Place Solution for 5th LSVOS Challenge: Referring Video Object Segmentation Zhuoyan Luo Yicheng Xiao Yong Liu Yitong Wang Yansong Tang Xiu Li Yujiu Yang VOS 25 2 0 01 Jan 2024
Cross-modal Cognitive Consensus guided Audio-Visual Segmentation Zhaofeng Shi Qingbo Wu Fanman Meng Linfeng Xu Hongliang Li VOS 25 3 0 10 Oct 2023
Temporal Collection and Distribution for Referring Video Object Segmentation Jiajin Tang Ge Zheng Sibei Yang VOS 26 14 0 07 Sep 2023
Learning Cross-Modal Affinity for Referring Video Object Segmentation Targeting Limited Samples Guanghui Li Mingqi Gao Heng Liu Xiantong Zhen Feng Zheng VOS 23 3 0 05 Sep 2023
MeViS: A Large-scale Benchmark for Video Segmentation with Motion Expressions Henghui Ding Chang Liu Shuting He Xudong Jiang Chen Change Loy VOS 33 101 0 16 Aug 2023
RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation Yonglin Li Jing Zhang Xiao Teng Long Lan VOS VLM 19 17 0 03 Jul 2023
Bidirectional Correlation-Driven Inter-Frame Interaction Transformer for Referring Video Object Segmentation Meng Lan Fu Rong Zuchao Li Wei Yu L. Zhang VOS 24 5 0 02 Jul 2023
MarineVRS: Marine Video Retrieval System with Explainability via Semantic Understanding Tan-Sang Ha Hai Nguyen-Truong Tuan-Anh Vu Sai-Kit Yeung 23 0 0 07 Jun 2023
LRVS-Fashion: Extending Visual Search with Referring Instructions Simon Lepage Jérémie Mary David Picard 18 1 0 05 Jun 2023
Referred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation Shilin Yan Renrui Zhang Ziyu Guo Wenchao Chen Wei Zhang Hongyang Li Yu Qiao Hao Dong Zhongjiang He Peng Gao VOS 16 30 0 25 May 2023
Sketch-based Video Object Localization Sangmin Woo So-Yeong Jeon Jinyoung Park Minji Son Sumin Lee Changick Kim 8 0 0 02 Apr 2023
Referring Multi-Object Tracking Dongming Wu Wencheng Han Tiancai Wang Xingping Dong Xiangyu Zhang Jianbing Shen 24 71 0 06 Mar 2023
MOSE: A New Dataset for Video Object Segmentation in Complex Scenes Henghui Ding Chang Liu Shuting He Xudong Jiang Philip H. S. Torr S. Bai VOS 25 132 0 03 Feb 2023
Hybrid Transformer Based Feature Fusion for Self-Supervised Monocular Depth Estimation S. Tomar Maitreya Suin A. N. Rajagopalan ViT MDE 11 4 0 20 Nov 2022
Multi-Attention Network for Compressed Video Referring Object Segmentation Weidong Chen Dexiang Hong Yuankai Qi Zhenjun Han Shuhui Wang Laiyun Qing Qingming Huang Guorong Li VOS 18 35 0 26 Jul 2022
Multimodal Learning with Transformers: A Survey P. Xu Xiatian Zhu David A. Clifton ViT 41 522 0 13 Jun 2022
Local-Global Context Aware Transformer for Language-Guided Video Segmentation Chen Liang Wenguan Wang Tianfei Zhou Jiaxu Miao Yawei Luo Yi Yang VOS 22 74 0 18 Mar 2022
Conditional Convolutions for Instance Segmentation Zhi Tian Chunhua Shen Hao Chen ISeg 169 597 0 12 Mar 2020