Language as Queries for Referring Video Object Segmentation

3 January 2022

Papers citing "Language as Queries for Referring Video Object Segmentation"

34 / 34 papers shown

Title
ReSurgSAM2: Referring Segment Anything in Surgical Video via Credible Long-term Tracking Haofeng Liu Mingqi Gao Xuxiao Luo Ziyue Wang Guanyi Qin J. Wu Yueming Jin 27 0 0 13 May 2025
InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling Yi Wang Xinhao Li Ziang Yan Yinan He Jiashuo Yu ... Kai Chen Wenhai Wang Yu Qiao Yali Wang Limin Wang 76 19 0 21 Jan 2025
Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos Haobo Yuan X. Li Tao Zhang Zilong Huang Shilin Xu S. Ji Yunhai Tong Lu Qi Jiashi Feng Ming Yang VLM 92 11 0 07 Jan 2025
Referring Video Object Segmentation via Language-aligned Track Selection Seongchan Kim Woojeong Jin Sangbeom Lim Heeji Yoon Hyunwook Choi Seungryong Kim VOS 89 0 0 02 Dec 2024
SAMWISE: Infusing Wisdom in SAM2 for Text-Driven Video Segmentation Claudia Cuttano Gabriele Trivigno Gabriele Rosi Carlo Masone Giuseppe Averta VOS 101 2 0 26 Nov 2024
Motion-Grounded Video Reasoning: Understanding and Perceiving Motion at Pixel Level Andong Deng Tongjia Chen Shoubin Yu Taojiannan Yang Lincoln Spencer Yapeng Tian Ajmal Saeed Mian Mohit Bansal Chen Chen LRM 54 1 0 15 Nov 2024
ViLLa: Video Reasoning Segmentation with Large Language Model Rongkun Zheng Lu Qi Xi Chen Yi Wang Kun Wang Yu Qiao Hengshuang Zhao VOS LRM 52 2 0 18 Jul 2024
CPM: Class-conditional Prompting Machine for Audio-visual Segmentation Yuanhong Chen Chong Wang Yuyuan Liu Hu Wang Gustavo Carneiro 40 2 0 07 Jul 2024
1st Place Solution for MeViS Track in CVPR 2024 PVUW Workshop: Motion Expression guided Video Segmentation Mingqi Gao Jingnan Luo Jinyu Yang Jungong Han Feng Zheng 29 2 0 11 Jun 2024
Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation Zixin Zhu Xuelu Feng Dongdong Chen Junsong Yuan Chunming Qiao Gang Hua DiffM 29 7 0 18 Mar 2024
UniVS: Unified and Universal Video Segmentation with Prompts as Queries Ming-hui Li Shuai Li Xindong Zhang Lei Zhang VOS 33 16 0 28 Feb 2024
DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) Zongxin Yang Guikun Chen Xiaodi Li Wenguan Wang Yi Yang LM&Ro LLMAG 48 35 0 16 Jan 2024
1st Place Solution for 5th LSVOS Challenge: Referring Video Object Segmentation Zhuoyan Luo Yicheng Xiao Yong Liu Yitong Wang Yansong Tang Xiu Li Yujiu Yang VOS 25 2 0 01 Jan 2024
Cross-modal Cognitive Consensus guided Audio-Visual Segmentation Zhaofeng Shi Qingbo Wu Fanman Meng Linfeng Xu Hongliang Li VOS 25 3 0 10 Oct 2023
Tracking Anything with Decoupled Video Segmentation Ho Kei Cheng Seoung Wug Oh Brian L. Price Alexander Schwing Joon-Young Lee VOS VLM 30 121 0 07 Sep 2023
Temporal Collection and Distribution for Referring Video Object Segmentation Jiajin Tang Ge Zheng Sibei Yang VOS 26 14 0 07 Sep 2023
Learning Cross-Modal Affinity for Referring Video Object Segmentation Targeting Limited Samples Guanghui Li Mingqi Gao Heng Liu Xiantong Zhen Feng Zheng VOS 26 3 0 05 Sep 2023
MeViS: A Large-scale Benchmark for Video Segmentation with Motion Expressions Henghui Ding Chang Liu Shuting He Xudong Jiang Chen Change Loy VOS 33 101 0 16 Aug 2023
RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation Yonglin Li Jing Zhang Xiao Teng Long Lan VOS VLM 19 17 0 03 Jul 2023
Bidirectional Correlation-Driven Inter-Frame Interaction Transformer for Referring Video Object Segmentation Meng Lan Fu Rong Zuchao Li Wei Yu L. Zhang VOS 26 5 0 02 Jul 2023
MarineVRS: Marine Video Retrieval System with Explainability via Semantic Understanding Tan-Sang Ha Hai Nguyen-Truong Tuan-Anh Vu Sai-Kit Yeung 23 0 0 07 Jun 2023
LRVS-Fashion: Extending Visual Search with Referring Instructions Simon Lepage Jérémie Mary David Picard 18 1 0 05 Jun 2023
Referred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation Shilin Yan Renrui Zhang Ziyu Guo Wenchao Chen Wei Zhang Hongyang Li Yu Qiao Hao Dong Zhongjiang He Peng Gao VOS 16 30 0 25 May 2023
Referring Multi-Object Tracking Dongming Wu Wencheng Han Tiancai Wang Xingping Dong Xiangyu Zhang Jianbing Shen 24 71 0 06 Mar 2023
Connecting Vision and Language with Video Localized Narratives P. Voigtlaender Soravit Changpinyo Jordi Pont-Tuset Radu Soricut V. Ferrari VGen 31 21 0 22 Feb 2023
1st Place Solution for YouTubeVOS Challenge 2022: Referring Video Object Segmentation Zhiwei Hu Bo Chen Yuan Gao Zhilong Ji Jinfeng Bai VOS 32 5 0 27 Dec 2022
Prototype as Query for Few Shot Semantic Segmentation Leilei Cao Yibo Guo Ye Yuan Qiangguo Jin ViT 20 10 0 27 Nov 2022
Local-Global Context Aware Transformer for Language-Guided Video Segmentation Chen Liang Wenguan Wang Tianfei Zhou Jiaxu Miao Yawei Luo Yi Yang VOS 22 74 0 18 Mar 2022
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao ViT 263 3,604 0 24 Feb 2021
TrackFormer: Multi-Object Tracking with Transformers Tim Meinhardt A. Kirillov Laura Leal-Taixe Christoph Feichtenhofer VOT 218 741 0 07 Jan 2021
TransTrack: Multiple Object Tracking with Transformer Pei Sun Jinkun Cao Yi-Xin Jiang Rufeng Zhang Enze Xie Zehuan Yuan Changhu Wang Ping Luo ViT VOT 241 564 0 31 Dec 2020
Multi-task Collaborative Network for Joint Referring Expression Comprehension and Segmentation Gen Luo Yiyi Zhou Xiaoshuai Sun Liujuan Cao Chenglin Wu Cheng Deng Rongrong Ji ObjD 159 286 0 19 Mar 2020
STEm-Seg: Spatio-temporal Embeddings for Instance Segmentation in Videos A. Athar Sabarinath Mahadevan Aljosa Osep Laura Leal-Taixé Bastian Leibe VOS 70 170 0 18 Mar 2020
Conditional Convolutions for Instance Segmentation Zhi Tian Chunhua Shen Hao Chen ISeg 169 597 0 12 Mar 2020