Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video
Object Segmentation

Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation

18 March 2024

Xuelu Feng

Junsong Yuan

Chunming Qiao

Gang Hua

Papers citing "Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation"

8 / 8 papers shown

Title
SMITE: Segment Me In TimE Amirhossein Alimohammadi Sauradip Nag Saeid Asgari Taghanaki Andrea Tagliasacchi Ghassan Hamarneh Ali Mahdavi-Amiri VLM VOS 84 2 0 20 Feb 2025
OmniVid: A Generative Framework for Universal Video Understanding Junke Wang Dongdong Chen Chong Luo Bo He Lu Yuan Zuxuan Wu Yu-Gang Jiang VLM VGen 69 14 0 26 Mar 2024
Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets A. Blattmann Tim Dockhorn Sumith Kulal Daniel Mendelevitch Maciej Kilian ... Zion English Vikram S. Voleti Adam Letts Varun Jampani Robin Rombach VGen 150 985 0 25 Nov 2023
Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models Jiarui Xu Sifei Liu Arash Vahdat Wonmin Byeon Xiaolong Wang Shalini De Mello VLM 209 318 0 08 Mar 2023
VLT: Vision-Language Transformer and Query Generation for Referring Segmentation Henghui Ding Chang Liu Suchen Wang Xudong Jiang 63 115 0 28 Oct 2022
Semantic Image Synthesis via Diffusion Models Weilun Wang Weilun Wang Wen-gang Zhou Dongdong Chen Dong Chen Lu Yuan Houqiang Li DiffM 209 175 0 30 Jun 2022
LAVT: Language-Aware Vision Transformer for Referring Image Segmentation Zhao Yang Jiaqi Wang Yansong Tang Kai-xiang Chen Hengshuang Zhao Philip H. S. Torr 133 308 0 04 Dec 2021
Palette: Image-to-Image Diffusion Models Chitwan Saharia William Chan Huiwen Chang Chris A. Lee Jonathan Ho Tim Salimans David J. Fleet Mohammad Norouzi DiffM VLM 325 1,570 0 10 Nov 2021