Track Anything: Segment Anything Meets Videos

24 April 2023

Papers citing "Track Anything: Segment Anything Meets Videos"

45 / 45 papers shown

Title
Pro2SAM: Mask Prompt to SAM with Grid Points for Weakly Supervised Object Localization Xi Yang Songsong Duan Nannan Wang Xinbo Gao WSOL 78 0 0 08 May 2025
Mix-QSAM: Mixed-Precision Quantization of the Segment Anything Model Navin Ranjan Andreas E. Savakis MQ VLM 68 0 0 08 May 2025
A Survey on 3D Reconstruction Techniques in Plant Phenotyping: From Classical Methods to Neural Radiance Fields (NeRF), 3D Gaussian Splatting (3DGS), and Beyond Jiajian Li Xinda Qi Seyed Hamidreza Nabaei M. Liu Dong Chen Xin Zhang Xunyuan Yin Zehan Li 51 0 0 30 Apr 2025
Vivid4D: Improving 4D Reconstruction from Monocular Video by Video Inpainting Jiaxin Huang Sheng Miao BangBnag Yang Yuewen Ma Yiyi Liao VGen MDE 33 0 0 15 Apr 2025
Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting Yunlong Tang Jing Bi Chao Huang Susan Liang Daiki Shimada ... Jinxi He Liu He Zeliang Zhang Jiebo Luo Chenliang Xu 37 0 0 07 Apr 2025
Hybrid Global-Local Representation with Augmented Spatial Guidance for Zero-Shot Referring Image Segmentation Ting Liu Siyuan Li 44 0 0 01 Apr 2025
E-Values Expand the Scope of Conformal Prediction Etienne Gauthier Francis Bach Michael I. Jordan 47 1 0 17 Mar 2025
UnrealZoo: Enriching Photo-realistic Virtual Worlds for Embodied AI Fangwei Zhong Kui Wu Churan Wang Hao Chen Hai Ci Zhoujun Li Yizhou Wang VGen 40 0 0 31 Dec 2024
Towards Unbiased and Robust Spatio-Temporal Scene Graph Generation and Anticipation Rohith Peddi Saurabh Ayush Abhay Shrivastava Parag Singla Vibhav Gogate 82 0 0 20 Nov 2024
QuadWBG: Generalizable Quadrupedal Whole-Body Grasping Jilong Wang Javokhirbek Rajabov Chaoyi Xu Yiming Zheng He Wang 46 1 0 11 Nov 2024
SpectroMotion: Dynamic 3D Reconstruction of Specular Scenes Cheng-De Fan Chen-Wei Chang Yi-Ruei Liu Jie-Ying Lee Jiun-Long Huang Yu-Chee Tseng Yu-Lun Liu 3DGS 70 4 0 22 Oct 2024
BYOCL: Build Your Own Consistent Latent with Hierarchical Representative Latent Clustering Jiayue Dai Yunya Wang Yihan Fang Yuetong Chen Butian Xiong VLM 29 0 0 19 Oct 2024
SeedLM: Compressing LLM Weights into Seeds of Pseudo-Random Generators Rasoul Shafipour David Harrison Maxwell Horton Jeffrey Marker Houman Bedayat Sachin Mehta Mohammad Rastegari Mahyar Najibi Saman Naderiparizi MQ 57 0 0 14 Oct 2024
Zero-Shot Pupil Segmentation with SAM 2: A Case Study of Over 14 Million Images Virmarie Maquiling Sean Anthony Byrne D. Niehorster Marco Carminati Enkelejda Kasneci VLM 45 0 0 11 Oct 2024
VideoSAM: Open-World Video Segmentation Pinxue Guo Zixu Zhao Jianxiong Gao Chongruo Wu Tong He Zheng Zhang Tianjun Xiao Wenqiang Zhang VOS 31 0 0 11 Oct 2024
Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution Zuyan Liu Yuhao Dong Ziwei Liu Winston Hu Jiwen Lu Yongming Rao ObjD 86 55 0 19 Sep 2024
Towards Generalizable Scene Change Detection Jaewoo Kim Uehwan Kim 50 0 0 10 Sep 2024
Surgical SAM 2: Real-time Segment Anything in Surgical Video by Efficient Frame Pruning Haofeng Liu Erli Zhang Junde Wu Mingxuan Hong Yueming Jin MedIm 53 14 0 15 Aug 2024
SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation Pengfei Chen Lingxi Xie Xinyue Huo Xuehui Yu Xiaopeng Zhang Yingfei Sun Zhenjun Han Qi Tian VLM 68 1 0 23 Jul 2024
Matching Anything by Segmenting Anything Siyuan Li Lei Ke Martin Danelljan Luigi Piccinelli Mattia Segu Luc Van Gool Fisher Yu VOS 40 22 0 06 Jun 2024
UnSAMFlow: Unsupervised Optical Flow Guided by Segment Anything Model Shuai Yuan Lei Luo Zhuo Hui Can Pu Xiaoyu Xiang Rakesh Ranjan D. Demandolx 32 4 0 04 May 2024
Empowering Embodied Visual Tracking with Visual Foundation Models and Offline RL Fangwei Zhong Kui Wu Hai Ci Churan Wang Hao Chen OffRL 39 2 0 15 Apr 2024
Spurious Feature Eraser: Stabilizing Test-Time Adaptation for Vision-Language Foundation Model Huan Ma Yan Zhu Changqing Zhang Peilin Zhao Baoyuan Wu Long-Kai Huang Qinghua Hu Bing Wu VLM 69 1 0 01 Mar 2024
VRP-SAM: SAM with Visual Reference Prompt Yanpeng Sun Jiahui Chen Shan Zhang Xinyu Zhang Qiang Chen Gang Zhang Errui Ding Jingdong Wang Zechao Li 52 31 0 27 Feb 2024
TriSAM: Tri-Plane SAM for zero-shot cortical blood vessel segmentation in VEM images Jia Wan Wanhua Li Jason Ken Adhinarta Atmadeep Banerjee Evelina Sjostedt Jingpeng Wu J. Lichtman Hanspeter Pfister D. Wei 34 6 0 25 Jan 2024
Semantic-aware SAM for Point-Prompted Instance Segmentation Zhaoyang Wei Pengfei Chen Xuehui Yu Guorong Li Jianbin Jiao Zhenjun Han VLM 35 6 0 26 Dec 2023
DragVideo: Interactive Drag-style Video Editing Yufan Deng Ruida Wang Yuhao Zhang Yu-Wing Tai Chi-Keung Tang DiffM VGen 26 20 0 03 Dec 2023
EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything Yunyang Xiong Bala Varadarajan Lemeng Wu Xiaoyu Xiang Fanyi Xiao ... Dilin Wang Fei Sun Forrest N. Iandola Raghuraman Krishnamoorthi Vikas Chandra VLM 42 139 0 01 Dec 2023
TrafficMOT: A Challenging Dataset for Multi-Object Tracking in Complex Traffic Scenarios Lihao Liu Yanqi Cheng Zhongying Deng Shujun Wang Dongdong Chen Xiaowei Hu Pietro Lio Carola-Bibiane Schönlieb Angelica Aviles-Rivero 44 1 0 30 Nov 2023
Automated Measurement of Vascular Calcification in Femoral Endarterectomy Patients Using Deep Learning Alireza Bagheri Rajeoni Breanna Pederson Daniel G. Clair S. Lessner H. Valafar 21 6 0 27 Nov 2023
Enhancing the Reliability of Segment Anything Model for Auto-Prompting Medical Image Segmentation with Uncertainty Rectification Yichi Zhang Shiyao Hu Sijie Ren Chen Jiang Yuan Cheng Yuan Qi MedIm 22 3 0 17 Nov 2023
Unifying Image Processing as Visual Prompting Question Answering Yihao Liu Xiangyu Chen Xianzheng Ma Xintao Wang Jiantao Zhou Yu Qiao Chao Dong MLLM 24 18 0 16 Oct 2023
Zero-Shot Open-Vocabulary Tracking with Large Pre-Trained Models Wen-Hsuan Chu Adam W. Harley P. Tokmakov Achal Dave Leonidas J. Guibas Katerina Fragkiadaki VLM 30 7 0 10 Oct 2023
Tracking Anything with Decoupled Video Segmentation Ho Kei Cheng Seoung Wug Oh Brian L. Price Alexander Schwing Joon-Young Lee VOS VLM 43 121 0 07 Sep 2023
3D-MuPPET: 3D Multi-Pigeon Pose Estimation and Tracking Urs Waldmann A. H. H. Chan Hemal Naik Nagy Máté I. Couzin Oliver Deussen Bastian Goldlücke Fumihiro Kano 28 15 0 29 Aug 2023
A One Stop 3D Target Reconstruction and multilevel Segmentation Method J. Xu Wei-Ye Zhao Zhiyan Tang X. Gan 3DV 24 2 0 14 Aug 2023
Color-NeuS: Reconstructing Neural Implicit Surfaces with Color Licheng Zhong Lixin Yang Kailin Li Haoyu Zhen Mei Han Cewu Lu 3DH 33 4 0 14 Aug 2023
Large Language Models and Foundation Models in Smart Agriculture: Basics, Opportunities, and Challenges Jiajia Li Mingle Xu Lirong Xiang Dong Chen Weichao Zhuang Xunyuan Yin Zhao Li 39 3 0 13 Aug 2023
Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models Cheng-Yu Hsieh Sibei Chen Chun-Liang Li Yasuhisa Fujii Alexander Ratner Chen-Yu Lee Ranjay Krishna Tomas Pfister LLMAG SyDa 46 41 0 01 Aug 2023
Foundational Models Defining a New Era in Vision: A Survey and Outlook Muhammad Awais Muzammal Naseer Salman Khan Rao Muhammad Anwer Hisham Cholakkal M. Shah Ming Yang Fahad Shahbaz Khan VLM 38 118 0 25 Jul 2023
RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation Yonglin Li Jing Zhang Xiao Teng Long Lan VOS VLM 23 17 0 03 Jul 2023
Towards AGI in Computer Vision: Lessons Learned from GPT and Large Language Models Lingxi Xie Longhui Wei Xiaopeng Zhang Kaifeng Bi Xiaotao Gu Jianlong Chang Qi Tian 33 7 0 14 Jun 2023
Matte Anything: Interactive Natural Image Matting with Segment Anything Models J. Yao Xinggang Wang Lang Ye Wenyu Liu 28 38 0 07 Jun 2023
A Comprehensive Survey on Segment Anything Model for Vision and Beyond Chunhui Zhang Li Liu Yawen Cui Guanjie Huang Weilin Lin Yiqian Yang Yuehong Hu VLM 43 90 0 14 May 2023
Towards Class-agnostic Tracking Using Feature Decorrelation in Point Clouds Shengjing Tian Jun Liu Xiuping Liu 3DPC 27 4 0 28 Feb 2022