Semantic-SAM: Segment and Recognize Anything at Any Granularity

10 July 2023

Jianwei Yang

Lei Zhang

Papers citing "Semantic-SAM: Segment and Recognize Anything at Any Granularity"

34 / 34 papers shown

Title
Dynamic Robot Tool Use with Vision Language Models Noah Trupin Zixing Wang A. H. Qureshi 37 0 0 02 May 2025
SRMF: A Data Augmentation and Multimodal Fusion Approach for Long-Tail UHR Satellite Image Segmentation Yulong Guo Zilun Zhang Yongheng Shang Tiancheng Zhao Shuiguang Deng Yingchun Yang Jianwei Yin 68 0 0 28 Apr 2025
Simultaneous Learning of Optimal Transports for Training All-to-All Flow-Based Condition Transfer Model Kotaro Ikeda Masanori Koyama Jinzhe Zhang Kohei Hayashi Kenji Fukumizu OT 98 0 0 04 Apr 2025
OnlineAnySeg: Online Zero-Shot 3D Segmentation by Visual Foundation Model Guided 2D Mask Merging Yijie Tang Jiazhao Zhang Yuqing Lan Yulan Guo Dezun Dong Chenyang Zhu K. Xu 121 0 0 03 Mar 2025
AirRoom: Objects Matter in Room Reidentification Runmao Yao Yi Du Zhuoqun Chen Haoze Zheng Chen Wang 43 0 0 03 Mar 2025
MonoForce: Learnable Image-conditioned Physics Engine R. Agishev Karel Zimmermann 87 0 0 14 Feb 2025
VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks Jiannan Wu Muyan Zhong Sen Xing Zeqiang Lai Zhaoyang Liu ... Lewei Lu Tong Lu Ping Luo Yu Qiao Jifeng Dai MLLM VLM LRM 91 46 0 03 Jan 2025
Foreground-Covering Prototype Generation and Matching for SAM-Aided Few-Shot Segmentation S. Park Subeen Lee Hyun Seok Seong Jaejoon Yoo Jae-Pil Heo 32 1 0 03 Jan 2025
DCDepth: Progressive Monocular Depth Estimation in Discrete Cosine Domain Kun Wang Zhiqiang Yan Junkai Fan Wanlu Zhu X. Li Jun Li Jian Yang MDE 29 5 0 19 Oct 2024
GravMAD: Grounded Spatial Value Maps Guided Action Diffusion for Generalized 3D Manipulation Yangtao Chen Zixuan Chen Junhui Yin Jing Huo Pinzhuo Tian Jieqi Shi Yang Gao LM&Ro 42 2 0 30 Sep 2024
Search3D: Hierarchical Open-Vocabulary 3D Segmentation Ayca Takmaz Alexandros Delitzas R. Sumner Francis Engelmann Johanna Wald Federico Tombari 66 11 0 27 Sep 2024
EmbodiedSAM: Online Segment Any 3D Thing in Real Time Xiuwei Xu Huangxing Chen Linqing Zhao Ziwei Wang Jie Zhou Jiwen Lu 27 14 0 21 Aug 2024
OpenScan: A Benchmark for Generalized Open-Vocabulary 3D Scene Understanding Youjun Zhao Jiaying Lin Shuquan Ye Qianshi Pang Rynson W. H. Lau 61 1 0 20 Aug 2024
MSP-MVS: Multi-Granularity Segmentation Prior Guided Multi-View Stereo Zhenlong Yuan Cong Liu Fei Shen Zhaoxin Li Tianlu Mao Zhaoqi Wang Zhaoqi Wang 3DV 67 1 0 27 Jul 2024
SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation Pengfei Chen Lingxi Xie Xinyue Huo Xuehui Yu Xiaopeng Zhang Yingfei Sun Zhenjun Han Qi Tian VLM 58 1 0 23 Jul 2024
WPS-SAM: Towards Weakly-Supervised Part Segmentation with Foundation Models Xin-Jian Wu Rui-Song Zhang Jie Qin Shijie Ma Cheng-Lin Liu VLM 22 1 0 14 Jul 2024
Understanding Multi-Granularity for Open-Vocabulary Part Segmentation Jiho Choi Seonho Lee Seungho Lee Minhyun Lee Hyunjung Shim OCL 33 0 0 17 Jun 2024
List Items One by One: A New Data Source and Learning Paradigm for Multimodal LLMs An Yan Zhengyuan Yang Junda Wu Wanrong Zhu Jianwei Yang ... K. Lin Jianfeng Wang Julian McAuley Jianfeng Gao Lijuan Wang LRM 34 12 0 25 Apr 2024
Automatic Controllable Colorization via Imagination Xiaoyan Cong Yue Wu Qifeng Chen Chenyang Lei DiffM 24 5 0 08 Apr 2024
Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want Weifeng Lin Xinyu Wei Ruichuan An Peng Gao Bocheng Zou Yulin Luo Siyuan Huang Shanghang Zhang Hongsheng Li VLM 58 32 0 29 Mar 2024
UniVS: Unified and Universal Video Segmentation with Prompts as Queries Ming-hui Li Shuai Li Xindong Zhang Lei Zhang VOS 33 16 0 28 Feb 2024
IntentTuner: An Interactive Framework for Integrating Human Intents in Fine-tuning Text-to-Image Generative Models Xingchen Zeng Ziyao Gao Yilin Ye Wei Zeng 12 12 0 28 Jan 2024
LISA++: An Improved Baseline for Reasoning Segmentation with Large Language Model Senqiao Yang Tianyuan Qu Xin Lai Zhuotao Tian Bohao Peng Shu-Lin Liu Jiaya Jia VLM 21 28 0 28 Dec 2023
Semantic-aware SAM for Point-Prompted Instance Segmentation Zhaoyang Wei Pengfei Chen Xuehui Yu Guorong Li Jianbin Jiao Zhenjun Han VLM 35 6 0 26 Dec 2023
Enhancing the Reliability of Segment Anything Model for Auto-Prompting Medical Image Segmentation with Uncertainty Rectification Yichi Zhang Shiyao Hu Sijie Ren Chen Jiang Yuan-Chia Cheng Yuan Qi MedIm 15 3 0 17 Nov 2023
LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents Shilong Liu Hao Cheng Haotian Liu Hao Zhang Feng Li ... Hang Su Jun Zhu Lei Zhang Jianfeng Gao Chun-yue Li MLLM VLM 52 103 0 09 Nov 2023
Tracking Anything with Decoupled Video Segmentation Ho Kei Cheng Seoung Wug Oh Brian L. Price Alexander Schwing Joon-Young Lee VOS VLM 30 121 0 07 Sep 2023
Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models Jiarui Xu Sifei Liu Arash Vahdat Wonmin Byeon Xiaolong Wang Shalini De Mello VLM 212 318 0 08 Mar 2023
Learning Hierarchical Image Segmentation For Recognition and By Recognition Tsung-Wei Ke Sangwoo Mo Stella X. Yu VLM 22 9 0 01 Oct 2022
GroupViT: Semantic Segmentation Emerges from Text Supervision Jiarui Xu Shalini De Mello Sifei Liu Wonmin Byeon Thomas Breuel Jan Kautz X. Wang ViT VLM 180 499 0 22 Feb 2022
Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron Hugo Touvron Ishan Misra Hervé Jégou Julien Mairal Piotr Bojanowski Armand Joulin 298 5,761 0 29 Apr 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 293 3,683 0 11 Feb 2021
Parsing R-CNN for Instance-Level Human Analysis Lu Yang Q. Song Zhihui Wang Ming Jiang SSeg 52 121 0 30 Nov 2018
Semantic Understanding of Scenes through the ADE20K Dataset Bolei Zhou Hang Zhao Xavier Puig Tete Xiao Sanja Fidler Adela Barriuso Antonio Torralba SSeg 249 1,821 0 18 Aug 2016