Scaling Open-Vocabulary Image Segmentation with Image-Level Labels

22 December 2021

Papers citing "Scaling Open-Vocabulary Image Segmentation with Image-Level Labels"

50 / 292 papers shown

Title
EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models Koichi Namekata Amirmojtaba Sabour Sanja Fidler Seung Wook Kim 42 18 0 22 Jan 2024
OMG-Seg: Is One Model Good Enough For All Segmentation? Xiangtai Li Haobo Yuan Wei Li Henghui Ding Size Wu Wenwei Zhang Yining Li Kai Chen Chen Change Loy VLM MLLM ViT 69 51 0 18 Jan 2024
Instance Brownian Bridge as Texts for Open-vocabulary Video Instance Segmentation Ze-Long Cheng Kehan Li Hao Li Peng Jin Chang Liu Xiawu Zheng Rongrong Ji Jie Chen VOS 28 2 0 18 Jan 2024
POP-3D: Open-Vocabulary 3D Occupancy Prediction from Images Antonín Vobecký Oriane Siméoni David Hurych Spyros Gidaris Andrei Bursuc Patrick Pérez Josef Sivic 29 33 0 17 Jan 2024
MaskClustering: View Consensus based Mask Graph Clustering for Open-Vocabulary 3D Instance Segmentation Mi Yan Jiazhao Zhang Yan Zhu H. Wang 3DV ISeg 21 29 0 15 Jan 2024
UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding Bowen Shi Peisen Zhao Zichen Wang Yuhang Zhang Yaoming Wang ... Wenrui Dai Junni Zou Hongkai Xiong Qi Tian Xiaopeng Zhang VLM 33 7 0 12 Jan 2024
Learning to Prompt with Text Only Supervision for Vision-Language Models Muhammad Uzair Khattak Muhammad Ferjad Naeem Muzammal Naseer Luc Van Gool F. Tombari VLM VPVLM 28 19 0 04 Jan 2024
3D Open-Vocabulary Panoptic Segmentation with 2D-3D Vision-Language Distillation Zihao Xiao Longlong Jing Shangxuan Wu Alex Zihao Zhu Jingwei Ji ... Thomas Funkhouser Weicheng Kuo A. Angelova Yin Zhou Shiwei Sheng VLM 31 5 0 04 Jan 2024
Leveraging Open-Vocabulary Diffusion to Camouflaged Instance Segmentation Tuan-Anh Vu Duc Thanh Nguyen Qing-Wu Guo Binh-Son Hua N. Chung Ivor W. Tsang Sai-Kit Yeung DiffM 29 3 0 29 Dec 2023
A Semantic Space is Worth 256 Language Descriptions: Make Stronger Segmentation Models with Descriptive Properties Junfei Xiao Ziqi Zhou Wenxuan Li Shiyi Lan Jieru Mei Zhiding Yu Alan L. Yuille Yuyin Zhou Cihang Xie VLM 19 1 0 21 Dec 2023
CLIP-DINOiser: Teaching CLIP a few DINO tricks for open-vocabulary semantic segmentation Monika Wysoczañska Oriane Siméoni Michael Ramamonjisoa Andrei Bursuc Tomasz Trzciñski Patrick Pérez VLM CLIP 24 29 0 19 Dec 2023
SAI3D: Segment Any Instance in 3D Scenes Yingda Yin Yuzheng Liu Yang Xiao Daniel Cohen-Or Jingwei Huang Baoquan Chen 23 37 0 17 Dec 2023
WAVER: Writing-style Agnostic Text-Video Retrieval via Distilling Vision-Language Models Through Open-Vocabulary Knowledge Huy Le Tung Kieu Anh Nguyen Ngan Le VGen 19 1 0 15 Dec 2023
Tokenize Anything via Prompting Ting Pan Lulu Tang Xinlong Wang Shiguang Shan VLM 18 22 0 14 Dec 2023
CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor Shuyang Sun Runjia Li Philip H. S. Torr Xiuye Gu Siyang Li VLM CLIP 20 32 0 12 Dec 2023
Transferring CLIP's Knowledge into Zero-Shot Point Cloud Semantic Segmentation Yuanbin Wang Shaofei Huang Yulu Gao Zhen Wang Rui Wang Kehua Sheng Bo-Wen Zhang Si Liu VLM 15 13 0 12 Dec 2023
Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment Utkarsh Mall Cheng Perng Phoo Meilin Kelsey Liu Carl Vondrick B. Hariharan Kavita Bala VLM 17 38 0 12 Dec 2023
OpenSD: Unified Open-Vocabulary Segmentation and Detection Shuai Li Ming-hui Li Pengfei Wang Lei Zhang ObjD VLM 24 6 0 10 Dec 2023
Improved Visual Grounding through Self-Consistent Explanations Ruozhen He Paola Cascante-Bonilla Ziyan Yang Alexander C. Berg Vicente Ordonez ReLM ObjD LRM FAtt 16 8 0 07 Dec 2023
ZePT: Zero-Shot Pan-Tumor Segmentation via Query-Disentangling and Self-Prompting Yankai Jiang Zhongzhen Huang Rongzhao Zhang Xiaofan Zhang Shaoting Zhang VLM 16 10 0 07 Dec 2023
Auto-Vocabulary Semantic Segmentation Osman Ülger Maksymilian Kulicki Yuki M. Asano Martin R. Oswald VLM 42 2 0 07 Dec 2023
Aligning and Prompting Everything All at Once for Universal Visual Perception Yunhang Shen Chaoyou Fu Peixian Chen Mengdan Zhang Ke Li Xing Sun Yunsheng Wu Shaohui Lin Rongrong Ji VLM ObjD 46 32 0 04 Dec 2023
Object Recognition as Next Token Prediction Kaiyu Yue Borchun Chen Jonas Geiping Hengduo Li Tom Goldstein Ser-Nam Lim 22 8 0 04 Dec 2023
Geometrically-driven Aggregation for Zero-shot 3D Point Cloud Understanding Guofeng Mei Luigi Riz Yiming Wang Fabio Poiesi 3DPC 16 6 0 04 Dec 2023
SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference Feng Wang Jieru Mei Alan L. Yuille VLM 19 54 0 04 Dec 2023
Grounding Everything: Emerging Localization Properties in Vision-Language Transformers Walid Bousselham Felix Petersen Vittorio Ferrari Hilde Kuehne ObjD VLM 29 39 0 01 Dec 2023
Segment and Caption Anything Xiaoke Huang Jianfeng Wang Yansong Tang Zheng Zhang Han Hu Jiwen Lu Lijuan Wang Zicheng Liu MLLM VLM 26 17 0 01 Dec 2023
DiffCAD: Weakly-Supervised Probabilistic CAD Model Retrieval and Alignment from an RGB Image Daoyi Gao Dávid Rozenberszki Stefan Leutenegger Angela Dai DiffM 16 11 0 30 Nov 2023
Emergent Open-Vocabulary Semantic Segmentation from Off-the-shelf Vision-Language Models Jiayun Luo Siddhesh Khandelwal Leonid Sigal Boyang Albert Li MLLM VLM 27 7 0 28 Nov 2023
SemiVL: Semi-Supervised Semantic Segmentation with Vision-Language Guidance Lukas Hoyer D. Tan Muhammad Ferjad Naeem Luc Van Gool F. Tombari VLM MLLM 31 16 0 27 Nov 2023
Align before Adapt: Leveraging Entity-to-Region Alignments for Generalizable Video Action Recognition Yifei Chen Dapeng Chen Ruijin Liu Sai Zhou Wenyuan Xue Wei Peng 25 6 0 27 Nov 2023
SED: A Simple Encoder-Decoder for Open-Vocabulary Semantic Segmentation Bin Xie Jiale Cao Jin Xie Fahad Shahbaz Khan Yanwei Pang VLM 18 42 0 27 Nov 2023
Visual Programming for Zero-shot Open-Vocabulary 3D Visual Grounding Zhihao Yuan Jinke Ren Chun-Mei Feng Hengshuang Zhao Shuguang Cui Zhen Li 24 26 0 26 Nov 2023
Visual In-Context Prompting Feng Li Qing Jiang Hao Zhang Tianhe Ren Shilong Liu ... Hongyang Li Chun-yue Li Jianwei Yang Lei Zhang Jianfeng Gao VLM LRM MLLM 27 30 0 22 Nov 2023
Generalized Category Discovery in Semantic Segmentation Zhengyuan Peng Qijian Tian Jianqing Xu Yizhang Jin Xuequan Lu Xin Tan Yuan Xie Lizhuang Ma ISeg 12 2 0 20 Nov 2023
Open-Vocabulary Camouflaged Object Segmentation Youwei Pang Xiaoqi Zhao Jiaming Zuo Lihe Zhang Huchuan Lu VLM ObjD 23 6 0 19 Nov 2023
Expanding Scene Graph Boundaries: Fully Open-vocabulary Scene Graph Generation via Visual-Concept Alignment and Retention Zuyao Chen Jinlin Wu Zhen Lei Zhaoxiang Zhang Changwen Chen 23 11 0 18 Nov 2023
Towards Open-Ended Visual Recognition with Large Language Model Qihang Yu Xiaohui Shen Liang-Chieh Chen VLM 22 8 0 14 Nov 2023
TENT: Connect Language Models with IoT Sensors for Zero-Shot Activity Recognition Yunjiao Zhou Jianfei Yang Han Zou Lihua Xie VLM 26 17 0 14 Nov 2023
OVIR-3D: Open-Vocabulary 3D Instance Retrieval Without Training on 3D Data Shiyang Lu Haonan Chang E. Jing Abdeslam Boularias Kostas Bekris 16 54 0 06 Nov 2023
Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic Segmentation Fei Zhang Tianfei Zhou Boyang Li Hao He Chaofan Ma Tianjiao Zhang Jiangchao Yao Ya-Qin Zhang Yanfeng Wang VLM 35 17 0 29 Oct 2023
Drive Anywhere: Generalizable End-to-end Autonomous Driving with Multi-modal Foundation Models Tsun-Hsuan Wang Alaa Maalouf Wei Xiao Yutong Ban Alexander Amini Guy Rosman S. Karaman Daniela Rus 19 41 0 26 Oct 2023
Lang3DSG: Language-based contrastive pre-training for 3D Scene Graph prediction Sebastian Koch Pedro Hermosilla Narunas Vaskevicius Mirco Colosi Timo Ropinski 29 9 0 25 Oct 2023
Open-NeRF: Towards Open Vocabulary NeRF Decomposition Hao Zhang Fang Li Narendra Ahuja 19 11 0 25 Oct 2023
CPSeg: Finer-grained Image Semantic Segmentation via Chain-of-Thought Language Prompting Lei Li 9 23 0 24 Oct 2023
OV-VG: A Benchmark for Open-Vocabulary Visual Grounding Chunlei Wang Wenquan Feng Xiangtai Li Guangliang Cheng Shuchang Lyu Binghao Liu Lijiang Chen Qi Zhao ObjD VLM 21 9 0 22 Oct 2023
CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement Mohammadreza Salehi Mehrdad Farajtabar Maxwell Horton Fartash Faghri Hadi Pouransari Raviteja Vemulapalli Oncel Tuzel Ali Farhadi Mohammad Rastegari Sachin Mehta CLIP VLM 22 1 0 21 Oct 2023
SILC: Improving Vision Language Pretraining with Self-Distillation Muhammad Ferjad Naeem Yongqin Xian Xiaohua Zhai Lukas Hoyer Luc Van Gool F. Tombari VLM 17 32 0 20 Oct 2023
Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V Jianwei Yang Hao Zhang Feng Li Xueyan Zou Chun-yue Li Jianfeng Gao MLLM VLM 19 155 0 17 Oct 2023
Towards Training-free Open-world Segmentation via Image Prompt Foundation Models Lv Tang Peng-Tao Jiang Haoke Xiao Bo Li VLM 8 7 0 17 Oct 2023