COCO-Stuff: Thing and Stuff Classes in Context

12 December 2016

Papers citing "COCO-Stuff: Thing and Stuff Classes in Context"

50 / 240 papers shown

Title
VCM: Vision Concept Modeling Based on Implicit Contrastive Learning with Vision-Language Instruction Fine-Tuning Run Luo Renke Shan Longze Chen Z. Liu Lu Wang Min Yang Xiaobo Xia MLLM VLM 99 0 0 20 May 2025
Controllable Image Colorization with Instance-aware Texts and Masks Yanru An Ling Gui Qiang Hu Chunlei Cai Tianxiao Ye Xiaoyun Zhang Yanfeng Wang DiffM 34 0 0 13 May 2025
Split Matching for Inductive Zero-shot Semantic Segmentation Jialei Chen Xu Zheng Dongyue Li Chong Yi Seigo Ito D. Paudel Luc Van Gool Hiroshi Murase Daisuke Deguchi VLM 54 0 0 08 May 2025
DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception Junjie Wang Bin Chen Yulin Li Bin Kang Y. Chen Zhuotao Tian VLM 38 0 0 07 May 2025
Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics Cong Xu Wenbin Liang Mo Yu Anan Liu K. Zhang Lizhuang Ma J. Wang J. Wang W. Zhang MQ 57 0 0 01 May 2025
DIVE: Inverting Conditional Diffusion Models for Discriminative Tasks Yinqi Li Hong Chang Ruibing Hou Shiguang Shan Xilin Chen DiffM 55 0 0 24 Apr 2025
ICE: Intrinsic Concept Extraction from a Single Image via Diffusion Models Fernando Julio Cendra Kai Han VLM 58 0 0 25 Mar 2025
The Coralscapes Dataset: Semantic Scene Understanding in Coral Reefs Jonathan Sauder Viktor Domazetoski G. Banc-Prandi Gabriela Perna Anders Meibom D. Tuia 53 0 0 25 Mar 2025
FireEdit: Fine-grained Instruction-based Image Editing via Region-aware Vision Language Model Jun Zhou J. Li Zunnan Xu Hanhui Li Yiji Cheng Fa-Ting Hong Qin Lin Qinglin Lu Xiaodan Liang DiffM 73 1 0 25 Mar 2025
Language-based Image Colorization: A Benchmark and Beyond Y. Li Shuai Yang Jiaying Liu DiffM VLM 51 0 0 19 Mar 2025
GroundingSuite: Measuring Complex Multi-Granular Pixel Grounding R. Hu Lianghui Zhu Yuxuan Zhang Tianheng Cheng Lei Liu Heng Liu Longjin Ran Xiaoxin Chen Wenyu Liu Xinggang Wang ObjD 61 0 0 13 Mar 2025
Enhancing Monocular Depth Estimation with Multi-Source Auxiliary Tasks Alessio Quercia Erenus Yildiz Zhuo Cao Kai Krajsek Abigail Morrison Ira Assent Hanno Scharr 56 0 0 22 Jan 2025
SegMAN: Omni-scale Context Modeling with State Space Models and Local Attention for Semantic Segmentation Yunxiang Fu Meng Lou Yizhou Yu 115 1 0 16 Dec 2024
DynamicControl: Adaptive Condition Selection for Improved Text-to-Image Generation Q. He Jinlong Peng P. Xu Boyuan Jiang Xiaobin Hu ... Y. Liu Y. Wang Chengjie Wang X. Li J. Zhang DiffM 122 1 0 04 Dec 2024
COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training Sanghwan Kim Rui Xiao Mariana-Iuliana Georgescu Stephan Alaniz Zeynep Akata VLM 74 2 0 02 Dec 2024
ROSE: Revolutionizing Open-Set Dense Segmentation with Patch-Wise Perceptual Large Multimodal Model Kunyang Han Yibo Hu Mengxue Qu Hailin Shi Yao Zhao Y. X. Wei MLLM VLM 3DV 88 1 0 29 Nov 2024
Distilling Spectral Graph for Object-Context Aware Open-Vocabulary Semantic Segmentation Chanyoung Kim Dayun Ju Woojung Han Ming-Hsuan Yang Seong Jae Hwang VLM VOS 79 0 0 26 Nov 2024
Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation Sule Bai Yong-Jin Liu Yifei Han Haoji Zhang Yansong Tang VLM 79 3 0 24 Nov 2024
ITACLIP: Boosting Training-Free Semantic Segmentation with Image, Text, and Architectural Enhancements M. Arda Aydın Efe Mert Çırpar Elvin Abdinli Gözde B. Ünal Y. Sahin VLM 71 0 0 18 Nov 2024
VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos Shehan Munasinghe Hanan Gani Wenqi Zhu Jiale Cao Eric P. Xing F. Khan Salman Khan MLLM VGen VLM 44 6 0 07 Nov 2024
TopoDiffusionNet: A Topology-aware Diffusion Model Saumya Gupta Dimitris Samaras C. L. P. Chen DiffM 36 4 0 22 Oct 2024
Ctrl-U: Robust Conditional Image Generation via Uncertainty-aware Reward Modeling Guiyu Zhang Huan-ang Gao Zijian Jiang Hao Zhao Zhedong Zheng EGVM 49 6 0 15 Oct 2024
OrionNav: Online Planning for Robot Autonomy with Context-Aware LLM and Open-Vocabulary Semantic Scene Graphs Venkata Naren Devarakonda Raktim Gautam Goswami Ali Umut Kaypak Naman Patel Rooholla Khorrambakht P. Krishnamurthy Farshad Khorrami LM&Ro 39 3 0 08 Oct 2024
ControlAR: Controllable Image Generation with Autoregressive Models Zongming Li Tianheng Cheng Shoufa Chen Peize Sun Haocheng Shen Longjin Ran Xiaoxin Chen Wenyu Liu Xinggang Wang DiffM 134 14 0 03 Oct 2024
Multi-Scale Grouped Prototypes for Interpretable Semantic Segmentation Hugo Porta Emanuele Dalsasso Diego Marcos D. Tuia 95 0 0 14 Sep 2024
Rethinking The Training And Evaluation of Rich-Context Layout-to-Image Generation Jiaxin Cheng Zixu Zhao Tong He Tianjun Xiao Yicong Zhou Zheng Zhang DiffM 39 0 0 07 Sep 2024
iSeg: An Iterative Refinement-based Framework for Training-free Segmentation Lin Sun Jiale Cao J. Xie F. Khan Yanwei Pang DiffM 43 1 0 05 Sep 2024
SAM4MLLM: Enhance Multi-Modal Large Language Model for Referring Expression Segmentation Yi-Chia Chen Wei-Hua Li Cheng Sun Yu-Chiang Frank Wang Chu-Song Chen VLM 39 11 0 01 Sep 2024
Visual Agents as Fast and Slow Thinkers Guangyan Sun Mingyu Jin Zhenting Wang Cheng-Long Wang Siqi Ma Qifan Wang Ying Nian Wu Ying Nian Wu Dongfang Liu Dongfang Liu LLMAG LRM 77 13 0 16 Aug 2024
MetaSeg: MetaFormer-based Global Contexts-aware Network for Efficient Semantic Segmentation Beoungwoo Kang Seunghun Moon Yubin Cho Hyunwoo Yu Suk-Ju Kang ViT MedIm 26 8 0 14 Aug 2024
BIV-Priv-Seg: Locating Private Content in Images Taken by People With Visual Impairments Yu-Yun Tseng Tanusree Sharma Lotus Zhang Abigale Stangl Leah Findlater Yang Wang Danna Gurari 66 0 0 25 Jul 2024
Explore the Potential of CLIP for Training-Free Open Vocabulary Semantic Segmentation Tong Shao Zhuotao Tian Hang Zhao Jingyong Su VLM 36 15 0 11 Jul 2024
EVF-SAM: Early Vision-Language Fusion for Text-Prompted Segment Anything Model Yuxuan Zhang Tianheng Cheng Lianghui Zhu Lei Liu Heng Liu Longjin Ran Xiaoxin Chen Xiaoxin Chen Wenyu Liu Xinggang Wang VLM 58 25 0 28 Jun 2024
F-LMM: Grounding Frozen Large Multimodal Models Size Wu Sheng Jin Wenwei Zhang Lumin Xu Wentao Liu Wei Li Chen Change Loy MLLM 78 12 0 09 Jun 2024
Frequency-based Matcher for Long-tailed Semantic Segmentation Shan Li Lu Yang Pu Cao Liulei Li Huadong Ma 46 1 0 06 Jun 2024
Learning to Detour: Shortcut Mitigating Augmentation for Weakly Supervised Semantic Segmentation Junehyoung Kwon Eunju Lee Yunsung Cho Youngbin Kim 48 4 0 28 May 2024
DynaSeg: A Deep Dynamic Fusion Method for Unsupervised Image Segmentation Incorporating Feature Similarity and Spatial Continuity Boujemaa Guermazi Naimul Khan 30 2 0 09 May 2024
Panoptic-SLAM: Visual SLAM in Dynamic Environments using Panoptic Segmentation G. Abati J. C. V. Soares V. S. Medeiros M. Meggiolaro Claudio Semini 29 2 0 03 May 2024
Chameleon: A Data-Efficient Generalist for Dense Visual Prediction in the Wild Donggyun Kim Seongwoong Cho Semin Kim Chong Luo Seunghoon Hong VLM 42 2 0 29 Apr 2024
Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings Olivia Wiles Chuhan Zhang Isabela Albuquerque Ivana Kajić Su Wang ... Jordi Pont-Tuset Aida Nematzadeh Anant Nawalgaria Jordi Pont-Tuset Aida Nematzadeh EGVM 127 14 0 25 Apr 2024
Pay Attention to Your Neighbours: Training-Free Open-Vocabulary Semantic Segmentation Sina Hajimiri Ismail Ben Ayed Jose Dolz VLM 41 22 0 12 Apr 2024
AlignZeg: Mitigating Objective Misalignment for Zero-shot Semantic Segmentation Jiannan Ge Lingxi Xie Hongtao Xie Pandeng Li Xiaopeng Zhang Yongdong Zhang Qi Tian VLM 23 3 0 08 Apr 2024
Automatic Controllable Colorization via Imagination Xiaoyan Cong Yue Wu Qifeng Chen Chenyang Lei DiffM 26 5 0 08 Apr 2024
Image-Text Co-Decomposition for Text-Supervised Semantic Segmentation Ji-Jia Wu Andy Chia-Hao Chang Chieh-Yu Chuang Chun-Pei Chen Yu-Lun Liu Min-Hung Chen Hou-Ning Hu Yung-Yu Chuang Yen-Yu Lin VLM 40 9 0 05 Apr 2024
Gen3DSR: Generalizable 3D Scene Reconstruction via Divide and Conquer from a Single View Andreea Dogaru M. Ozer Bernhard Egger 3DGS 64 4 0 04 Apr 2024
Training-Free Semantic Segmentation via LLM-Supervision Wenfang Sun Yingjun Du Gaowen Liu Ramana Rao Kompella Cees G. M. Snoek VLM 44 2 0 31 Mar 2024
Multi-Grained Cross-modal Alignment for Learning Open-vocabulary Semantic Segmentation from Text Supervision Yajie Liu Pu Ge Qingjie Liu Di Huang 75 2 0 06 Mar 2024
PLACE: Adaptive Layout-Semantic Fusion for Semantic Image Synthesis Zheng Lv Yuxiang Wei Wangmeng Zuo Kwan-Yee K. Wong 41 14 0 04 Mar 2024
LLMBind: A Unified Modality-Task Integration Framework Bin Zhu Munan Ning Peng Jin Bin Lin Jinfa Huang ... Junwu Zhang Zhenyu Tang Mingjun Pan Xing Zhou Li-ming Yuan MLLM 32 6 0 22 Feb 2024
Image Synthesis with Graph Conditioning: CLIP-Guided Diffusion Models for Scene Graphs Rameshwar Mishra A. V. Subramanyam DiffM 30 2 0 25 Jan 2024