v1v2v3 (latest)

Masked-attention Mask Transformer for Universal Image Segmentation

2 December 2021

Papers citing "Masked-attention Mask Transformer for Universal Image Segmentation"

50 / 1,648 papers shown

Title
Progress by Pieces: Test-Time Scaling for Autoregressive Image Generation Joonhyung Park Hyeongwon Jang Joowon Kim Eunho Yang VLM 76 0 0 26 Nov 2025
Open Vocabulary Compositional Explanations for Neuron Alignment Biagio La Rosa Leilani H. Gilpin OCL 210 0 0 25 Nov 2025
$V$^{2}$-SAM: Marrying SAM2 with Multi-Prompt Experts for Cross-View Object Correspondence$ V $^{2}$ -SAM: Marrying SAM2 with Multi-Prompt Experts for Cross-View Object Correspondence Jiancheng Pan Runze Wang Tianwen Qian Mohammad Mahdi Yanwei Fu Xiangyang Xue Xiaomeng Huang Luc Van Gool Danda Pani Paudel Yuqian Fu 36 1 0 25 Nov 2025
CrossEarth-Gate: Fisher-Guided Adaptive Tuning Engine for Efficient Adaptation of Cross-Domain Remote Sensing Semantic Segmentation Shilei Cao Ziyang Gong Hehai Lin Yang Liu Jiashun Cheng ... C. Qin Hong Cheng Xue Yang Juepeng Zheng Haohuan Fu 136 0 0 25 Nov 2025
SAM3-Adapter: Efficient Adaptation of Segment Anything 3 for Camouflage Object Segmentation, Shadow Detection, and Medical Image Segmentation Tianrun Chen Runlong Cao Xinda Yu Lanyun Zhu Chaotao Ding ... Cheng Chen Qi Zhu C. Xu Papa Mao Ying Zang MedIm VLM 186 0 0 24 Nov 2025
Lightweight Transformer Framework for Weakly Supervised Semantic Segmentation Ali Torabi Sanjog Gaihre Yaqoob Majeed 56 0 0 24 Nov 2025
PhysDNet: Physics-Guided Decomposition Network of Side-Scan Sonar Imagery Can Lei Hayat Rajani N. Gracias Rafael García Huigang Wang 20 1 0 24 Nov 2025
Illustrator's Depth: Monocular Layer Index Prediction for Image Decomposition Nissim Maruani Peiying Zhang Siddhartha Chaudhuri Matthew Fisher Nanxuan Zhao Vladimir G. Kim Pierre Alliez Mathieu Desbrun Wang Yifan MDE 170 0 0 21 Nov 2025
VisReason: A Large-Scale Dataset for Visual Chain-of-Thought Reasoning Lingxiao Li Y. Wang Xinyan Gao Chen Tang Xiangyu Yue Chenyu You LRM 40 0 0 21 Nov 2025
MobileOcc: A Human-Aware Semantic Occupancy Dataset for Mobile Robots Junseo Kim Guido Dumont Xinyu Gao Gang Chen Holger Caesar Javier Alonso-Mora 76 0 0 21 Nov 2025
InfoCLIP: Bridging Vision-Language Pretraining and Open-Vocabulary Semantic Segmentation via Information-Theoretic Alignment Transfer Muyao Yuan Yuanhong Zhang Weizhan Zhang Lan Ma Yuan Gao Jiangyong Ying Yudeng Xin VLM CLIP 216 0 0 20 Nov 2025
PairHuman: A High-Fidelity Photographic Dataset for Customized Dual-Person GenerationInformation Fusion (Inf. Fusion), 2025 Ting Pan Ye Wang Peiguang Jing Rui Ma Zili Yi Y. Liu 149 0 0 20 Nov 2025
Click2Graph: Interactive Panoptic Video Scene Graphs from a Single Click Raphael Ruschel Hardikkumar Prajapati Awsafur Rahman B. S. Manjunath 192 0 0 20 Nov 2025
Unsupervised Image Classification with Adaptive Nearest Neighbor Selection and Cluster Ensembles Melih Baydar Emre Akbas 116 0 0 20 Nov 2025
MaskMed: Decoupled Mask and Class Prediction for Medical Image Segmentation Bin Xie Gady Agam MedIm 247 0 0 19 Nov 2025
WarNav: An Autonomous Driving Benchmark for Segmentation of Navigable Zones in War Scenes Marc-Emmanuel Coupvent des Graviers Hejer Ammar Christophe Guettier Yann Dumortier Romaric Audigier 108 0 0 19 Nov 2025
FGNet: Leveraging Feature-Guided Attention to Refine SAM2 for 3D EM Neuron Segmentation Zhenghua Li Hang Chen Zihao Sun Kai Li Xiaolin Hu 124 0 0 17 Nov 2025
Semantic Prioritization in Visual Counterfactual Explanations with Weighted Segmentation and Auto-Adaptive Region SelectionNeural Networks (NN), 2024 Lintong Zhang Kang Yin Seong-Whan Lee 108 0 0 17 Nov 2025
Fine-Grained Representation for Lane Topology Reasoning Guoqing Xu Y. Li Yang Yang 81 0 0 16 Nov 2025
Seg-VAR: Image Segmentation with Visual Autoregressive Modeling Rongkun Zheng Lu Qi Xi Chen Yi Wang K. Wang Hengshuang Zhao 96 0 0 16 Nov 2025
Empowering DINO Representations for Underwater Instance Segmentation via Aligner and Prompter Z. Chen Chen Zhang Hao Fang Runmin Cong AI4CE 201 0 0 11 Nov 2025
SkelSplat: Robust Multi-view 3D Human Pose Estimation with Differentiable Gaussian Rendering Laura Bragagnolo Leonardo Barcellona Stefano Ghidoni 3DGS 120 0 0 11 Nov 2025
Visual Bridge: Universal Visual Perception Representations Generating Yilin Gao Shuguang Dou Junzhou Li Zhiheng Yu Yin Li Dongsheng Jiang Shugong Xu DiffM VOS 242 0 0 11 Nov 2025
Navigating the Wild: Pareto-Optimal Visual Decision-Making in Image Space Durgakant Pushp Weizhe (Wesley) Chen Zheng Chen Chaomin Luo Jason M. Gregory Lantao Liu 60 0 0 11 Nov 2025
Relative Energy Learning for LiDAR Out-of-Distribution Detection Zizhao Li Zhengkang Xiang Jiayang Ao Joseph West Kourosh Khoshelham OODD 362 0 0 10 Nov 2025
Leveraging Text-Driven Semantic Variation for Robust OOD Segmentation Seungheon Song Jaekoo Lee 40 0 0 10 Nov 2025
EIDSeg: A Pixel-Level Semantic Segmentation Dataset for Post-Earthquake Damage Assessment from Social Media Images Huili Huang Chengeng Liu Danrong Zhang Shail Patel Anastasiya Masalava Sagar Sadak Parisa Babolhavaeji WeiHong Low M. M. Roozbahani J. David Frost 67 0 0 09 Nov 2025
From Words to Safety: Language-Conditioned Safety Filtering for Robot Navigation Zeyuan Feng Haimingyue Zhang Somil Bansal 48 0 0 08 Nov 2025
Polymap: generating high definition map based on rasterized polygons Shiyu Gao Hao Jiang 44 0 0 08 Nov 2025
No Pose Estimation? No Problem: Pose-Agnostic and Instance-Aware Test-Time Adaptation for Monocular Depth Estimation Mingyu Sung Hyeonmin Choe Il-Min Kim Sangseok Yun Jae-Mo Kang 166 0 0 07 Nov 2025
Another BRIXEL in the Wall: Towards Cheaper Dense Features Alexander Lappe Martin A. Giese 108 0 0 07 Nov 2025
Differentiable Hierarchical Visual Tokenization Marius Aasan Martine Hjelkrem-Tan Nico Catalano Changkyu Choi Adín Ramirez Rivera 152 0 0 04 Nov 2025
MIQ-SAM3D: From Single-Point Prompt to Multi-Instance Segmentation via Competitive Query Refinement Jierui Qu Jianchun Zhao MedIm 108 0 0 03 Nov 2025
Saliency-R1: Incentivizing Unified Saliency Reasoning Capability in MLLM with Confidence-Guided Reinforcement Learning Long Li Shuichen Ji Ziyang Luo Zhihui Li Dingwen Zhang Junwei Han Nian Liu LRM 131 0 0 01 Nov 2025
EPARA: Parallelizing Categorized AI Inference in Edge Clouds Y. Wang Yubo Cui Tuo Shi Danyang Li Wenxin Li Lide Suo Tao Wang Xin Xie 68 0 0 01 Nov 2025
Grounding Surgical Action Triplets with Instrument Instance Segmentation: A Dataset and Target-Aware Fusion Approach Oluwatosin O. Alabi Meng Wei Charlie Budd Tom Vercauteren Miaojing Shi MedIm 76 0 0 01 Nov 2025
BeetleFlow: An Integrative Deep Learning Pipeline for Beetle Image Processing Fangxun Liu S M Rayeed Samuel Stevens Alyson East Cheng Hsuan Chiang ... Eric Sokol Michael Belitz Sydne Record Charles V. Stewart Wei-Lun Chao 52 0 0 31 Oct 2025
Generative Semantic Coding for Ultra-Low Bitrate Visual Communication and Analysis Weiming Chen Yijia Wang Zhihan Zhu Z. He DiffM 72 0 0 31 Oct 2025
Revisiting Generative Infrared and Visible Image Fusion Based on Human Cognitive Laws Lin Guo Xiaoqing Luo Wei Xie Zhancheng Zhang Hui Li Rui Wang Zhenhua Feng Xiaoning Song 80 0 0 30 Oct 2025
NaviTrace: Evaluating Embodied Navigation of Vision-Language Models Tim Windecker Manthan Patel Moritz Reuss Richard Schwarzkopf Cesar Cadena Rudolf Lioutikov Marco Hutter Jonas Frey LM&Ro 281 1 0 30 Oct 2025
Region-CAM: Towards Accurate Object Regions in Class Activation Maps for Weakly Supervised Learning Tasks Qingdong Cai Charith Abhayaratne WSOL VLM 250 0 0 29 Oct 2025
LangHOPS: Language Grounded Hierarchical Open-Vocabulary Part Segmentation Yang Miao Jan-Nico Zaech Xi Wang Fabien Despinoy Danda Pani Paudel Luc Van Gool VLM 262 0 0 29 Oct 2025
AtlasGS: Atlanta-world Guided Surface Reconstruction with Implicit Structured Gaussians Xiyu Zhang Chong Bao Yipeng Chen Hongjia Zhai Yitong Dong Hujun Bao Zhaopeng Cui Guofeng Zhang 3DGS 100 0 0 29 Oct 2025
SRSR: Enhancing Semantic Accuracy in Real-World Image Super-Resolution with Spatially Re-Focused Text-Conditioning Chen Chen Majid Abdolshah Violetta Shevchenko Hongdong Li Chang Xu Pulak Purkait DiffM 84 0 0 26 Oct 2025
IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction Hao Li Zhengyu Zou Fangfu Liu Xuanyang Zhang Fangzhou Hong ... Yushi Lan Manyuan Zhang Gang Yu Dingwen Zhang Ziwei Liu ViT 3DV 356 0 0 26 Oct 2025
Simplifying Knowledge Transfer in Pretrained Models Siddharth Jain Shyamgopal Karthik Vineet Gandhi 122 0 0 25 Oct 2025
Controllable-LPMoE: Adapting to Challenging Object Segmentation via Dynamic Local Priors from Mixture-of-Experts Yanguang Sun Jiawei Lian Jian Yang Lei Luo 76 0 0 24 Oct 2025
Dynamic Semantic-Aware Correlation Modeling for UAV Tracking Xinyu Zhou Tongxin Pan Lingyi Hong Pinxue Guo Haijing Guo Zhaoyu Chen Kaixun Jiang Wenqiang Zhang 56 0 0 24 Oct 2025
ARGenSeg: Image Segmentation with Autoregressive Image Generation Model Xiaolong Wang Lixiang Ru Ziyuan Huang Kaixiang Ji Dandan Zheng Jingdong Chen Jun Zhou VLM 57 0 0 23 Oct 2025
SFGFusion: Surface Fitting Guided 3D Object Detection with 4D Radar and Camera Fusion Xiaozhi Li Huijun Di Jian Li Feng Liu Wei Liang 120 1 0 22 Oct 2025