v1v2v3 (latest)

Masked-attention Mask Transformer for Universal Image Segmentation

2 December 2021

Papers citing "Masked-attention Mask Transformer for Universal Image Segmentation"

50 / 1,661 papers shown

Title
BoxSeg: Quality-Aware and Peer-Assisted Learning for Box-supervised Instance Segmentation Jinxiang Lai Wenlong Wu Jiawei Zhan Jian Li Bin-Bin Gao Jing Liu Jie Zhang Song Guo ISeg 213 0 0 07 Apr 2025
The Point, the Vision and the Text: Does Point Cloud Boost Spatial Reasoning of Large Language Models? Weichen Zhang Ruiying Peng Chen Gao Jianjie Fang Xin Zeng ... Liang Luo Jinqiang Cui Xin Wang Xinlei Chen Yongqian Li LRM 329 4 0 06 Apr 2025
DocSAM: Unified Document Image Segmentation via Query Decomposition and Heterogeneous Mixed LearningComputer Vision and Pattern Recognition (CVPR), 2025 Xiao-Hui Li Fei Yin Cheng-Lin Liu 253 2 0 05 Apr 2025
View2CAD: Reconstructing View-Centric CAD Models from Single RGB-D Scans James Noeckel Benjamin T. Jones Adriana Schulz Brian L. Curless 143 0 0 05 Apr 2025
CoMBO: Conflict Mitigation via Branched Optimization for Class Incremental SegmentationComputer Vision and Pattern Recognition (CVPR), 2025 Kai Fang Anqi Zhang Guangyu Gao Jianbo Jiao C. Liu Yunchao Wei CLL 245 5 0 05 Apr 2025
Pairwise Optimal Transports for Training All-to-All Flow-Based Condition Transfer Model Kotaro Ikeda Masanori Koyama Jinzhe Zhang Kunihiko Miyoshi Kenji Fukumizu OT 1.1K 0 0 04 Apr 2025
HGFormer: Topology-Aware Vision Transformer with HyperGraph LearningIEEE transactions on multimedia (TMM), 2025 Hao Wang Shuo Zhang Biao Leng ViT 540 3 0 03 Apr 2025
Scenario Discovery for Urban Planning: The Case of Green Urbanism and the Impact on Stress Lorena Torres Lahoz C. L. Azevedo Leonardo Ancora Paulo Morgado Zenia Kotval Bruno Miranda Francisco Câmara Pereira 111 0 0 03 Apr 2025
Multimodal Fusion and Vision-Language Models: A Survey for Robot VisionInformation Fusion (Inf. Fusion), 2025 Xiaofeng Han Shunpeng Chen Zenghuang Fu Zhe Feng Lue Fan ... Li Guo Weiliang Meng Xiaopeng Zhang Rongtao Xu Shibiao Xu 331 33 0 03 Apr 2025
Scene-Centric Unsupervised Panoptic SegmentationComputer Vision and Pattern Recognition (CVPR), 2025 Oliver Hahn Christoph Reich Nikita Araslanov Daniel Cremers Christian Rupprecht Stefan Roth OCL 304 5 0 02 Apr 2025
Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness Haochen Wang Yucheng Zhao Tiancai Wang Haoqiang Fan Xinming Zhang Rundong Wang 339 28 0 02 Apr 2025
Global Rice Multi-Class Segmentation Dataset (RiceSEG): A Comprehensive and Diverse High-Resolution RGB-Annotated Images for the Development and Benchmarking of Rice Segmentation AlgorithmsPlant Phenomics (PP), 2025 Junchi Zhou Haozhou Wang Yoichiro Kato Tejasri Nampally P. Rajalakshmi ... Xiaochun Hu Yuanzhu Yang Yanfeng Ding Wei Guo Shouyang Liu 143 1 0 02 Apr 2025
POPEN: Preference-Based Optimization and Ensemble for LVLM-Based Reasoning SegmentationComputer Vision and Pattern Recognition (CVPR), 2025 Lanyun Zhu Tianrun Chen Qianxiong Xu Xuanyi Liu Deyi Ji Haiyang Wu Na Zhao Jing Liu VLM LRM 258 11 0 01 Apr 2025
Zero-Shot 4D Lidar Panoptic SegmentationComputer Vision and Pattern Recognition (CVPR), 2025 Yushan Zhang Aljosa Osep Laura Leal-Taixé Tim Meinhardt 3DPC 299 4 0 01 Apr 2025
Coca-Splat: Collaborative Optimization for Camera Parameters and 3D Gaussians Jiamin Wu Hongyang Li Xiaoke Jiang Xingtai Lv Lei Zhang 3DGS 292 0 0 01 Apr 2025
SuperDec: 3D Scene Decomposition with Superquadric Primitives Elisabetta Fedele Boyang Sun Leonidas Guibas Marc Pollefeys Francis Engelmann 3DPC 252 9 0 01 Apr 2025
Concept-Aware LoRA for Domain-Aligned Segmentation Dataset Generation Minho Park S. Park Jungsoo Lee Hyojin Park Kyuwoong Hwang Fatih Porikli Jaegul Choo Sungha Choi 217 0 0 28 Mar 2025
Stream and Query-guided Feature Aggregation for Efficient and Effective 3D Occupancy Prediction Seokha Moon Janghyun Baek Giseop Kim Jinkyu Kim Sunwook Choi 274 3 0 28 Mar 2025
Data Quality Matters: Quantifying Image Quality Impact on Machine Learning Performance Christian Steinhauser Philipp Reis Hubert Padusinski Jacob Langner Eric Sax 100 4 0 28 Mar 2025
A Dataset for Semantic Segmentation in the Presence of UnknownsComputer Vision and Pattern Recognition (CVPR), 2025 Zakaria Laskar Tomás Vojír Matej Grcic Iaroslav Melekhov Shankar Gangisettye Arno Solin Jirí Matas Giorgos Tolias C.V. Jawahar UQCV 179 0 0 28 Mar 2025
A Unified Image-Dense Annotation Generation Model for Underwater ScenesComputer Vision and Pattern Recognition (CVPR), 2025 Hongkai Lin Dingkang Liang Zhenghao Qi X. Bai DiffM 276 2 0 27 Mar 2025
Embedding Compression Distortion in Video Coding for Machines Yizhou Sun Yao-Min Zhao Meiqin Liu Chao Yao Weisi Lin 159 1 0 27 Mar 2025
Towards Generating Realistic 3D Semantic Training Data for Autonomous Driving Lucas Nunes Rodrigo Marcuzzi Jens Behley C. Stachniss 3DPC 267 3 0 27 Mar 2025
Exploiting Temporal State Space Sharing for Video Semantic SegmentationComputer Vision and Pattern Recognition (CVPR), 2025 Syed Ariff Syed Hesham Yun Liu Guolei Sun Henghui Ding Jing Yang Ender Konukoglu Xue Geng Xudong Jiang 199 5 0 26 Mar 2025
Self-Supervised Learning of Motion Concepts by Optimizing Counterfactuals Stefan Stojanov David Wendt Seungwoo Kim R. Venkatesh Kevin T. Feigelis Jiajun Wu Daniel L. K. Yamins SSL 207 3 0 25 Mar 2025
Context-Aware Semantic Segmentation: Enhancing Pixel-Level Understanding with Large Language Models for Advanced Vision Applications Ben Rahman VLM 237 4 0 25 Mar 2025
Vanishing Depth: A Depth Adapter with Positional Depth Encoding for Generalized Image Encoders Paul Koch Jörg Krüger Ankit Chowdhury O. Heimann MDE 240 0 0 25 Mar 2025
From Sparse to Dense: Camera Relocalization with Scene-Specific Detector from Feature Gaussian SplattingComputer Vision and Pattern Recognition (CVPR), 2025 Zhiwei Huang Hailin Yu Yichun Shentu Jin Yuan Guofeng Zhang 256 5 0 25 Mar 2025
Show and Segment: Universal Medical Image Segmentation via In-Context LearningComputer Vision and Pattern Recognition (CVPR), 2025 Yunhe Gao Di Liu Zhuowei Li You Li DongDong Chen Mu Zhou Dimitris N. Metaxas VLM 294 7 0 25 Mar 2025
Vision-Guided Loco-Manipulation with a Snake Robot Adarsh Salagame Sasank Potluri Keshav Bharadwaj Vaidyanathan Kruthika Gangaraju Eric N. Sihite Milad Ramezani Alireza Ramezani 170 0 0 24 Mar 2025
Your ViT is Secretly an Image Segmentation ModelComputer Vision and Pattern Recognition (CVPR), 2025 Tommie Kerssies Niccolò Cavagnero Alexander Hermans Narges Norouzi Giuseppe Averta Bastian Leibe Gijs Dubbelman Daan de Geus ViT VLM 305 21 0 24 Mar 2025
PDDM: Pseudo Depth Diffusion Model for RGB-PD Semantic Segmentation Based in Complex Indoor ScenesAAAI Conference on Artificial Intelligence (AAAI), 2025 Xinhua Xu Hong Liu Jianbing Wu Jinfu Liu DiffM 191 1 0 24 Mar 2025
Frequency Dynamic Convolution for Dense Image PredictionComputer Vision and Pattern Recognition (CVPR), 2025 Linwei Chen Lin Gu Liang Li C. Yan Ying Fu 269 13 0 24 Mar 2025
EgoSurgery-HTS: A Dataset for Egocentric Hand-Tool Segmentation in Open Surgery Videos Nathan Darjana Ryo Fujii Hideo Saito Hiroki Kajita 238 0 0 24 Mar 2025
PanoGS: Gaussian-based Panoptic Segmentation for 3D Open Vocabulary Scene UnderstandingComputer Vision and Pattern Recognition (CVPR), 2025 Hongjia Zhai Haoyang Li Zhenzhe Li Xiaokun Pan Yijia He Guofeng Zhang 215 5 0 23 Mar 2025
A Temporal Modeling Framework for Video Pre-Training on Video Instance Segmentation Qing Zhong Peng-Tao Jiang Wen Wang Guodong Ding Lin Wu Kaiqi Huang VLM 290 2 0 22 Mar 2025
Multi-modality Anomaly Segmentation on the Road Heng Gao Zhuolin He Shoumeng Qiu Xiangyang Xue Jian Pu 241 0 0 22 Mar 2025
Jasmine: Harnessing Diffusion Prior for Self-supervised Depth Estimation Jiyuan Wang Chunyu Lin Cheng Guan Lang Nie Jing He Haodong Li K. Liao Yao Zhao DiffM MDE 423 10 0 20 Mar 2025
DynamicVis: An Efficient and General Visual Foundation Model for Remote Sensing Image Understanding Keyan Chen Chenyang Liu Bowen Chen Wenyuan Li Zhengxia Zou Zhenwei Shi 273 15 0 20 Mar 2025
UniHDSA: A Unified Relation Prediction Approach for Hierarchical Document Structure AnalysisPattern Recognition (Pattern Recogn.), 2025 Jiawei Wang Kai Hu Qiang Huo 270 1 0 20 Mar 2025
SA-Occ: Satellite-Assisted 3D Occupancy Prediction in Real World Chen Chen Zhirui Wang Taowei Sheng Yi Jiang Yuchen Ren ... Luning Zhang Kaiqiang Chen Yanfeng Hu Xue Yang Xian Sun 199 2 0 20 Mar 2025
EgoDTM: Towards 3D-Aware Egocentric Video-Language Pretraining Boshen Xu Yuting Mei Xinbi Liu Sipeng Zheng Qin Jin VLM MDE 450 2 0 19 Mar 2025
CAM-Seg: A Continuous-valued Embedding Approach for Semantic Image Generation Masud Ahmed Zahid Hasan Syed Arefinul Haque A. Faridee S. Purushotham Suya You Nirmalya Roy 413 0 0 19 Mar 2025
Universal Scene Graph GenerationComputer Vision and Pattern Recognition (CVPR), 2025 Shengqiong Wu Hao Fei Tat-Seng Chua 339 2 0 19 Mar 2025
The Power of Context: How Multimodality Improves Image Super-ResolutionComputer Vision and Pattern Recognition (CVPR), 2025 Kangfu Mei Hossein Talebi Mojtaba Ardakani Vishal M. Patel P. Milanfar M. Delbracio DiffM 296 10 0 18 Mar 2025
Rethinking End-to-End 2D to 3D Scene Segmentation in Gaussian SplattingComputer Vision and Pattern Recognition (CVPR), 2025 Runsong Zhu Shi Qiu Zhengzhe Liu Ka-Hei Hui Qianyi Wu Ge Liu Chi-Wing Fu 3DGS 3DV 221 9 0 18 Mar 2025
Dynamic Derivation and Elimination: Audio Visual Segmentation with Enhanced Audio SemanticsComputer Vision and Pattern Recognition (CVPR), 2025 Chen Liu Liying Yang Peike Li Dadong Wang Lincheng Li Xin Yu VOS 273 3 0 17 Mar 2025
HiMTok: Learning Hierarchical Mask Tokens for Image Segmentation with Large Multimodal Model Tao Wang Changxu Cheng Lingfeng Wang Senda Chen Wuyue Zhao VLM 277 8 0 17 Mar 2025
MTGS: Multi-Traversal Gaussian Splatting Tianyu Li Yihang Qiu Zhenhua Wu Carl Lindström Peng Su Matthias Nießner Hongyang Li 3DGS 400 8 0 16 Mar 2025
Logic-RAG: Augmenting Large Multimodal Models with Visual-Spatial Knowledge for Road Scene UnderstandingIEEE International Conference on Robotics and Automation (ICRA), 2025 Imran Kabir Md. Alimoor Reza Syed Masum Billah ReLM VLM LRM 243 3 0 16 Mar 2025