Vision Transformers for Dense Prediction

IEEE International Conference on Computer Vision (ICCV), 2021

24 March 2021

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)Github (2138★)

Papers citing "Vision Transformers for Dense Prediction"

50 / 1,223 papers shown

Title
FreqPDE: Rethinking Positional Depth Embedding for Multi-View 3D Object Detection Transformers Haisheng Su Junjie Zhang Feixiang Song Sanping Zhou Wei Wu N. Zheng Junchi Yan ViT 3DPC 136 0 0 17 Oct 2025
SHARE: Scene-Human Aligned Reconstruction Joshua Li Brendan Chharawala Chang Shu Xue Bin Peng Pengcheng Xi 3DH 150 0 0 17 Oct 2025
Multi-modal video data-pipelines for machine learning with minimal human supervision Mihai Cristian Pîrvu Marius Leordeanu VGen 108 0 0 16 Oct 2025
Vision-Centric Activation and Coordination for Multimodal Large Language Models Yunnan Wang Fan Lu Kecheng Zheng Ziyuan Huang Ziqiang Li Wenjun Zeng Xin Jin MLLM 332 0 0 16 Oct 2025
MatchAttention: Matching the Relative Positions for High-Resolution Cross-View Matching Tingman Yan Tao Liu Xilian Yang Qunfei Zhao Zeyang Xia 3DV 191 0 0 16 Oct 2025
SaLon3R: Structure-aware Long-term Generalizable 3D Reconstruction from Unposed Images Jiaxin Guo Tongfan Guan Wenzhen Dong Wenzhao Zheng Wenting Wang Yue Wang Yeung Yam Yun-Hui Liu 3DGS 3DV 165 0 0 16 Oct 2025
Scene Coordinate Reconstruction Priors Wenjing Bian Axel Barroso-Laguna Tommaso Cavallari V. Prisacariu Eric Brachmann 125 1 0 14 Oct 2025
Spatial Forcing: Implicit Spatial Representation Alignment for Vision-language-action Model Fuhao Li Wenxuan Song Han Zhao Jingbo Wang Pengxiang Ding Donglin Wang Long Zeng Haoang Li 186 5 0 14 Oct 2025
UniFlow: A Unified Pixel Flow Tokenizer for Visual Understanding and Generation Zhengrong Yue H. Zhang Xiangyu Zeng Boyu Chen Chenting Wang ... Lu Dong Kunpeng Du Yi Wang Limin Wang Yali Wang 176 7 0 12 Oct 2025
WorldMirror: Universal 3D World Reconstruction with Any-Prior Prompting Yifan Liu Zhiyuan Min Zhenwei Wang Junta Wu Tengfei Wang Yixuan Yuan Yawei Luo Chunchao Guo 3DGS 157 10 0 12 Oct 2025
Gesplat: Robust Pose-Free 3D Reconstruction via Geometry-Guided Gaussian Splatting Jiahui Lu Haihong Xiao Xueyan Zhao Wenxiong Kang 3DGS 221 0 0 11 Oct 2025
Opacity-Gradient Driven Density Control for Compact and Efficient Few-Shot 3D Gaussian Splatting Abdelrhman Elrawy Emad A. Mohammed 3DGS 96 0 0 11 Oct 2025
FlareX: A Physics-Informed Dataset for Lens Flare Removal via 2D Synthesis and 3D Rendering Lishen Qu Zhihao Liu Jinshan Pan Shihao Zhou Jinglei Shi Duosheng Chen Jufeng Yang 96 2 0 11 Oct 2025
SaFiRe: Saccade-Fixation Reiteration with Mamba for Referring Image Segmentation Zhenjie Mao Yuhuan Yang Chaofan Ma Dongsheng Jiang Jiangchao Yao Ya Zhang Yanfeng Wang 124 0 0 11 Oct 2025
Hybrid-grained Feature Aggregation with Coarse-to-fine Language Guidance for Self-supervised Monocular Depth Estimation Wenyao Zhang Hongsi Liu Bohan Li Jiawei He Zekun Qi Yunnan Wang Shengyang Zhao Xinqiang Yu Wenjun Zeng Jianfeng Dong VLM MDE 197 1 0 10 Oct 2025
Geometry-Aware Scene Configurations for Novel View Synthesis Minkwan Kim Changwoon Choi Young Min Kim 76 0 0 10 Oct 2025
Visibility-Aware Densification for 3D Gaussian Splatting in Dynamic Urban Scenes Yikang Zhang Rui Fan 3DGS 93 0 0 10 Oct 2025
AlignGS: Aligning Geometry and Semantics for Robust Indoor Reconstruction from Sparse Views Yijie Gao Houqiang Zhong Tianchi Zhu Zhengxue Cheng Qiang Hu Li Song 3DV 127 0 0 09 Oct 2025
D $^2$ GS: Depth-and-Density Guided Gaussian Splatting for Stable and Accurate Sparse-View Reconstruction Meixi Song Xin Lin D. Zhang Haodong Li Xiangtai Li Bo Du Lu Qi 3DGS 108 1 0 09 Oct 2025
DADO: A Depth-Attention framework for Object DiscoveryInternational Conference on Computer Analysis of Images and Patterns (CAIP), 2025 Federico Gonzalez Estefanía Talavera Petia Radeva 96 0 0 08 Oct 2025
Human3R: Everyone Everywhere All at Once Yue Chen Xingyu Chen Yuxuan Xue Anpei Chen Yuliang Xiu Gerard Pons-Moll 3DH 3DGS 192 4 0 07 Oct 2025
GeoComplete: Geometry-Aware Diffusion for Reference-Driven Image Completion Beibei Lin Tingting Chen R. Tan DiffM 140 3 0 03 Oct 2025
Real-Time Assessment of Bystander Situation Awareness in Drone-Assisted First Aid Shen Chang Renran Tian Nicole Adams Nan Kong 84 0 0 03 Oct 2025
A Scene is Worth a Thousand Features: Feed-Forward Camera Localization from a Collection of Image Features Axel Barroso-Laguna Tommaso Cavallari V. Prisacariu Eric Brachmann 148 0 0 01 Oct 2025
HART: Human Aligned Reconstruction Transformer Xiyi Chen Shaofei Wang Marko Mihajlovic Taewon Kang Sergey Prokudin Ming C. Lin 3DH 3DGS 218 0 0 30 Sep 2025
TTT3R: 3D Reconstruction as Test-Time Training Xingyu Chen Yue Chen Yuliang Xiu Andreas Geiger Anpei Chen 3DV 249 16 0 30 Sep 2025
Vid-LLM: A Compact Video-based 3D Multimodal LLM with Reconstruction-Reasoning Synergy Haijier Chen Bo Xu Shoujian Zhang Haoze Liu Jiaxuan Lin Jingrong Wang LRM 134 1 0 29 Sep 2025
GaussianLens: Localized High-Resolution Reconstruction via On-Demand Gaussian Densification Yijia Weng Zhicheng Wang Songyou Peng Saining Xie Howard Zhou Leonidas Guibas 140 0 0 29 Sep 2025
BRIDGE -- Building Reinforcement-Learning Depth-to-Image Data Generation Engine for Monocular Depth Estimation Dingning Liu Haoyu Guo Jingyi Zhou Tong He OffRL MDE 276 0 0 29 Sep 2025
LVT: Large-Scale Scene Reconstruction via Local View Transformers Tooba Imtiaz Lucy Chai Kathryn Heal Xuan Luo Jungyeon Park Jennifer Dy John Flynn ViT 124 2 0 29 Sep 2025
RPG360: Robust 360 Depth Estimation with Perspective Foundation Models and Graph Optimization Dongki Jung Jaehoon Choi Yonghan Lee Dinesh Manocha MDE 142 0 0 28 Sep 2025
From Fields to Splats: A Cross-Domain Survey of Real-Time Neural Scene Representations Javed Ahmad Penggang Gao Donatien Delehelle Mennuti Canio Nikhil Deshpande J. Ortiz D. Caldwell Yonas Teodros Tefera 3DGS 136 0 0 28 Sep 2025
GRS-SLAM3R: Real-Time Dense SLAM with Gated Recurrent State Guole Shen Tianchen Deng Yanbo Wang Yongtao Chen Yilin Shen Jiuming Liu Jingchuan Wang 3DV 114 3 0 28 Sep 2025
FoR-SALE: Frame of Reference-guided Spatial Adjustment in LLM-based Diffusion Editing Tanawan Premsri Parisa Kordjamshidi DiffM 98 0 0 27 Sep 2025
SingRef6D: Monocular Novel Object Pose Estimation with a Single RGB Reference Jiahui Wang H. Zhu Haoren Guo Abdullah Al Mamun Cheng Xiang T. Lee 120 0 0 26 Sep 2025
RetoVLA: Reusing Register Tokens for Spatial Reasoning in Vision-Language-Action Models Jiyeon Koo Taewan Cho Hyunjoon Kang Eunseom Pyo Tae Gyun Oh Taeryang Kim Andrew Jaeyong Choi 66 1 0 25 Sep 2025
Dense Semantic Matching with VGGT Prior Songlin Yang Tianyi Wei Yushi Lan Zeqi Xiao Anyi Rao Xingang Pan 3DV 168 0 0 25 Sep 2025
VIMD: Monocular Visual-Inertial Motion and Depth Estimation Saimouli Katragadda Guoquan Huang MDE 244 0 0 24 Sep 2025
RS3DBench: A Comprehensive Benchmark for 3D Spatial Perception in Remote Sensing Jiayu Wang Ruizhi Wang Jie Song Haofei Zhang Mingli Song Zunlei Feng Li Sun MDE 176 0 0 23 Sep 2025
RoSe: Robust Self-supervised Stereo Matching under Adverse Weather Conditions Yun Wang Junjie Hu Junhui Hou Chenghao Zhang Renwei Yang Dapeng Wu 105 1 0 23 Sep 2025
VGGT-DP: Generalizable Robot Control via Vision Foundation Models Shijia Ge Yinxin Zhang Shuzhao Xie Weixiang Zhang Mingcai Zhou Zhi Wang 76 0 0 23 Sep 2025
GeoRemover: Removing Objects and Their Causal Visual Artifacts Zixin Zhu Haoxiang Li Xuelu Feng He Wu Chunming Qiao Junsong Yuan DiffM CML 199 0 0 23 Sep 2025
Zero-shot Monocular Metric Depth for Endoscopic Images Nicolas Toussaint Emanuele Colleoni Ricardo Sánchez-Matilla Joshua Sutcliffe Vanessa Thompson Muhammad Asad I. Luengo Danail Stoyanov MedIm MDE 144 0 0 23 Sep 2025
GPS Denied IBVS-Based Navigation and Collision Avoidance of UAV Using a Low-Cost RGB Camera Xiaoyu Wang Yan Rui Tan William Leong Sunan Huang Rodney Teo Cheng Xiang 32 1 0 22 Sep 2025
MRN: Harnessing 2D Vision Foundation Models for Diagnosing Parkinson's Disease with Limited 3D MR Data Ding Shaodong Liu Ziyang Zhou Yijun Liu Tao 92 0 0 22 Sep 2025
Evict3R: Training-Free Token Eviction for Memory-Bounded Streaming Visual Geometry Transformers Soroush Mahdi Fardin Ayar Ehsan Javanmardi Manabu Tsukada Mahdi Javanmardi 177 2 0 22 Sep 2025
SPFSplatV2: Efficient Self-Supervised Pose-Free 3D Gaussian Splatting from Sparse Views Ranran Huang Krystian Mikolajczyk 3DGS 58 0 0 21 Sep 2025
The SAGES Critical View of Safety Challenge: A Global Benchmark for AI-Assisted Surgical Quality Assessment Deepak Alapatt J. Eckhoff Zhiliang Lyu Yutong Ban J. Mazellier ... Pietro Mascagni Daniel A. Hashimoto Guy Rosman O. Meireles N. Padoy ELM 116 0 0 21 Sep 2025
Improving Robotic Manipulation with Efficient Geometry-Aware Vision Encoder An Vuong M. Vu Ian Reid 120 0 0 19 Sep 2025
Shedding Light on Depth: Explainability Assessment in Monocular Depth Estimation Lorenzo Cirillo Claudio Schiavella Lorenzo Papa Paolo Russo Irene Amerini FAtt 136 0 0 19 Sep 2025

All Papers

Vision Transformers for Dense Prediction

Papers citing "Vision Transformers for Dense Prediction"