Vision Transformers for Dense Prediction

IEEE International Conference on Computer Vision (ICCV), 2021

24 March 2021

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)Github (2138★)

Papers citing "Vision Transformers for Dense Prediction"

50 / 1,209 papers shown

Title
Towards Practical Plug-and-Play Diffusion ModelsComputer Vision and Pattern Recognition (CVPR), 2022 Hyojun Go Yunsung Lee Jin-Young Kim Seunghyun Lee Myeongho Jeong Hyun Seung Lee Seungtaek Choi DiffM 234 21 0 12 Dec 2022
ROIFormer: Semantic-Aware Region of Interest Transformer for Efficient Self-Supervised Monocular Depth EstimationAAAI Conference on Artificial Intelligence (AAAI), 2022 Daitao Xing Jinglin Shen C. Ho Anthony Tzes ViT MDE 270 14 0 12 Dec 2022
Source-free Depth for Object Pop-outIEEE International Conference on Computer Vision (ICCV), 2022 Zongwei Wu D. Paudel Deng-Ping Fan Jingjing Wang Shuo Wang C. Demonceaux Radu Timofte Luc Van Gool 273 87 0 10 Dec 2022
Mind The Edge: Refining Depth Edges in Sparsely-Supervised Monocular Depth EstimationComputer Vision and Pattern Recognition (CVPR), 2022 L. Talker Aviad Cohen E. Yosef Alexandra Dana Michael Dinerstein 245 10 0 10 Dec 2022
Monocular Camera and Single-Beam Sonar-Based Underwater Collision-Free Navigation with Domain RandomizationInternational Symposium of Robotics Research (ISRR), 2022 Pengzhi Yang Haowen Liu Monika Roznere Alberto Quattrini Li 99 15 0 08 Dec 2022
MIME: Human-Aware 3D Scene GenerationComputer Vision and Pattern Recognition (CVPR), 2022 Hongwei Yi C. Huang Shashank Tripathi Lea Hering Justus Thies Michael J. Black 3DH 205 60 0 08 Dec 2022
Surround-view Fisheye BEV-Perception for Valet Parking: Dataset, Baseline and Distortion-insensitive Multi-task FrameworkIEEE Transactions on Intelligent Vehicles (IEEE Trans. Intell. Veh.), 2022 Zizhang Wu Yuanzhu Gan Xianzhi Li Yunzhe Wu Xiaoquan Wang Tianhao Xu Fan Wang 126 14 0 08 Dec 2022
NeRDi: Single-View NeRF Synthesis with Language-Guided Diffusion as General Image PriorsComputer Vision and Pattern Recognition (CVPR), 2022 Congyue Deng C. Jiang C. Qi Xinchen Yan Yin Zhou Leonidas Guibas Drago Anguelov DiffM 190 181 0 06 Dec 2022
Event-based Monocular Dense Depth Estimation with Recurrent Transformers Xu Liu Jianing Li Xiaopeng Fan Yonghong Tian ViT MDE 162 18 0 06 Dec 2022
Objects as Spatio-Temporal 2.5D points Paridhi Singh Gaurav Singh Arun C. S. Kumar 3DPC 164 0 0 06 Dec 2022
Location-Aware Self-Supervised Transformers for Semantic SegmentationIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2022 Mathilde Caron N. Houlsby Cordelia Schmid ViT 265 22 0 05 Dec 2022
Self-supervised AutoFlowComputer Vision and Pattern Recognition (CVPR), 2022 Hsin-Ping Huang Charles Herrmann Junhwa Hur Erika Lu Kyle Sargent Austin Stone Ming-Hsuan Yang Deqing Sun 248 10 0 04 Dec 2022
Multi-resolution Monocular Depth Map Fusion by Self-supervised Gradient-based CompositionAAAI Conference on Artificial Intelligence (AAAI), 2022 Yaqiao Dai Renjiao Yi Chenyang Zhu Hongjun He Kai Xu MDE 118 6 0 03 Dec 2022
BEV-LGKD: A Unified LiDAR-Guided Knowledge Distillation Framework for BEV 3D Object Detection Jianing Li Ming Lu Jiaming Liu Yandong Guo Li Du Shanghang Zhang 221 6 0 01 Dec 2022
NeuralLift-360: Lifting An In-the-wild 2D Photo to A 3D Object with 360° ViewsComputer Vision and Pattern Recognition (CVPR), 2022 Dejia Xu Lezhi Li Peihao Wang Zhiwen Fan Yi Wang Zinan Lin DiffM 170 164 0 29 Nov 2022
Leveraging Image Matching Toward End-to-End Relative Camera Pose RegressionGerman Conference on Pattern Recognition (GCPR), 2022 Fadi Khatib Yuval Margalit Meirav Galun Ronen Basri 177 4 0 27 Nov 2022
Lite-Mono: A Lightweight CNN and Transformer Architecture for Self-Supervised Monocular Depth EstimationComputer Vision and Pattern Recognition (CVPR), 2022 Ning Zhang F. Nex G. Vosselman N. Kerle MDE 191 243 0 23 Nov 2022
Event Transformer+. A multi-purpose solution for efficient event data processingIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022 Alberto Sabater Luis Montesano Ana C. Murillo ViT 190 13 0 22 Nov 2022
Hybrid Transformer Based Feature Fusion for Self-Supervised Monocular Depth Estimation S. Tomar Maitreya Suin A. N. Rajagopalan ViT MDE 188 6 0 20 Nov 2022
A Practical Stereo Depth System for Smart GlassesComputer Vision and Pattern Recognition (CVPR), 2022 Jialiang Wang D. Scharstein Akash Bapat Kevin Blackburn-Matzen Matthew Yu ... Jan-Michael Frahm Zijian He Peter Vajda Michael F. Cohen M. Uyttendaele MDE 298 9 0 19 Nov 2022
CroCo v2: Improved Cross-view Completion Pre-training for Stereo Matching and Optical FlowIEEE International Conference on Computer Vision (ICCV), 2022 Philippe Weinzaepfel Thomas Lucas Vincent Leroy Yohann Cabon Vaibhav Arora Romain Brégier G. Csurka L. Antsfeld Boris Chidlovskii Jérôme Revaud ViT 358 150 0 18 Nov 2022
Estimating more camera poses for ego-centric videos is essential for VQ3D Jinjie Mai Chen Zhao Abdullah Hamdi Silvio Giancola Guohao Li EgoV 105 5 0 18 Nov 2022
LightDepth: A Resource Efficient Depth Estimation Approach for Dealing with Ground Truth Sparsity via Curriculum Learning Fatemeh Karimi Amir Mehrpanah Reza Rawassizadeh 180 2 0 16 Nov 2022
YORO -- Lightweight End to End Visual Grounding Chih-Hui Ho Srikar Appalaraju Bhavan A. Jasani R. Manmatha Nuno Vasconcelos ObjD 152 26 0 15 Nov 2022
3D Scene Inference from Transient HistogramsEuropean Conference on Computer Vision (ECCV), 2022 Sacha Jungerman Atul Ingle Yin Li Mohit Gupta 112 9 0 09 Nov 2022
3DFill:Reference-guided Image Inpainting by Self-supervised 3D Image Alignment Liang Zhao Xinyuan Zhao Hailong Ma Xinyu Zhang Long Zeng 130 4 0 09 Nov 2022
Realistic Bokeh Effect Rendering on Mobile GPUs, Mobile AI & AIM 2022 challenge: Report Andrey D. Ignatov Radu Timofte Jin Zhang Feng Zhang G. Yu ... Mingyang Qian Huixin Ma Yanan Li Xiaotao Wang Lei Lei 144 13 0 07 Nov 2022
SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for Dynamic ScenesIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022 Libo Sun Jiawang Bian Huangying Zhan Wei Yin Ian Reid Chunhua Shen MDE 334 95 0 07 Nov 2022
Robust Reflection Removal with Flash-only Cues in the WildIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022 Chenyang Lei Xu-dong Jiang Qifeng Chen 151 19 0 05 Nov 2022
RCDPT: Radar-Camera fusion Dense Prediction TransformerIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2022 Chen-Chou Lo P. Vandewalle ViT MDE 253 17 0 04 Nov 2022
Learning Audio-Visual Dynamics Using Scene Graphs for Audio Source SeparationNeural Information Processing Systems (NeurIPS), 2022 Moitreya Chatterjee Narendra Ahuja A. Cherian 180 15 0 29 Oct 2022
ImplantFormer: Vision Transformer based Implant Position Regression Using Dental CBCT Data Xinquan Yang Xuguang Li Xuechen Li Pei-Yao Wu Linlin Shen Yongqiang Deng MedIm 386 15 0 29 Oct 2022
Open-vocabulary Semantic Segmentation with Frozen Vision-Language ModelsBritish Machine Vision Conference (BMVC), 2022 Chaofan Ma Yu-Hao Yang Yanfeng Wang Ya Zhang Weidi Xie VLM 152 54 0 27 Oct 2022
M $^3$ ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task Learning with Model-Accelerator Co-designNeural Information Processing Systems (NeurIPS), 2022 Hanxue Liang Zhiwen Fan Rishov Sarkar Ziyu Jiang Tianlong Chen Kai Zou Yu Cheng Cong Hao Zinan Lin MoE 210 125 0 26 Oct 2022
Monocular Dynamic View Synthesis: A Reality CheckNeural Information Processing Systems (NeurIPS), 2022 Han Gao Ruilong Li Shubham Tulsiani Bryan C. Russell Angjoo Kanazawa 140 169 0 24 Oct 2022
CroCo: Self-Supervised Pre-training for 3D Vision Tasks by Cross-View CompletionNeural Information Processing Systems (NeurIPS), 2022 Philippe Weinzaepfel Vincent Leroy Thomas Lucas Romain Brégier Yohann Cabon Vaibhav Arora L. Antsfeld Boris Chidlovskii G. Csurka Jérôme Revaud SSL 322 120 0 19 Oct 2022
High-Resolution Depth Estimation for 360-degree Panoramas through Perspective and Panoramic Depth Images RegistrationIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2022 Chi-Han Peng Jiayao Zhang MDE 169 15 0 19 Oct 2022
A Tri-Layer Plugin to Improve Occluded DetectionBritish Machine Vision Conference (BMVC), 2022 Guanqi Zhan Weidi Xie Andrew Zisserman 169 26 0 18 Oct 2022
Hierarchical Normalization for Robust Monocular Depth EstimationNeural Information Processing Systems (NeurIPS), 2022 Chi Zhang Wei Yin Zhibin Wang Gang Yu Bin-Bin Fu Chunhua Shen MDE 206 54 0 18 Oct 2022
Attention Attention Everywhere: Monocular Depth Prediction with Skip AttentionIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2022 Ashutosh Agarwal Chetan Arora MDE 148 177 0 17 Oct 2022
Multi-Task Learning based Video Anomaly Detection with Attention M. Baradaran R. Bergevin 234 13 0 14 Oct 2022
How to Train Vision Transformer on Small-scale Datasets?British Machine Vision Conference (BMVC), 2022 Hanan Gani Muzammal Naseer Mohammad Yaqub ViT 147 62 0 13 Oct 2022
RTFormer: Efficient Design for Real-Time Semantic Segmentation with TransformerNeural Information Processing Systems (NeurIPS), 2022 Jian Wang Chen-xi Gou Qiman Wu Haocheng Feng Junyu Han Errui Ding Jingdong Wang ViT 178 145 0 13 Oct 2022
SegViT: Semantic Segmentation with Plain Vision TransformersNeural Information Processing Systems (NeurIPS), 2022 Bowen Zhang Zhi Tian Quan Tang Xiangxiang Chu Xiaolin K. Wei Chunhua Shen Yifan Liu ViT 201 191 0 12 Oct 2022
Map-free Visual Relocalization: Metric Pose Relative to a Single ImageEuropean Conference on Computer Vision (ECCV), 2022 Eduardo Arnold Jamie M. Wynn Sara Vicente Guillermo Garcia-Hernando Áron Monszpart V. Prisacariu Daniyar Turmukhambetov Eric Brachmann 171 86 0 11 Oct 2022
Self-Supervised Monocular Depth UnderwaterIEEE International Conference on Robotics and Automation (ICRA), 2022 Shlomi Amitai Itzik Klein T. Treibitz MDE 138 12 0 06 Oct 2022
Multi-Camera Collaborative Depth Prediction via Consistent Structure EstimationACM Multimedia (ACM MM), 2022 Jialei Xu Xianming Liu Yuanchao Bai Junjun Jiang Kaixuan Wang Xiaozhi Chen Xiangyang Ji 3DV MDE 139 25 0 05 Oct 2022
Dense Prediction Transformer for Scale Estimation in Monocular Visual OdometryLatin American Robotics Symposium (LR), 2022 André O. Françani Marcos R. O. A. Máximo MDE 120 14 0 04 Oct 2022
Expediting Large-Scale Vision Transformer for Dense Prediction without Fine-tuningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022 Weicong Liang Yuhui Yuan Henghui Ding Xiao Luo Weihong Lin Ding Jia Zheng Zhang Chao Zhang Hanhua Hu 229 38 0 03 Oct 2022
Improving 3D-aware Image Synthesis with A Geometry-aware DiscriminatorNeural Information Processing Systems (NeurIPS), 2022 Zifan Shi Yinghao Xu Yujun Shen Deli Zhao Qifeng Chen Dit-Yan Yeung 228 21 0 30 Sep 2022