Depth Anything V2

13 June 2024

Papers citing "Depth Anything V2"

50 / 71 papers shown

Title
VGLD: Visually-Guided Linguistic Disambiguation for Monocular Depth Scale Recovery Bojin Wu Jing Chen MDE 31 0 0 05 May 2025
JointDiT: Enhancing RGB-Depth Joint Modeling with Diffusion Transformers Kwon Byung-Ki Qi Dai Lee Hyoseok Chong Luo Tae-Hyun Oh 57 0 0 01 May 2025
RayZer: A Self-supervised Large View Synthesis Model Hanwen Jiang Hao Tan Peng Wang Haian Jin Yue Zhao ... Kai Zhang Fujun Luan Kalyan Sunkavalli Qixing Huang Georgios Pavlakos 60 0 0 01 May 2025
ReVision: High-Quality, Low-Cost Video Generation with Explicit 3D Physics Modeling for Complex Motion and Interaction Qihao Liu Ju He Qihang Yu Liang-Chieh Chen Alan Yuille DiffM VGen 75 0 0 30 Apr 2025
eNCApsulate: NCA for Precision Diagnosis on Capsule Endoscopes Henry J Krumb Anirban Mukhopadhyay 30 0 0 30 Apr 2025
IM-Portrait: Learning 3D-aware Video Diffusion for Photorealistic Talking Heads from Monocular Videos Yuan Li Ziqian Bai Feitong Tan Zhaopeng Cui S. Fanello Yinda Zhang DiffM VGen 49 0 0 27 Apr 2025
Depth as Points: Center Point-based Depth Estimation Zhiheng Tu Xinjian Huang Y. He Ruiyang Zhou Bo Du Weitao Wu 3DPC 41 0 0 26 Apr 2025
Depth3DLane: Monocular 3D Lane Detection via Depth Prior Distillation Dongxin Lyu Han Huang Cheng Tan Zimu Li MDE 56 0 0 25 Apr 2025
VistaDepth: Frequency Modulation With Bias Reweighting For Enhanced Long-Range Depth Estimation Mingxia Zhan Li Zhang Xiaomeng Chu Beibei Wang MDE 52 0 0 21 Apr 2025
ODHSR: Online Dense 3D Reconstruction of Humans and Scenes from Monocular Videos Zetong Zhang Manuel Kaufmann Lixin Xue Jie Song Martin R. Oswald 3DH 52 0 0 17 Apr 2025
Cosmos-Transfer1: Conditional World Generation with Adaptive Multimodal Control Nvidia Hassan Abu Alhaija Jose M. Alvarez Maciej Bala Tiffany Cai ... Yuchong Ye Xiaodong Yang X. Yang Xiaohui Zeng Yu Zeng VGen 86 1 0 18 Mar 2025
MonoDGP: Monocular 3D Object Detection with Decoupled-Query and Geometry-Error Priors Fanqi Pu Yifan Wang Jiru Deng Wenming Yang MDE ViT 48 2 0 13 Mar 2025
Reangle-A-Video: 4D Video Generation as Video-to-Video Translation Hyeonho Jeong Suhyeon Lee Jong Chul Ye VGen 57 0 0 12 Mar 2025
Endo-FASt3r: Endoscopic Foundation model Adaptation for Structure from motion Mona Sheikh Zeinoddin Mobarakol Islam Zafer Tandogdu Greg Shaw Mathew J. Clarkson E. Mazomenos Danail Stoyanov 36 0 0 10 Mar 2025
Infinite Leagues Under the Sea: Photorealistic 3D Underwater Terrain Generation by Latent Fractal Diffusion Models Tianyi Zhang Weiming Zhi Joshua Mangelson Matthew Johnson-Roberson 38 0 0 09 Mar 2025
Patch-Depth Fusion: Dichotomous Image Segmentation via Fine-Grained Patch Strategy and Depth Integrity-Prior Xianjie Liu Keren Fu Qijun Zhao MDE 47 0 0 08 Mar 2025
Seeing A 3D World in A Grain of Sand Yufan Zhang Yu Ji Yu Guo Jinwei Ye 3DV 38 0 0 01 Mar 2025
pySLAM: An Open-Source, Modular, and Extensible Framework for SLAM Luigi Freda GP VLM MDE 42 1 0 20 Feb 2025
Matrix3D: Large Photogrammetry Model All-in-One Yuanxun Lu Jingyang Zhang Tian Fang Jean-Daniel Nahmias Yanghai Tsin Long Quan Xun Cao Yao Yao Shiwei Li 99 4 0 11 Feb 2025
Revisiting Gradient-based Uncertainty for Monocular Depth Estimation Julia Hornauer Amir El-Ghoussani Vasileios Belagiannis UQCV 43 0 0 09 Feb 2025
Survey on Monocular Metric Depth Estimation Jiuling Zhang VLM 59 0 0 21 Jan 2025
Car-GS: Addressing Reflective and Transparent Surface Challenges in 3D Car Reconstruction Congcong Li Jin Wang Xiaomeng Wang Xingchen Zhou Wei Wu Yuzhi Zhang Tongyi Cao 3DGS 3DV 40 0 0 19 Jan 2025
Vid2Sim: Realistic and Interactive Simulation from Video for Urban Navigation Ziyang Xie Zhizheng Liu Zhenghao Peng Wayne Wu Bolei Zhou VGen 44 3 0 12 Jan 2025
DPBridge: Latent Diffusion Bridge for Dense Prediction Haorui Ji Taojun Lin Hongdong Li DiffM 41 1 0 29 Dec 2024
MegaSynth: Scaling Up 3D Scene Reconstruction with Synthesized Data Hanwen Jiang Zexiang Xu Desai Xie Z. Chen Haian Jin ... Xin Sun Jiuxiang Gu Qixing Huang Georgios Pavlakos Hao Tan 96 1 0 18 Dec 2024
NFL-BA: Improving Endoscopic SLAM with Near-Field Light Bundle Adjustment Andrea Dunn Beltran Daniel Rho Marc Niethammer Roni Sengupta Roni Sengupta 73 2 0 17 Dec 2024
ViPOcc: Leveraging Visual Priors from Vision Foundation Models for Single-View 3D Occupancy Prediction Yi Feng Yu Han Xijing Zhang Tanghui Li Yanting Zhang Rui Fan 82 3 0 15 Dec 2024
Olympus: A Universal Task Router for Computer Vision Tasks Yuanze Lin Yunsheng Li Dongdong Chen Weijian Xu Ronald Clark Philip H. S. Torr VLM ObjD 100 0 0 12 Dec 2024
Omni-Scene: Omni-Gaussian Representation for Ego-Centric Sparse-View Scene Reconstruction Dongxu Wei Zhiqi Li Peidong Liu 79 1 0 09 Dec 2024
DualPM: Dual Posed-Canonical Point Maps for 3D Shape and Pose Reconstruction Ben Kaye Tomas Jakab Shangzhe Wu Christian Rupprecht Andrea Vedaldi 3DPC 3DH 86 1 0 05 Dec 2024
Adaptive Blind All-in-One Image Restoration David Serrano-Lozano Luis Herranz Shaolin Su Javier Vázquez-Corral VLM 80 0 0 27 Nov 2024
MVGenMaster: Scaling Multi-View Generation from Any Image via 3D Priors Enhanced Diffusion Model Chenjie Cao Chaohui Yu Shang Liu Fan Wang Xiangyang Xue Yanwei Fu 68 1 0 25 Nov 2024
SplatFlow: Multi-View Rectified Flow Model for 3D Gaussian Splatting Synthesis Hyojun Go Byeongjun Park Jiho Jang Jin-Young Kim Soonwoo Kwon Changick Kim 3DGS 105 2 0 25 Nov 2024
PriorDiffusion: Leverage Language Prior in Diffusion Models for Monocular Depth Estimation Ziyao Zeng Jingcheng Ni Daniel Wang Patrick Rim Younjoon Chung Fengyu Yang Byung-Woo Hong A. Wong DiffM MDE 88 2 0 24 Nov 2024
LaVin-DiT: Large Vision Diffusion Transformer Zhaoqing Wang Xiaobo Xia Runnan Chen Dongdong Yu Changhu Wang M. Gong Tongliang Liu 92 6 0 18 Nov 2024
Decoupling Fine Detail and Global Geometry for Compressed Depth Map Super-Resolution Huan Zheng Wencheng Han Jianbing Shen 55 1 0 05 Nov 2024
X-Drive: Cross-modality consistent multi-sensor data synthesis for driving scenarios Yichen Xie Chenfeng Xu C-T.John Peng Shuqi Zhao Nhat Ho Alexander T. Pham Mingyu Ding M. Tomizuka W. Zhan DiffM 21 2 0 02 Nov 2024
CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scenes Yang Liu Chuanchen Luo Zhongkai Mao Junran Peng Zhaoxiang Zhang 3DGS 50 5 0 01 Nov 2024
MoGe: Unlocking Accurate Monocular Geometry Estimation for Open-Domain Images with Optimal Training Supervision Ruicheng Wang Sicheng Xu Cassie Dai Jianfeng Xiang Yu Deng Xin Tong Jiaolong Yang TPM 3DH MDE 35 29 0 24 Oct 2024
Swiss Army Knife: Synergizing Biases in Knowledge from Vision Foundation Models for Multi-Task Learning Yuxiang Lu Shengcao Cao Yu-xiong Wang 34 1 0 18 Oct 2024
DepthSplat: Connecting Gaussian Splatting and Depth Haofei Xu Songyou Peng Fangjinhua Wang Hermann Blum Dániel Baráth Andreas Geiger Marc Pollefeys 3DGS MDE 46 29 0 17 Oct 2024
Order-aware Interactive Segmentation Bin Wang Anwesa Choudhuri Meng Zheng Zhongpai Gao Benjamin Planche Andong Deng Qin Liu Terrence Chen Ulas Bagci Ziyan Wu VLM 27 1 0 16 Oct 2024
A Simple Approach to Unifying Diffusion-based Conditional Generation Xirui Li Charles Herrmann Kelvin C.K. Chan Yinxiao Li Deqing Sun Chao Ma Ming Yang DiffM VLM 26 1 0 15 Oct 2024
Your Mixture-of-Experts LLM Is Secretly an Embedding Model For Free Ziyue Li Tianyi Zhou MoE 37 5 0 14 Oct 2024
Browsing without Third-Party Cookies: What Do You See? Maxwell Lin Shihan Lin Helen Wu Karen Wang Xiaowei Yang BDL 38 3 0 14 Oct 2024
Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting Matthew Strong Boshu Lei Aiden Swann Wen Jiang Kostas Daniilidis Monroe Kennedy III 3DGS 32 3 0 07 Oct 2024
Refinement of Monocular Depth Maps via Multi-View Differentiable Rendering Laura Fink Linus Franke Joachim Keinert Marc Stamminger MDE 3DV 14 0 0 04 Oct 2024
MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion Junyi Zhang Charles Herrmann Junhwa Hur Varun Jampani Trevor Darrell Forrester Cole Deqing Sun Ming Yang VGen 68 69 0 04 Oct 2024
M2P2: A Multi-Modal Passive Perception Dataset for Off-Road Mobility in Extreme Low-Light Conditions A. Datar Anuj Pokhrel Mohammad Nazeri Madhan B. Rao Chenhui Pan ... Andre Harrison Maggie B. Wigness Philip R. Osteen Jinwei Ye Xuesu Xiao 32 0 0 01 Oct 2024
Lotus: Diffusion-based Visual Foundation Model for High-quality Dense Prediction Jing He Haodong Li Wei Yin Yixun Liang Leheng Li Kaiqiang Zhou Hongbo Zhang Bingbing Liu Ying-Cong Chen DiffM VLM 34 38 0 26 Sep 2024