v1v2 (latest)

OpenScene: 3D Scene Understanding with Open Vocabularies

Computer Vision and Pattern Recognition (CVPR), 2022

28 November 2022

Marc Pollefeys

Papers citing "OpenScene: 3D Scene Understanding with Open Vocabularies"

50 / 364 papers shown

Title
CitySeg: A 3D Open Vocabulary Semantic Segmentation Foundation Model in City-scale Scenarios Jialei Xu Zizhuang Wei Weikang You Linyun Li Weijian Sun 3DPC 142 1 0 13 Aug 2025
OpenMap: Instruction Grounding via Open-Vocabulary Visual-Language Mapping Danyang Li Zenghui Yang Guangpeng Qi Songtao Pang Guangyong Shang Qiang Ma Zheng Yang 121 0 0 03 Aug 2025
OpenGS-Fusion: Open-Vocabulary Dense Mapping with Hybrid 3D Gaussian Splatting for Refined Object-Level Understanding Dianyi Yang Xihan Wang Y. Gao Shiyang Liu Bohan Ren Yufeng Yue Yi Yang 3DGS 101 1 0 02 Aug 2025
Details Matter for Indoor Open-vocabulary 3D Instance Segmentation Sanghun Jung Jingjing Zheng Ke Zhang Nan Qiao Albert Y. C. Chen ... Xiao Zeng Hsiang-Wei Huang Byron Boots Min Sun Cheng-Hao Kuo 107 1 0 30 Jul 2025
Ov3R: Open-Vocabulary Semantic 3D Reconstruction from RGB Videos Ziren Gong Xiaohan Li Fabio Tosi Jiawei Han S. Mattoccia Jianfei Cai Matteo Poggi 3DPC 392 1 0 29 Jul 2025
Research Challenges and Progress in the End-to-End V2X Cooperative Autonomous Driving Competition Ruiyang Hao Haibao Yu Jiaru Zhong C. Wang Jiahao Wang ... Dandan Zhang Shanghang Zhang Mac Schwager Wei Huang Xiaobo Zhang 201 5 0 29 Jul 2025
Taking Language Embedded 3D Gaussian Splatting into the Wild Yuze Wang Yue Qi 3DGS 158 1 0 26 Jul 2025
DiSCO-3D : Discovering and segmenting Sub-Concepts from Open-vocabulary queries in NeRF Doriand Petit S. Bourgeois V. Gay-Bellile F. Chabot Loic Barthe 81 1 0 19 Jul 2025
Enter the Mind Palace: Reasoning and Planning for Long-term Active Embodied Question Answering M. Ginting Dong-Ki Kim Xiangyun Meng Andrzej Reinke Bandi Jai Krishna ... Amirreza Shaban Sung-Kyun Kim Mykel J. Kochenderfer Ali-Akbar Agha-Mohammadi Shayegan Omidshafiei RALM 181 2 0 17 Jul 2025
InstaScene: Towards Complete 3D Instance Decomposition and Reconstruction from Cluttered Scenes Zesong Yang Bangbang Yang Wenqi Dong Chenxuan Cao Liyuan Cui Yuewen Ma Zhaopeng Cui Hujun Bao 3DV 165 1 0 11 Jul 2025
LangSplatV2: High-dimensional 3D Language Gaussian Splatting with 450+ FPS Wanhua Li Yujie Zhao Minghan Qin Yang Liu Yuanhao Cai Chuang Gan Hanspeter Pfister 3DGS 230 4 0 09 Jul 2025
Feed-Forward SceneDINO for Unsupervised Semantic Scene Completion Aleksandar Jevtić Christoph Reich Felix Wimbauer Oliver Hahn Christian Rupprecht Stefan Roth Daniel Cremers 256 1 0 08 Jul 2025
OTAS: Open-vocabulary Token Alignment for Outdoor Segmentation Simon Schwaiger Stefan Thalhammer Wilfried Wöber Gerald Steinbauer-Wagner 118 0 0 08 Jul 2025
All in One: Visual-Description-Guided Unified Point Cloud Segmentation Zongyan Han Mohamed El Amine Boudjoghra Jiahua Dong Jinhong Wang Rao Muhammad Anwer 162 0 0 07 Jul 2025
Spatio-Temporal LLM: Reasoning about Environments and Actions Haozhen Zheng Beitong Tian Mingyuan Wu Zhenggang Tang Klara Nahrstedt Alex Schwing LRM 150 2 0 07 Jul 2025
Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation Ziyu Zhu Xilin Wang Yixuan Li Zhuofan Zhang Xiaojian Ma ... Wei Liang Qian Yu Zhidong Deng Siyuan Huang Qing Li LM&Ro 228 17 0 05 Jul 2025
SIU3R: Simultaneous Scene Understanding and 3D Reconstruction Beyond Feature Alignment Qi Xu Dongxu Wei Lingzhe Zhao Wenpu Li Zhangchi Huang Shunping Ji Peidong Liu 3DV 231 0 0 03 Jul 2025
StyleDrive: Towards Driving-Style Aware Benchmarking of End-To-End Autonomous Driving Ruiyang Hao Bowen Jing Haibao Yu Zaiqing Nie 196 5 0 30 Jun 2025
CodeDiffuser: Attention-Enhanced Diffusion Policy via VLM-Generated Code for Instruction Ambiguity Guang Yin Yitong Li Yixuan Wang D. Mcconachie Paarth Shah Kunimatsu Hashimoto Huan Zhang Katherine Liu Yunzhu Li LM&Ro 131 5 0 19 Jun 2025
FreeQ-Graph: Free-form Querying with Semantic Consistent Scene Graph for 3D Scene Understanding Chenlu Zhan Yufei Zhang Gaoang Wang Hongwei Wang 3DV 233 1 0 16 Jun 2025
OV-MAP : Open-Vocabulary Zero-Shot 3D Instance Segmentation Map for RobotsIEEE/RJS International Conference on Intelligent RObots and Systems (IROS), 2024 Juno Kim Yesol Park Hye Jung Yoon Byoung-Tak Zhang 168 2 0 13 Jun 2025
3D-Aware Vision-Language Models Fine-Tuning with Geometric DistillationConference on Empirical Methods in Natural Language Processing (EMNLP), 2025 Seonho Lee Jiho Choi Inha Kang Jiwook Kim J. Park Hyunjung Shim VLM 187 2 0 11 Jun 2025
LEO-VL: Efficient Scene Representation for Scalable 3D Vision-Language Learning J. Huang Xiaojian Ma Xiongkun Linghu Yue Fan Junchao He ... Qing Li Song-Chun Zhu Yixin Chen Baoxiong Jia Siyuan Huang 230 3 0 11 Jun 2025
LogoSP: Local-global Grouping of Superpoints for Unsupervised Semantic Segmentation of 3D Point CloudsComputer Vision and Pattern Recognition (CVPR), 2025 Zihui Zhang Weisheng Dai Hongtao Wen Bo Yang 3DPC 162 2 0 09 Jun 2025
OpenSplat3D: Open-Vocabulary 3D Instance Segmentation using Gaussian Splatting Jens Piekenbrinck Christian Schmidt Alexander Hermans Narunas Vaskevicius Timm Linder Bastian Leibe 3DGS VLM 135 2 0 09 Jun 2025
OpenMaskDINO3D : Reasoning 3D Segmentation via Large Language Model Kunshen Zhang LRM 153 0 0 05 Jun 2025
Sign Language: Towards Sign Understanding for Robot Autonomy Ayush Agrawal Joel Loo Nicky Zimmerman David Hsu SLR 201 0 0 03 Jun 2025
Hierarchical Question-Answering for Driving Scene Understanding Using Vision-Language Models Safaa Abdullahi Moallim Mohamud Minjin Baek Dong Seog Han 132 1 0 03 Jun 2025
SAB3R: Semantic-Augmented Backbone in 3D Reconstruction Xuweiyi Chen Tian Xia Sihan Xu Jianing Yang Joyce Chai Zezhou Cheng 258 2 0 02 Jun 2025
GraphPad: Inference-Time 3D Scene Graph Updates for Embodied Question Answering Muhammad Qasim Ali Saeejith Nair Alexander Wong Yuchen Cui Yuhao Chen 175 0 0 01 Jun 2025
Zero-Shot 3D Visual Grounding from Vision-Language Models Rong Li Shijie Li Lingdong Kong Xulei Yang Junwei Liang VGen 245 3 0 28 May 2025
SpatialLLM: From Multi-modality Data to Urban Spatial Intelligence Jiabin Chen Haiping Wang Jinpeng Li Yuan Liu Zhen Dong Bisheng Yang 346 2 0 19 May 2025
Cross-modal feature fusion for robust point cloud registration with ambiguous geometryIsprs Journal of Photogrammetry and Remote Sensing (ISPRS J. Photogramm. Remote Sens.), 2025 Zhaoyi Wang Shengyu Huang Jemil Avers Butt Yuanzhou Cai Matej Varga A. Wieser 3DPC 247 3 0 19 May 2025
TS-VLM: Text-Guided SoftSort Pooling for Vision-Language Models in Multi-View Driving Reasoning Lihong Chen Hossein Hassani Soodeh Nikan VLM 288 4 0 19 May 2025
Geofenced Unmanned Aerial Robotic Defender for Deer Detection and Deterrence (GUARD) Ebasa Temesgen Mario Jerez Greta Brown Graham Wilson Sree Ganesh Lalitaditya Divakarla Sarah Boelter Oscar Nelson Robert McPherson Maria Gini 194 2 0 16 May 2025
TransDiffuser: Diverse Trajectory Generation with Decorrelated Multi-modal Representation for End-to-end Autonomous Driving Xuefeng Jiang Yuan Ma Pengxiang Li Leimeng Xu Xin Wen Kun Zhan Zhongpu Xia Fu Liu Xianpeng Lang Sheng Sun DiffM 333 2 0 14 May 2025
TUGS: Physics-based Compact Representation of Underwater Scenes by Tensorized Gaussian Shijie Lian Ziyi Zhang Laurence Tianruo Yang and Mengyu Ren Debin Liu Hua Li 3DGS 220 0 0 12 May 2025
Cues3D: Unleashing the Power of Sole NeRF for Consistent and Unique Instances in Open-Vocabulary 3D Panoptic SegmentationInformation Fusion (Inf. Fusion), 2025 Feng Xue Wenzhuang Xu Guofeng Zhong Anlong Minga Andrii Zadaianchuk 249 1 0 01 May 2025
OpenFusion++: An Open-vocabulary Real-time Scene Understanding System Xiaofeng Jin Matteo Frosi Matteo Matteucci 811 1 0 27 Apr 2025
Locate 3D: Real-World Object Localization via Self-Supervised Learning in 3D Sergio Arnaud Paul Mcvay Ada Martin Arjun Majumdar Krishna Murthy Jatavallabhula ... Nicolas Ballas Mido Assran Oleksandr Maksymets Aravind Rajeswaran Franziska Meier 3DPC 236 15 0 19 Apr 2025
HAECcity: Open-Vocabulary Scene Understanding of City-Scale Point Clouds with Superpoint Graph Clustering Alexander Rusnak Frédéric Kaplan 3DPC 176 0 0 18 Apr 2025
3D-PointZshotS: Geometry-Aware 3D Point Cloud Zero-Shot Semantic Segmentation Narrowing the Visual-Semantic GapAdvanced Video and Signal Based Surveillance (AVSS), 2025 Minmin Yang Huantao Ren Senem Velipasalar 3DPC 154 0 0 16 Apr 2025
Towards Learning to Complete Anything in Lidar Ayca Takmaz Cristiano Saltori Neehar Peri Tim Meinhardt Riccardo de Lutio Laura Leal-Taixé Aljosa Osep 3DV VLM 310 5 0 16 Apr 2025
Multi-Object Grounding via Hierarchical Contrastive Siamese Transformers Chengyi Du Keyan Jin 210 0 0 14 Apr 2025
Humanoid Agent via Embodied Chain-of-Action Reasoning with Multimodal Foundation Models for Zero-Shot Loco-Manipulation Yu Hao Geeta Chandra Raju Bethala Niraj Pudasaini Niraj Pudasaini Shuaihang Yuan ... Baoru Huang A. Nguyen Anthony Tzes Yi Fang Yi Fang LM&Ro AI4CE LRM 286 3 0 13 Apr 2025
DSM: Constructing a Diverse Semantic Map for 3D Visual Grounding Qinghongbing Xie Zijian Liang Fuhao Li Long Zeng 239 0 0 11 Apr 2025
UKBOB: One Billion MRI Labeled Masks for Generalizable 3D Medical Image Segmentation Emmanuelle Bourigault A. Jamaludin Abdullah Hamdi 262 2 0 09 Apr 2025
A Deep Single Image Rectification Approach for Pan-Tilt-Zoom Cameras Teng Xiao Q. Hu Q. Yan Wei Liu Zhiwei Ye F. Deng 158 0 0 09 Apr 2025
RayFronts: Open-Set Semantic Ray Frontiers for Online Scene Understanding and Exploration Omar Alama A. Bhattacharya Haoyang He Seungchan Kim Yuheng Qiu Wenshan Wang Cherie Ho Nikhil Varma Keetha Sebastian A. Scherer 193 9 0 09 Apr 2025
IAAO: Interactive Affordance Learning for Articulated Objects in 3D EnvironmentsComputer Vision and Pattern Recognition (CVPR), 2025 Can Zhang G. Lee 198 4 0 09 Apr 2025