Title
A utility-based spatial analysis of residential street-level conditions; A case study of Rotterdam Sander van Cranenburgh Francisco Garrido-Valenzuela 36 0 0 23 Oct 2024
AdaDiffSR: Adaptive Region-aware Dynamic Acceleration Diffusion Model for Real-World Image Super-Resolution Yuanting Fan Chengxu Liu Nengzhong Yin Changlong Gao Xueming Qian 36 3 0 23 Oct 2024
Efficient Neural Implicit Representation for 3D Human Reconstruction Zexu Huang Sarah Monazam Erfani Siying Lu Mingming Gong 3DH 45 11 0 23 Oct 2024
PLGS: Robust Panoptic Lifting with 3D Gaussian Splatting Yu Wang Xiaobao Wei Ming Lu Guoliang Kang 3DGS 35 5 0 23 Oct 2024
Captions Speak Louder than Images (CASLIE): Generalizing Foundation Models for E-commerce from High-quality Multimodal Instruction Data Xinyi Ling Bo Peng Hanwen Du Zhihui Zhu Xia Ning 51 0 0 22 Oct 2024
Towards Real Zero-Shot Camouflaged Object Segmentation without Camouflaged Annotations Cheng Lei Jie Fan Xinran Li Tianzhu Xiang Ao Li Ce Zhu Le Zhang 51 0 0 22 Oct 2024
LIMIS: Towards Language-based Interactive Medical Image Segmentation Lena Heinemann A. Jaus Zdravko Marinov M. Kim Maria Francesca Spadea Jens Kleesiek Rainer Stiefelhagen LM&MA VLM 53 0 0 22 Oct 2024
Polyp-E: Benchmarking the Robustness of Deep Segmentation Models via Polyp Editing Runpu Wei Zijin Yin Kongming Liang Min Min Changzai Pan Gang Yu Haonan Huang Yan Liu Zejun Ma 38 0 0 22 Oct 2024
The Scene Language: Representing Scenes with Programs, Words, and Embeddings Yunzhi Zhang Zizhang Li Mingyuan Zhou Shangzhe Wu Jiajun Wu 65 4 0 22 Oct 2024
Frontiers in Intelligent Colonoscopy Ge-Peng Ji Jingyi Liu Peng Xu Nick Barnes Fahad Shahbaz Khan Salman Khan Deng-Ping Fan 49 4 0 22 Oct 2024
PlaneSAM: Multimodal Plane Instance Segmentation Using the Segment Anything Model Zhongchen Deng Zhechen Yang Chi Chen Cheng Zeng Yan Meng Bisheng Yang 33 1 0 21 Oct 2024
SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree Shuangrui Ding Rui Qian Xiaoyi Dong Pan Zhang Yuhang Zang Yuhang Cao Yuwei Guo Dahua Lin Jiaqi Wang VLM VOS 47 10 0 21 Oct 2024
Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance Zhangwei Gao Zhe Chen Erfei Cui Yiming Ren Weiyun Wang ... Lewei Lu Tong Lu Yu Qiao Jifeng Dai Wenhai Wang VLM 82 25 0 21 Oct 2024
Few-shot target-driven instance detection based on open-vocabulary object detection models Ben Crulis Barthélémy Serres Cyril de Runz Gilles Venturini VLM ObjD 36 0 0 21 Oct 2024
Zero-Shot Scene Reconstruction from Single Images with Deep Prior Assembly Junsheng Zhou Yu-Shen Liu Zhizhong Han ViT 66 9 0 21 Oct 2024
MSGField: A Unified Scene Representation Integrating Motion, Semantics, and Geometry for Robotic Manipulation Yu Sheng Runfeng Lin Liwen Wang Quecheng Qiu Yanyong Zhang Yu Zhang Bei Hua Jianmin Ji 3DV 3DGS 36 0 0 21 Oct 2024
Unleashing the Potential of Vision-Language Pre-Training for 3D Zero-Shot Lesion Segmentation via Mask-Attribute Alignment Yankai Jiang Wenhui Lei Xiaofan Zhang Shanghang Zhang MedIm 79 3 0 21 Oct 2024
Upsampling DINOv2 features for unsupervised vision tasks and weakly supervised materials segmentation Ronan Docherty Antonis Vamvakeros Samuel J. Cooper 52 1 0 20 Oct 2024
LoRA-IR: Taming Low-Rank Experts for Efficient All-in-One Image Restoration Yuang Ai Huaibo Huang Ran He 42 2 0 20 Oct 2024
Modality-Fair Preference Optimization for Trustworthy MLLM Alignment Songtao Jiang Yan Zhang Ruizhe Chen Yeying Jin Zuozhu Liu MLLM MoE 39 6 0 20 Oct 2024
Layout-your-3D: Controllable and Precise 3D Generation with 2D Blueprint Junwei Zhou Xueting Li Lu Qi Ming-Hsuan Yang DiffM 49 4 0 20 Oct 2024
Low-cost Robust Night-time Aerial Material Segmentation through Hyperspectral Data and Sparse Spatio-Temporal Learning Minh Nguyen Chandrajit Bajaj Shubham Bhardwaj 31 0 0 19 Oct 2024
CAGE: Causal Attention Enables Data-Efficient Generalizable Robotic Manipulation Shangning Xia Hongjie Fang Hao-Shu Fang Cewu Lu CML 48 5 0 19 Oct 2024
Semantically Safe Robot Manipulation: From Semantic Scene Understanding to Motion Safeguards Lukas Brunke Yanni Zhang Ralf Romer Jack Naimer Nikola Staykov Siqi Zhou Angela P. Schoellig 59 4 0 19 Oct 2024
BYOCL: Build Your Own Consistent Latent with Hierarchical Representative Latent Clustering Jiayue Dai Yunya Wang Yihan Fang Yuetong Chen Butian Xiong VLM 31 0 0 19 Oct 2024
Flame quality monitoring of flare stack based on deep visual features Xing Mu 17 0 0 18 Oct 2024
LUDVIG: Learning-free Uplifting of 2D Visual features to Gaussian Splatting scenes Juliette Marrie Romain Menegaux Michael Arbel Diane Larlus Julien Mairal 3DGS 49 1 0 18 Oct 2024
DaRePlane: Direction-aware Representations for Dynamic Scene Reconstruction Ange Lou Benjamin Planche Zhongpai Gao Yamin Li Tianyu Luan Hao Ding Meng Zheng Terrence Chen Ziyan Wu Jack H. Noble 40 2 0 18 Oct 2024
Swiss Army Knife: Synergizing Biases in Knowledge from Vision Foundation Models for Multi-Task Learning Yuxiang Lu Shengcao Cao Yu-Xiong Wang 68 1 0 18 Oct 2024
Human Action Anticipation: A Survey Bolin Lai Sam Toyer Tushar Nagarajan Rohit Girdhar S. Zha James M. Rehg Kris Kitani Kristen Grauman Ruta Desai Miao Liu AI4TS 48 1 0 17 Oct 2024
VLM-Grounder: A VLM Agent for Zero-Shot 3D Visual Grounding Runsen Xu Zhiwei Huang Tai Wang Yuxiao Chen Jiangmiao Pang Dahua Lin VGen 44 12 0 17 Oct 2024
Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation Chengyue Wu Xiaokang Chen Z. F. Wu Yiyang Ma Xingchao Liu ... Wen Liu Zhenda Xie Xingkai Yu Chong Ruan Ping Luo AI4TS 88 82 0 17 Oct 2024
DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control Yujie Wei Shiwei Zhang Hangjie Yuan Xiang Wang Haonan Qiu ... Fan Liu Zhizhong Huang Jiaxin Ye Yingya Zhang Hongming Shan DiffM VGen 79 14 0 17 Oct 2024
Unsupervised Skull Segmentation via Contrastive MR-to-CT Modality Translation K. Kwarciak Mateusz Daniol D. Hemmerling Marek Wodzinski 39 0 0 17 Oct 2024
RescueADI: Adaptive Disaster Interpretation in Remote Sensing Images with Autonomous Agents Zhuoran Liu Danpei Zhao Bo Yuan 44 1 0 17 Oct 2024
GraspDiffusion: Synthesizing Realistic Whole-body Hand-Object Interaction Patrick Kwon Hanbyul Joo 36 3 0 17 Oct 2024
ARKit LabelMaker: A New Scale for Indoor 3D Scene Understanding Guangda Ji Silvan Weder Francis Engelmann Marc Pollefeys Hermann Blum 3DV 69 4 0 17 Oct 2024
Configurable Embodied Data Generation for Class-Agnostic RGB-D Video Segmentation Anthony Opipari Aravindhan K. Krishnan Shreekant Gayaka Min Sun Cheng-Hao Kuo Arnie Sen Odest Chadwicke Jenkins VOS 55 0 0 16 Oct 2024
DEeR: Deviation Eliminating and Noise Regulating for Privacy-preserving Federated Low-rank Adaptation Meilu Zhu Axiu Mao Jun Liu Yixuan Yuan 39 1 0 16 Oct 2024
Towards Zero-Shot Camera Trap Image Categorization Jiří Vyskočil Lukas Picek VLM 33 0 0 16 Oct 2024
Rethinking Visual Counterfactual Explanations Through Region Constraint Bartlomiej Sobieski Jakub Grzywaczewski Bartlomiej Sadlej Matthew Tivnan P. Biecek CML 43 0 0 16 Oct 2024
Adaptive Prompt Learning with SAM for Few-shot Scanning Probe Microscope Image Segmentation Yao Shen Ziwei Wei Chunmeng Liu Shuming Wei Qi Zhao Kaiyang Zeng Guangyao Li VLM 41 0 0 16 Oct 2024
3D Gaussian Splatting in Robotics: A Survey Siting Zhu Guangming Wang Dezhi Kong Hesheng Wang 3DGS 57 7 0 16 Oct 2024
TransAgent: Transfer Vision-Language Foundation Models with Heterogeneous Agent Collaboration Yiwei Guo Shaobin Zhuang Kunchang Li Yu Qiao Yali Wang VLM CLIP 66 0 0 16 Oct 2024
SAM-Guided Masked Token Prediction for 3D Scene Understanding Zhimin Chen Liang Yang Yingwei Li Longlong Jing Bing Li 57 3 0 16 Oct 2024
In-Context Learning Enables Robot Action Prediction in LLMs Yida Yin Zekai Wang Yuvan Sharma Dantong Niu Trevor Darrell Roei Herzig LM&Ro 124 3 0 16 Oct 2024
Order-aware Interactive Segmentation Bin Wang Anwesa Choudhuri Meng Zheng Zhongpai Gao Benjamin Planche Andong Deng Qin Liu Terrence Chen Ulas Bagci Ziyan Wu VLM 295 1 0 16 Oct 2024
Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features Makram Chahine Alex Quach Alaa Maalouf Tsun-Hsuan Wang Daniela Rus 38 0 0 16 Oct 2024
Agent Skill Acquisition for Large Language Models via CycleQD So Kuroki Taishi Nakamura Takuya Akiba Yujin Tang MoMe 51 0 0 16 Oct 2024
Affordance-Centric Policy Learning: Sample Efficient and Generalisable Robot Policy Learning using Affordance-Centric Task Frames Krishan Rana Jad Abou-Chakra Sourav Garg Robert Lee Ian Reid Niko Suenderhauf 29 4 0 15 Oct 2024