Title
Watermark Anything with Localized Messages Tom Sander Pierre Fernandez Alain Durmus Teddy Furon Matthijs Douze VLM 52 7 0 11 Nov 2024
SAMPart3D: Segment Any Part in 3D Objects Yanting Yang Yukun Huang Yu Guo Liangjun Lu Xiaoyang Wu Edmund Y. Lam Yan-Pei Cao Xihui Liu VLM 46 7 0 11 Nov 2024
MapSAM: Adapting Segment Anything Model for Automated Feature Detection in Historical Maps Xue Xia Daiwei Zhang Wenxuan Song Wei Huang L. Hurni AI4TS VLM 30 0 0 11 Nov 2024
CapeLLM: Support-Free Category-Agnostic Pose Estimation with Multimodal Large Language Models Junho Kim Hyungjin Chung Byung-Hoon Kim VLM 39 0 0 11 Nov 2024
QuadWBG: Generalizable Quadrupedal Whole-Body Grasping Jilong Wang Javokhirbek Rajabov Chaoyi Xu Yiming Zheng He Wang 49 1 0 11 Nov 2024
Learning from Feedback: Semantic Enhancement for Object SLAM Using Foundation Models Jungseok Hong Ran Choi John Leonard VLM 47 1 0 11 Nov 2024
United Domain Cognition Network for Salient Object Detection in Optical Remote Sensing Images Yanguang Sun Jian Yang Lei Luo 31 2 0 11 Nov 2024
Track Any Peppers: Weakly Supervised Sweet Pepper Tracking Using VLMs Jia Syuen Lim Yadan Luo Zhi Chen Tianqi Wei Scott Chapman Zi Huang 36 0 0 11 Nov 2024
LFSamba: Marry SAM with Mamba for Light Field Salient Object Detection Zhengyi Liu Longzhen Wang Xianyong Fang Zhengzheng Tu Linbo Wang Mamba 48 2 0 11 Nov 2024
Superpixel Segmentation: A Long-Lasting Ill-Posed Problem Rémi Giraud Michael Clement 40 0 0 10 Nov 2024
Moving Off-the-Grid: Scene-Grounded Video Representations Sjoerd van Steenkiste Daniel Zoran Yi Yang Yulia Rubanova Rishabh Kabra ... Thomas Keck João Carreira Alexey Dosovitskiy Mehdi S. M. Sajjadi Thomas Kipf 46 3 0 08 Nov 2024
Towards Low-Resource Harmful Meme Detection with LMM Agents Jianzhao Huang Hongzhan Lin Ziyan Liu Ziyang Luo Guang Chen Jing Ma 48 3 0 08 Nov 2024
ZOPP: A Framework of Zero-shot Offboard Panoptic Perception for Autonomous Driving Tao Ma Hongbin Zhou Qiusheng Huang Xuemeng Yang Jianfei Guo Bo Zhang Min Dou Yu Qiao Botian Shi Hongsheng Li 44 1 0 08 Nov 2024
Joint-Optimized Unsupervised Adversarial Domain Adaptation in Remote Sensing Segmentation with Prompted Foundation Model Shuchang Lyu Qi Zhao Guangliang Cheng Yiwei He Zheng Zhou Guangbiao Wang Zhenwei Shi 46 0 0 08 Nov 2024
UEVAVD: A Dataset for Developing UAV's Eye View Active Object Detection Xinhua Jiang Tianpeng Liu Li Liu Zhen Liu Yongxiang Liu 19 0 0 07 Nov 2024
VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos Shehan Munasinghe Hanan Gani Wenqi Zhu Jiale Cao Eric P. Xing Fahad Shahbaz Khan Salman Khan MLLM VGen VLM 46 6 0 07 Nov 2024
Select2Plan: Training-Free ICL-Based Planning through VQA and Memory Retrieval Davide Buoso Luke Robinson Giuseppe Averta Philip Torr Tim Franzmeyer Daniele De Martini 30 0 0 06 Nov 2024
SA3DIP: Segment Any 3D Instance with Potential 3D Priors Xi Yang Xu Gu Xingyilang Yin Xinbo Gao 52 0 0 06 Nov 2024
3DGS-CD: 3D Gaussian Splatting-based Change Detection for Physical Object Rearrangement Ziqi Lu Jianbo Ye John J. Leonard 3DPC 3DGS 56 2 0 06 Nov 2024
Learning Few-Shot Object Placement with Intra-Category Transfer Adrian Rofer Russell Buchanan Max Argus S. Vijayakumar Abhinav Valada 53 0 0 05 Nov 2024
Exploiting the Segment Anything Model (SAM) for Lung Segmentation in Chest X-ray Images Gabriel Bellon de Carvalho Jurandy Almeida MedIm 42 0 0 05 Nov 2024
Rethinking Decoders for Transformer-based Semantic Segmentation: A Compression Perspective Qishuai Wen Chun-Guang Li ViT 37 0 0 05 Nov 2024
Multi-modal NeRF Self-Supervision for LiDAR Semantic Segmentation Xavier Timoneda Markus Herb Fabian Duerr Daniel Goehring Fisher Yu SSL 3DPC 33 1 0 05 Nov 2024
Multi-Modal 3D Scene Graph Updater for Shared and Dynamic Environments Emilio Olivastri Jonathan Francis Alberto Pretto Niko Sünderhauf Krishan Rana 32 1 0 05 Nov 2024
OLAF: A Plug-and-Play Framework for Enhanced Multi-object Multi-part Scene Parsing Pranav Gupta Rishubh Singh Pradeep Shenoy Ravikiran Sarvadevabhatla 44 0 0 05 Nov 2024
Foundation AI Model for Medical Image Segmentation Rina Bao Erfan Darzi Sheng He Chuan-Heng Hsiao M. Hussain Jingpeng Li Atle Bjornerud Ellen Grant Yangming Ou VLM LM&MA MedIm AI4MH 52 0 0 05 Nov 2024
Multi-Transmotion: Pre-trained Model for Human Motion Prediction Yang Gao Po-Chien Luan Alexandre Alahi 46 6 0 04 Nov 2024
Segment Anything for Dendrites from Electron Microscopy Zewen Zhuo I. Belevich Ville Leinonen E. Jokitalo Tarja Malm Alejandra Sierra Jussi Tohka 37 1 0 04 Nov 2024
Diffusion-based Generative Multicasting with Intent-aware Semantic Decomposition Xinkai Liu Mahdi Boloursaz Mashhadi Li Qiao Yi Ma Rahim Tafazolli Mehdi Bennis DiffM 57 2 0 04 Nov 2024
UnSegMedGAT: Unsupervised Medical Image Segmentation using Graph Attention Networks Clustering A. M. Adityaja Saurabh J. Shigwan Nitin Kumar MedIm 44 1 0 04 Nov 2024
KptLLM: Unveiling the Power of Large Language Model for Keypoint Comprehension Jie Yang Wang Zeng Sheng Jin Lumin Xu Wentao Liu Chen Qian Ruimao Zhang MLLM 70 2 0 04 Nov 2024
NeRF-Aug: Data Augmentation for Robotics with Neural Radiance Fields Eric Zhu Mara Levy M. Gwilliam Abhinav Shrivastava 55 0 0 04 Nov 2024
Exploring PCA-based feature representations of image pixels via CNN to enhance food image segmentation Ying Dai 53 0 0 03 Nov 2024
Task-Oriented Hierarchical Object Decomposition for Visuomotor Control Jianing Qian Yunshuang Li Bernadette Bucher Dinesh Jayaraman OCL 54 0 0 02 Nov 2024
MonoPlane: Exploiting Monocular Geometric Cues for Generalizable 3D Plane Reconstruction Wang Zhao Jiachen Liu Sheng Zhang Heng Chang Sili Chen S. X. Huang Yang Liu Hengkai Guo 44 0 0 02 Nov 2024
GarmentLab: A Unified Simulation and Benchmark for Garment Manipulation Haoran Lu Ruihai Wu Yitong Li Sijie Li Ziyu Zhu Chuanruo Ning Yan Shen Longzan Luo Yuanpei Chen Hao Dong AI4CE 77 5 0 02 Nov 2024
MultiDepth: Multi-Sample Priors for Refining Monocular Metric Depth Estimations in Indoor Scenes Sanghyun Byun Jacob Song Woo Seong Chung MDE 31 1 0 01 Nov 2024
ZIM: Zero-Shot Image Matting for Anything Beomyoung Kim Chanyong Shin Joonhyun Jeong Hyungsik Jung Se Yun Lee Sewhan Chun Dong-Hyun Hwang Joonsang Yu VLM 52 2 0 01 Nov 2024
Tracking one-in-a-million: Large-scale benchmark for microbial single-cell tracking with experiment-aware robustness metrics J. Seiffarth L. Blöbaum R. D. Paul N. Friederich A. J. Yamachui Sitcheu R. Mikut H. Scharr A. Grünberger K. Nöh 47 3 0 01 Nov 2024
Generative AI-based Pipeline Architecture for Increasing Training Efficiency in Intelligent Weed Control Systems Sourav Modak Anthony Stein 48 2 0 01 Nov 2024
MV-Adapter: Enhancing Underwater Instance Segmentation via Adaptive Channel Attention Lianjun Liu 39 0 0 01 Nov 2024
Dual Low-Rank Adaptation for Continual Learning with Pre-Trained Models Huancheng Chen Jingtao Li Nidham Gazagnadou Weiming Zhuang Chen Chen Lingjuan Lyu VLM CLL 54 1 0 01 Nov 2024
LogiCity: Advancing Neuro-Symbolic AI with Abstract Urban Simulation Bowen Li Zhaoyu Li Qiwei Du Jinqi Luo Wenshan Wang ... Katia Sycara Pradeep Kumar Ravikumar Alexander G. Gray X. Si Sebastian A. Scherer AI4CE LRM 85 3 0 01 Nov 2024
Text-DiFuse: An Interactive Multi-Modal Image Fusion Framework based on Text-modulated Diffusion Model Hao Zhang Lei Cao Jiayi Ma DiffM 43 5 0 31 Oct 2024
SOAR: Self-Occluded Avatar Recovery from a Single Video In the Wild Zhuoyang Pan Angjoo Kanazawa Hang Gao 29 0 0 31 Oct 2024
EDT: An Efficient Diffusion Transformer Framework Inspired by Human-like Sketching Xinwang Chen Ning Liu Bo Li Feifei Feng Jian Tang 42 2 0 31 Oct 2024
Context-Aware Token Selection and Packing for Enhanced Vision Transformer Tianyi Zhang B. Li Jae-sun Seo Yu Cao 43 0 0 31 Oct 2024
FRoundation: Are Foundation Models Ready for Face Recognition? Tahar Chettaoui Naser Damer Fadi Boutros CVBM 46 5 0 31 Oct 2024
TPC: Test-time Procrustes Calibration for Diffusion-based Human Image Animation Sunjae Yoon Gwanhyeong Koo Younghwan Lee Chang D. Yoo VGen 80 3 0 31 Oct 2024
EchoFM: Foundation Model for Generalizable Echocardiogram Analysis Sekeun Kim Pengfei Jin S. Song Cheng Chen Yiwei Li Hui Ren Xiang Li Tianming Liu Quanzheng Li 44 0 0 30 Oct 2024