Title
FogROS2-FT: Fault Tolerant Cloud Robotics Kaiyuan Chen Kush Hari Trinity Chung Michael Wang Nan Tian ... Jeffrey Ichnowski Liu Ren John Kubiatowicz Ion Stoica Ken Goldberg 82 0 0 06 Dec 2024
DrIFT: Autonomous Drone Dataset with Integrated Real and Synthetic Data, Flexible Views, and Transformed Domains Fardad Dadboud Hamid Azad Varun Mehta M. Bolic Iraj Mntegh 83 0 0 06 Dec 2024
Slicing Vision Transformer for Flexible Inference Yitian Zhang Huseyin Coskun Xu Ma Huan Wang Ke Ma Xi Chen Derek Hao Hu Y. Fu ViT 83 0 0 06 Dec 2024
ARTeFACT: Benchmarking Segmentation Models on Diverse Analogue Media Damage D. Ivanova Marco Aversa Paul Henderson John Williamson 99 0 0 05 Dec 2024
Towards Real-Time Open-Vocabulary Video Instance Segmentation Bin Yan Martin Sundermeyer D. Tan Huchuan Lu F. Tombari VLM VOS 100 1 0 05 Dec 2024
Florence-VL: Enhancing Vision-Language Models with Generative Vision Encoder and Depth-Breadth Fusion Jiuhai Chen Jianwei Yang Haiping Wu Dianqi Li Jianfeng Gao Tianyi Zhou Bin Xiao VLM 64 5 0 05 Dec 2024
Customize Segment Anything Model for Multi-Modal Semantic Segmentation with Mixture of LoRA Experts Chenyang Zhu Bin Xiao Lin Shi Shoukun Xu Xu Zheng MoE 101 11 0 05 Dec 2024
Exploring Real&Synthetic Dataset and Linear Attention in Image Restoration Yuzhen Du Teng Hu Jingyang Zhang Ran Yi Chengming Xu Xiaobin Hu Kai WU Donghao Luo Yuran Wang Lizhuang Ma 88 1 0 05 Dec 2024
DualPM: Dual Posed-Canonical Point Maps for 3D Shape and Pose Reconstruction Ben Kaye Tomas Jakab Shangzhe Wu Christian Rupprecht Andrea Vedaldi 3DPC 3DH 110 1 0 05 Dec 2024
Measure Anything: Real-time, Multi-stage Vision-based Dimensional Measurement using Segment Anything Y. Lee S. K. Panda Wei Wang M. Jawed 80 0 0 04 Dec 2024
EchoONE: Segmenting Multiple echocardiography Planes in One Model Jiongtong Hu Wei Zhuo Jun Cheng Yingying Liu Wufeng Xue Dong Ni 92 1 0 04 Dec 2024
FathomGPT: A Natural Language Interface for Interactively Exploring Ocean Science Data Nabin Khanal Chun Meng Yu Jui-Cheng Chiu Anav Chaudhary Ziyue Zhang K. Katija A. Forbes AI4CE 78 4 0 03 Dec 2024
FoundHand: Large-Scale Domain-Specific Learning for Controllable Hand Image Generation Kefan Chen Chaerin Min Linguang Zhang Shreyas Hampali Cem Keskin Srinath Sridhar 79 0 0 03 Dec 2024
Medical Multimodal Foundation Models in Clinical Diagnosis and Treatment: Applications, Challenges, and Future Directions Kai Sun Siyan Xue F. Sun Haoran Sun Yu-Juan Luo ... Xinzhou Wang Lei Yang Shuo Jin Jun Yan Jiahong Dong AI4CE 83 2 0 03 Dec 2024
SJTU:Spatial judgments in multimodal models towards unified segmentation through coordinate detection Joongwon Chae Zhenyu Wang Peiwu Qin VLM 87 0 0 03 Dec 2024
Realistic Surgical Simulation from Monocular Videos Kailing Wang Chen-Ning Yang Keyang Zhao Xiaokang Yang Wei Shen 76 1 0 03 Dec 2024
Multi-robot autonomous 3D reconstruction using Gaussian splatting with Semantic guidance Jing Zeng Qi Ye Tianle Liu Yang Xu Jin Li Jinming Xu Liang Li Jiming Chen 3DGS 3DV 86 0 0 03 Dec 2024
SparseGrasp: Robotic Grasping via 3D Semantic Gaussian Splatting from Sparse Multi-View RGB Images Junqiu Yu Xinlin Ren Yongchong Gu Haitao Lin Tianyu Wang Bo Li Hang Xu Yu-Gang Jiang Xiangyang Xue Yanwei Fu 3DGS 81 0 0 03 Dec 2024
AccDiffusion v2: Towards More Accurate Higher-Resolution Diffusion Extrapolation Zhihang Lin Mingbao Lin Wengyi Zhan Rongrong Ji 80 0 0 03 Dec 2024
emg2pose: A Large and Diverse Benchmark for Surface Electromyographic Hand Pose Estimation Sasha Salter Richard Warren Collin Schlager Adrian Spurr Shangchen Han ... Robert Y. Wang Nathan Danielson Josh Merel Eftychios Pnevmatikakis Jesse Marshall 63 2 0 02 Dec 2024
Planar Gaussian Splatting F. G. Zanjani H. Cai Hanno Ackermann Leila Mirvakhabova Fatih Porikli 3DGS 81 1 0 02 Dec 2024
RELOCATE: A Simple Training-Free Baseline for Visual Query Localization Using Region-Based Representations Savya Khosla S. Vallecorsa Alex Schwing Derek Hoiem 69 0 0 02 Dec 2024
VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models Byung-Kwan Lee Ryo Hachiuma Yu-Chiang Frank Wang Y. Ro Yueh-Hua Wu VLM 86 0 0 02 Dec 2024
3DSceneEditor: Controllable 3D Scene Editing with Gaussian Splatting Ziyang Yan Lei Li Yihua Shao Siyu Chen Wuzong Kai Lei Li Hao Zhao Fabio Remondino 3DGS 91 3 0 02 Dec 2024
CopyrightShield: Spatial Similarity Guided Backdoor Defense against Copyright Infringement in Diffusion Models Zhixiang Guo Siyuan Liang Aishan Liu Dacheng Tao AAML 89 1 0 02 Dec 2024
FoundIR: Unleashing Million-scale Training Data to Advance Foundation Models for Image Restoration Hao Li Xiang Chen Jiangxin Dong Jinhui Tang Jinshan Pan 88 2 0 02 Dec 2024
CellSeg1: Robust Cell Segmentation with One Training Image Peilin Zhou Bo Du Yongchao Xu VLM 77 1 0 02 Dec 2024
Referring Video Object Segmentation via Language-aligned Track Selection Seongchan Kim Woojeong Jin Sangbeom Lim Heeji Yoon Hyunwook Choi Seungryong Kim VOS 100 0 0 02 Dec 2024
Occam's LGS: An Efficient Approach for Language Gaussian Splatting Jiahuan Cheng Jan-Nico Zaech Luc Van Gool Danda Pani Paudel 3DGS 89 0 0 02 Dec 2024
GFreeDet: Exploiting Gaussian Splatting and Foundation Models for Model-free Unseen Object Detection in the BOP Challenge 2024 Xingyu Liu Yingyue Li Chengxi Li Gu Wang Chenyangguang Zhang Ziqin Huang Xiangyang Ji 3DGS 93 2 0 02 Dec 2024
SEAL: Semantic Attention Learning for Long Video Representation Lan Wang Yujia Chen Wen-Sheng Chu Vishnu Boddeti Du Tran VLM 83 0 0 02 Dec 2024
Beyond Pixels: Text Enhances Generalization in Real-World Image Restoration Haoze Sun Wuyang Li Jiaheng Liu Kaiwen Zhou Yongqiang Chen Yong Guo Yunshui Li Renjing Pei Long Peng Yue Yang DiffM 83 1 0 01 Dec 2024
Sketch-Guided Motion Diffusion for Stylized Cinemagraph Synthesis H. Jin Hengyuan Chang Xiaoxuan Xie Zhengyang Wang Xusheng Du Shaojun Hu H. Xie DiffM VGen 85 0 0 01 Dec 2024
Paint Outside the Box: Synthesizing and Selecting Training Data for Visual Grounding Zilin Du Haoxin Li Jianfei Yu Boyang Li 254 0 0 01 Dec 2024
FreeCond: Free Lunch in the Input Conditions of Text-Guided Inpainting Teng-Fang Hsiao Bo-Kai Ruan Sung-Lin Tsai Yi-Lun Wu Hong-Han Shuai DiffM 104 1 0 30 Nov 2024
GradiSeg: Gradient-Guided Gaussian Segmentation with Enhanced 3D Boundary Precision Zechao Li Wenwei Han Yujun Cai Hao Jiang Baolong Bi Shuqin Gao Honglong Zhao Zhaoqi Wang 3DGS 71 1 0 30 Nov 2024
LMSeg: Unleashing the Power of Large-Scale Models for Open-Vocabulary Semantic Segmentation Huadong Tang Youpeng Zhao Y. Huang Min Xu Jun Wang Qiang Wu MLLM VLM 82 0 0 30 Nov 2024
Vision Technologies with Applications in Traffic Surveillance Systems: A Holistic Survey Wei Zhou Lei Zhao Runyu Zhang Yifan Cui Hongpu Huang Kun Qie Chen Wang AI4TS 78 0 0 30 Nov 2024
Motion Dreamer: Boundary Conditional Motion Reasoning for Physically Coherent Video Generation Tianshuo Xu Zhifei Chen Leyi Wu Hao Lu Yuying Chen Lihui Jiang Bingbing Liu Yingcong Chen VGen 83 0 0 30 Nov 2024
FairDD: Fair Dataset Distillation via Synchronized Matching Qihang Zhou Shenhao Fang Shibo He Wenchao Meng Jiming Chen FedML DD 98 1 0 29 Nov 2024
Tortho-Gaussian: Splatting True Digital Orthophoto Maps Xin Wang Wendi Zhang Hong Xie Haibin Ai Qiangqiang Yuan Z. Zhan 3DGS 84 2 0 29 Nov 2024
Curriculum Fine-tuning of Vision Foundation Model for Medical Image Classification Under Label Noise Yeonguk Yu Minhwan Ko Sungho Shin Kangmin Kim K. Lee NoLa 84 1 0 29 Nov 2024
ForgerySleuth: Empowering Multimodal Large Language Models for Image Manipulation Detection Zhihao Sun Haoran Jiang Haoran Chen Yixin Cao Xipeng Qiu Zuxuan Wu Yu-Gang Jiang 78 2 0 29 Nov 2024
Adaptive Interactive Segmentation for Multimodal Medical Imaging via Selection Engine Zhi Li Kai Zhao Yaqi Wang Shuai Wang 79 0 0 29 Nov 2024
ROSE: Revolutionizing Open-Set Dense Segmentation with Patch-Wise Perceptual Large Multimodal Model Kunyang Han Yibo Hu Mengxue Qu Hailin Shi Yao Zhao Y. X. Wei MLLM VLM 3DV 93 1 0 29 Nov 2024
T-3DGS: Removing Transient Objects for 3D Scene Reconstruction Vadim Pryadilshchikov Alexander Markin Artem Komarichev Ruslan Rakhimov Peter Wonka Evgeny Burnaev 3DGS 89 1 0 29 Nov 2024
Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding Wenbo Zhang Lu Zhang Ping Hu Liqian Ma Yunzhi Zhuge Huchuan Lu 3DGS 83 2 0 29 Nov 2024
Initialization using Update Approximation is a Silver Bullet for Extremely Efficient Low-Rank Fine-Tuning Kaustubh Ponkshe Raghav Singhal Eduard A. Gorbunov Alexey Tumanov Samuel Horváth Praneeth Vepakomma 81 3 0 29 Nov 2024
SAMa: Material-aware 3D Selection and Segmentation Michael Fischer Iliyan Georgiev Thibault Groueix Vladimir G. Kim Tobias Ritschel Valentin Deschaintre 3DV 76 1 0 28 Nov 2024
Open-Sora Plan: Open-Source Large Video Generation Model Bin Lin Yunyang Ge Xinhua Cheng Zongjian Li Bin Zhu ... Zhang Pan Xing Zhou Shaoling Dong Yonghong Tian Li-xin Yuan VLM VGen 126 60 0 28 Nov 2024