Title
In-Context Learning Enables Robot Action Prediction in LLMs Yida Yin Zekai Wang Yuvan Sharma Dantong Niu Trevor Darrell Roei Herzig LM&Ro 124 4 0 16 Oct 2024
Agent Skill Acquisition for Large Language Models via CycleQD So Kuroki Taishi Nakamura Takuya Akiba Yujin Tang MoMe 53 0 0 16 Oct 2024
Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features Makram Chahine Alex Quach Alaa Maalouf Tsun-Hsuan Wang Daniela Rus 42 0 0 16 Oct 2024
Affordance-Centric Policy Learning: Sample Efficient and Generalisable Robot Policy Learning using Affordance-Centric Task Frames Krishan Rana Jad Abou-Chakra Sourav Garg Robert Lee Ian Reid Niko Suenderhauf 29 4 0 15 Oct 2024
MMFuser: Multimodal Multi-Layer Feature Fuser for Fine-Grained Vision-Language Understanding Yue Cao Yangzhou Liu Zhe Chen Guangchen Shi Wenhai Wang Danhuai Zhao Tong Lu 69 7 0 15 Oct 2024
LatentBKI: Open-Dictionary Continuous Mapping in Visual-Language Latent Spaces with Quantifiable Uncertainty Joey Wilson Ruihan Xu Yile Sun Parker Ewen Minghan Zhu Kira Barton Maani Ghaffari 53 0 0 15 Oct 2024
RClicks: Realistic Click Simulation for Benchmarking Interactive Segmentation Anton Antonov Andrey Moskalenko Denis Shepelev Alexander Krapukhin Konstantin Soshin Anton Konushin V. Shakhuro 57 0 0 15 Oct 2024
A Survey of Low-shot Vision-Language Model Adaptation via Representer Theorem Kun Ding Ying Wang Gaofeng Meng Shiming Xiang VLM 41 0 0 15 Oct 2024
Overcoming Domain Limitations in Open-vocabulary Segmentation Dongjun Hwang Seong Joon Oh Junsuk Choe SSeg OOD 81 0 0 15 Oct 2024
DRACO: A Denoising-Reconstruction Autoencoder for Cryo-EM Yingjun Shen Haizhao Dai Qihe Chen Yan Zeng Jiakai Zhang Yuan Pei Jingyi Yu 31 0 0 15 Oct 2024
Scalable Indoor Novel-View Synthesis using Drone-Captured 360 Imagery with 3D Gaussian Splatting Yuanbo Chen Chengyu Zhang Jason Wang Xuefan Gao Avideh Zakhor 38 0 0 15 Oct 2024
Multiview Scene Graph Juexiao Zhang Gao Zhu Sihang Li Xinhao Liu Haorui Song Xinran Tang Chen Feng 3DV 31 1 0 15 Oct 2024
MANet: Fine-Tuning Segment Anything Model for Multimodal Remote Sensing Semantic Segmentation Xianping Ma Xiaokang Zhang Man-On Pun Bo Huang 43 3 0 15 Oct 2024
BlendRL: A Framework for Merging Symbolic and Neural Policy Learning Hikaru Shindo Quentin Delfosse Devendra Singh Dhami Kristian Kersting 50 3 0 15 Oct 2024
Improving Long-Text Alignment for Text-to-Image Diffusion Models Luping Liu Chao Du Tianyu Pang Zehan Wang Chongxuan Li Dong Xu VLM 55 7 0 15 Oct 2024
Real-Time Localization and Bimodal Point Pattern Analysis of Palms Using UAV Imagery Kangning Cui Wei Tang Rongkun Zhu Manqi Wang Gregory Larsen ... Jordan Karubian Raymond H. Chan R. Plemmons Jean-Michel Morel Miles Silman 40 3 0 14 Oct 2024
EchoApex: A General-Purpose Vision Foundation Model for Echocardiography A. Amadou Yanzhe Zhang Sebastien Piat Paul Klein Ingo Schmuecking Tiziano Passerini Puneet Sharma 48 5 0 14 Oct 2024
Browsing without Third-Party Cookies: What Do You See? Maxwell Lin Shihan Lin Helen Wu Karen Wang Xiaowei Yang BDL 59 9 0 14 Oct 2024
SeedLM: Compressing LLM Weights into Seeds of Pseudo-Random Generators Rasoul Shafipour David Harrison Maxwell Horton Jeffrey Marker Houman Bedayat Sachin Mehta Mohammad Rastegari Mahyar Najibi Saman Naderiparizi MQ 69 3 0 14 Oct 2024
SAMPa: Sharpness-aware Minimization Parallelized Wanyun Xie Thomas Pethick Volkan Cevher 52 0 0 14 Oct 2024
Enhancing Robustness in Deep Reinforcement Learning: A Lyapunov Exponent Approach Rory Young Nicolas Pugeault AAML 73 3 0 14 Oct 2024
AutoTurb: Using Large Language Models for Automatic Algebraic Model Discovery of Turbulence Closure Yu Zhang Kefeng Zheng Fei Liu Qingfu Zhang Zhenkun Wang 52 3 0 14 Oct 2024
Words to Wheels: Vision-Based Autonomous Driving Understanding Human Language Instructions Using Foundation Models Chanhoe Ryu Hyunki Seong Daegyu Lee Seongwoo Moon Sungjae Min David Hyunchul Shim 31 0 0 14 Oct 2024
Moirai-MoE: Empowering Time Series Foundation Models with Sparse Mixture of Experts Xu Liu Juncheng Liu Gerald Woo Taha Aksu Yuxuan Liang Roger Zimmermann Chenghao Liu Silvio Savarese Caiming Xiong Doyen Sahoo AI4TS 61 16 0 14 Oct 2024
Self-Assessed Generation: Trustworthy Label Generation for Optical Flow and Stereo Matching in Real-world Han Ling Yinghui Sun Quansen Sun Ivor Tsang Yuhui Zheng 30 1 0 14 Oct 2024
big.LITTLE Vision Transformer for Efficient Visual Recognition He Guo Yulong Wang Zixuan Ye Jifeng Dai Yuwen Xiong ViT 54 0 0 14 Oct 2024
ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization Jiawei Li Fanrui Zhang Jiaying Zhu Esther Sun Qiang Zhang Zheng-jun Zha MLLM 62 11 0 14 Oct 2024
The Ingredients for Robotic Diffusion Transformers Sudeep Dasari Oier Mees Sebastian Zhao Mohan Kumar Srirama Sergey Levine 75 20 0 14 Oct 2024
Locality Alignment Improves Vision-Language Models Ian Covert Tony Sun James Zou Tatsunori Hashimoto VLM 77 5 0 14 Oct 2024
Make the Pertinent Salient: Task-Relevant Reconstruction for Visual Control with Distractions Kyungmin Kim JB Lanier Pierre Baldi Charless C. Fowlkes Roy Fox 40 1 0 13 Oct 2024
UnSeg: One Universal Unlearnable Example Generator is Enough against All Image Segmentation Ye Sun Hao Zhang Tiehua Zhang Xingjun Ma Yu-Gang Jiang VLM 47 3 0 13 Oct 2024
Retrieval Instead of Fine-tuning: A Retrieval-based Parameter Ensemble for Zero-shot Learning Pengfei Jin Peng Shu Sekeun Kim Qing Xiao S. Song Cheng Chen Tianming Liu Xiang Li Quanzheng Li 54 1 0 13 Oct 2024
Large-Scale 3D Medical Image Pre-training with Geometric Context Priors Linshan Wu Jiaxin Zhuang Hao Chen 41 5 0 13 Oct 2024
ImagineNav: Prompting Vision-Language Models as Embodied Navigator through Scene Imagination Xinxin Zhao Wenzhe Cai Likun Tang Teng Wang LM&Ro 51 4 0 13 Oct 2024
DFIMat: Decoupled Flexible Interactive Matting in Multi-Person Scenarios Siyi Jiao Wenzheng Zeng Changxin Gao Nong Sang 30 1 0 13 Oct 2024
Data Adaptive Few-shot Multi Label Segmentation with Foundation Model Gurunath Reddy D. Shanbhag Deepa Anand 45 0 0 13 Oct 2024
Leveraging Semantic Cues from Foundation Vision Models for Enhanced Local Feature Correspondence Felipe Cadar Guilherme A. Potje Renato Martins Cédric Demonceaux Erickson R. Nascimento FedML 48 0 0 12 Oct 2024
An Expeditious Spatial Mean Radiant Temperature Mapping Framework using Visual SLAM and Semantic Segmentation Wei Liang Yiting Zhang Ji Zhang Erica Cochran Hameen 33 0 0 12 Oct 2024
EasyHeC++: Fully Automatic Hand-Eye Calibration with Pretrained Image Models Zhengdong Hong Kangfu Zheng Linghao Chen VLM 35 4 0 11 Oct 2024
Few Exemplar-Based General Medical Image Segmentation via Domain-Aware Selective Adaptation Chen Xu Qiming Huang Yuqi Hou Jiangxing Wu Fan Zhang Hyung Jin Chang Jianbo Jiao 35 0 0 11 Oct 2024
Cross-Domain Distribution Alignment for Segmentation of Private Unannotated 3D Medical Images Ruitong Sun Mohammad Rostami 39 0 0 11 Oct 2024
DA-Ada: Learning Domain-Aware Adapter for Domain Adaptive Object Detection Haoyang Li Rui Zhang Hantao Yao X. Zhang Yifan Hao Xinkai Song Xiaqing Li Yongwei Zhao Ling Li Yunji Chen ObjD VLM 55 4 0 11 Oct 2024
Zero-Shot Pupil Segmentation with SAM 2: A Case Study of Over 14 Million Images Virmarie Maquiling Sean Anthony Byrne D. Niehorster Marco Carminati Enkelejda Kasneci VLM 55 0 0 11 Oct 2024
CoTCoNet: An Optimized Coupled Transformer-Convolutional Network with an Adaptive Graph Reconstruction for Leukemia Detection Chandravardhan Singh Raghaw Arnav Sharma Shubhi Bansal Mohammad Zia Ur Rehman Nagendra Kumar MedIm 49 10 0 11 Oct 2024
VideoSAM: Open-World Video Segmentation Pinxue Guo Zixu Zhao Jianxiong Gao Chongruo Wu Tong He Zheng Zhang Tianjun Xiao Wenqiang Zhang VOS 38 0 0 11 Oct 2024
A SAM based Tool for Semi-Automatic Food Annotation Lubnaa Abdur Rahman Ioannis Papathanail Lorenzo Brigato Stavroula Mougiakakou 48 0 0 11 Oct 2024
Diffusion-Based Depth Inpainting for Transparent and Reflective Objects Tianyu Sun Dingchang Hu Yixiang Dai Guijin Wang DiffM 60 6 0 11 Oct 2024
Ego3DT: Tracking Every 3D Object in Ego-centric Videos Shengyu Hao Wenhao Chai Zhonghan Zhao Meiqi Sun Wendi Hu ... Yixian Zhao Qi Li Yizhou Wang Xi Li Gaoang Wang 45 1 0 11 Oct 2024
Adversarial Training Can Provably Improve Robustness: Theoretical Analysis of Feature Learning Process Under Structured Data Binghui Li Yuanzhi Li OOD 44 2 0 11 Oct 2024
Dynamic Multimodal Evaluation with Flexible Complexity by Vision-Language Bootstrapping Yue Yang Shanghang Zhang Wenqi Shao Kaipeng Zhang Yi Bin Yu Wang Ping Luo 50 2 0 11 Oct 2024