Title
Bridging the Human to Robot Dexterity Gap through Object-Oriented Rewards Irmak Güzey Yinlong Dai Georgy Savva Raunaq M. Bhirangi Lerrel Pinto 51 7 0 30 Oct 2024
FAIR-TAT: Improving Model Fairness Using Targeted Adversarial Training Tejaswini Medi Steffen Jung Margret Keuper AAML 46 3 0 30 Oct 2024
Decoupling Semantic Similarity from Spatial Alignment for Neural Networks Tassilo Wald Constantin Ulrich Gregor Köhler David Zimmerer Stefan Denner Michael Baumgartner Fabian Isensee Priyank Jaini Klaus H. Maier-Hein 50 0 0 30 Oct 2024
CNN Explainability with Multivector Tucker Saliency Maps for Self-Supervised Models Aymene Mohammed Bouayed Samuel Deslauriers-Gauthier Adrian Iaccovelli D. Naccache 38 0 0 30 Oct 2024
Unfolding Target Detection with State Space Model Luca Jiang-Tao Yu Chenshu Wu 31 0 0 30 Oct 2024
Diffusion Beats Autoregressive: An Evaluation of Compositional Generation in Text-to-Image Models Arash Marioriyad Parham Rezaei M. Baghshah M. Rohban CoGe 260 0 0 30 Oct 2024
Addressing Issues with Working Memory in Video Object Segmentation Clayton Bromley Alexander Moore Amar Saini Douglas Poland Carmen Carrano VOS 44 1 0 29 Oct 2024
Towards Unifying Understanding and Generation in the Era of Vision Foundation Models: A Survey from the Autoregression Perspective Shenghao Xie Wenqiang Zu Mingyang Zhao Duo Su Shilong Liu Ruohua Shi Guoqi Li Shanghang Zhang Lei Ma LRM 58 3 0 29 Oct 2024
Lightweight Frequency Masker for Cross-Domain Few-Shot Semantic Segmentation Jintao Tong Yixiong Zou Yuhua Li Ruixuan Li 35 4 0 29 Oct 2024
PACA: Perspective-Aware Cross-Attention Representation for Zero-Shot Scene Rearrangement Shutong Jin Ruiyu Wang Kuangyi Chen Florian T. Pokorny 37 0 0 29 Oct 2024
Benchmarking Human and Automated Prompting in the Segment Anything Model Jorge Quesada Zoe Fowler Mohammad Alotaibi Mohit Prabhushankar Ghassan AlRegib VLM 37 2 0 29 Oct 2024
Pushing the Limits of All-Atom Geometric Graph Neural Networks: Pre-Training, Scaling and Zero-Shot Transfer Zihan Pengmei Zhengyuan Shen Zichen Wang Marcus Collins Huzefa Rangwala AI4CE 33 2 0 29 Oct 2024
Neural Experts: Mixture of Experts for Implicit Neural Representations Yizhak Ben-Shabat Chamin Pasidu Hewa Koneputugodage Sameera Ramasinghe Stephen Gould 32 1 0 29 Oct 2024
Gnothi Seauton: Empowering Faithful Self-Interpretability in Black-Box Transformers Shaobo Wang Hongxuan Tang Mingyang Wang Hao Zhang Xuyang Liu Weiya Li Xuming Hu Linfeng Zhang 29 0 0 29 Oct 2024
Revisiting Reliability in Large-Scale Machine Learning Research Clusters Apostolos Kokolis Michael Kuchnik John Hoffman Adithya Kumar Parth Malani Faye Ma Zachary DeVito Shri Kiran Srinivasan Kalyan Saladi Carole-Jean Wu 202 7 0 29 Oct 2024
SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization Wanhua Li Zibin Meng Jiawei Zhou D. Wei Chuang Gan Hanspeter Pfister LRM VLM 34 6 0 28 Oct 2024
BLAST: Block-Level Adaptive Structured Matrices for Efficient Deep Neural Network Inference Changwoo Lee Soo Min Kwon Qing Qu Hun-Seok Kim 36 0 0 28 Oct 2024
KA $^2$ ER: Knowledge Adaptive Amalgamation of ExpeRts for Medical Images Segmentation Shangde Gao Yichao Fu Ke Liu Hongxia Xu Jian Wu MedIm 46 1 0 28 Oct 2024
Push-Forward Signed Distance Functions enable interpretable and robust continuous shape quantification Roua Rouatbi Juan Esteban Suarez Ivo F. Sbalzarini 23 0 0 28 Oct 2024
IndraEye: Infrared Electro-Optical UAV-based Perception Dataset for Robust Downstream Tasks Manjunath D Prajwal Gurunath Sumanth Udupa Aditya Gandhamal Shrikar Madhu Aniruddh Sikdar Suresh Sundaram 34 0 0 28 Oct 2024
VLMimic: Vision Language Models are Visual Imitation Learner for Fine-grained Actions Guanyan Chen Ming Wang Te Cui Yao Mu Haoyang Lu ... Mengxiao Hu Haizhou Li Yuchen Li Yi Yang Yufeng Yue VLM 36 3 0 28 Oct 2024
Diff-Instruct*: Towards Human-Preferred One-step Text-to-image Generative Models Weijian Luo C. Zhang Debing Zhang Zhengyang Geng 33 4 0 28 Oct 2024
LoDAvatar: Hierarchical Embedding and Adaptive Levels of Detail with Gaussian Splatting for Enhanced Human Avatars Xiaonuo Dongye Hanzhi Guo Le Luo Haiyan Jiang Yihua Bao Zeyu Tian Dongdong Weng 3DGS 51 1 0 28 Oct 2024
CompGS: Unleashing 2D Compositionality for Compositional Text-to-3D via Dynamically Optimizing 3D Gaussians Chongjian Ge Chenfeng Xu Yuanfeng Ji C-T.John Peng Masayoshi Tomizuka Ping Luo Mingyu Ding Varun Jampani Weidong Zhan 3DGS 39 4 0 28 Oct 2024
Guidance Disentanglement Network for Optics-Guided Thermal UAV Image Super-Resolution Zhicheng Zhao Juanjuan Gu Chenglong Li Chun Wang Zhongling Huang Jin Tang DRL 33 0 0 27 Oct 2024
Historical Test-time Prompt Tuning for Vision Foundation Models Jingyi Zhang Jiaxing Huang Xiaoqin Zhang Ling Shao Shijian Lu VLM 44 4 0 27 Oct 2024
Harmony4D: A Video Dataset for In-The-Wild Close Human Interactions Rawal Khirodkar Jyun-Ting Song Jinkun Cao Zhengyi Luo Kris Kitani 48 4 0 27 Oct 2024
Neural Fields in Robotics: A Survey Muhammad Zubair Irshad Mauro Comi Yen-Chen Lin Nick Heppert Abhinav Valada Rares Andrei Ambrus Z. Kira Jonathan Tremblay AI4CE 63 4 0 26 Oct 2024
Semantic Feature Decomposition based Semantic Communication System of Images with Large-scale Visual Generation Models Senran Fan Zhicheng Bao Chen Dong Haotai Liang Xiaodong Xu Ping Zhang DiffM 34 3 0 26 Oct 2024
Transferable Adversarial Attacks on SAM and Its Downstream Models Song Xia Wenhan Yang Yi Yu Xun Lin Henghui Ding Lingyu Duan Xudong Jiang AAML SILM 75 6 0 26 Oct 2024
Frozen-DETR: Enhancing DETR with Image Understanding from Frozen Foundation Models Shenghao Fu Junkai Yan Q. Yang Xihan Wei Xiaohua Xie Wei-Shi Zheng VLM 49 3 0 25 Oct 2024
Peter Parker or Spiderman? Disambiguating Multiple Class Labels Nuthan Mummani Simran Ketha Venkatakrishnan Ramaswamy 24 0 0 25 Oct 2024
ArCSEM: Artistic Colorization of SEM Images via Gaussian Splatting Takuma Nishimura Andreea Dogaru Martin Oeggerli Bernhard Egger 46 0 0 25 Oct 2024
Fusion-then-Distillation: Toward Cross-modal Positive Distillation for Domain Adaptive 3D Semantic Segmentation Yao Wu Mingwei Xing Yachao Zhang Yuan Xie Yanyun Qu 38 2 0 25 Oct 2024
On-Robot Reinforcement Learning with Goal-Contrastive Rewards Ondrej Biza Thomas Weng Lingfeng Sun Karl Schmeckpeper Tarik Kelestemur Yecheng Jason Ma Robert Platt Jan-Willem van de Meent Lawson L. S. Wong OffRL 52 0 0 25 Oct 2024
BIFRÖST: 3D-Aware Image compositing with Language Instructions Lingxiao Li Kaixiong Gong Weihong Li Xili Dai Tao Chen Xiaojun Yuan Xiangyu Yue 39 2 0 24 Oct 2024
SegLLM: Multi-round Reasoning Segmentation XuDong Wang Shaolun Zhang Shufan Li Konstantinos Kallidromitis Kehan Li Yusuke Kato Kazuki Kozuka Trevor Darrell VLM LRM 58 2 0 24 Oct 2024
Dynamic 3D Gaussian Tracking for Graph-Based Neural Dynamics Modeling Mingtong Zhang Kaifeng Zhang Yunzhu Li 3DGS AI4CE 39 6 0 24 Oct 2024
SkillMimicGen: Automated Demonstration Generation for Efficient Skill Learning and Deployment Caelan Reed Garrett Ajay Mandlekar Bowen Wen Dieter Fox 52 12 0 24 Oct 2024
Diff-Instruct++: Training One-step Text-to-image Generator Model to Align with Human Preferences Weijian Luo EGVM 43 6 0 24 Oct 2024
Scale Propagation Network for Generalizable Depth Completion Haotian Wang Meng Yang Xinhu Zheng Gang Hua 36 2 0 24 Oct 2024
MoGe: Unlocking Accurate Monocular Geometry Estimation for Open-Domain Images with Optimal Training Supervision Ruicheng Wang Sicheng Xu Cassie Dai Jianfeng Xiang Yu Deng Xin Tong Jiaolong Yang TPM 3DH MDE 67 30 0 24 Oct 2024
Gaze-Assisted Medical Image Segmentation Leila Khaertdinova Ilya Pershin Tatiana Shmykova Bulat Ibragimov MedIm 42 4 0 23 Oct 2024
A utility-based spatial analysis of residential street-level conditions; A case study of Rotterdam Sander van Cranenburgh Francisco Garrido-Valenzuela 26 0 0 23 Oct 2024
AdaDiffSR: Adaptive Region-aware Dynamic Acceleration Diffusion Model for Real-World Image Super-Resolution Yuanting Fan Chengxu Liu Nengzhong Yin Changlong Gao Xueming Qian 33 3 0 23 Oct 2024
Efficient Neural Implicit Representation for 3D Human Reconstruction Zexu Huang Sarah Monazam Erfani Siying Lu Mingming Gong 3DH 45 11 0 23 Oct 2024
PLGS: Robust Panoptic Lifting with 3D Gaussian Splatting Yu Wang Xiaobao Wei Ming Lu Guoliang Kang 3DGS 35 5 0 23 Oct 2024
Captions Speak Louder than Images (CASLIE): Generalizing Foundation Models for E-commerce from High-quality Multimodal Instruction Data Xinyi Ling B. Peng Hanwen Du Zhihui Zhu Xia Ning 36 0 0 22 Oct 2024
Towards Real Zero-Shot Camouflaged Object Segmentation without Camouflaged Annotations Cheng Lei Jie Fan Xinran Li Tianzhu Xiang Ao Li Ce Zhu Le Zhang 35 0 0 22 Oct 2024
LIMIS: Towards Language-based Interactive Medical Image Segmentation Lena Heinemann A. Jaus Zdravko Marinov M. Kim Maria Francesca Spadea Jens Kleesiek Rainer Stiefelhagen LM&MA VLM 38 0 0 22 Oct 2024