Title
X-Fusion: Introducing New Modality to Frozen Large Language Models Sicheng Mo Thao Nguyen Xun Huang Siddharth Srinivasan Iyer Yijun Li ... Eli Shechtman Krishna Kumar Singh Yong Jae Lee Bolei Zhou Yuheng Li 71 0 0 29 Apr 2025
Symbolic Representation for Any-to-Any Generative Tasks J. Chen Xiaoye Zhu Y. Wang Tianyang Liu Xinhui Chen ... Yifei Ke J. Liu Yiwen Yuan Julian McAuley Li Li DiffM 36 0 0 24 Apr 2025
Decoupled Global-Local Alignment for Improving Compositional Understanding Xiaoxing Hu Kaicheng Yang J. Z. Wang Haoran Xu Ziyong Feng Y. Wang VLM 92 0 0 23 Apr 2025
Low-hallucination Synthetic Captions for Large-Scale Vision-Language Model Pre-training X. Zhang Yarong Zeng Xinting Huang Hu Hu Runquan Xie Han Hu Zhanhui Kang MLLM VLM 45 0 0 17 Apr 2025
MovSAM: A Single-image Moving Object Segmentation Framework Based on Deep Thinking Chang Nie Yiqing Xu Guangming Wang Zhe Liu Yanzi Miao Hesheng Wang VLM 38 0 0 09 Apr 2025
Rip Current Segmentation: A Novel Benchmark and YOLOv8 Baseline Results Andrei Dumitriu Florin Tatui Florin Miron Radu Tudor Ionescu Radu Timofte 37 20 0 03 Apr 2025
RipVIS: Rip Currents Video Instance Segmentation Benchmark for Beach Monitoring and Safety Andrei Dumitriu Florin Tatui Florin Miron Aakash Ralhan Radu Tudor Ionescu Radu Timofte 36 0 0 01 Apr 2025
Masked Self-Supervised Pre-Training for Text Recognition Transformers on Large-Scale Datasets Martin Kiss Michal Hradiš 34 0 0 28 Mar 2025
Vanishing Depth: A Depth Adapter with Positional Depth Encoding for Generalized Image Encoders Paul Koch Jörg Krüger Ankit Chowdhury O. Heimann MDE 53 0 0 25 Mar 2025
Audio-Enhanced Vision-Language Modeling with Latent Space Broadening for High Quality Data Expansion Yu Sun Yin Li R.-H. Sun Chunhui Liu Fangming Zhou Ze Jin Linjie Wang Xiang Shen Zhuolin Hao Hongyu Xiong VLM 48 0 0 21 Mar 2025
MAVEN: Multi-modal Attention for Valence-Arousal Emotion Network Vrushank Ahire Kunal Shah Mudasir Nazir Khan Nikhil Pakhale L. Sookha M. A. Ganaie Abhinav Dhall 65 0 0 16 Mar 2025
ForAug: Recombining Foregrounds and Backgrounds to Improve Vision Transformer Training with Bias Mitigation Tobias Christian Nauen Brian B. Moser Federico Raue Stanislav Frolov Andreas Dengel ViT 55 0 0 12 Mar 2025
Visual Cues of Gender and Race are Associated with Stereotyping in Vision-Language Models Messi H.J. Lee Soyeon Jeon Jacob M. Montgomery Calvin K Lai VLM CoGe 74 0 0 07 Mar 2025
MedUnifier: Unifying Vision-and-Language Pre-training on Medical Data with Vision Generation Task using Discrete Visual Representations Ziyang Zhang Yang Yu Yucheng Chen Xulei Yang S. Yeo MedIm 51 1 0 02 Mar 2025
HalCECE: A Framework for Explainable Hallucination Detection through Conceptual Counterfactuals in Image Captioning Maria Lymperaiou Giorgos Filandrianos Angeliki Dimitriou Athanasios Voulodimos Giorgos Stamou MLLM 35 0 0 01 Mar 2025
MLLMs Know Where to Look: Training-free Perception of Small Visual Details with Multimodal LLMs Jiarui Zhang Mahyar Khayatkhoei P. Chhikara Filip Ilievski LRM 39 6 0 24 Feb 2025
Audio Visual Segmentation Through Text Embeddings Kyungbok Lee You Zhang Z. Duan 33 0 0 22 Feb 2025
Image Embedding Sampling Method for Diverse Captioning Sania Waheed Na Min An 55 0 0 14 Feb 2025
sDREAMER: Self-distilled Mixture-of-Modality-Experts Transformer for Automatic Sleep Staging Jingyuan Chen Yuan Yao Mie Anderson Natalie Hauglund Celia Kjaerby Verena Untiet Maiken Nedergaard Jiebo Luo 41 1 0 28 Jan 2025
Zero-Shot Interactive Text-to-Image Retrieval via Diffusion-Augmented Representations Zijun Long Kangheng Liang Gerardo Aragon Camarasa R. McCreadie Paul Henderson 21 0 0 28 Jan 2025
DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers Yuntao Chen Yuqi Wang Zhaoxiang Zhang 101 7 0 24 Dec 2024
Incorporating Feature Pyramid Tokenization and Open Vocabulary Semantic Segmentation J. Zhang Li Zhang Shijian Li VLM 81 0 0 18 Dec 2024
Bringing Multimodality to Amazon Visual Search System Xinliang Zhu Michael Huang Han Ding Jinyu Yang Kelvin Chen ... Son Dinh Tran Benjamin Z. Yao Doug Gray Anuj Bindal Arnab Dhua 69 3 0 17 Dec 2024
SAMWISE: Infusing Wisdom in SAM2 for Text-Driven Video Segmentation Claudia Cuttano Gabriele Trivigno Gabriele Rosi Carlo Masone Giuseppe Averta VOS 101 2 0 26 Nov 2024
A Survey of Recent Advances and Challenges in Deep Audio-Visual Correlation Learning Luis Vilaca Yi Yu Paula Vinan 73 0 0 24 Nov 2024
Chanel-Orderer: A Channel-Ordering Predictor for Tri-Channel Natural Images Shen Li Lei Jiang Wei Wang Hongwei Hu Liang Li 67 0 0 20 Nov 2024
Visual question answering based evaluation metrics for text-to-image generation Mizuki Miyamoto Ryugo Morita Jinjia Zhou EGVM 33 0 0 15 Nov 2024
Autoregressive Models in Vision: A Survey Jing Xiong Gongye Liu Lun Huang Chengyue Wu Taiqiang Wu ... M. Zhang Guillermo Sapiro Jiebo Luo Ping Luo Ngai Wong VGen 46 9 0 08 Nov 2024
Sparsh: Self-supervised touch representations for vision-based tactile sensing Carolina Higuera Akash Sharma Chaithanya Krishna Bodduluri Taosha Fan Patrick E. Lancaster ... Michael Kaess Byron Boots Mike Lambeta Tingfan Wu Mustafa Mukadam 32 11 0 31 Oct 2024
Cross-Modal Safety Mechanism Transfer in Large Vision-Language Models Shicheng Xu Liang Pang Yunchang Zhu Huawei Shen Xueqi Cheng MLLM 33 1 0 16 Oct 2024
DRACO: A Denoising-Reconstruction Autoencoder for Cryo-EM Yingjun Shen Haizhao Dai Qihe Chen Yan Zeng Jiakai Zhang Yuan Pei Jingyi Yu 13 0 0 15 Oct 2024
A foundation model for generalizable disease diagnosis in chest X-ray images Lijian Xu Ziyu Ni Hao Sun Hongsheng Li Shaoting Zhang LM&MA MedIm 21 1 0 11 Oct 2024
Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training Gen Luo Xue Yang Wenhan Dou Zhaokai Wang Jifeng Dai Jifeng Dai Yu Qiao Xizhou Zhu VLM MLLM 62 25 0 10 Oct 2024
EMMA: Empowering Multi-modal Mamba with Structural and Hierarchical Alignment Yifei Xing Xiangyuan Lan Ruiping Wang D. Jiang Wenjun Huang Qingfang Zheng Yaowei Wang Mamba 33 0 0 08 Oct 2024
Bridging the Gap between Text, Audio, Image, and Any Sequence: A Novel Approach using Gloss-based Annotation Sen Fang Sizhou Chen Yalin Feng Xiaofeng Zhang T. Teoh 23 0 0 04 Oct 2024
SurgPETL: Parameter-Efficient Image-to-Surgical-Video Transfer Learning for Surgical Phase Recognition Shu Yang Zhiyuan Cai Luyang Luo Ning Ma Shuchang Xu Hao Chen 18 0 0 30 Sep 2024
All-in-One Image Coding for Joint Human-Machine Vision with Multi-Path Aggregation Xu Zhang Peiyao Guo Ming-Tse Lu Zhan Ma 36 2 0 29 Sep 2024
From Vision to Audio and Beyond: A Unified Model for Audio-Visual Representation and Generation Kun Su Xiulong Liu Eli Shlizerman VGen 28 6 0 27 Sep 2024
First Place Solution to the ECCV 2024 BRAVO Challenge: Evaluating Robustness of Vision Foundation Models for Semantic Segmentation Tommie Kerssies Daan de Geus Gijs Dubbelman 59 2 0 25 Sep 2024
JourneyBench: A Challenging One-Stop Vision-Language Understanding Benchmark of Generated Images Zhecan Wang Junzhang Liu Chia-Wei Tang Hani Alomari Anushka Sivakumar ... Haoxuan You A. Ishmam Kai-Wei Chang Shih-Fu Chang Chris Thomas CoGe VLM 59 2 0 19 Sep 2024
From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models Shengsheng Qian Zuyi Zhou Dizhan Xue Bing Wang Changsheng Xu LRM 34 1 0 19 Sep 2024
NVLM: Open Frontier-Class Multimodal LLMs Wenliang Dai Nayeon Lee Boxin Wang Zhuoling Yang Zihan Liu Jon Barker Tuomas Rintamaki M. Shoeybi Bryan Catanzaro Wei Ping MLLM VLM LRM 40 51 0 17 Sep 2024
HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers Jianke Zhang Yanjiang Guo Xiaoyu Chen Yen-Jen Wang Yucheng Hu Chengming Shi Jianyu Chen 21 5 0 12 Sep 2024
Recent Trends of Multimodal Affective Computing: A Survey from NLP Perspective Guimin Hu Yi Xin Weimin Lyu Haojian Huang Chang Sun Z. Zhu Lin Gui Ruichu Cai Erik Cambria Hasti Seifi 30 5 0 11 Sep 2024
Pushing the Limits of Vision-Language Models in Remote Sensing without Human Annotations Keumgang Cha Donggeun Yu Junghoon Seo VLM 21 0 0 11 Sep 2024
How Does Diverse Interpretability of Textual Prompts Impact Medical Vision-Language Zero-Shot Tasks? Sicheng Wang Che Liu Rossella Arcucci VLM MedIm 32 0 0 31 Aug 2024
Depth-Weighted Detection of Behaviours of Risk in People with Dementia using Cameras Pratik K. Mishra Irene Ballester Andrea Iaboni B. Ye Kristine Newman Alex Mihailidis Shehroz S. Khan 37 0 0 28 Aug 2024
Zero-Shot Visual Reasoning by Vision-Language Models: Benchmarking and Analysis Aishik Nagar Shantanu Jaiswal Cheston Tan ReLM LRM 23 7 0 27 Aug 2024
UniFashion: A Unified Vision-Language Model for Multimodal Fashion Retrieval and Generation Xiangyu Zhao Yuehan Zhang Wenlong Zhang X. Wu 36 4 0 21 Aug 2024
Are Bigger Encoders Always Better in Vision Large Models? Bozhou Li Hao Liang Zimo Meng Wentao Zhang VLM 38 3 0 01 Aug 2024