Papers citing 'Vision+X: A Survey on Multimodal Learning in the Light of Data'

Title
Caption Injection for Optimization in Generative Search Engine Xiaolu Chen Yong Liao DiffM 104 0 0 06 Nov 2025
Mixup Helps Understanding Multimodal Video Better Xiaoyu Ma Ding Ding Hao Chen 108 0 0 13 Oct 2025
AIM: Adaptive Intra-Network Modulation for Balanced Multimodal Learning Shu Shen Chao Chen Tong Zhang 196 0 0 27 Aug 2025
Principled Multimodal Representation Learning Xiaohao Liu Xiaobo Xia See-Kiong Ng Tat-Seng Chua 215 6 0 23 Jul 2025
DaMO: A Data-Efficient Multimodal Orchestrator for Temporal Reasoning with Video LLMs Bo-Cheng Chiu Jen-Jee Chen Yu-Chee Tseng Feng-Chi Chen 289 0 0 13 Jun 2025
Improving Multimodal Learning Balance and Sufficiency through Data Remixing Xiaoyu Ma Hao Chen Yongjian Deng 212 4 0 13 Jun 2025
ReID5o: Achieving Omni Multi-modal Person Re-identification in a Single Model Jialong Zuo Yongtai Deng Mengdan Tan Rui Jin Dongyue Wu Nong Sang Liang Pan Changxin Gao 207 0 0 11 Jun 2025
Implicit Bias Injection Attacks against Text-to-Image Diffusion ModelsComputer Vision and Pattern Recognition (CVPR), 2025 Huayang Huang Xiangye Jin Jiaxu Miao Yu Wu 282 3 0 02 Apr 2025
ROBIN: Robust and Invisible Watermarks for Diffusion Models with Adversarial OptimizationNeural Information Processing Systems (NeurIPS), 2024 Huayang Huang Yu Wu Qian Wang DiffM WIGM 483 24 0 06 Nov 2024
CLSP: High-Fidelity Contrastive Language-State Pre-training for Agent State Representation Fuxian Huang Tao Gui Shaopeng Zhai Jie Wang Tianyi Zhang Haoran Zhang Ming Zhou Yu Liu Yu Qiao CLIP AI4TS 189 0 0 24 Sep 2024
Deep Learning for Video Anomaly Detection: A Review Peng Wu Chengyu Pan Yuting Yan Guansong Pang Peng Wang Yanning Zhang VLM AI4TS 184 30 0 09 Sep 2024
A Systematic Review of Intermediate Fusion in Multimodal Deep Learning for Biomedical ApplicationsImage and Vision Computing (IVC), 2024 V. Guarrasi Fatih Aksu Camillo Maria Caruso Francesco Di Feola Aurora Rofena Filippo Ruffini Paolo Soda OffRL MedIm AI4CE 153 46 0 02 Aug 2024
Vision-Language Dataset Distillation Xindi Wu Byron Zhang Zhiwei Deng Olga Russakovsky DD VLM 387 14 0 15 Aug 2023
Discrete Contrastive Diffusion for Cross-Modal Music and Image GenerationInternational Conference on Learning Representations (ICLR), 2022 Ye Zhu Yuehua Wu Kyle Olszewski Jian Ren Sergey Tulyakov Yan Yan DiffM 358 56 0 15 Jun 2022
Learning Audio-Visual Correlations from Variational Cross-Modal GenerationIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2021 Ye Zhu Yu Wu Hugo Latapie Yi Yang Yan Yan SSL 240 20 0 05 Feb 2021