Title
Towards Retrieval-Augmented Architectures for Image Captioning Sara Sarto Marcella Cornia Lorenzo Baraldi Alessandro Nicolosi Rita Cucchiara VLM 138 17 0 21 May 2024
KG-RAG: Bridging the Gap Between Knowledge and Creativity Diego Sanmartin RALM 150 72 0 20 May 2024
Enhancing Fine-Grained Image Classifications via Cascaded Vision Language ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2024 Canshi Wei VLM 138 2 0 18 May 2024
AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations David Xu 194 2 0 17 May 2024
Driving Referring Video Object Segmentation with Vision-Language Pre-trained Models Zikun Zhou Wentao Xiong Li Zhou Xin Li Zhenyu He Yaowei Wang VOS VLM 118 1 0 17 May 2024
Similarity Guided Multimodal Fusion Transformer for Semantic Location Prediction in Social Media Zhizhen Zhang Ning Wang Haojie Li Zhihui Wang 123 0 0 09 May 2024
One-Stage Open-Vocabulary Temporal Action Detection Leveraging Temporal Multi-scale and Action Label Features Trung Thanh Nguyen Yasutomo Kawanishi Takahiro Komamizu Ichiro Ide VLM 134 4 0 30 Apr 2024
ViOCRVQA: Novel Benchmark Dataset and Vision Reader for Visual Question Answering by Understanding Vietnamese Text in Images Huy Quang Pham Thang Kien-Bao Nguyen Quan Van Nguyen Dan Quang Tran Nghia Hieu Nguyen Kiet Van Nguyen Ngan Luu-Thuy Nguyen 145 5 0 29 Apr 2024
Efficient Remote Sensing with Harmonized Transfer Learning and Modality Alignment Tengjun Huang 242 7 0 28 Apr 2024
Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching Haiwen Diao Ying Zhang Shang Gao Xiang Ruan Huchuan Lu 154 4 0 28 Apr 2024
Multimodal Fusion on Low-quality Data: A Comprehensive Survey Qingyang Zhang Yake Wei Zongbo Han Huazhu Fu Xi Peng ... Qinghua Hu Cai Xu Jie Wen Di Hu Changqing Zhang 206 59 0 27 Apr 2024
Medical Vision-Language Pre-Training for Brain Abnormalities Masoud Monajatipoor Zi-Yi Dou Aichi Chien Nanyun Peng Kai-Wei Chang VLM 176 2 0 27 Apr 2024
Learning text-to-video retrieval from image captioning Lucas Ventura Cordelia Schmid Gül Varol 3DV 154 7 0 26 Apr 2024
3SHNet: Boosting Image-Sentence Retrieval via Visual Semantic-Spatial Self-Highlighting Xuri Ge Songpei Xu Fuhai Chen Jie Wang Guoxin Wang Shan An Joemon M. Jose 3DPC 178 22 0 26 Apr 2024
List Items One by One: A New Data Source and Learning Paradigm for Multimodal LLMs An Yan Zhengyuan Yang Junda Wu Wanrong Zhu Jianwei Yang ... Kevin Qinghong Lin Jianfeng Wang Julian McAuley Jianfeng Gao Lijuan Wang LRM 184 23 0 25 Apr 2024
Movie101v2: Improved Movie Narration Benchmark Zihao Yue Yepeng Zhang Ziheng Wang Qin Jin VGen 181 3 0 20 Apr 2024
Pre-trained Vision-Language Models Learn Discoverable Visual Concepts Yuan Zang Tian Yun Hao Tan Trung Bui Chen Sun VLM CoGe 214 14 0 19 Apr 2024
LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation? Yuchi Wang Shuhuai Ren Rundong Gao Linli Yao Qingyan Guo Kaikai An Jianhong Bai Xu Sun DiffM VLM 156 13 0 16 Apr 2024
From Data Deluge to Data Curation: A Filtering-WoRA Paradigm for Efficient Text-based Person Search Jintao Sun Zhedong Zheng Gangyi Ding Gangyi Ding 280 17 0 16 Apr 2024
ViTextVQA: A Large-Scale Visual Question Answering Dataset for Evaluating Vietnamese Text Comprehension in Images Quan Van Nguyen Dan Quang Tran Huy Quang Pham Thang Kien-Bao Nguyen Nghia Hieu Nguyen Kiet Van Nguyen Ngan Luu-Thuy Nguyen CoGe 348 6 0 16 Apr 2024
Conditional Prototype Rectification Prompt Learning Haoxing Chen Yaohui Li Zizheng Huang Yan Hong Zhuoer Xu Zhangxuan Gu Jun Lan Huijia Zhu Weiqiang Wang VLM 147 3 0 15 Apr 2024
Transferable and Principled Efficiency for Open-Vocabulary Segmentation Jingxuan Xu Wuyang Chen Yao-Min Zhao Yunchao Wei VLM 186 1 0 11 Apr 2024
Uncertainty-aware Medical Diagnostic Phrase Identification and GroundingIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024 K. Zou Yang Bai Zhihao Chen Yang Zhou Yidi Chen ... Xuedong Yuan Xiaojing Shen Huazhu Fu Yih-Chung Tham Huazhu Fu MedIm 188 5 0 10 Apr 2024
Vision Transformers in Domain Adaptation and Generalization: A Study of Robustness Shadi Alijani Jamil Fayyad Homayoun Najjaran OOD 202 26 0 05 Apr 2024
CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept MatchingNeural Information Processing Systems (NeurIPS), 2024 Dongzhi Jiang Guanglu Song Xiaoshi Wu Renrui Zhang Dazhong Shen Zhuofan Zong Yu Liu Jiaming Song VLM 269 46 0 04 Apr 2024
DeViDe: Faceted medical knowledge for improved medical vision-language pre-training Haozhe Luo Ziyu Zhou Corentin Royer Anjany Sekuboyina Bjoern Menze VLM ViT MedIm 196 10 0 04 Apr 2024
Is CLIP the main roadblock for fine-grained open-world perception?International Conference on Content-Based Multimedia Indexing (CBMI), 2024 Lorenzo Bianchi F. Carrara Nicola Messina Fabrizio Falchi VLM 129 8 0 04 Apr 2024
Cross-Modality Gait Recognition: Bridging LiDAR and Camera Modalities for Human Identification Rui Wang Chuanfu Shen M. Marín-Jiménez George Q. Huang Shiqi Yu CVBM 175 9 0 04 Apr 2024
Would Deep Generative Models Amplify Bias in Future Models?Computer Vision and Pattern Recognition (CVPR), 2024 Tianwei Chen Yusuke Hirota Mayu Otani Noa Garcia Yuta Nakashima 138 20 0 04 Apr 2024
Continual Learning of Numerous Tasks from Long-tail Distributions Liwei Kang Wee Sun Lee 140 0 0 03 Apr 2024
3DStyleGLIP: Part-Tailored Text-Guided 3D Neural Stylization Seung-bum Chung Joohyun Park Hyewon Kan Hyeongyeop Kang CLIP 159 4 0 03 Apr 2024
DELAN: Dual-Level Alignment for Vision-and-Language Navigation by Cross-Modal Contrastive LearningInternational Conference on Language Resources and Evaluation (LREC), 2024 Mengfei Du Binhao Wu Jiwen Zhang Zhihao Fan Zejun Li Ruipu Luo Xuanjing Huang Zhongyu Wei 120 4 0 02 Apr 2024
SyncMask: Synchronized Attentional Masking for Fashion-centric Vision-Language Pretraining Chull Hwan Song Taebaek Hwang Jooyoung Yoon Shunghyun Choi Yeong Hyeon Gu 92 10 0 01 Apr 2024
Learning by Correction: Efficient Tuning Task for Zero-Shot Generative Vision-Language Reasoning Rongjie Li Yu Wu Xuming He MLLM LRM VLM 127 3 0 01 Apr 2024
Learn "No" to Say "Yes" Better: Improving Vision-Language Models via Negations Jaisidh Singh Ishaan Shrivastava Mayank Vatsa Richa Singh Aparna Bharati VLM CoGe 152 28 0 29 Mar 2024
FSMR: A Feature Swapping Multi-modal Reasoning Approach with Joint Textual and Visual Clues Shuang Li Jiahua Wang Lijie Wen LRM 94 0 0 29 Mar 2024
Semantic Map-based Generation of Navigation Instructions Chengzu Li Chao Zhang Simone Teufel R. Doddipatla Svetlana Stoyanchev 143 3 0 28 Mar 2024
Text Data-Centric Image Captioning with Interactive Prompts Yiyu Wang Hao Luo Jungang Xu Yingfei Sun Fan Wang VLM 139 2 0 28 Mar 2024
Scaling Vision-and-Language Navigation With Offline RL Valay Bundele Mahesh Bhupati Biplab Banerjee Aditya Grover OffRL 117 1 0 27 Mar 2024
Predicate Debiasing in Vision-Language Models Integration for Scene Graph Generation EnhancementConference on Empirical Methods in Natural Language Processing (EMNLP), 2024 Yuxuan Wang Xiaoyuan Liu VLM 172 1 0 24 Mar 2024
Continual Vision-and-Language Navigation Seongjun Jeong Gi-Cheon Kang Seongho Choi Joochan Kim Byoung-Tak Zhang 201 3 0 22 Mar 2024
VidLA: Video-Language Alignment at ScaleComputer Vision and Pattern Recognition (CVPR), 2024 Mamshad Nayeem Rizve Fan Fei Jayakrishnan Unnikrishnan Son Tran Benjamin Z. Yao Belinda Zeng Mubarak Shah Trishul Chilimbi VLM AI4TS 160 8 0 21 Mar 2024
VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding Ahmad A Mahmood Ashmal Vayani Muzammal Naseer Salman Khan Fahad Shahbaz Khan LRM 306 11 0 21 Mar 2024
UniBind: LLM-Augmented Unified and Balanced Representation Space to Bind Them All Yuanhuiyi Lyu Xueye Zheng Jiazhou Zhou Lin Wang 142 37 0 19 Mar 2024
Boosting Transferability in Vision-Language Attacks via Diversification along the Intersection Region of Adversarial Trajectory Sensen Gao Yang Liu Xuhong Ren Ivor Tsang Qing Guo AAML 177 25 0 19 Mar 2024
Efficient Prompt Tuning of Large Vision-Language Model for Fine-Grained Ship ClassificationIEEE Transactions on Geoscience and Remote Sensing (TGRS), 2024 Long Lan Fengxiang Wang Shuyan Li Xiangtao Zheng Zengmao Wang Xinwang Liu VLM 138 11 0 13 Mar 2024
A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing Objects in 3D Scenes Ting Yu Xiaojun Lin Shuhui Wang Weiguo Sheng Qingming Huang Jun-chen Yu 3DV 180 14 0 12 Mar 2024
A Question-centric Multi-experts Contrastive Learning Framework for Improving the Accuracy and Interpretability of Deep Sequential Knowledge Tracing ModelsACM Transactions on Knowledge Discovery from Data (TKDD), 2024 Hengyuan Zhang Zitao Liu Chenming Shang Dawei Li Yong Jiang AI4Ed 268 9 0 12 Mar 2024
You'll Never Walk Alone: A Sketch and Text Duet for Fine-Grained Image RetrievalComputer Vision and Pattern Recognition (CVPR), 2024 Subhadeep Koley A. Bhunia Aneeshan Sain Pinaki Nath Chowdhury Tao Xiang Yi-Zhe Song 3DV 267 18 0 12 Mar 2024
Transformer based Multitask Learning for Image Captioning and Object DetectionPacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD), 2024 Debolena Basak P. K. Srijith M. Desarkar 111 3 0 10 Mar 2024