Graph Structured Network for Image-Text Matching

1 April 2020

Papers citing "Graph Structured Network for Image-Text Matching"

27 / 27 papers shown

Title
ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval Guanqi Zhan Yuanpei Liu Kai Han Weidi Xie Andrew Zisserman VLM 147 0 0 21 Feb 2025
Towards Deconfounded Image-Text Matching with Causal Inference Wenhui Li Xinqi Su Dan Song Lanjun Wang Kun Zhang An-An Liu BDL CML 40 10 0 22 Aug 2024
Composing Object Relations and Attributes for Image-Text Matching Khoi Pham Chuong Huynh Ser-Nam Lim Abhinav Shrivastava CoGe 34 3 0 17 Jun 2024
CBVS: A Large-Scale Chinese Image-Text Benchmark for Real-World Short Video Search Scenarios Xiangshuo Qiao Xianxin Li Xiaozhe Qu Jie M. Zhang Yang Liu Yu Luo Cihang Jin Jin Ma VLM 27 0 0 19 Jan 2024
Enhancing medical vision-language contrastive learning via inter-matching relation modelling Mingjian Li Mingyuan Meng M. Fulham David Dagan Feng Lei Bi Jinman Kim VLM 37 1 0 19 Jan 2024
Towards Fast and Accurate Image-Text Retrieval with Self-Supervised Fine-Grained Alignment Jiamin Zhuang Jing Yu Yang Ding Xiangyang Qu Yue Hu 19 9 0 27 Aug 2023
CoVLR: Coordinating Cross-Modal Consistency and Intra-Modal Structure for Vision-Language Retrieval Yang Yang Zhongtian Fu Xiangyu Wu Wenjie Li VLM 18 1 0 15 Apr 2023
Noisy Correspondence Learning with Meta Similarity Correction Haocheng Han Kaiyao Miao Qinghua Zheng Minnan Luo 19 28 0 13 Apr 2023
USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text Retrieval Yan Zhang Zhong Ji Dingrong Wang Yanwei Pang Xuelong Li VLM 16 21 0 17 Jan 2023
HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval Jie Guo Meiting Wang Yan Zhou Bin Song Yuhao Chi Wei-liang Fan Jianglong Chang 37 15 0 16 Dec 2022
Cross-modal Semantic Enhanced Interaction for Image-Sentence Retrieval Xuri Ge Fuhai Chen Songpei Xu Fuxiang Tao J. Jose 22 26 0 17 Oct 2022
Improving Visual-Semantic Embeddings by Learning Semantically-Enhanced Hard Negatives for Cross-modal Information Retrieval Yan Gong Georgina Cosma 27 11 0 10 Oct 2022
Towards Multi-Modal Sarcasm Detection via Hierarchical Congruity Modeling with Knowledge Enhancement Hui Liu Wenya Wang Haoliang Li 22 74 0 07 Oct 2022
Unified Loss of Pair Similarity Optimization for Vision-Language Retrieval Zheng Li Caili Guo Xin Eric Wang Zerun Feng Jenq-Neng Hwang Zhongtian Du VLM 22 2 0 28 Sep 2022
Multimodal learning with graphs Yasha Ektefaie George Dasoulas Ayush Noori Maha Farhat Marinka Zitnik 45 82 0 07 Sep 2022
CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for Image-Text Retrieval Haoran Wang Dongliang He Wenhao Wu Boyang Xia Min Yang Fu Li Yunlong Yu Zhong Ji Errui Ding Jingdong Wang 22 22 0 21 Aug 2022
Chunk-aware Alignment and Lexical Constraint for Visual Entailment with Natural Language Explanations Qian Yang Yunxin Li Baotian Hu Lin Ma Yuxin Ding Min Zhang 20 10 0 23 Jul 2022
(Un)likelihood Training for Interpretable Embedding Jiaxin Wu Chong-Wah Ngo W. Chan Zhijian Hou 12 2 0 01 Jul 2022
HiVLP: Hierarchical Vision-Language Pre-Training for Fast Image-Text Retrieval Feilong Chen Xiuyi Chen Jiaxin Shi Duzhen Zhang Jianlong Chang Qi Tian VLM CLIP 34 6 0 24 May 2022
ViSTA: Vision and Scene Text Aggregation for Cross-Modal Retrieval Mengjun Cheng Yipeng Sun Long Wang Xiongwei Zhu Kun Yao ... Guoli Song Junyu Han Jingtuo Liu Errui Ding Jingdong Wang 22 60 0 31 Mar 2022
Where Does the Performance Improvement Come From? -- A Reproducibility Concern about Image-Text Retrieval Jun Rao Fei-Yue Wang Liang Ding Shuhan Qi Yibing Zhan Weifeng Liu Dacheng Tao OOD 29 28 0 08 Mar 2022
Structured Multi-modal Feature Embedding and Alignment for Image-Sentence Retrieval Xuri Ge Fuhai Chen J. Jose Zhilong Ji Zhongqin Wu Xiao-Chang Liu 20 53 0 05 Aug 2021
Semantically Self-Aligned Network for Text-to-Image Part-aware Person Re-identification Z. Ding Changxing Ding Zhiyin Shao Dacheng Tao 19 132 0 27 Jul 2021
Bridge to Answer: Structure-aware Graph Interaction Network for Video Question Answering Jungin Park Jiyoung Lee K. Sohn 157 100 0 29 Apr 2021
InstanceRefer: Cooperative Holistic Understanding for Visual Grounding on Point Clouds through Instance Multi-level Contextual Referring Zhihao Yuan Xu Yan Yinghong Liao Ruimao Zhang Sheng Wang Zhen Li Shuguang Cui 63 128 0 01 Mar 2021
Multi-Modal Reasoning Graph for Scene-Text Based Fine-Grained Image Classification and Retrieval Andrés Mafla S. Dey Ali Furkan Biten Lluís Gómez Dimosthenis Karatzas 19 25 0 21 Sep 2020
Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images and Recipes with Semantic Consistency and Attention Mechanism Hao Wang Doyen Sahoo Chenghao Liu Ke Shu Palakorn Achananuparp Ee-Peng Lim S. Hoi 10 45 0 09 Mar 2020