Learning Visual Relation Priors for Image-Text Matching and Image
Captioning with Neural Scene Graph Generators

Learning Visual Relation Priors for Image-Text Matching and Image Captioning with Neural Scene Graph Generators

22 September 2019

Papers citing "Learning Visual Relation Priors for Image-Text Matching and Image Captioning with Neural Scene Graph Generators"

17 / 17 papers shown

Title
Tackling Vision Language Tasks Through Learning Inner Monologues Diji Yang Kezhen Chen Jinmeng Rao Xiaoyuan Guo Yawen Zhang Jie Yang Y. Zhang MLLM 19 9 0 19 Aug 2023
Plug-and-Play Regulators for Image-Text Matching Haiwen Diao Y. Zhang W. Liu Xiang Ruan Huchuan Lu 27 20 0 23 Mar 2023
Efficient Image-Text Retrieval via Keyword-Guided Pre-Screening Min Cao Yang Bai Jingyao Wang Ziqiang Cao Liqiang Nie Min Zhang 22 0 0 14 Mar 2023
ALADIN: Distilling Fine-grained Alignment Scores for Efficient Image-Text Matching and Retrieval Nicola Messina Matteo Stefanini Marcella Cornia Lorenzo Baraldi Fabrizio Falchi Giuseppe Amato Rita Cucchiara VLM 11 21 0 29 Jul 2022
HiVLP: Hierarchical Vision-Language Pre-Training for Fast Image-Text Retrieval Feilong Chen Xiuyi Chen Jiaxin Shi Duzhen Zhang Jianlong Chang Qi Tian VLM CLIP 32 6 0 24 May 2022
Deep Learning Approaches on Image Captioning: A Review Taraneh Ghandi H. Pourreza H. Mahyar VLM 8 88 0 31 Jan 2022
RelTR: Relation Transformer for Scene Graph Generation Yuren Cong M. Yang Bodo Rosenhahn ViT 89 132 0 27 Jan 2022
Parts2Words: Learning Joint Embedding of Point Clouds and Texts by Bidirectional Matching between Parts and Words Chuan Tang Xi Yang Bojian Wu Zhizhong Han Yi Chang 3DPC 28 13 0 05 Jul 2021
Towards Efficient Cross-Modal Visual Textual Retrieval using Transformer-Encoder Deep Features Nicola Messina Giuseppe Amato Fabrizio Falchi Claudio Gennaro Stéphane Marchand-Maillet 14 7 0 01 Jun 2021
A Comprehensive Survey of Scene Graphs: Generation and Application Xiaojun Chang Pengzhen Ren Pengfei Xu Zhihui Li Xiaojiang Chen Alexander G. Hauptmann 3DV 28 221 0 17 Mar 2021
LightningDOT: Pre-training Visual-Semantic Embeddings for Real-Time Image-Text Retrieval Siqi Sun Yen-Chun Chen Linjie Li Shuohang Wang Yuwei Fang Jingjing Liu VLM 30 82 0 16 Mar 2021
In Defense of Scene Graphs for Image Captioning Kien Nguyen Subarna Tripathi Bang Du T. Guha Truong Thao Nguyen 16 42 0 09 Feb 2021
Neuro-Symbolic Representations for Video Captioning: A Case for Leveraging Inductive Biases for Vision and Language Hassan Akbari Hamid Palangi Jianwei Yang Sudha Rao Asli Celikyilmaz Roland Fernandez P. Smolensky Jianfeng Gao Shih-Fu Chang 24 3 0 18 Nov 2020
Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning" Saeed Amizadeh Hamid Palangi Oleksandr Polozov Yichen Huang K. Koishida NAI LRM 31 58 0 20 Jun 2020
Transformer Reasoning Network for Image-Text Matching and Retrieval Nicola Messina Fabrizio Falchi Andrea Esuli Giuseppe Amato ViT 22 58 0 20 Apr 2020
Target-Oriented Deformation of Visual-Semantic Embedding Space Takashi Matsubara 16 7 0 15 Oct 2019
Visual Translation Embedding Network for Visual Relation Detection Hanwang Zhang Zawlin Kyaw Shih-Fu Chang Tat-Seng Chua ViT 140 560 0 27 Feb 2017