Learning Deep Structure-Preserving Image-Text Embeddings

19 November 2015

Yin Li

Papers citing "Learning Deep Structure-Preserving Image-Text Embeddings"

50 / 86 papers shown

Title
Start from Video-Music Retrieval: An Inter-Intra Modal Loss for Cross Modal Retrieval Zeyu Chen Pengfei Zhang Kai Ye Wei Dong Xin Feng Yana Zhang 41 0 0 28 Jul 2024
Composing Object Relations and Attributes for Image-Text Matching Khoi Pham Chuong Huynh Ser-Nam Lim Abhinav Shrivastava CoGe 36 3 0 17 Jun 2024
HyperFusion: A Hypernetwork Approach to Multimodal Integration of Tabular and Medical Imaging Data for Predictive Modeling Daniel Duenias Brennan Nichyporuk Tal Arbel Tammy Riklin-Raviv 34 3 0 20 Mar 2024
Collaborative Position Reasoning Network for Referring Image Segmentation Jianjian Cao Beiya Dai Yulin Li Xiameng Qin Jingdong Wang 25 0 0 22 Jan 2024
Language-Guided Diffusion Model for Visual Grounding Sijia Chen Baochun Li 27 5 0 18 Aug 2023
Noisy Correspondence Learning with Meta Similarity Correction Haocheng Han Kaiyao Miao Qinghua Zheng Minnan Luo 19 28 0 13 Apr 2023
Predicting Density of States via Multi-modal Transformer Namkyeong Lee Heewoong Noh Sungwon Kim Dongmin Hyun Gyoung S. Na Chanyoung Park 16 3 0 13 Mar 2023
Scene-centric vs. Object-centric Image-Text Cross-modal Retrieval: A Reproducibility Study Mariya Hendriksen Svitlana Vakulenko E. Kuiper Maarten de Rijke 31 5 0 12 Jan 2023
DQ-DETR: Dual Query Detection Transformer for Phrase Extraction and Grounding Siyi Liu Yaoyuan Liang Feng Li Shijia Huang Hao Zhang Hang Su Jun Zhu Lei Zhang ObjD 37 24 0 28 Nov 2022
A Unified Mutual Supervision Framework for Referring Expression Segmentation and Generation Shijia Huang Feng Li Hao Zhang Siyi Liu Lei Zhang Liwei Wang 22 5 0 15 Nov 2022
Unsupervised Audio-Visual Lecture Segmentation Darshan Singh Anchit Gupta C. V. Jawahar Makarand Tapaswi VOS 16 4 0 29 Oct 2022
Cross-modal Semantic Enhanced Interaction for Image-Sentence Retrieval Xuri Ge Fuhai Chen Songpei Xu Fuxiang Tao J. Jose 25 26 0 17 Oct 2022
Contrastive Video-Language Learning with Fine-grained Frame Sampling Zixu Wang Yujie Zhong Yishu Miao Lin Ma Lucia Specia 46 11 0 10 Oct 2022
FETA: Towards Specializing Foundation Models for Expert Task Applications Amit Alfassy Assaf Arbelle Oshri Halimi Sivan Harary Roei Herzig ... Christoph Auer Kate Saenko Peter W. J. Staar Rogerio Feris Leonid Karlinsky 21 19 0 08 Sep 2022
Design of the topology for contrastive visual-textual alignment Zhun Sun 25 1 0 05 Sep 2022
Learning Branched Fusion and Orthogonal Projection for Face-Voice Association M. S. Saeed Shah Nawaz M. H. Khan S. Javed Muhammad Haroon Yousaf Alessio Del Bue CVBM 19 4 0 22 Aug 2022
CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for Image-Text Retrieval Haoran Wang Dongliang He Wenhao Wu Boyang Xia Min Yang Fu Li Yunlong Yu Zhong Ji Errui Ding Jingdong Wang 22 22 0 21 Aug 2022
Text-to-Image Generation via Implicit Visual Guidance and Hypernetwork Xin Yuan Zhe-nan Lin Jason Kuen Jianming Zhang John Collomosse 27 5 0 17 Aug 2022
UPB at SemEval-2022 Task 5: Enhancing UNITER with Image Sentiment and Graph Convolutional Networks for Multimedia Automatic Misogyny Identification Andrei Paraschiv M. Dascalu Dumitru-Clementin Cercel 19 3 0 29 May 2022
Progressive Learning for Image Retrieval with Hybrid-Modality Queries Yida Zhao Yuqing Song Qin Jin 8 29 0 24 Apr 2022
COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval Haoyu Lu Nanyi Fei Yuqi Huo Yizhao Gao Zhiwu Lu Jiaxin Wen CLIP VLM 19 54 0 15 Apr 2022
Adapting CLIP For Phrase Localization Without Further Training Jiahao Li G. Shakhnarovich Raymond A. Yeh VLM CLIP 28 25 0 07 Apr 2022
Text2Pos: Text-to-Point-Cloud Cross-Modal Localization Manuel Kolmet Qunjie Zhou Aljosa Osep Laura Leal-Taixe 19 22 0 28 Mar 2022
Two-stream Hierarchical Similarity Reasoning for Image-text Matching Ran Chen Hanli Wang Lei Wang Sam Kwong 13 9 0 10 Mar 2022
Vision-Language Pre-Training with Triple Contrastive Learning Jinyu Yang Jiali Duan Son N. Tran Yi Xu Sampath Chanda Liqun Chen Belinda Zeng Trishul M. Chilimbi Junzhou Huang VLM 29 288 0 21 Feb 2022
Cross Modal Retrieval with Querybank Normalisation Simion-Vlad Bogolin Ioana Croitoru Hailin Jin Yang Liu Samuel Albanie 25 84 0 23 Dec 2021
Anchoring to Exemplars for Training Mixture-of-Expert Cell Embeddings Siqi Wang Manyuan Lu Nikita Moshkov Juan C. Caicedo Bryan A. Plummer 11 4 0 06 Dec 2021
Embedding Arithmetic of Multimodal Queries for Image Retrieval Guillaume Couairon Matthieu Cord Matthijs Douze Holger Schwenk 27 23 0 06 Dec 2021
LAFITE: Towards Language-Free Training for Text-to-Image Generation Yufan Zhou Ruiyi Zhang Changyou Chen Chunyuan Li Chris Tensmeyer Tong Yu Jiuxiang Gu Jinhui Xu Tong Sun VLM 21 162 0 27 Nov 2021
CrossCLR: Cross-modal Contrastive Learning For Multi-modal Video Representations Mohammadreza Zolfaghari Yi Zhu Peter V. Gehler Thomas Brox 132 127 0 30 Sep 2021
An animated picture says at least a thousand words: Selecting Gif-based Replies in Multimodal Dialog Xingyao Wang David Jurgens 20 5 0 24 Sep 2021
Negative Sample Matters: A Renaissance of Metric Learning for Temporal Grounding Zhenzhi Wang Limin Wang Tao Wu Tianhao Li Gangshan Wu AI4TS 28 116 0 10 Sep 2021
ASMR: Learning Attribute-Based Person Search with Adaptive Semantic Margin Regularizer Boseung Jeong Jicheol Park Suha Kwak 55 21 0 10 Aug 2021
Structured Multi-modal Feature Embedding and Alignment for Image-Sentence Retrieval Xuri Ge Fuhai Chen J. Jose Zhilong Ji Zhongqin Wu Xiao-Chang Liu 23 53 0 05 Aug 2021
Semantically Self-Aligned Network for Text-to-Image Part-aware Person Re-identification Z. Ding Changxing Ding Zhiyin Shao Dacheng Tao 19 132 0 27 Jul 2021
How Much Can CLIP Benefit Vision-and-Language Tasks? Sheng Shen Liunian Harold Li Hao Tan Mohit Bansal Anna Rohrbach Kai-Wei Chang Z. Yao Kurt Keutzer CLIP VLM MLLM 196 405 0 13 Jul 2021
Productivity, Portability, Performance: Data-Centric Python Yiheng Wang Yao Zhang Yanzhang Wang Yan Wan Jiao Wang Zhongyuan Wu Yuhao Yang Bowen She 52 94 0 01 Jul 2021
Graph Pattern Loss based Diversified Attention Network for Cross-Modal Retrieval Xueying Chen Rong Zhang Yibing Zhan 19 0 0 25 Jun 2021
T-EMDE: Sketching-based global similarity for cross-modal retrieval Barbara Rychalska Mikolaj Wieczorek Jacek Dąbrowski 25 0 0 10 May 2021
TransVG: End-to-End Visual Grounding with Transformers Jiajun Deng Zhengyuan Yang Tianlang Chen Wen-gang Zhou Houqiang Li ViT 21 329 0 17 Apr 2021
Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD Images Haolin Liu Anran Lin Xiaoguang Han Lei Yang Yizhou Yu Shuguang Cui 24 39 0 14 Mar 2021
Decoupling the Role of Data, Attention, and Losses in Multimodal Transformers Lisa Anne Hendricks John F. J. Mellor R. Schneider Jean-Baptiste Alayrac Aida Nematzadeh 75 110 0 31 Jan 2021
COOT: Cooperative Hierarchical Transformer for Video-Text Representation Learning Simon Ging Mohammadreza Zolfaghari Hamed Pirsiavash Thomas Brox ViT CLIP 13 168 0 01 Nov 2020
Cosine meets Softmax: A tough-to-beat baseline for visual grounding N. Rufus U. R. Nair K. M. Krishna Vineet Gandhi 22 13 0 13 Sep 2020
PhraseCut: Language-based Image Segmentation in the Wild Chenyun Wu Zhe-nan Lin Scott D. Cohen Trung Bui Subhransu Maji VLM 13 111 0 03 Aug 2020
Self-Supervised MultiModal Versatile Networks Jean-Baptiste Alayrac Adrià Recasens R. Schneider Relja Arandjelović Jason Ramapuram J. Fauw Lucas Smaira Sander Dieleman Andrew Zisserman SSL 40 371 0 29 Jun 2020
Cross-modal Speaker Verification and Recognition: A Multilingual Perspective M. S. Saeed Shah Nawaz Pietro Morerio Arif Mahmood I. Gallo Muhammad Haroon Yousaf Alessio Del Bue CVBM 24 25 0 28 Apr 2020
Deep Multimodal Image-Text Embeddings for Automatic Cross-Media Retrieval Hadi Abdi Khojasteh Ebrahim Ansari Parvin Razzaghi Akbar Karimi VLM 11 4 0 23 Feb 2020
Fully-Convolutional Intensive Feature Flow Neural Network for Text Recognition Zhao Zhang Zemin Tang Zheng-Wei Zhang Yang Wang Jie Qin Meng Wang 24 7 0 13 Dec 2019
A Real-time Global Inference Network for One-stage Referring Expression Comprehension Yiyi Zhou Rongrong Ji Gen Luo Xiaoshuai Sun Jinsong Su Xinghao Ding Chia-Wen Lin Q. Tian ObjD 24 60 0 07 Dec 2019