Expressing Visual Relationships via Language

Expressing Visual Relationships via Language

18 June 2019

Franck Dernoncourt

Papers citing "Expressing Visual Relationships via Language"

10 / 10 papers shown

Title
Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens Kaihang Pan Wang Lin Zhongqi Yue Tenglong Ao Liyu Jia Wei Zhao Juncheng Billy Li Siliang Tang Hanwang Zhang 49 2 0 20 Apr 2025
Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models Qirui Jiao Daoyuan Chen Yilun Huang Yaliang Li Ying Shen VLM 34 5 0 08 Aug 2024
Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning Yunbin Tu Liang-Sheng Li Li Su Chenggang Yan Qin Huang 40 5 0 16 Jul 2024
Towards Semantic Equivalence of Tokenization in Multimodal LLM Shengqiong Wu Hao Fei Xiangtai Li Jiayi Ji Hanwang Zhang Tat-Seng Chua Shuicheng Yan MLLM 63 32 0 07 Jun 2024
Self-supervised Cross-view Representation Reconstruction for Change Captioning Yunbin Tu Liang Li Filippos Christianos Zheng-Jun Zha Zhibin Li Qingming Huang SSL 24 24 0 28 Sep 2023
Visual Instruction Tuning with Polite Flamingo Delong Chen Jianfeng Liu Wenliang Dai Baoyuan Wang MLLM 31 42 0 03 Jul 2023
CLIP4IDC: CLIP for Image Difference Captioning Zixin Guo T. Wang Jorma T. Laaksonen VLM 21 27 0 01 Jun 2022
CAISE: Conversational Agent for Image Search and Editing Hyounghun Kim Doo Soon Kim Seunghyun Yoon Franck Dernoncourt Trung Bui Mohit Bansal 19 6 0 24 Feb 2022
R $^3$ Net:Relation-embedded Representation Reconstruction Network for Change Captioning Yunbin Tu Liang Li C. Yan Shengxiang Gao Zhengtao Yu 22 22 0 20 Oct 2021
Neural Naturalist: Generating Fine-Grained Image Comparisons Maxwell Forbes Christine Kaeser-Chen Piyush Sharma Serge J. Belongie VLM 64 55 0 09 Sep 2019