Modeling Paragraph-Level Vision-Language Semantic Alignment for
Multi-Modal Summarization

Modeling Paragraph-Level Vision-Language Semantic Alignment for Multi-Modal Summarization

24 August 2022

Zhoujun Li

Papers citing "Modeling Paragraph-Level Vision-Language Semantic Alignment for Multi-Modal Summarization"

4 / 4 papers shown

Title
UniMS: A Unified Framework for Multimodal Summarization with Knowledge Distillation Zhengkun Zhang Xiaojun Meng Yasheng Wang Xin Jiang Qun Liu Zhenglu Yang 43 45 0 13 Sep 2021
VinVL: Revisiting Visual Representations in Vision-Language Models Pengchuan Zhang Xiujun Li Xiaowei Hu Jianwei Yang Lei Zhang Lijuan Wang Yejin Choi Jianfeng Gao ObjD VLM 252 157 0 02 Jan 2021
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 250 926 0 24 Sep 2019
Text Summarization with Pretrained Encoders Yang Liu Mirella Lapata MILM 254 1,428 0 22 Aug 2019