v1v2v3 (latest)

Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training

AAAI Conference on Artificial Intelligence (AAAI), 2019

16 August 2019

Papers citing "Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training"

50 / 518 papers shown

VLP: A Survey on Vision-Language Pre-trainingMachine Intelligence Research (MIR), 2022

Minglun Han

393

287

18 Feb 2022

CommerceMM: Large-Scale Commerce MultiModal Representation Learning with Omni RetrievalKnowledge Discovery and Data Mining (KDD), 2022

257

15 Feb 2022

Multi-Modal Knowledge Graph Construction and Application: A SurveyIEEE Transactions on Knowledge and Data Engineering (TKDE), 2022

Zhixu Li

207

233

11 Feb 2022

Image Difference Captioning with Pre-training and Contrastive LearningAAAI Conference on Artificial Intelligence (AAAI), 2022

Linli Yao

Weiying Wang

Qin Jin

SSL VLM

239

09 Feb 2022

OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning FrameworkInternational Conference on Machine Learning (ICML), 2022

Peng Wang

An Yang

Rui Men

Junyang Lin

Shuai Bai

Zhikang Li

Jianxin Ma

Chang Zhou

Jingren Zhou

Hongxia Yang

MLLM ObjD

517

1,009

07 Feb 2022

A Frustratingly Simple Approach for End-to-End Image Captioning

237

30 Jan 2022

MVPTR: Multi-Level Semantic Alignment for Vision-Language Pre-Training via Multi-Stage LearningACM Multimedia (ACM MM), 2022

Xuanjing Huang

235

29 Jan 2022

MGA-VQA: Multi-Granularity Alignment for Visual Question Answering

Peixi Xiong

Yilin Shen

Hongxia Jin

108

25 Jan 2022

Do Smart Glasses Dream of Sentimental Visions? Deep Emotionship Analysis for Eyewear DevicesProceedings of the ACM on Interactive Mobile Wearable and Ubiquitous Technologies (IMWUT), 2022

...

183

24 Jan 2022

Uni-EDEN: Universal Encoder-Decoder Network by Multi-Granular Vision-Language Pre-training

Yingwei Pan

Tao Mei

220

11 Jan 2022

On the Efficacy of Co-Attention Transformer Layers in Visual Question Answering

Ankur Sikarwar

Gabriel Kreiman

ViT

11 Jan 2022

Language-driven Semantic SegmentationInternational Conference on Learning Representations (ICLR), 2022

Boyi Li

329

780

10 Jan 2022

Self-Training Vision Language BERTs with a Unified Conditional Model

Xiaofeng Yang

Fengmao Lv

Fayao Liu

Guosheng Lin

SSL VLM

306

06 Jan 2022

Discrete and continuous representations and processing in deep learning: Looking forwardAI Open (AO), 2022

300

04 Jan 2022

A Simple Baseline for Open-Vocabulary Semantic Segmentation with Pre-trained Vision-language ModelEuropean Conference on Computer Vision (ECCV), 2021

381

287

29 Dec 2021

LaTr: Layout-Aware Transformer for Scene-Text VQAComputer Vision and Pattern Recognition (CVPR), 2021

378

116

23 Dec 2021

KAT: A Knowledge Augmented Transformer for Vision-and-Language

Liangke Gui

Borui Wang

Qiuyuan Huang

Alexander G. Hauptmann

Yonatan Bisk

Jianfeng Gao

240

196

16 Dec 2021

VALSE: A Task-Independent Benchmark for Vision and Language Models Centered on Linguistic Phenomena

301

135

14 Dec 2021

CoCo-BERT: Improving Video-Language Pre-training with Contrastive Cross-modal Matching and Denoising

Yingwei Pan

Tao Mei

155

14 Dec 2021

ACE-BERT: Adversarial Cross-modal Enhanced BERT for E-commerce Retrieval

101

14 Dec 2021

MLP Architectures for Vision-and-Language Modeling: An Empirical Study

Zicheng Liu

165

08 Dec 2021

Grounded Language-Image Pre-training

Jianwei Yang

...

Lu Yuan

Lei Zhang

458

1,385

07 Dec 2021

CMA-CLIP: Cross-Modality Attention CLIP for Image-Text Classification

Yang Liu

206

07 Dec 2021

Semantic Segmentation In-the-Wild Without Seeing Any Segmentation Examples

Nir Zabari

Yedid Hoshen

VLM

214

06 Dec 2021

General Facial Representation Learning in a Visual-Linguistic MannerComputer Vision and Pattern Recognition (CVPR), 2021

Jianmin Bao

Lu Yuan

461

230

06 Dec 2021

Uni-Perceiver: Pre-training Unified Architecture for Generic Perception for Zero-shot and Few-shot Tasks

250

152

02 Dec 2021

AssistSR: Task-oriented Video Segment Retrieval for Personal AI Assistant

299

30 Nov 2021

PolyViT: Co-training Vision Transformers on Images, Videos and Audio

Valerii Likhosherstov

192

25 Nov 2021

Generating More Pertinent Captions by Leveraging Semantics and Style on Multi-Source Datasets

Marcella Cornia

Lorenzo Baraldi

G. Fiameni

Rita Cucchiara

320

24 Nov 2021

Open-Vocabulary Instance Segmentation via Robust Cross-Modal Pseudo-Labeling

Jiuxiang Gu

284

100

24 Nov 2021

VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling

Zicheng Liu

402

239

24 Nov 2021

Scaling Up Vision-Language Pre-training for Image Captioning

Xiaowei Hu

Zicheng Liu

420

297

24 Nov 2021

UniTAB: Unifying Text and Box Outputs for Grounded Vision-Language Modeling

Zicheng Liu

348

134

23 Nov 2021

RedCaps: web-curated image-text data created by the people, for the people

283

191

22 Nov 2021

DVCFlow: Modeling Information Flow Towards Human-like Video Captioning

Zhengcong Fei

248

19 Nov 2021

UFO: A UniFied TransfOrmer for Vision-Language Representation Learning

Xiaowei Hu

Zicheng Liu

176

19 Nov 2021

Achieving Human Parity on Visual Question Answering

...

Ji Zhang

Songfang Huang

Fei Huang

Luo Si

Rong Jin

146

17 Nov 2021

Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual ConceptsInternational Conference on Machine Learning (ICML), 2021

331

352

16 Nov 2021

Multimodal Transformer with Variable-length Memory for Vision-and-Language NavigationEuropean Conference on Computer Vision (ECCV), 2021

Jianfei Cai

180

10 Nov 2021

FILIP: Fine-grained Interactive Language-Image Pre-TrainingInternational Conference on Learning Representations (ICLR), 2021

Hang Xu

Xiaodan Liang

Zhenguo Li

Xin Jiang

Chunjing Xu

VLM CLIP

336

761

09 Nov 2021

A Survey on Green Deep Learning

Lei Li

457

08 Nov 2021

Negative Sample is Negative in Its Own Way: Tailoring Negative Sentences for Image-Text Retrieval

179

05 Nov 2021

Towards artificial general intelligence via a multimodal foundation model

...

Xin Gao

225

284

27 Oct 2021

TriBERT: Full-body Human-centric Audio-visual Representation Learning for Visual Sound Separation

142

26 Oct 2021

VLDeformer: Vision-Language Decomposed Transformer for Fast Cross-Modal RetrievalKnowledge-Based Systems (KBS), 2021

206

20 Oct 2021

TransFusion: Cross-view Fusion with Transformer for 3D Human Pose Estimation

Zhe Wang

335

18 Oct 2021

SignBERT: Pre-Training of Hand-Model-Aware Representation for Sign Language RecognitionIEEE International Conference on Computer Vision (ICCV), 2021

263

105

11 Oct 2021

VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding

Hu Xu

Gargi Ghosh

Po-Yao (Bernie) Huang

Florian Metze Luke Zettlemoyer Christoph Feichtenhofer

CLIP VLM

806

690

28 Sep 2021

Visually Grounded Reasoning across Languages and Cultures

Siva Reddy

473

201

28 Sep 2021

KD-VLP: Improving End-to-End Vision-and-Language Pretraining with Object Knowledge Distillation

281

22 Sep 2021