ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

Neural Information Processing Systems (NeurIPS), 2019

6 August 2019

Devi Parikh

Papers citing "ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks"

50 / 2,232 papers shown

LogicVista: Multimodal LLM Logical Reasoning Benchmark in Visual Contexts

Wei Wang

244

113

06 Jul 2024

HEMM: Holistic Evaluation of Multimodal Foundation Models

Paul Pu Liang

Louis-Philippe Morency

331

03 Jul 2024

Multi-Task Domain Adaptation for Language Grounding with 3D Objects

Yaoxian Song

Zhixu Li

Xiaowen Chu

286

03 Jul 2024

Images Speak Louder than Words: Understanding and Mitigating Bias in Vision-Language Model from a Causal Mediation Perspective

312

03 Jul 2024

SafaRi:Adaptive Sequence Transformer for Weakly Supervised Referring Expression Segmentation

Sayan Nag

Koustava Goswami

Srikrishna Karanam

296

02 Jul 2024

MIREncoder: Multi-modal IR-based Pretrained Embeddings for Performance Optimizations

Akash Dutta

Ali Jannesari

235

02 Jul 2024

CVLUE: A New Benchmark Dataset for Chinese Vision-Language Understanding Evaluation

Yuxuan Wang

Yijun Liu

Fei Yu

164

01 Jul 2024

The Odyssey of Commonsense Causality: From Foundational Benchmarks to Cutting-Edge Reasoning

Zhijing Jin

255

27 Jun 2024

Enhancing Continual Learning in Visual Question Answering with Modality-Aware Feature Distillation

Malvina Nikandrou

Georgios Pantazopoulos

Ioannis Konstas

Alessandro Suglia

284

27 Jun 2024

Human-Aware Vision-and-Language Navigation: Bridging Simulation to Reality with Dynamic Human Interactions

Zhi-Qi Cheng

Alexander G. Hauptmann

LM&Ro

272

27 Jun 2024

Improving the Consistency in Cross-Lingual Cross-Modal Retrieval with 1-to-K Contrastive Learning

Zhijie Nie

Richong Zhang

Zhangchi Feng

Hailang Huang

Xudong Liu

182

26 Jun 2024

ScanFormer: Referring Expression Comprehension by Iteratively Scanning

278

26 Jun 2024

A Survey on Mixture of Experts in Large Language Models

477

26 Jun 2024

Towards a Science Exocortex

Kevin G. Yager

349

24 Jun 2024

What Do VLMs NOTICE? A Mechanistic Interpretability Pipeline for Gaussian-Noise-free Text-Image Corruption and Evaluation

Carsten Eickhoff

451

24 Jun 2024

Multi-Scale Temporal Difference Transformer for Video-Text Retrieval

Ni Wang

Dongliang Liao

Xing Xu

218

23 Jun 2024

Towards Natural Language-Driven Assembly Using Foundation Models

206

23 Jun 2024

Multi-Granularity and Multi-modal Feature Interaction Approach for Text Video Retrieval

146

21 Jun 2024

Composing Object Relations and Attributes for Image-Text Matching

Abhinav Shrivastava

267

17 Jun 2024

They're All Doctors: Synthesizing Diverse Counterfactuals to Mitigate Associative Bias

Salma Abdel Magid

Jui-Hsien Wang

Kushal Kafle

Hanspeter Pfister

288

17 Jun 2024

Open-Vocabulary X-ray Prohibited Item Detection via Fine-tuning CLIP

Bowen Ma

224

16 Jun 2024

MDeRainNet: An Efficient Macro-pixel Image Rain Removal Network

295

15 Jun 2024

Multimodal Large Language Models with Fusion Low Rank Adaptation for Device Directed Speech DetectionInterspeech (Interspeech), 2024

Jack Berkowitz

Ahmed Hussen Abdelaziz

Saurabh N. Adya

Ahmed H. Tewfik

VLM

177

13 Jun 2024

Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms

...

Baining Guo

289

13 Jun 2024

Conceptual Learning via Embedding Approximations for Reinforcing Interpretability and Transparency

Maor Dikter

Tsachi Blau

Chaim Baskin

310

13 Jun 2024

Labeling Comic Mischief Content in Online Videos with a Multimodal Hierarchical-Cross-Attention Model

217

12 Jun 2024

Vision Model Pre-training on Interleaved Image-Text Data via Latent Compression Learning

Chenyu Yang

Xizhou Zhu

Jinguo Zhu

Weijie Su

Junjie Wang

...

Lewei Lu

Bin Li

Jie Zhou

Yu Qiao

Jifeng Dai

VLM CLIP

200

11 Jun 2024

Integrating Text and Image Pre-training for Multi-modal Algorithmic Reasoning

Zijian Zhang

Wei Liu

261

08 Jun 2024

One Perturbation is Enough: On Generating Universal Adversarial Perturbations against Vision-Language Pre-training Models

Hao Fang

Bin Chen

Hao Wu

430

08 Jun 2024

ArMeme: Propagandistic Content in Arabic Memes

186

06 Jun 2024

Attribute-Aware Implicit Modality Alignment for Text Attribute Person Search

337

06 Jun 2024

MuJo: Multimodal Joint Feature Space Learning for Human Activity Recognition

Maximilian Kiefer-Emmanouilidis

Paul Lukowicz

HAI

470

06 Jun 2024

FILS: Self-Supervised Video Feature Prediction In Semantic Language Space

Mona Ahmadian

Frank Guerin

Andrew Gilbert

333

05 Jun 2024

Translation Deserves Better: Analyzing Translation Artifacts in Cross-lingual Visual Question Answering

Koanho Lee

Jaeseok Kim

Jaegul Choo

142

04 Jun 2024

Multimodal Reasoning with Multimodal Knowledge Graph

Junlin Lee

Yequan Wang

Jing Li

Min Zhang

261

04 Jun 2024

Progressive Confident Masking Attention Network for Audio-Visual Segmentation

Yuxuan Wang

Feng Dong

Jinchao Zhu

Shuyue Zhu

VOS

388

04 Jun 2024

Augmented Commonsense Knowledge for Remote Object Grounding

Qi Wu

223

03 Jun 2024

GeminiFusion: Efficient Pixel-wise Multimodal Fusion for Vision Transformer

513

03 Jun 2024

Towards Rationality in Language and Multimodal Agents: A Survey

Yuan Yuan

Weijie J. Su

Camillo J. Taylor

Tanwi Mallick

LLMAG

356

01 Jun 2024

Hard Cases Detection in Motion Prediction by Vision-Language Foundation Models

226

31 May 2024

Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning

Cheng Tan

Jingxuan Wei

Linzhuang Sun

Zhangyang Gao

Siyuan Li

Bihui Yu

Ruifeng Guo

Stan Z. Li

ReLM LRM 3DV

282

31 May 2024

Can't make an Omelette without Breaking some Eggs: Plausible Action Anticipation using Large Video-Language Models

297

30 May 2024

Knockout: A simple way to handle missing inputs

337

30 May 2024

ContextBLIP: Doubly Contextual Alignment for Contrastive Image Retrieval from Linguistically Complex Descriptions

...

170

29 May 2024

Transcending Fusion: A Multi-Scale Alignment Method for Remote Sensing Image-Text Retrieval

241

29 May 2024

Do Vision-Language Transformers Exhibit Visual Commonsense? An Empirical Study of VCR

227

27 May 2024

Lateralization MLP: A Simple Brain-inspired Architecture for Diffusion

Zizhao Hu

Mohammad Rostami

231

25 May 2024

Planted: a dataset for planted forest identification from multi-satellite time series

L. M. Pazos-Outón

Cristina Nader Vasconcelos

200

24 May 2024

Text-guided 3D Human Motion Generation with Keyframe-based Parallel Skip Transformer

222

24 May 2024

What Do You See? Enhancing Zero-Shot Image Classification with Multimodal Large Language Models

Abdelrahman Abdelhamed

Mahmoud Afifi

Alec Go

MLLM VLM

551

24 May 2024