Title
Theoretical foundations and limits of word embeddings: what types of meaning can they capture? Alina Arseniev-Koehler 23 18 0 22 Jul 2021
QVHighlights: Detecting Moments and Highlights in Videos via Natural Language Queries Jie Lei Tamara L. Berg Mohit Bansal ViT 14 62 0 20 Jul 2021
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation Junnan Li Ramprasaath R. Selvaraju Akhilesh Deepak Gotmare Shafiq R. Joty Caiming Xiong S. Hoi FaML 31 1,876 0 16 Jul 2021
From Show to Tell: A Survey on Deep Learning-based Image Captioning Matteo Stefanini Marcella Cornia Lorenzo Baraldi S. Cascianelli G. Fiameni Rita Cucchiara 3DV VLM MLLM 53 244 0 14 Jul 2021
How Much Can CLIP Benefit Vision-and-Language Tasks? Sheng Shen Liunian Harold Li Hao Tan Mohit Bansal Anna Rohrbach Kai-Wei Chang Z. Yao Kurt Keutzer CLIP VLM MLLM 185 403 0 13 Jul 2021
Memes in the Wild: Assessing the Generalizability of the Hateful Memes Challenge Dataset Hannah Rose Kirk Yennie Jun Paulius Rauba Gal Wachtel Ruining Li Xingjian Bai Noah Broestl Martin Doff-Sotta Aleksandar Shtedritski Yuki M. Asano 14 25 0 09 Jul 2021
CLIP-It! Language-Guided Video Summarization Medhini Narasimhan Anna Rohrbach Trevor Darrell CLIP 15 112 0 01 Jul 2021
Applications of the Free Energy Principle to Machine Learning and Neuroscience Beren Millidge DRL 12 7 0 30 Jun 2021
The Evolution of Out-of-Distribution Robustness Throughout Fine-Tuning Anders Andreassen Yasaman Bahri Behnam Neyshabur Rebecca Roelofs OOD OODD 13 78 0 30 Jun 2021
CLIPDraw: Exploring Text-to-Drawing Synthesis through Language-Image Encoders Kevin Frans Lisa Soros Olaf Witkowski CLIP 19 200 0 28 Jun 2021
Visual Conceptual Blending with Large-scale Language and Vision Models Songwei Ge Devi Parikh VLM DiffM 8 14 0 27 Jun 2021
Core Challenges in Embodied Vision-Language Planning Jonathan M Francis Nariaki Kitamura Felix Labelle Xiaopeng Lu Ingrid Navarro Jean Oh LM&Ro 39 45 0 26 Jun 2021
Fairness for Image Generation with Uncertain Sensitive Attributes A. Jalal Sushrut Karmalkar Jessica Hoffmann A. Dimakis Eric Price DiffM 17 39 0 23 Jun 2021
DocFormer: End-to-End Transformer for Document Understanding Srikar Appalaraju Bhavan A. Jasani Bhargava Urala Kota Yusheng Xie R. Manmatha ViT 17 270 0 22 Jun 2021
CLIP2Video: Mastering Video-Text Retrieval via Image CLIP Han Fang Pengfei Xiong Luhui Xu Yu Chen CLIP VLM 11 291 0 21 Jun 2021
Efficient Self-supervised Vision Transformers for Representation Learning Chunyuan Li Jianwei Yang Pengchuan Zhang Mei Gao Bin Xiao Xiyang Dai Lu Yuan Jianfeng Gao ViT 19 208 0 17 Jun 2021
Partial success in closing the gap between human and machine vision Robert Geirhos Kantharaju Narayanappa Benjamin Mitzkus Tizian Thieringer Matthias Bethge Felix Wichmann Wieland Brendel VLM AAML 26 221 0 14 Jun 2021
Pre-Trained Models: Past, Present and Future Xu Han Zhengyan Zhang Ning Ding Yuxian Gu Xiao Liu ... Jie Tang Ji-Rong Wen Jinhui Yuan Wayne Xin Zhao Jun Zhu AIFin MQ AI4MH 19 807 0 14 Jun 2021
Evading the Simplicity Bias: Training a Diverse Set of Models Discovers Solutions with Superior OOD Generalization Damien Teney Ehsan Abbasnejad Simon Lucey A. Hengel 10 86 0 12 May 2021
Diffusion Models Beat GANs on Image Synthesis Prafulla Dhariwal Alex Nichol 10 7,367 0 11 May 2021
Open-vocabulary Object Detection via Vision and Language Knowledge Distillation Xiuye Gu Tsung-Yi Lin Weicheng Kuo Yin Cui VLM ObjD 223 897 0 28 Apr 2021
MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding Aishwarya Kamath Mannat Singh Yann LeCun Gabriel Synnaeve Ishan Misra Nicolas Carion ObjD VLM 19 855 0 26 Apr 2021
PanGu- $α$ : Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation Wei Zeng Xiaozhe Ren Teng Su Hui Wang Yi-Lun Liao ... Gaojun Fan Yaowei Wang Xuefeng Jin Qun Liu Yonghong Tian ALM MoE AI4CE 19 203 0 26 Apr 2021
Multiscale Vision Transformers Haoqi Fan Bo Xiong K. Mangalam Yanghao Li Zhicheng Yan Jitendra Malik Christoph Feichtenhofer ViT 19 1,215 0 22 Apr 2021
Understanding Chinese Video and Language via Contrastive Multimodal Pre-Training Chenyi Lei Shixian Luo Yong-jin Liu Wanggui He Jiamang Wang Guoxin Wang Haihong Tang C. Miao Houqiang Li 25 41 0 19 Apr 2021
Exploring Visual Engagement Signals for Representation Learning Menglin Jia Zuxuan Wu A. Reiter Claire Cardie Serge J. Belongie Ser-Nam Lim 11 13 0 15 Apr 2021
Diagnosing Vision-and-Language Navigation: What Really Matters Wanrong Zhu Yuankai Qi P. Narayana Kazoo Sone Sugato Basu X. Wang Qi Wu M. Eckstein W. Wang LM&Ro 19 50 0 30 Mar 2021
Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for Improved Cross-Modal Retrieval Gregor Geigle Jonas Pfeiffer Nils Reimers Ivan Vulić Iryna Gurevych 24 59 0 22 Mar 2021
Large-Scale Zero-Shot Image Classification from Rich and Diverse Textual Descriptions Sebastian Bujwid Josephine Sullivan VLM 15 28 0 17 Mar 2021
Pretrained Transformers as Universal Computation Engines Kevin Lu Aditya Grover Pieter Abbeel Igor Mordatch 8 216 0 09 Mar 2021
A Primer on Contrastive Pretraining in Language Processing: Methods, Lessons Learned and Perspectives Nils Rethmeier Isabelle Augenstein SSL VLM 61 90 0 25 Feb 2021
Proof Artifact Co-training for Theorem Proving with Language Models Jesse Michael Han Jason M. Rute Yuhuai Wu Edward W. Ayers Stanislas Polu AIMat 16 120 0 11 Feb 2021
Making Pre-trained Language Models Better Few-shot Learners Tianyu Gao Adam Fisch Danqi Chen 241 1,898 0 31 Dec 2020
Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs Emanuele Bugliarello Ryan Cotterell Naoaki Okazaki Desmond Elliott 22 119 0 30 Nov 2020
ExpBERT: Representation Engineering with Natural Language Explanations Shikhar Murty Pang Wei Koh Percy Liang 35 43 0 05 May 2020
How Can We Accelerate Progress Towards Human-like Linguistic Generalization? Tal Linzen 216 188 0 03 May 2020
Improved Baselines with Momentum Contrastive Learning Xinlei Chen Haoqi Fan Ross B. Girshick Kaiming He SSL 238 3,359 0 09 Mar 2020
Stochastic Optimization of Plain Convolutional Neural Networks with Simple methods Yahia Saeed Assiri BDL 43 22 0 24 Jan 2020
Scaling Laws for Neural Language Models Jared Kaplan Sam McCandlish T. Henighan Tom B. Brown B. Chess R. Child Scott Gray Alec Radford Jeff Wu Dario Amodei 226 4,424 0 23 Jan 2020
Bag of Tricks for Image Classification with Convolutional Neural Networks Tong He Zhi-Li Zhang Hang Zhang Zhongyue Zhang Junyuan Xie Mu Li 216 1,391 0 04 Dec 2018
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 294 6,927 0 20 Apr 2018
Building machines that adapt and compute like brains Brenden Lake J. Tenenbaum AI4CE FedML NAI AILaw 243 893 0 11 Nov 2017