WinoGAViL: Gamified Association Benchmark to Challenge
Vision-and-Language Models

WinoGAViL: Gamified Association Benchmark to Challenge Vision-and-Language Models

25 July 2022

Nitzan Bitton-Guetta

Gabriel Stanovsky

Papers citing "WinoGAViL: Gamified Association Benchmark to Challenge Vision-and-Language Models"

19 / 19 papers shown

Title
Probabilistic Language-Image Pre-Training Sanghyuk Chun Wonjae Kim Song Park Sangdoo Yun MLLM VLM CLIP 90 4 2 24 Oct 2024
MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs Yunqiu Xu Linchao Zhu Yi Yang 23 3 0 16 Oct 2024
Visual Riddles: a Commonsense and World Knowledge Challenge for Large Vision and Language Models Nitzan Bitton-Guetta Aviv Slobodkin Aviya Maimon Eliya Habba Royi Rassin Yonatan Bitton Idan Szpektor Amir Globerson Yuval Elovici ReLM VLM LRM 34 5 0 28 Jul 2024
CLIPLoss and Norm-Based Data Selection Methods for Multimodal Contrastive Learning Yiping Wang Yifang Chen Wendan Yan Alex Fang Wenjing Zhou Kevin G. Jamieson S. Du 32 7 0 29 May 2024
Multilingual Diversity Improves Vision-Language Representations Thao Nguyen Matthew Wallingford Sebastin Santy Wei-Chiu Ma Sewoong Oh Ludwig Schmidt Pang Wei Koh Ranjay Krishna VLM 35 5 0 27 May 2024
HYPE: Hyperbolic Entailment Filtering for Underspecified Images and Texts Wonjae Kim Sanghyuk Chun Taekyung Kim Dongyoon Han Sangdoo Yun 39 7 0 26 Apr 2024
ViTamin: Designing Scalable Vision Models in the Vision-Language Era Jienneg Chen Qihang Yu Xiaohui Shen Alan L. Yuille Liang-Chieh Chen 3DV VLM 28 24 0 02 Apr 2024
Effective pruning of web-scale datasets based on complexity of concept clusters Amro Abbas E. Rusak Kushal Tirumala Wieland Brendel Kamalika Chaudhuri Ari S. Morcos VLM CLIP 21 22 0 09 Jan 2024
Training CLIP models on Data from Scientific Papers Calvin Metzger VLM CLIP 19 1 0 08 Nov 2023
Sieve: Multimodal Dataset Pruning Using Image Captioning Models Anas Mahmoud Mostafa Elhoushi Amro Abbas Yu Yang Newsha Ardalani Hugh Leather Ari S. Morcos VLM CLIP 32 19 0 03 Oct 2023
VisIT-Bench: A Benchmark for Vision-Language Instruction Following Inspired by Real-World Use Yonatan Bitton Hritik Bansal Jack Hessel Rulin Shao Wanrong Zhu Anas Awadalla Josh Gardner Rohan Taori L. Schimdt VLM 29 77 0 12 Aug 2023
DataComp: In search of the next generation of multimodal datasets S. Gadre Gabriel Ilharco Alex Fang J. Hayase Georgios Smyrnis ... A. Dimakis J. Jitsev Y. Carmon Vaishaal Shankar Ludwig Schmidt VLM 15 408 0 27 Apr 2023
IRFL: Image Recognition of Figurative Language Ron Yosef Yonatan Bitton Dafna Shahaf 33 17 0 27 Mar 2023
Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of Synthetic and Compositional Images Nitzan Bitton-Guetta Yonatan Bitton Jack Hessel Ludwig Schmidt Yuval Elovici Gabriel Stanovsky Roy Schwartz VLM 121 66 0 13 Mar 2023
Benchmarks for Automated Commonsense Reasoning: A Survey E. Davis ELM LRM 19 57 0 09 Feb 2023
Are Deep Neural Networks SMARTer than Second Graders? A. Cherian Kuan-Chuan Peng Suhas Lohit Kevin A. Smith J. Tenenbaum AAML LRM ReLM 25 26 0 20 Dec 2022
VASR: Visual Analogies of Situation Recognition Yonatan Bitton Ron Yosef Eli Strugo Dafna Shahaf Roy Schwartz Gabriel Stanovsky 20 20 0 08 Dec 2022
VL-Taboo: An Analysis of Attribute-based Zero-shot Capabilities of Vision-Language Models Felix Vogel Nina Shvetsova Leonid Karlinsky Hilde Kuehne VLM 57 7 0 12 Sep 2022
How Much Can CLIP Benefit Vision-and-Language Tasks? Sheng Shen Liunian Harold Li Hao Tan Mohit Bansal Anna Rohrbach Kai-Wei Chang Z. Yao Kurt Keutzer CLIP VLM MLLM 188 405 0 13 Jul 2021