Learning Visual N-Grams from Web Data

29 December 2016

Ang Li

Allan Jabri

Armand Joulin

L. V. D. van der Maaten

VLM

ArXiv PDF HTML

Papers citing "Learning Visual N-Grams from Web Data"

40 / 40 papers shown

Title
CLIP-PING: Boosting Lightweight Vision-Language Models with Proximus Intrinsic Neighbors Guidance Chu Myaet Thwal Ye Lin Tun Minh N. H. Nguyen Eui-nam Huh Choong Seon Hong VLM 74 0 0 05 Dec 2024
A new approach for encoding code and assisting code understanding Mengdan Fan Changde Du Haiyan Zhao Zhi Jin 41 0 0 01 Aug 2024
Audio-Visual Generalized Zero-Shot Learning using Pre-Trained Large Multi-Modal Models David Kurzendörfer Otniel-Bogdan Mercea A. Sophia Koepke Zeynep Akata VLM CLIP 26 2 0 09 Apr 2024
From Text to Pixels: A Context-Aware Semantic Synergy Solution for Infrared and Visible Image Fusion Xingyuan Li Yang Zou Jinyuan Liu Zhiying Jiang Long Ma Xin-Yue Fan Risheng Liu 37 4 0 31 Dec 2023
SkyScript: A Large and Semantically Diverse Vision-Language Dataset for Remote Sensing Zhecheng Wang R. Prabha Tianyuan Huang Jiajun Wu Ram Rajagopal 34 53 0 20 Dec 2023
Prompting Scientific Names for Zero-Shot Species Recognition Shubham Parashar Zhiqiu Lin Yanan Li Shu Kong VLM 15 12 0 15 Oct 2023
Text-Only Training for Visual Storytelling Yuechen Wang Wen-gang Zhou Zhenbo Lu Houqiang Li DiffM 24 2 0 17 Aug 2023
Generative Artificial Intelligence Reproducibility and Consensus Edward J. Kim I. Isozaki N. Sirkin Michael Robson 25 0 0 04 Jul 2023
Multimodality Helps Unimodality: Cross-Modal Few-Shot Learning with Multimodal Models Zhiqiu Lin Samuel Yu Zhiyi Kuang Deepak Pathak Deva Ramana VLM 15 100 0 16 Jan 2023
Scene-centric vs. Object-centric Image-Text Cross-modal Retrieval: A Reproducibility Study Mariya Hendriksen Svitlana Vakulenko E. Kuiper Maarten de Rijke 28 5 0 12 Jan 2023
EXIF as Language: Learning Cross-Modal Associations Between Images and Camera Metadata Chenhao Zheng Ayush Shrivastava Andrew Owens VLM 28 11 0 11 Jan 2023
Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary Object Detection Yanxin Long Jianhua Han Runhu Huang Xu Hang Yi Zhu Chunjing Xu Xiaodan Liang VLM ObjD 22 18 0 02 Nov 2022
MedCLIP: Contrastive Learning from Unpaired Medical Images and Text Zifeng Wang Zhenbang Wu Dinesh Agarwal Jimeng Sun CLIP VLM MedIm 29 394 0 18 Oct 2022
Is synthetic data from generative models ready for image recognition? Ruifei He Shuyang Sun Xin Yu Chuhui Xue Wenqing Zhang Philip H. S. Torr Song Bai Xiaojuan Qi 16 285 0 14 Oct 2022
DualCoOp: Fast Adaptation to Multi-Label Recognition with Limited Annotations Ximeng Sun Ping Hu Kate Saenko VLM 23 119 0 20 Jun 2022
A Meta-Analysis of Distributionally-Robust Models Ben Feuer Ameya Joshi C. Hegde OOD VLM 35 3 0 15 Jun 2022
ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented Visual Models Chunyuan Li Haotian Liu Liunian Harold Li Pengchuan Zhang J. Aneja ... Ping Jin Houdong Hu Zicheng Liu Yong Jae Lee Jianfeng Gao 29 144 0 19 Apr 2022
Simultaneous Multiple-Prompt Guided Generation Using Differentiable Optimal Transport Yingtao Tian Marco Cuturi David R Ha DiffM OT 38 1 0 18 Apr 2022
No Token Left Behind: Explainability-Aided Image Classification and Generation Roni Paiss Hila Chefer Lior Wolf VLM 26 29 0 11 Apr 2022
Large-scale Bilingual Language-Image Contrastive Learning ByungSoo Ko Geonmo Gu VLM 19 14 0 28 Mar 2022
Contrastive Visual Semantic Pretraining Magnifies the Semantics of Natural Language Representations Robert Wolfe Aylin Caliskan VLM 21 13 0 14 Mar 2022
Knowledge Distillation as Efficient Pre-training: Faster Convergence, Higher Data-efficiency, and Better Transferability Ruifei He Shuyang Sun Jihan Yang Song Bai Xiaojuan Qi 24 36 0 10 Mar 2022
The CLEAR Benchmark: Continual LEArning on Real-World Imagery Zhiqiu Lin Jia Shi Deepak Pathak Deva Ramanan CLL VLM 137 91 0 17 Jan 2022
A Fistful of Words: Learning Transferable Visual Models from Bag-of-Words Supervision Ajinkya Tejankar Maziar Sanjabi Bichen Wu Saining Xie Madian Khabsa Hamed Pirsiavash Hamed Firooz VLM 21 17 0 27 Dec 2021
SLIP: Self-supervision meets Language-Image Pre-training Norman Mu Alexander Kirillov David A. Wagner Saining Xie VLM CLIP 54 476 0 23 Dec 2021
Align and Prompt: Video-and-Language Pre-training with Entity Prompts Dongxu Li Junnan Li Hongdong Li Juan Carlos Niebles S. Hoi 20 191 0 17 Dec 2021
CLIP-Lite: Information Efficient Visual Representation Learning with Language Supervision A. Shrivastava Ramprasaath R. Selvaraju Nikhil Naik Vicente Ordonez VLM CLIP 22 6 0 14 Dec 2021
Objects in Semantic Topology Shuo Yang Pei Sun Yi-Xin Jiang Xiaobo Xia Ruiheng Zhang Zehuan Yuan Changhu Wang Ping Luo Min Xu ObjD 83 29 0 06 Oct 2021
Learning to Prompt for Vision-Language Models Kaiyang Zhou Jingkang Yang Chen Change Loy Ziwei Liu VPVLM CLIP VLM 325 2,263 0 02 Sep 2021
Assessing Multilingual Fairness in Pre-trained Multimodal Representations Jialu Wang Yang Liu X. Wang EGVM 21 35 0 12 Jun 2021
Exploring Visual Engagement Signals for Representation Learning Menglin Jia Zuxuan Wu A. Reiter Claire Cardie Serge J. Belongie Ser-Nam Lim 19 13 0 15 Apr 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 98 27,632 0 26 Feb 2021
Generating images from caption and vice versa via CLIP-Guided Generative Latent Space Search Federico A. Galatolo M. G. Cimino G. Vaglini VLM 31 84 0 02 Feb 2021
Learning Video Representations from Textual Web Supervision Jonathan C. Stroud Zhichao Lu Chen Sun Jia Deng Rahul Sukthankar Cordelia Schmid David A. Ross SSL 24 48 0 29 Jul 2020
VirTex: Learning Visual Representations from Textual Annotations Karan Desai Justin Johnson SSL VLM 19 432 0 11 Jun 2020
Big Transfer (BiT): General Visual Representation Learning Alexander Kolesnikov Lucas Beyer Xiaohua Zhai J. Puigcerver Jessica Yung Sylvain Gelly N. Houlsby MQ 50 1,183 0 24 Dec 2019
Evaluating Text-to-Image Matching using Binary Image Selection (BISON) Hexiang Hu Ishan Misra L. V. D. van der Maaten 24 22 0 19 Jan 2019
Fluid Annotation: A Human-Machine Collaboration Interface for Full Image Annotation Mykhaylo Andriluka J. Uijlings V. Ferrari VLM 24 81 0 20 Jun 2018
Exploring the Limits of Weakly Supervised Pretraining D. Mahajan Ross B. Girshick Vignesh Ramanathan Kaiming He Manohar Paluri Yixuan Li Ashwin R. Bharambe L. V. D. van der Maaten VLM 50 1,356 0 02 May 2018
Separating Self-Expression and Visual Content in Hashtag Supervision Andreas Veit Maximilian Nickel Serge J. Belongie L. V. D. van der Maaten VLM 12 29 0 27 Nov 2017