Title
Domain Prompt Learning for Efficiently Adapting CLIP to Unseen Domains X. Zhang S. Gu Yutaka Matsuo Yusuke Iwasawa VLM 30 36 0 25 Nov 2021
VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling Tsu-jui Fu Linjie Li Zhe Gan Kevin Qinghong Lin W. Wang Lijuan Wang Zicheng Liu VLM 34 216 0 24 Nov 2021
NÜWA: Visual Synthesis Pre-training for Neural visUal World creAtion Chenfei Wu Jian Liang Lei Ji Fan Yang Yuejian Fang Daxin Jiang Nan Duan ViT VGen 14 292 0 24 Nov 2021
SPCL: A New Framework for Domain Adaptive Semantic Segmentation via Semantic Prototype-based Contrastive Learning Binhui Xie Kejia Yin Shuang Li 12 11 0 24 Nov 2021
Many Heads but One Brain: Fusion Brain -- a Competition and a Single Multimodal Multitask Architecture Daria Bakshandaeva Denis Dimitrov V.Ya. Arkhipkin Alex Shonenkov M. Potanin ... Mikhail Martynov Anton Voronov Vera Davydova E. Tutubalina Aleksandr Petiushko 33 0 0 22 Nov 2021
MaIL: A Unified Mask-Image-Language Trimodal Network for Referring Image Segmentation Zizhang Li Mengmeng Wang Jianbiao Mei Yong Liu 8 18 0 21 Nov 2021
Swin Transformer V2: Scaling Up Capacity and Resolution Ze Liu Han Hu Yutong Lin Zhuliang Yao Zhenda Xie ... Yue Cao Zheng-Wei Zhang Li Dong Furu Wei B. Guo ViT 41 1,738 0 18 Nov 2021
One-Shot Generative Domain Adaptation Ceyuan Yang Yujun Shen Zhiyi Zhang Yinghao Xu Jiapeng Zhu Zhirong Wu Bolei Zhou 19 49 0 18 Nov 2021
EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained Embedding Matching Yaya Shi Xu Yang Haiyang Xu Chunfen Yuan Bing Li Weiming Hu Zhengjun Zha 31 33 0 17 Nov 2021
Achieving Human Parity on Visual Question Answering Ming Yan Haiyang Xu Chenliang Li Junfeng Tian Bin Bi ... Ji Zhang Songfang Huang Fei Huang Luo Si Rong Jin 24 12 0 17 Nov 2021
Scaling Law for Recommendation Models: Towards General-purpose User Representations Kyuyong Shin Hanock Kwak KyungHyun Kim Max Nihlén Ramström Jisu Jeong Jung-Woo Ha S. Kim ELM 21 38 0 15 Nov 2021
A Survey of Visual Transformers Yang Liu Yao Zhang Yixin Wang Feng Hou Jin Yuan Jiang Tian Yang Zhang Zhongchao Shi Jianping Fan Zhiqiang He 3DGS ViT 66 330 0 11 Nov 2021
Advances in Neural Rendering A. Tewari Justus Thies B. Mildenhall P. Srinivasan E. Tretschk ... S. Fanello J. Zhu Gordon Wetzstein Michael Zollhoefer D. B. Goldman 3DH AI4CE 22 444 0 10 Nov 2021
FILIP: Fine-grained Interactive Language-Image Pre-Training Lewei Yao Runhu Huang Lu Hou Guansong Lu Minzhe Niu Hang Xu Xiaodan Liang Zhenguo Li Xin Jiang Chunjing Xu VLM CLIP 25 612 0 09 Nov 2021
Evolving Evocative 2D Views of Generated 3D Objects Eric Chu 13 4 0 08 Nov 2021
Tip-Adapter: Training-free CLIP-Adapter for Better Vision-Language Modeling Renrui Zhang Rongyao Fang Wei Zhang Peng Gao Kunchang Li Jifeng Dai Yu Qiao Hongsheng Li VLM 184 384 0 06 Nov 2021
Visualizing the Emergence of Intermediate Visual Patterns in DNNs Mingjie Li Shaobo Wang Quanshi Zhang 16 11 0 05 Nov 2021
LAION-400M: Open Dataset of CLIP-Filtered 400 Million Image-Text Pairs Christoph Schuhmann Richard Vencu Romain Beaumont R. Kaczmarczyk Clayton Mullis Aarush Katta Theo Coombes J. Jitsev Aran Komatsuzaki VLM MLLM CLIP 10 1,372 0 03 Nov 2021
Masking Modalities for Cross-modal Video Retrieval Valentin Gabeur Arsha Nagrani Chen Sun Alahari Karteek Cordelia Schmid 11 29 0 01 Nov 2021
Projected GANs Converge Faster Axel Sauer Kashyap Chitta Jens Muller Andreas Geiger 32 233 0 01 Nov 2021
Towards the Generalization of Contrastive Self-Supervised Learning Weiran Huang Mingyang Yi Xuyang Zhao Zihao Jiang SSL 8 105 0 01 Nov 2021
BiC-Net: Learning Efficient Spatio-Temporal Relation for Text-Video Retrieval Ning Han Jingjing Chen Chuhao Shi Yawen Zeng Guangyi Xiao Hao Chen 14 10 0 29 Oct 2021
Telling Creative Stories Using Generative Visual Aids Safinah Ali Devi Parikh 13 12 0 27 Oct 2021
Qu-ANTI-zation: Exploiting Quantization Artifacts for Achieving Adversarial Outcomes Sanghyun Hong Michael-Andrei Panaitescu-Liess Yigitcan Kaya Tudor Dumitras MQ 42 13 0 26 Oct 2021
Image-Based CLIP-Guided Essence Transfer Hila Chefer Sagie Benaim Roni Paiss Lior Wolf CLIP 21 50 0 24 Oct 2021
Wav2CLIP: Learning Robust Audio Representations From CLIP Ho-Hsiang Wu Prem Seetharaman Kundan Kumar J. P. Bello CLIP VLM 22 267 0 21 Oct 2021
MixNorm: Test-Time Adaptation Through Online Normalization Estimation Xuefeng Hu M. Uzunbas Sirius Chen Rui Wang Ashish Shah Ram Nevatia Ser-Nam Lim TTA 20 47 0 21 Oct 2021
Self-Initiated Open World Learning for Autonomous AI Agents Bing-Quan Liu Eric Robertson Scott Grigsby Sahisnu Mazumder AI4CE 30 8 0 21 Oct 2021
Generalized Out-of-Distribution Detection: A Survey Jingkang Yang Kaiyang Zhou Yixuan Li Ziwei Liu 171 870 0 21 Oct 2021
Controllable and Compositional Generation with Latent-Space Energy-Based Models Weili Nie Arash Vahdat Anima Anandkumar 17 77 0 21 Oct 2021
Deep Generative Models in Engineering Design: A Review Lyle Regenwetter A. Nobari Faez Ahmed 3DV AI4CE 24 175 0 21 Oct 2021
Text-Based Person Search with Limited Data Xiaoping Han Sen He Li Zhang Tao Xiang 6 88 0 20 Oct 2021
No One Representation to Rule Them All: Overlapping Features of Training Methods Raphael Gontijo-Lopes Yann N. Dauphin E. D. Cubuk 18 58 0 20 Oct 2021
Unifying Multimodal Transformer for Bi-directional Image and Text Generation Yupan Huang Hongwei Xue Bei Liu Yutong Lu 11 57 0 19 Oct 2021
Self-Supervised Representation Learning: Introduction, Advances and Challenges Linus Ericsson H. Gouk Chen Change Loy Timothy M. Hospedales SSL OOD AI4TS 25 268 0 18 Oct 2021
BEAMetrics: A Benchmark for Language Generation Evaluation Evaluation Thomas Scialom Felix Hill 20 7 0 18 Oct 2021
Multimodal Dialogue Response Generation Qingfeng Sun Yujing Wang Can Xu Kai Zheng Yaming Yang Huang Hu Fei Xu Jessica Zhang Xiubo Geng Daxin Jiang 15 43 0 16 Oct 2021
Shared Visual Representations of Drawing for Communication: How do different biases affect human interpretability and intent? Daniela Mihai Jonathon S. Hare FAtt 8 0 0 15 Oct 2021
Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks Sangeeta Srivastava Yun Wang Andros Tjandra Anurag Kumar Chunxi Liu Kritika Singh Yatharth Saraf SSL 25 24 0 14 Oct 2021
A CLIP-Enhanced Method for Video-Language Understanding Guohao Li Feng He Zhifan Feng CLIP 24 12 0 14 Oct 2021
Subspace Regularizers for Few-Shot Class Incremental Learning Afra Feyza Akyürek Ekin Akyürek Derry Wijaya Jacob Andreas CLL 19 59 0 13 Oct 2021
Decoupled Contrastive Learning Chun-Hsiao Yeh Cheng-Yao Hong Yen-Chi Hsu Tyng-Luh Liu Yubei Chen Yann LeCun 171 182 0 13 Oct 2021
CLIP4Caption: CLIP for Video Caption Mingkang Tang Zhanyu Wang Zhenhua Liu Fengyun Rao Dian Li Xiu Li CLIP VLM 27 149 0 13 Oct 2021
Rethinking Person Re-Identification via Semantic-Based Pretraining Suncheng Xiang Jingsheng Gao Zi-Yu Zhang Mengyuan Guan Binghai Yan Ting Liu Dahong Qian Yuzhuo Fu VLM 25 11 0 11 Oct 2021
CLIP-Adapter: Better Vision-Language Models with Feature Adapters Peng Gao Shijie Geng Renrui Zhang Teli Ma Rongyao Fang Yongfeng Zhang Hongsheng Li Yu Qiao VLM CLIP 60 974 0 09 Oct 2021
Human in the Loop for Machine Creativity N. C. Chung 23 14 0 07 Oct 2021
Cut the CARP: Fishing for zero-shot story evaluation Shahbuland Matiana J. Smith Ryan Teehan Louis Castricato Stella Biderman Leo Gao Spencer Frazier 39 16 0 06 Oct 2021
DiffusionCLIP: Text-Guided Diffusion Models for Robust Image Manipulation Gwanghyun Kim Taesung Kwon Jong Chul Ye DiffM 46 622 0 06 Oct 2021
Objects in Semantic Topology Shuo Yang Pei Sun Yi-Xin Jiang Xiaobo Xia Ruiheng Zhang Zehuan Yuan Changhu Wang Ping Luo Min Xu ObjD 83 29 0 06 Oct 2021
CLIP-Forge: Towards Zero-Shot Text-to-Shape Generation Aditya Sanghi Hang Chu Joseph G. Lambourne Ye Wang Chin-Yi Cheng Marco Fumero Kamal Rahimi Malekshan CLIP 33 289 0 06 Oct 2021