Image Transformer

15 February 2018

Papers citing "Image Transformer"

50 / 277 papers shown

Title
Sparse DETR: Efficient End-to-End Object Detection with Learnable Sparsity Byungseok Roh Jaewoong Shin Wuhyun Shin Saehoon Kim ViT 11 142 0 29 Nov 2021
A model of semantic completion in generative episodic memory Zahra Fayyaz Aya Altamimi Sen Cheng Laurenz Wiskott 21 21 0 26 Nov 2021
NÜWA: Visual Synthesis Pre-training for Neural visUal World creAtion Chenfei Wu Jian Liang Lei Ji Fan Yang Yuejian Fang Daxin Jiang Nan Duan ViT VGen 16 292 0 24 Nov 2021
Multi-Person 3D Motion Prediction with Multi-Range Transformers Jiashun Wang Huazhe Xu Medhini Narasimhan Xiaolong Wang ViT 35 73 0 23 Nov 2021
A Survey of Visual Transformers Yang Liu Yao Zhang Yixin Wang Feng Hou Jin Yuan Jiang Tian Yang Zhang Zhongchao Shi Jianping Fan Zhiqiang He 3DGS ViT 69 330 0 11 Nov 2021
Improving Visual Quality of Image Synthesis by A Token-based Generator with Transformers Yanhong Zeng Huan Yang Hongyang Chao Jianbo Wang Jianlong Fu ViT 27 26 0 05 Nov 2021
Resampling Base Distributions of Normalizing Flows Vincent Stimper Bernhard Schölkopf José Miguel Hernández-Lobato BDL 22 32 0 29 Oct 2021
FacTeR-Check: Semi-automated fact-checking through Semantic Similarity and Natural Language Inference Alejandro Martín Javier Huertas-Tato Álvaro Huertas-García Guillermo Villar-Rodríguez David Camacho HILM 17 31 0 27 Oct 2021
Transformer Acceleration with Dynamic Sparse Attention Liu Liu Zheng Qu Zhaodong Chen Yufei Ding Yuan Xie 19 20 0 21 Oct 2021
PixelPyramids: Exact Inference Models from Lossless Image Pyramids Shweta Mahajan Stefan Roth TPM 10 2 0 17 Oct 2021
Revitalizing CNN Attentions via Transformers in Self-Supervised Visual Representation Learning Chongjian Ge Youwei Liang Yibing Song Jianbo Jiao Jue Wang Ping Luo ViT 16 36 0 11 Oct 2021
Vector-quantized Image Modeling with Improved VQGAN Jiahui Yu Xin Li Jing Yu Koh Han Zhang Ruoming Pang James Qin Alexander Ku Yuanzhong Xu Jason Baldridge Yonghui Wu ViT VLM DRL 49 476 0 09 Oct 2021
Adversarial Token Attacks on Vision Transformers Ameya Joshi Gauri Jagatap C. Hegde ViT 30 19 0 08 Oct 2021
Token Pooling in Vision Transformers D. Marin Jen-Hao Rick Chang Anurag Ranjan Anish K. Prabhu Mohammad Rastegari Oncel Tuzel ViT 68 66 0 08 Oct 2021
Design Strategy Network: A deep hierarchical framework to represent generative design strategies in complex action spaces Ayush Raina Jonathan Cagan Christopher McComb AI4CE 18 13 0 07 Oct 2021
ATISS: Autoregressive Transformers for Indoor Scene Synthesis Despoina Paschalidou Amlan Kar Maria Shugrina Karsten Kreis Andreas Geiger Sanja Fidler 3DV ViT 29 148 0 07 Oct 2021
Attention is All You Need? Good Embeddings with Statistics are enough:Large Scale Audio Understanding without Transformers/ Convolutions/ BERTs/ Mixers/ Attention/ RNNs or .... Prateek Verma AI4TS 24 2 0 07 Oct 2021
Adversarial Robustness Comparison of Vision Transformer and MLP-Mixer to CNNs Philipp Benz Soomin Ham Chaoning Zhang Adil Karjauv In So Kweon AAML ViT 29 78 0 06 Oct 2021
Ripple Attention for Visual Perception with Sub-quadratic Complexity Lin Zheng Huijie Pan Lingpeng Kong 21 3 0 06 Oct 2021
From Known to Unknown: Knowledge-guided Transformer for Time-Series Sales Forecasting in Alibaba Xinyuan Qi Kai Hou Tong Liu Zhongzhong Yu Sihao Hu Wenwu Ou AI4TS 40 19 0 17 Sep 2021
An End-to-End Transformer Model for 3D Object Detection Ishan Misra Rohit Girdhar Armand Joulin 3DPC ViT 39 469 0 16 Sep 2021
Focus on Impact: Indoor Exploration with Intrinsic Motivation Roberto Bigazzi Federico Landi S. Cascianelli Lorenzo Baraldi Marcella Cornia Rita Cucchiara OffRL 21 13 0 14 Sep 2021
Single-Read Reconstruction for DNA Data Storage Using Transformers Yotam Nahum Eyar Ben-Tolila Leon Anavy 66 5 0 12 Sep 2021
Pose-guided Inter- and Intra-part Relational Transformer for Occluded Person Re-Identification Zhongxing Ma Yifan Zhao Jia Li ViT 16 53 0 08 Sep 2021
Teaching Autoregressive Language Models Complex Tasks By Demonstration Gabriel Recchia 26 22 0 05 Sep 2021
GroupFormer: Group Activity Recognition with Clustered Spatial-Temporal Transformer Shuaicheng Li Qianggang Cao Lingbo Liu Kunlin Yang Shinan Liu Jun Hou Shuai Yi ViT 34 103 0 28 Aug 2021
Learning Inner-Group Relations on Point Clouds Haoxi Ran Wei Zhuo J. Liu Li Lu 3DPC 33 59 0 27 Aug 2021
Greenformers: Improving Computation and Memory Efficiency in Transformer Models via Low-Rank Approximation Samuel Cahyawijaya 26 12 0 24 Aug 2021
Do Vision Transformers See Like Convolutional Neural Networks? M. Raghu Thomas Unterthiner Simon Kornblith Chiyuan Zhang Alexey Dosovitskiy ViT 41 922 0 19 Aug 2021
QVHighlights: Detecting Moments and Highlights in Videos via Natural Language Queries Jie Lei Tamara L. Berg Mohit Bansal ViT 19 62 0 20 Jul 2021
Generative Video Transformer: Can Objects be the Words? Yi-Fu Wu Jaesik Yoon Sungjin Ahn ViT 24 34 0 20 Jul 2021
FLAT: An Optimized Dataflow for Mitigating Attention Bottlenecks Sheng-Chun Kao Suvinay Subramanian Gaurav Agrawal Amir Yazdanbakhsh T. Krishna 30 57 0 13 Jul 2021
Learning Vision-Guided Quadrupedal Locomotion End-to-End with Cross-Modal Transformers Ruihan Yang Minghao Zhang Nicklas Hansen Huazhe Xu Xiaolong Wang OffRL 13 100 0 08 Jul 2021
TransformerFusion: Monocular RGB Scene Reconstruction using Transformers Aljavz Bovzivc Pablo Rodríguez Palafox Justus Thies Angela Dai Matthias Nießner ViT 36 133 0 05 Jul 2021
Focal Self-attention for Local-Global Interactions in Vision Transformers Jianwei Yang Chunyuan Li Pengchuan Zhang Xiyang Dai Bin Xiao Lu Yuan Jianfeng Gao ViT 42 428 0 01 Jul 2021
Variational Diffusion Models Diederik P. Kingma Tim Salimans Ben Poole Jonathan Ho DiffM 53 1,057 0 01 Jul 2021
A Generative Model for Raw Audio Using Transformer Architectures Prateek Verma C. Chafe 8 28 0 30 Jun 2021
Probing Inter-modality: Visual Parsing with Self-Attention for Vision-Language Pre-training Hongwei Xue Yupan Huang Bei Liu Houwen Peng Jianlong Fu Houqiang Li Jiebo Luo 22 88 0 25 Jun 2021
Region-Aware Network: Model Human's Top-Down Visual Perception Mechanism for Crowd Counting Yuehai Chen Jing Yang Dong-Ming Zhang Kun Zhang Badong Chen S. Du 11 17 0 23 Jun 2021
Efficient Self-supervised Vision Transformers for Representation Learning Chunyuan Li Jianwei Yang Pengchuan Zhang Mei Gao Bin Xiao Xiyang Dai Lu Yuan Jianfeng Gao ViT 30 209 0 17 Jun 2021
Multi-head or Single-head? An Empirical Comparison for Transformer Training Liyuan Liu Jialu Liu Jiawei Han 21 32 0 17 Jun 2021
Rethinking Architecture Design for Tackling Data Heterogeneity in Federated Learning Liangqiong Qu Yuyin Zhou Paul Pu Liang Yingda Xia Feifei Wang Ehsan Adeli L. Fei-Fei D. Rubin FedML AI4CE 19 173 0 10 Jun 2021
Space-time Mixing Attention for Video Transformer Adrian Bulat Juan-Manuel Perez-Rua Swathikiran Sudhakaran Brais Martínez Georgios Tzimiropoulos ViT 25 124 0 10 Jun 2021
Semi-Supervised 3D Hand-Object Poses Estimation with Interactions in Time Shao-Wei Liu Hanwen Jiang Jiarui Xu Sifei Liu Xiaolong Wang 3DH 35 160 0 09 Jun 2021
A Survey of Transformers Tianyang Lin Yuxin Wang Xiangyang Liu Xipeng Qiu ViT 29 1,086 0 08 Jun 2021
Few-Shot Segmentation via Cycle-Consistent Transformer Gengwei Zhang Guoliang Kang Yi Yang Yunchao Wei ViT 16 177 0 04 Jun 2021
DeepCAD: A Deep Generative Network for Computer-Aided Design Models Rundi Wu Chang Xiao Changxi Zheng 3DPC 19 160 0 20 May 2021
RBNN: Memory-Efficient Reconfigurable Deep Binary Neural Network with IP Protection for Internet of Things Huming Qiu Hua Ma Zhi-Li Zhang Yifeng Zheng Anmin Fu Pan Zhou Yansong Gao Derek Abbott S. Al-Sarawi MQ 11 9 0 09 May 2021
ResMLP: Feedforward networks for image classification with data-efficient training Hugo Touvron Piotr Bojanowski Mathilde Caron Matthieu Cord Alaaeldin El-Nouby ... Gautier Izacard Armand Joulin Gabriel Synnaeve Jakob Verbeek Hervé Jégou VLM 16 655 0 07 May 2021
MLP-Mixer: An all-MLP Architecture for Vision Ilya O. Tolstikhin N. Houlsby Alexander Kolesnikov Lucas Beyer Xiaohua Zhai ... Andreas Steiner Daniel Keysers Jakob Uszkoreit Mario Lucic Alexey Dosovitskiy 259 2,603 0 04 May 2021