v1v2 (latest)

Perceiver: General Perception with Iterative Attention

International Conference on Machine Learning (ICML), 2021

4 March 2021

ArXiv (abs)PDF HTML HuggingFace (2 upvotes)

Papers citing "Perceiver: General Perception with Iterative Attention"

50 / 792 papers shown

Transform your Smartphone into a DSLR Camera: Learning the ISP in the WildEuropean Conference on Computer Vision (ECCV), 2022

A. S. Tripathi

Martin Danelljan

Samarth Shukla

Radu Timofte

Luc Van Gool

301

20 Mar 2022

Integrating Language Guidance into Vision-based Deep Metric LearningComputer Vision and Pattern Recognition (CVPR), 2022

214

16 Mar 2022

Do BERTs Learn to Use Browser User Interface? Exploring Multi-Step Tasks with Unified Vision-and-Language BERTs

Taichi Iki

Akiko Aizawa

LLMAG

203

15 Mar 2022

Masked Autoencoders for Point Cloud Self-supervised LearningEuropean Conference on Computer Vision (ECCV), 2022

Yonghong Tian

290

626

13 Mar 2022

Block-Recurrent TransformersNeural Information Processing Systems (NeurIPS), 2022

450

132

11 Mar 2022

Geodesic Multi-Modal Mixup for Robust Fine-TuningNeural Information Processing Systems (NeurIPS), 2022

458

08 Mar 2022

High-Modality Multimodal Transformer: Quantifying Modality & Interaction Heterogeneity for High-Modality Representation Learning

Shentong Mo

Louis-Philippe Morency

Ruslan Salakhutdinov

230

02 Mar 2022

Temporal Perceiver: A General Architecture for Arbitrary Boundary DetectionIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

Jing Tan

Yuhong Wang

Gangshan Wu

Limin Wang

239

01 Mar 2022

Recent Advances and Challenges in Deep Audio-Visual Correlation Learning

Luís Vilacca

Yi Yu

Paula Viana

242

28 Feb 2022

Retriever: Learning Content-Style Representation as a Token-Level Bipartite GraphInternational Conference on Learning Representations (ICLR), 2022

272

24 Feb 2022

Measuring CLEVRness: Blackbox testing of Visual Reasoning ModelsInternational Conference on Learning Representations (ICLR), 2022

Spyridon Mouselinos

Henryk Michalewski

Mateusz Malinowski

272

24 Feb 2022

Learning to Merge Tokens in Vision Transformers

227

24 Feb 2022

Better Modelling Out-of-Distribution Regression on Distributed Acoustic Sensor Data Using Anchored Hidden State MixupIEEE Transactions on Industrial Informatics (IEEE TII), 2022

23 Feb 2022

HiP: Hierarchical Perceiver

...

362

22 Feb 2022

Transformer Quality in Linear TimeInternational Conference on Machine Learning (ICML), 2022

493

302

21 Feb 2022

General-purpose, long-context autoregressive modeling with Perceiver ARInternational Conference on Machine Learning (ICML), 2022

...

Jean-Baptiste Alayrac

João Carreira

Jesse Engel

242

15 Feb 2022

SpeechPainter: Text-conditioned Speech InpaintingInterspeech (Interspeech), 2022

Zalan Borsos

Matthew Sharifi

Marco Tagliasacchi

214

15 Feb 2022

Benchmarking Online Sequence-to-Sequence and Character-based Handwriting Recognition from IMU-Enhanced PensInternational Journal on Document Analysis and Recognition (IJDAR), 2022

Christopher Mutschler

418

14 Feb 2022

data2vec: A General Framework for Self-supervised Learning in Speech, Vision and LanguageInternational Conference on Machine Learning (ICML), 2022

584

1,037

07 Feb 2022

OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning FrameworkInternational Conference on Machine Learning (ICML), 2022

Peng Wang

An Yang

Rui Men

Junyang Lin

Shuai Bai

Zhikang Li

Jianxin Ma

Chang Zhou

Jingren Zhou

Hongxia Yang

MLLM ObjD

525

1,017

07 Feb 2022

Webly Supervised Concept Expansion for General Purpose Vision ModelsEuropean Conference on Computer Vision (ECCV), 2022

301

04 Feb 2022

Exploring Transformer Backbones for Heterogeneous Treatment Effect Estimation

384

02 Feb 2022

Learning Super-Features for Image RetrievalInternational Conference on Learning Representations (ICLR), 2022

224

31 Jan 2022

Deep Learning Methods for Abstract Visual Reasoning: A Survey on Raven's Progressive MatricesACM Computing Surveys (ACM CSUR), 2022

Mikolaj Malkiñski

Jacek Mańdziuk

492

28 Jan 2022

From data to functa: Your data point is a function and you can treat it like oneInternational Conference on Machine Learning (ICML), 2022

Emilien Dupont

Hyunjik Kim

S. M. Ali Eslami

Danilo Jimenez Rezende

Dan Rosenbaum

TDI 3DPC

587

186

28 Jan 2022

Density-Aware Hyper-Graph Neural Networks for Graph-based Semi-supervised Node Classification

176

27 Jan 2022

Omnivore: A Single Model for Many Visual ModalitiesComputer Vision and Pattern Recognition (CVPR), 2022

Rohit Girdhar

Mannat Singh

Nikhil Ravi

Laurens van der Maaten

Armand Joulin

Ishan Misra

611

287

20 Jan 2022

Video Transformers: A SurveyIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2022

460

139

16 Jan 2022

Latency Adjustable Transformer Encoder for Language UnderstandingIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2022

Sajjad Kachuee

M. Sharifkhani

590

10 Jan 2022

Vision Transformer with Deformable AttentionComputer Vision and Pattern Recognition (CVPR), 2022

Gao Huang

451

704

03 Jan 2022

SeMask: Semantically Masked Transformers for Semantic Segmentation

283

121

23 Dec 2021

Learned Queries for Efficient Local AttentionComputer Vision and Pattern Recognition (CVPR), 2021

271

21 Dec 2021

High-Resolution Image Synthesis with Latent Diffusion ModelsComputer Vision and Pattern Recognition (CVPR), 2021

3.1K

21,434

20 Dec 2021

Bottom Up Top Down Detection Transformers for Language Grounding in Images and Point Clouds

492

148

16 Dec 2021

Audio-Visual Synchronisation in the wild

Honglie Chen

Weidi Xie

Triantafyllos Afouras

Arsha Nagrani

Andrea Vedaldi

Andrew Zisserman

225

08 Dec 2021

Input-level Inductive Biases for 3D ReconstructionComputer Vision and Pattern Recognition (CVPR), 2021

370

06 Dec 2021

Hybrid Instance-aware Temporal Fusion for Online Video Instance Segmentation

Xiang Li

Jinglu Wang

Xiao Li

Yan Lu

201

03 Dec 2021

Efficient Self-Ensemble for Semantic SegmentationBritish Machine Vision Conference (BMVC), 2021

292

26 Nov 2021

PolyViT: Co-training Vision Transformers on Images, Videos and Audio

Valerii Likhosherstov

196

25 Nov 2021

Conditional Object-Centric Learning from Video

Thomas Kipf

Gamaleldin F. Elsayed

Alexey Dosovitskiy

357

264

24 Nov 2021

Sparse Fusion for Multimodal Transformers

169

23 Nov 2021

Many Heads but One Brain: Fusion Brain -- a Competition and a Single Multimodal Multitask Architecture

...

381

22 Nov 2021

Rethinking Query, Key, and Value Embedding in Vision Transformer under Tiny Model Constraints

241

19 Nov 2021

Edge-Native Intelligence for 6G Communications Driven by Federated Learning: A Survey of Trends and ChallengesIEEE Transactions on Emerging Topics in Computational Intelligence (IEEE TETCI), 2021

Mohammad M. Al-Quraan

Mérouane Debbah

194

14 Nov 2021

Multi-Glimpse Network: A Robust and Efficient Classification Architecture based on Recurrent Downsampled AttentionBritish Machine Vision Conference (BMVC), 2021

S. Tan

Runpei Dong

Kaisheng Ma

344

03 Nov 2021

With a Little Help from my Temporal Context: Multimodal Egocentric Action RecognitionBritish Machine Vision Conference (BMVC), 2021

Dima Damen

297

01 Nov 2021

Hyper-Representations: Self-Supervised Representation Learning on Neural Network Weights for Model Characteristic Prediction

416

28 Oct 2021

SOFT: Softmax-free Transformer with Linear ComplexityNeural Information Processing Systems (NeurIPS), 2021

Jiachen Lu

Jinghan Yao

Junge Zhang

Hang Xu

Li Zhang

241

193

22 Oct 2021

Inductive Biases and Variable Creation in Self-Attention Mechanisms

359

150

19 Oct 2021

BERMo: What can BERT learn from ELMo?

Sangamesh Kodge

Kaushik Roy

173

18 Oct 2021