v1v2 (latest)

Perceiver: General Perception with Iterative Attention

International Conference on Machine Learning (ICML), 2021

4 March 2021

ArXiv (abs)PDF HTML HuggingFace (2 upvotes)

Papers citing "Perceiver: General Perception with Iterative Attention"

50 / 790 papers shown

Lost in Embeddings: Information Loss in Vision-Language Models

127

15 Sep 2025

TransZero: Parallel Tree Expansion in MuZero using Transformer Networks

Emil Malmsten

Wendelin Böhmer

14 Sep 2025

Towards Understanding Visual Grounding in Visual Language Models

Georgios Pantazopoulos

Eda B. Özyiğit

ObjD

300

12 Sep 2025

Multipole Semantic Attention: A Fast Approximation of Softmax Attention for Pretraining

Rupert Mitchell

Kristian Kersting

12 Sep 2025

VoxelFormer: Parameter-Efficient Multi-Subject Visual Decoding from fMRI

10 Sep 2025

Sample-efficient Integration of New Modalities into Large Language Models

156

04 Sep 2025

Efficient Large Language Models with Zero-Shot Adjustable Acceleration

Sajjad Kachuee

M. Sharifkhani

158

01 Sep 2025

VoCap: Video Object Captioning and Segmentation from Any Prompt

260

29 Aug 2025

MV-RAG: Retrieval Augmented Multiview Diffusion

Yosef Dayani

Omer Benishu

Sagie Benaim

128

22 Aug 2025

TPA: Temporal Prompt Alignment for Fetal Congenital Heart Defect Classification

248

21 Aug 2025

FLARE: Fast Low-rank Attention Routing Engine

Yongjie Jessica Zhang

Levent Burak Kara

248

18 Aug 2025

3D FlowMatch Actor: Unified 3D Policy for Single- and Dual-Arm Manipulation

196

14 Aug 2025

Animate-X++: Universal Character Image Animation with Dynamic Backgrounds

256

13 Aug 2025

DeepFleet: Multi-Agent Foundation Models for Mobile Robots

...

144

12 Aug 2025

DeCAL Tokenwise Compression

Sameer Panwar

148

11 Aug 2025

AR-VRM: Imitating Human Motions for Visual Robot Manipulation with Analogical Reasoning

Dejie Yang

Zijing Zhao

Yang Liu

180

11 Aug 2025

BASIC: Boosting Visual Alignment with Intrinsic Refined Embeddings in Multimodal Large Language Models

09 Aug 2025

PriorRG: Prior-Guided Contrastive Pre-training and Coarse-to-Fine Decoding for Chest X-ray Report Generation

07 Aug 2025

Keyword Spotting with Hyper-Matched Filters for Small Footprint Devices

154

06 Aug 2025

Can3Tok: Canonical 3D Tokenization and Latent Modeling of Scene-Level 3D Gaussians

158

02 Aug 2025

Masked Omics Modeling for Multimodal Representation Learning across Histopathology and Molecular Profiles

Lucas Robinet

Ahmad Berjaoui

Elizabeth Cohen-Jonathan Moyal

171

01 Aug 2025

Gaussian Variation Field Diffusion for High-fidelity Video-to-4D Synthesis

166

31 Jul 2025

Visual Language Models as Zero-Shot Deepfake Detectors

Viacheslav Pirogov

VLM

193

30 Jul 2025

Turbocharging Web Automation: The Impact of Compressed History StatesAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

154

28 Jul 2025

PointLAMA: Latent Attention meets Mamba for Efficient Point Cloud Pretraining

119

23 Jul 2025

Mixture-of-Recursions: Learning Dynamic Recursive Depths for Adaptive Token-Level Computation

...

279

14 Jul 2025

BioAnalyst: A Foundation Model for Biodiversity

11 Jul 2025

A Simple Contrastive Framework Of Item Tokenization For Generative Recommendation

195

20 Jun 2025

MEXA: Towards General Multimodal Reasoning with Dynamic Multi-Expert Aggregation

197

20 Jun 2025

Atomizer: Generalizing to new modalities by breaking satellite images down to a set of scalars

Hugo Riffaud de Turckheim

Sylvain Lobry

R. Interdonato

Diego Marcos

182

16 Jun 2025

PRISM2: Unlocking Multi-Modal General Pathology AI with Clinical Dialogue

...

217

16 Jun 2025

Multi-Timescale Dynamics Model Bayesian Optimization for Plasma Stabilization in Tokamaks

Rohit Sonker

Alexandre Capone

Andrew Rothstein

Hiro Josep Farre Kaga

E. Kolemen

J. Schneider

AI4CE

263

12 Jun 2025

Vision Generalist Model: A SurveyInternational Journal of Computer Vision (IJCV), 2025

...

293

11 Jun 2025

Towards Multimodal Graph Large Language ModelScience China Information Sciences (Sci. China Inf. Sci.), 2025

215

11 Jun 2025

Robust Noise Attenuation via Adaptive Pooling of Transformer Outputs

Greyson Brothers

ViT

165

10 Jun 2025

FunDiff: Diffusion Models over Function Spaces for Physics-Informed Generative Modeling

278

09 Jun 2025

Super Encoding Network: Recursive Association of Multi-Modal Encoders for Video Understanding

370

09 Jun 2025

Towards LLM-Centric Multimodal Fusion: A Survey on Integration Strategies and Techniques

440

05 Jun 2025

Optimizing Sensory Neurons: Nonlinear Attention Mechanisms for Accelerated Convergence in Permutation-Invariant Neural Networks for Reinforcement Learning

318

31 May 2025

$$\texttt{AVROBUSTBENCH}$: Benchmarking the Robustness of Audio-Visual Recognition Models at Test-Time$

\texttt{AVROBUSTBENCH}

: Benchmarking the Robustness of Audio-Visual Recognition Models at Test-Time

Sarthak Kumar Maharana

Saksham Singh Kushwaha

273

31 May 2025

Position: The Future of Bayesian Prediction Is Prior-Fitted

Katharina Eggensperger

198

29 May 2025

One Trajectory, One Token: Grounded Video Tokenization via Panoptic Sub-object Trajectory

375

29 May 2025

VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models

304

28 May 2025

The quest for the GRAph Level autoEncoder (GRALE)

326

28 May 2025

How Humans and LLMs Organize Conceptual Knowledge: Exploring Subordinate Categories in ItalianAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

153

27 May 2025

FeatInv: Spatially resolved mapping from feature space to input space using conditional diffusion models

292

27 May 2025

Structure Disruption: Subverting Malicious Diffusion-Based Inpainting via Self-Attention Query Perturbation

254

26 May 2025

StyleAR: Customizing Multimodal Autoregressive Model for Style-Aligned Text-to-Image Generation

235

26 May 2025

SETransformer: A Hybrid Attention-Based Architecture for Robust Human Activity Recognition

150

25 May 2025

Latent Mamba Operator for Partial Differential Equations

291

25 May 2025

All Papers

Perceiver: General Perception with Iterative Attention

Papers citing "Perceiver: General Perception with Iterative Attention"