v1v2 (latest)

Perceiver: General Perception with Iterative Attention

International Conference on Machine Learning (ICML), 2021

4 March 2021

ArXiv (abs)PDF HTML HuggingFace (2 upvotes)

Papers citing "Perceiver: General Perception with Iterative Attention"

50 / 786 papers shown

Title
NeuralDEM -- Real-time Simulation of Industrial Particulate Flows Benedikt Alkin Tobias Kronlachner Samuele Papa Stefan Pirker Thomas Lichtenegger Johannes Brandstetter PINN AI4CE 361 7 1 14 Nov 2024
Moving Off-the-Grid: Scene-Grounded Video RepresentationsNeural Information Processing Systems (NeurIPS), 2024 Sjoerd van Steenkiste Daniel Zoran Yi Yang Yulia Rubanova Rishabh Kabra ... Thomas Keck João Carreira Alexey Dosovitskiy Mehdi S. M. Sajjadi Thomas Kipf 248 9 0 08 Nov 2024
Wave Network: An Ultra-Small Language Model Xin Zhang Victor S. Sheng 228 1 0 04 Nov 2024
Adaptive Length Image Tokenization via Recurrent AllocationInternational Conference on Learning Representations (ICLR), 2024 Shivam Duggal Phillip Isola Antonio Torralba William T. Freeman VLM 260 13 0 04 Nov 2024
PixelGaussian: Generalizable 3D Gaussian Reconstruction from Arbitrary Views Xin Fei Wenzhao Zheng Yueqi Duan Weidong Zhan Masayoshi Tomizuka Kurt Keutzer Jiwen Lu 3DGS 241 14 0 24 Oct 2024
PerspectiveNet: Multi-View Perception for Dynamic Scene Understanding Vinh Nguyen 3DV 98 0 0 22 Oct 2024
ARCADE: Scalable Demonstration Collection and Generation via Augmented Reality for Imitation LearningIEEE/RJS International Conference on Intelligent RObots and Systems (IROS), 2024 Yue Yang Bryce Ikeda Gedas Bertasius D. Szafir 172 6 0 21 Oct 2024
SEA: State-Exchange Attention for High-Fidelity Physics Based TransformersNeural Information Processing Systems (NeurIPS), 2024 Parsa Esmati Amirhossein Dadashzadeh Vahid Goodarzi Nicolas Larrosa Nicolo Grilli 269 0 0 20 Oct 2024
Generalized Multimodal Fusion via Poisson-Nernst-Planck Equation Jiayu Xiong Jing Wang Hengjing Xiang Jun Xue Chen Xu Zhouqiang Jiang 147 0 0 20 Oct 2024
AugInsert: Learning Robust Visual-Force Policies via Data Augmentation for Object Assembly Tasks Ryan Diaz Adam Imdieke Vivek Veeriah Karthik Desingh 263 0 0 19 Oct 2024
Rethinking Transformer for Long Contextual Histopathology Whole Slide Image AnalysisNeural Information Processing Systems (NeurIPS), 2024 Honglin Li Yunlong Zhang Pingyi Chen Honglin Li Chenglu Zhu Lin Yang MedIm 253 12 0 18 Oct 2024
Efficient Vision-Language Models by Summarizing Visual Tokens into Compact Registers Yuxin Wen Qingqing Cao Qichen Fu Sachin Mehta Mahyar Najibi VLM 254 16 0 17 Oct 2024
Spatial-Aware Efficient Projector for MLLMs via Multi-Layer Feature Aggregation Shun Qian Bingquan Liu Chengjie Sun Zhen Xu Baoxun Wang 120 0 0 14 Oct 2024
Gridded Transformer Neural Processes for Large Unstructured Spatio-Temporal Data Matthew Ashman Cristiana-Diana Diaconu Eric Langezaal Adrian Weller Richard E. Turner AI4TS 213 3 0 09 Oct 2024
A Survey: Collaborative Hardware and Software Design in the Era of Large Language ModelsIEEE Circuits and Systems Magazine (IEEE CSM), 2024 Cong Guo Feng Cheng Zhixu Du James Kiessling Jonathan Ku ... Qilin Zheng Guanglei Zhou Hai Li-Wei Li Yiran Chen 169 17 0 08 Oct 2024
STNet: Deep Audio-Visual Fusion Network for Robust Speaker TrackingIEEE transactions on multimedia (IEEE TMM), 2024 Yidi Li Hong Liu Bing Yang 297 7 0 08 Oct 2024
On Efficient Variants of Segment Anything Model: A SurveyInternational Journal of Computer Vision (IJCV), 2024 Xiaorui Sun Jing Liu Jikang Cheng Xiaofeng Zhu Ping Hu VLM 425 18 0 07 Oct 2024
Compression via Pre-trained Transformers: A Study on Byte-Level Multimodal Data David Heurtel-Depeiges Anian Ruoss J. Veness Tim Genewein 487 6 0 07 Oct 2024
Text2PDE: Latent Diffusion Models for Accessible Physics SimulationInternational Conference on Learning Representations (ICLR), 2024 Anthony Zhou Zijie Li Michael Schneier John R Buchanan Jr Amir Barati Farimani AI4CE DiffM 390 13 0 02 Oct 2024
From Vision to Audio and Beyond: A Unified Model for Audio-Visual Representation and GenerationInternational Conference on Machine Learning (ICML), 2024 Kun Su Xiulong Liu Eli Shlizerman VGen 377 13 0 27 Sep 2024
Show and Guide: Instructional-Plan Grounded Vision and Language ModelConference on Empirical Methods in Natural Language Processing (EMNLP), 2024 Diogo Glória-Silva David Semedo João Magalhães 266 0 0 27 Sep 2024
From Seconds to Hours: Reviewing MultiModal Large Language Models on Comprehensive Long Video Understanding Heqing Zou Tianze Luo Guiyang Xie Victor Zhang ... Guangcong Wang Juanyang Chen Zhuochen Wang Hansheng Zhang Huaijian Zhang VLM 273 18 0 27 Sep 2024
E.T. Bench: Towards Open-Ended Event-Level Video-Language UnderstandingNeural Information Processing Systems (NeurIPS), 2024 Ye Liu Zongyang Ma Chen Ma Yang Wu Ying Shan Chang Wen Chen 239 50 0 26 Sep 2024
UNICORN: A Deep Learning Model for Integrating Multi-Stain Data in Histopathology Valentin Koch Sabine Bauer Valerio Luppberger Michael Joner Heribert Schunkert Julia A. Schnabel Moritz von Scheidt Carsten Marr MedIm ViT 112 0 0 26 Sep 2024
RACER: Rich Language-Guided Failure Recovery Policies for Imitation LearningIEEE International Conference on Robotics and Automation (ICRA), 2024 Yinpei Dai Jayjun Lee Nima Fazeli Joyce Chai 169 27 0 23 Sep 2024
Observe Then Act: Asynchronous Active Vision-Action Model for Robotic ManipulationIEEE Robotics and Automation Letters (RA-L), 2024 Guokang Wang Hang Li Shuyuan Zhang Di Guo Huaping Liu Huaping Liu 251 6 0 23 Sep 2024
PecSched: Preemptive and Efficient Cluster Scheduling for LLM Inference Zeyu Zhang Haiying Shen VLM 272 1 0 23 Sep 2024
Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence Alessandro Riva Alessandro Raganato Simone Melzi 3DPC 183 1 0 20 Sep 2024
Generating Visual Stories with Grounded and Coreferent Characters Danyang Liu Mirella Lapata Frank Keller 280 2 0 20 Sep 2024
InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning Xiaotian Han Yiren Jian Xuefeng Hu Haogeng Liu Yiqi Wang ... Yuang Ai Huaibo Huang Ran He Zhenheng Yang Quanzeng You LRM AI4CE 139 31 0 19 Sep 2024
DETECLAP: Enhancing Audio-Visual Representation Learning with Object InformationIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024 Shota Nakada Taichi Nishimura Hokuto Munakata Masayoshi Kondo Tatsuya Komatsu CLIP VLM 167 1 0 18 Sep 2024
FLARE: Fusing Language Models and Collaborative Architectures for Recommender EnhancementThe Web Conference (WWW), 2024 Liam Hebert Marialena Kyriakidi Hubert Pham Krishna Sayana James Pine Sukhdeep S. Sodhi Ambarish Jash VLM 174 5 0 18 Sep 2024
NVLM: Open Frontier-Class Multimodal LLMs Wenliang Dai Nayeon Lee Wei Ping Zhuoling Yang Zihan Liu Jon Barker Tuomas Rintamaki Mohammad Shoeybi Bryan Catanzaro Ming-Yu Liu MLLM VLM LRM 281 111 0 17 Sep 2024
Friction-Aware Safety Locomotion for Wheeled-legged Robots using Vision Language Models and Reinforcement Learning Bo Peng D. Baek Qijie Wang Joao Ramos 254 0 0 15 Sep 2024
SimMAT: Exploring Transferability from Vision Foundation Models to Any Image Modality Chenyang Lei Liyi Chen Jun Cen Xiao Chen Zhen Lei Felix Heide Ziwei Liu Qifeng Chen Zhaoxiang Zhang 154 0 0 12 Sep 2024
Referring Expression Generation in Visually Grounded Dialogue with Discourse-aware Comprehension GuidingInternational Conference on Natural Language Generation (INLG), 2024 Bram Willemsen Gabriel Skantze 206 1 0 09 Sep 2024
Unleashing the Power of Generic Segmentation Models: A Simple Baseline for Infrared Small Target DetectionACM Multimedia (MM), 2024 Mingjin Zhang Chi Zhang Qiming Zhang Yunsong Li Xinbo Gao Jing Zhang VLM 149 19 0 07 Sep 2024
Segmenting Object Affordances: Reproducibility and Sensitivity to Scale Tommaso Apicella Alessio Xompero Paolo Gastaldo Andrea Cavallaro 175 2 0 03 Sep 2024
ReSpike: Residual Frames-based Hybrid Spiking Neural Networks for Efficient Action RecognitionNeuromorphic Computing and Engineering (NCE), 2024 Shiting Xiao Yuhang Li Youngeun Kim Donghyun Lee Priyadarshini Panda 213 4 0 03 Sep 2024
Large-Scale Multi-omic Biosequence Transformers for Modeling Protein-Nucleic Acid Interactions Sully F. Chen Robert J. Steele Glen M. Hocky Beakal Lemeneh S. Lad Eric Oermann AI4CE 279 0 0 29 Aug 2024
μgat: Improving Single-Page Document Parsing by Providing Multi-Page Context Fabio Quattrini Carmine Zaccagnino Silvia Cascianelli Laura Righi Rita Cucchiara 151 3 0 28 Aug 2024
LMM-VQA: Advancing Video Quality Assessment with Large Multimodal Models Qihang Ge Wei Sun Yu Zhang Yunhao Li Zhongpeng Ji Fengyu Sun Shangling Jui Xiongkuo Min Guangtao Zhai 179 22 0 26 Aug 2024
A New Era in Computational Pathology: A Survey on Foundation and Vision-Language Models Dibaloke Chanda Milan Aryal Nasim Yahya Soltani Masoud Ganji AI4CE VLM 373 11 0 23 Aug 2024
Building and better understanding vision-language models: insights and future directions Hugo Laurençon Andrés Marafioti Victor Sanh Léo Tronchon VLM 274 129 0 22 Aug 2024
Frame Order Matters: A Temporal Sequence-Aware Model for Few-Shot Action RecognitionAAAI Conference on Artificial Intelligence (AAAI), 2024 Bozheng Li Mushui Liu Gaoang Wang Yunlong Yu 158 11 0 22 Aug 2024
Variable Assignment Invariant Neural Networks for Learning Logic ProgramsInternational Workshop on Neural-Symbolic Learning and Reasoning (NeSy), 2024 Yin Jun Phua Katsumi Inoue 194 1 0 20 Aug 2024
End-to-end Semantic-centric Video-based Multimodal Affective Computing Ronghao Lin Ying Zeng Sijie Mai Haifeng Hu VGen 246 2 0 14 Aug 2024
Implicit Neural Representation For Accurate CFD Flow Field Prediction L. D. Vito Nils Pinnau Simone Dey AI4CE 264 1 0 12 Aug 2024
PERSOMA: PERsonalized SOft ProMpt Adapter Architecture for Personalized Language Prompting Liam Hebert Krishna Sayana Ambarish Jash Alexandros Karatzoglou Geordie Williamson Sumanth Doddapaneni Yanli Cai Dima Kuzmin 200 6 0 02 Aug 2024
Mixture of Nested Experts: Adaptive Processing of Visual TokensNeural Information Processing Systems (NeurIPS), 2024 Gagan Jain Nidhi Hegde Aditya Kusupati Arsha Nagrani Shyamal Buch Prateek Jain Anurag Arnab Sujoy Paul MoE 235 17 0 29 Jul 2024