v1v2v3 (latest)

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

9 January 2019

Papers citing "Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context"

50 / 2,022 papers shown

Foundation Models in Robotics: Applications, Challenges, and the Future

Roya Firoozi

Johnathan Tucker

Stephen Tian

Anirudha Majumdar

...

Jiajun Wu

260

281

13 Dec 2023

VILA: On Pre-training for Visual Language ModelsComputer Vision and Pattern Recognition (CVPR), 2023

Song Han

625

676

12 Dec 2023

Why "classic" Transformers are shallow and how to make them go deep

Yueyao Yu

Yin Zhang

ViT

267

11 Dec 2023

TCNCA: Temporal Convolution Network with Chunked Attention for Scalable Sequence Processing

204

09 Dec 2023

MIMIR: Masked Image Modeling for Mutual Information-based Adversarial Robustness

605

08 Dec 2023

Hijacking Context in Large Multi-modal Models

Joonhyun Jeong

MLLM

259

07 Dec 2023

Compressed Context Memory For Online Language Model Interaction

298

06 Dec 2023

LLM-TAKE: Theme Aware Keyword Extraction Using Large Language ModelsBigData Congress [Services Society] (BSS), 2023

Reza Yousefi Maragheh

...

Sushant Kumar

Kannan Achan

246

01 Dec 2023

Mitigating Over-smoothing in Transformers via Regularized Nonlocal FunctionalsNeural Information Processing Systems (NeurIPS), 2023

Tam Nguyen

Tan-Minh Nguyen

Richard G. Baraniuk

189

01 Dec 2023

The Efficiency Spectrum of Large Language Models: An Algorithmic Survey

Tianyi Chen

393

01 Dec 2023

HOT: Higher-Order Dynamic Graph Representation Learning with Efficient TransformersLOG IN (LOG IN), 2023

Maciej Besta

Afonso Claudino Catarino

452

30 Nov 2023

DSS: Synthesizing long Digital Ink using Data augmentation, Style encoding and Split generationIEEE International Conference on Document Analysis and Recognition (ICDAR), 2023

335

29 Nov 2023

ShapeGPT: 3D Shape Generation with A Unified Multi-modal Language ModelIEEE transactions on multimedia (IEEE TMM), 2023

457

29 Nov 2023

RACE-IT: A Reconfigurable Analog Computing Engine for In-Memory Transformer Acceleration

308

29 Nov 2023

Advancing State of the Art in Language Modeling

David Herel

Tomas Mikolov

273

28 Nov 2023

On the Long Range Abilities of Transformers

Itamar Zimerman

Lior Wolf

250

28 Nov 2023

Active Foundational Models for Fault Diagnosis of Electrical Motors

Sriram Anbalagan

GP SaiShashank

D. Agarwal

Balasubramaniam Natarajan

Babji Srinivasan

AI4CE

141

27 Nov 2023

Who is leading in AI? An analysis of industry AI research

Ben Cottier

T. Besiroglu

David Owen

309

24 Nov 2023

CRISP: Hybrid Structured Sparsity for Class-aware Model PruningDesign, Automation and Test in Europe (DATE), 2023

195

24 Nov 2023

Looped Transformers are Better at Learning Learning AlgorithmsInternational Conference on Learning Representations (ICLR), 2023

Liu Yang

Kangwook Lee

Robert D. Nowak

Dimitris Papailiopoulos

441

21 Nov 2023

Shedding the Bits: Pushing the Boundaries of Quantization with Minifloats on FPGAsInternational Conference on Field-Programmable Logic and Applications (FPL), 2023

Shivam Aggarwal

Hans Jakob Damsgaard

Alessandro Pappalardo

284

21 Nov 2023

Advancing Transformer Architecture in Long-Context Large Language Models: A Comprehensive Survey

...

367

21 Nov 2023

Long-MIL: Scaling Long Contextual Multiple Instance Learning for Histopathology Whole Slide Image Analysis

278

21 Nov 2023

CDMPP: A Device-Model Agnostic Framework for Latency Prediction of Tensor Programs

327

16 Nov 2023

GistScore: Learning Better Representations for In-Context Example Selection with Gist Bottlenecks

216

16 Nov 2023

Never Lost in the Middle: Improving Large Language Models via Attention Strengthening Question AnsweringAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

...

Qianguosun Qianguosun

218

15 Nov 2023

Large Language Models are legal but they are not: Making the case for a powerful LegalLLM

247

15 Nov 2023

Predicting generalization performance with correctness discriminatorsConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Yuekun Yao

Alexander Koller

368

15 Nov 2023

Memory-efficient Stochastic methods for Memory-based Transformers

Vishwajit Kumar Vishnu

C. Sekhar

113

14 Nov 2023

Argumentation Element Annotation Modeling using XLNet

Christopher M. Ormerod

Amy Burkhardt

Mackenzie Young

Susan Lottridge

125

10 Nov 2023

Large Human Language Models: A Need and the Challenges

Nikita Soni

H. Andrew Schwartz

João Sedoc

Niranjan Balasubramanian

ALM AI4CE

265

09 Nov 2023

CLearViD: Curriculum Learning for Video Description

Cheng-Yu Chuang

Pooyan Fazli

148

08 Nov 2023

Recursion in Recursion: Two-Level Nested Recursion for Length Generalization with Scalability

Jishnu Ray Chowdhury

Cornelia Caragea

227

08 Nov 2023

A Hierarchical Spatial Transformer for Massive Point Samples in Continuous Space

256

08 Nov 2023

Multi-resolution Time-Series Transformer for Long-term Forecasting

Yitian Zhang

192

07 Nov 2023

p-Laplacian Transformer

186

06 Nov 2023

Co-training and Co-distillation for Quality Improvement and Compression of Language ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

346

06 Nov 2023

Sentiment Analysis through LLM Negotiations

Jiwei Li

188

03 Nov 2023

DiffDub: Person-generic Visual Dubbing Using Inpainting Renderer with Diffusion Auto-encoderIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023

Chenpeng Du

Kai Yu

296

03 Nov 2023

FlashDecoding++: Faster Large Language Model Inference on GPUs

554

02 Nov 2023

Task-Agnostic Low-Rank Adapters for Unseen English DialectsConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Zedian Xiao

William B. Held

Yanchen Liu

Diyi Yang

258

02 Nov 2023

Network Contention-Aware Cluster Scheduling with Reinforcement LearningInternational Conference on Parallel and Distributed Systems (ICPADS), 2023

Junyeol Ryu

Jeongyoon Eo

GNN

31 Oct 2023

ROAM: memory-efficient large DNN training via optimized operator ordering and memory layout

Ziji Shi

Yong Li

151

30 Oct 2023

Stacking the Odds: Transformer-Based Ensemble for AI-Generated Text DetectionAustralasian Language Technology Association Workshop (ALTA), 2023

Duke Nguyen

Khaing Myat Noe Naing

Aditya Joshi

212

29 Oct 2023

TorchDEQ: A Library for Deep Equilibrium Models

Zhengyang Geng

J. Zico Kolter

VLM

424

28 Oct 2023

Transformers as Graph-to-Graph Models

James Henderson

Alireza Mohammadshahi

Andrei Catalin Coman

Lesly Miculicich

GNN

198

27 Oct 2023

Sliceformer: Make Multi-head Attention as Simple as Sorting in Discriminative Tasks

Shen Yuan

Hongteng Xu

166

26 Oct 2023

CLEX: Continuous Length Extrapolation for Large Language ModelsInternational Conference on Learning Representations (ICLR), 2023

Xin Li

268

25 Oct 2023

How Much Context Does My Attention-Based ASR System Need?Interspeech (Interspeech), 2023

Robert Flynn

Anton Ragni

238

24 Oct 2023

TRAMS: Training-free Memory Selection for Long-range Language ModelingConference on Empirical Methods in Natural Language Processing (EMNLP), 2023

Haofei Yu

Cunxiang Wang

Yue Zhang

Wei Bi

RALM

295

24 Oct 2023