v1v2v3 (latest)

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

9 January 2019

Papers citing "Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context"

50 / 2,022 papers shown

CritiPrefill: A Segment-wise Criticality-based Approach for Prefilling Acceleration in LLMsIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2024

Junlin Lv

Yuan Feng

287

19 Sep 2024

StyleTalk++: A Unified Framework for Controlling the Speaking Styles of Talking HeadsIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024

Suzhen Wang

Yifeng Ma

Yu Ding

Zhipeng Hu

Changjie Fan

Tangjie Lv

Zhidong Deng

Xin Yu

260

14 Sep 2024

Exploring SSL Discrete Tokens for Multilingual ASR

Mingyu Cui

Daxin Tan

Yifan Yang

Dingdong Wang

Huimeng Wang

Xiao Chen

Xie Chen

Xunying Liu

257

13 Sep 2024

Exploring SSL Discrete Speech Features for Zipformer-based Contextual ASR

246

13 Sep 2024

Inf-MLLM: Efficient Streaming Inference of Multimodal Large Language Models on a Single GPU

Zhenyu Ning

Jieru Zhao

Qihao Jin

Wenchao Ding

Minyi Guo

11 Sep 2024

Multimodal Emotion Recognition with Vision-language Prompting and Modality Dropout

Zhongliang Liu

152

11 Sep 2024

DA-MoE: Towards Dynamic Expert Allocation for Mixture-of-Experts Models

Maryam Akhavan Aghdam

Hongpeng Jin

Yanzhao Wu

MoE

214

10 Sep 2024

DetoxBench: Benchmarking Large Language Models for Multitask Fraud & Abuse Detection

Joymallya Chakraborty

144

09 Sep 2024

An overview of domain-specific foundation model: key technologies, applications and challengesScience China Information Sciences (Sci. China Inf. Sci.), 2024

482

06 Sep 2024

Learning in Order! A Sequential Strategy to Learn Invariant Features for Multimodal Sentiment AnalysisACM Multimedia (MM), 2024

Buzhou Tang

211

05 Sep 2024

The Compressor-Retriever Architecture for Language Model OS

266

02 Sep 2024

DataSculpt: Crafting Data Landscapes for Long-Context LLMs through Multi-Objective Partitioning

...

Weipeng Chen

Guosheng Dong

Bin Cui

Wentao Zhang

217

02 Sep 2024

MMT-BERT: Chord-aware Symbolic Music Generation Based on Multitrack Music Transformer and MusicBERTInternational Society for Music Information Retrieval Conference (ISMIR), 2024

244

02 Sep 2024

MemLong: Memory-Augmented Retrieval for Long Text Modeling

Min Zhang

162

30 Aug 2024

157

29 Aug 2024

HLogformer: A Hierarchical Transformer for Representing Log Data

194

29 Aug 2024

Evaluating Credit VIX (CDS IV) Prediction Methods with Incremental Batch Learning

Robert Taylor

27 Aug 2024

A Survey of Large Language Models for European Languages

Wazir Ali

S. Pyysalo

379

27 Aug 2024

Writing in the Margins: Better Inference Pattern for Long Context Retrieval

197

27 Aug 2024

Bengali Sign Language Recognition through Hand Pose Estimation using Multi-Branch Spatial-Temporal Attention Model

Abu Saleh Musa Miah

Md. Al-Hasan

Md Hadiuzzaman

Muhammad Nazrul Islam

Jungpil Shin

SLR

163

26 Aug 2024

$Mixed Sparsity Training: Achieving 4$\times$ FLOP Reduction for Transformer Pretraining$

Mixed Sparsity Training: Achieving 4

\times

FLOP Reduction for Transformer Pretraining

Pihe Hu

Shaolong Li

Longbo Huang

193

21 Aug 2024

Multilingual Needle in a Haystack: Investigating Long-Context Behavior of Multilingual Large Language ModelsNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

228

19 Aug 2024

Image-based Freeform Handwriting Authentication with Energy-oriented Self-Supervised LearningIEEE transactions on multimedia (IEEE TMM), 2024

Changwen Zheng

183

19 Aug 2024

MAT-SED: A Masked Audio Transformer with Masked-Reconstruction Based Pre-training for Sound Event DetectionInterspeech (Interspeech), 2024

Pengfei Cai

Yan Song

Kang Li

Haoyu Song

Ian Mcloughlin

225

16 Aug 2024

Survey: Transformer-based Models in Data Modality Conversion

225

08 Aug 2024

NACL: A General and Effective KV Cache Eviction Framework for LLMs at Inference TimeAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

Zhenyu Zhang

Yu Sun

253

07 Aug 2024

SwinShadow: Shifted Window for Ambiguous Adjacent Shadow Detection

Yonghui Wang

Shaokai Liu

Li Li

Wengang Zhou

Houqiang Li

ViT

215

07 Aug 2024

Clustering and Mining Accented Speech for Inclusive and Fair Speech Recognition

118

05 Aug 2024

Long Input Benchmark for Russian Analysis

161

05 Aug 2024

DRFormer: Multi-Scale Transformer Utilizing Diverse Receptive Fields for Long Time-Series ForecastingInternational Conference on Information and Knowledge Management (CIKM), 2024

177

05 Aug 2024

Fuzz-Testing Meets LLM-Based Agents: An Automated and Efficient Framework for Jailbreaking Text-To-Image Generation ModelsIEEE Symposium on Security and Privacy (S&P), 2024

433

01 Aug 2024

Emotion-driven Piano Music Generation via Two-stage Disentanglement and Functional Representation

230

30 Jul 2024

Mixture of Nested Experts: Adaptive Processing of Visual TokensNeural Information Processing Systems (NeurIPS), 2024

269

29 Jul 2024

Practical and Reproducible Symbolic Music Generation by Large Language Models with Structural Embeddings

253

29 Jul 2024

QT-TDM: Planning with Transformer Dynamics Model and Autoregressive Q-Learning

Mostafa Kotb

C. Weber

Muhammad Burhan Hafez

Stefan Wermter

234

26 Jul 2024

VILA^2

: VILA Augmented VILA

Song Han

250

24 Jul 2024

Dependency Transformer Grammars: Integrating Dependency Structures into Transformer Language Models

Yida Zhao

Chao Lou

Kewei Tu

212

24 Jul 2024

What Matters in Explanations: Towards Explainable Fake Review Detection Focusing on Transformers

254

24 Jul 2024

MINI-SEQUENCE TRANSFORMER: Optimizing Intermediate Memory for Long Sequences Training

264

22 Jul 2024

Recent Advances in Generative AI and Large Language Models: Current Status, Challenges, and Perspectives

D. Hagos

Rick Battle

Danda B. Rawat

LM&MA OffRL

471

20 Jul 2024

On Pre-training of Multimodal Language Models Customized for Chart Understanding

360

19 Jul 2024

Transformer-based Single-Cell Language Model: A Survey

217

18 Jul 2024

Retrieval-Enhanced Machine Learning: Synthesis and Opportunities

367

17 Jul 2024

Genomic Language Models: Opportunities and Challenges

339

16 Jul 2024

Scaling 3D Reasoning with LMMs to Large Robot Mission Environments Using Datagraphs

249

15 Jul 2024

InfiniMotion: Mamba Boosts Memory in Transformer for Arbitrary Long Motion Generation

Akide Liu

Bohan Zhuang

155

14 Jul 2024

Is Contrasting All You Need? Contrastive Learning for the Detection and Attribution of AI-generated Text

374

12 Jul 2024

Tailored Design of Audio-Visual Speech Recognition Models using Branchformers

David Gimeno-Gómez

Carlos David Martínez Hinarejos

414

09 Jul 2024

AI Safety in Generative AI Large Language Models: A Survey

Lina Yao

349

06 Jul 2024

CLIPVQA:Video Quality Assessment via CLIP

Yuan-Gen Wang

287

06 Jul 2024