v1v2v3 (latest)

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

9 January 2019

Papers citing "Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context"

50 / 2,022 papers shown

Identifying and Mitigating Privacy Risks Stemming from Language Models: A Survey

Victoria Smith

Ali Shahin Shamsabadi

Carolyn Ashurst

Adrian Weller

PILM

484

27 Sep 2023

Segmentation-Free Streaming Machine TranslationTransactions of the Association for Computational Linguistics (TACL), 2023

Javier Iranzo-Sánchez

245

26 Sep 2023

Natural Language based Context Modeling and Reasoning for Ubiquitous Computing with Large Language Models: A Tutorial

Haoyi Xiong

Jiang Bian

276

24 Sep 2023

Lexical Squad@Multimodal Hate Speech Event Detection 2023: Multimodal Hate Speech Detection using Fused Ensemble ApproachCASE (CASE), 2023

Mohammad Kashif

Mohammad Zohair

Saquib Ali

23 Sep 2023

BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language ModelsInternational Conference on Language Resources and Evaluation (LREC), 2023

409

23 Sep 2023

Unlocking Model Insights: A Dataset for Automated Model Card Generation

162

22 Sep 2023

Classification of Alzheimers Disease with Deep Learning on Eye-tracking DataInternational Conference on Multimodal Interaction (ICMI), 2023

Harshinee Sriram

Cristina Conati

Thalia S. Field

163

22 Sep 2023

What Learned Representations and Influence Functions Can Tell Us About Adversarial ExamplesInternational Joint Conference on Natural Language Processing (IJCNLP), 2023

Shakila Mahjabin Tonni

Mark Dras

TDI AAML GAN

420

19 Sep 2023

Interactive Distillation of Large Single-Topic Corpora of Scientific PapersInternational Conference on Machine Learning and Applications (ICMLA), 2023

Boian S. Alexandrov

152

19 Sep 2023

MelodyGLM: Multi-task Pre-training for Symbolic Melody Generation

Kejun Zhang

208

19 Sep 2023

PoSE: Efficient Context Window Extension of LLMs via Positional Skip-wise TrainingInternational Conference on Learning Representations (ICLR), 2023

Liang Wang

Sujian Li

444

100

19 Sep 2023

Collaborative Three-Stream Transformers for Video CaptioningComputer Vision and Image Understanding (CVIU), 2023

196

18 Sep 2023

Music Generation based on Generative Adversarial Networks with Transformer

219

16 Sep 2023

Boosting End-to-End Multilingual Phoneme Recognition through Exploiting Universal Speech Attributes ConstraintsIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023

Hao Yen

Sabato Marco Siniscalchi

Chin-Hui Lee

177

16 Sep 2023

Augmenting conformers with structured state-space sequence models for online speech recognitionIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023

Krzysztof Choromanski

Tara N. Sainath

RALM

204

15 Sep 2023

Résumé Parsing as Hierarchical Sequence Labeling: An Empirical Study

13 Sep 2023

Native Language Identification with Big Bird EmbeddingsInternational Conference on Language Resources and Evaluation (LREC), 2023

Sergey Kramp

Giovanni Cassani

Chris Emmery

13 Sep 2023

BodyFormer: Semantics-guided 3D Body Gesture Synthesis with TransformerACM Transactions on Graphics (TOG), 2023

Dafei Qin

Taku Komura

136

07 Sep 2023

MuLanTTS: The Microsoft Speech Synthesis System for Blizzard Challenge 2023

236

06 Sep 2023

Language Models for Novelty Detection in System Call Traces

207

05 Sep 2023

ExMobileViT: Lightweight Classifier Extension for Mobile Vision Transformer

04 Sep 2023

LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language ModelsNorth American Chapter of the Association for Computational Linguistics (NAACL), 2023

Heng Ji

Sinong Wang

581

30 Aug 2023

LongBench: A Bilingual, Multitask Benchmark for Long Context UnderstandingAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

Jiajie Zhang

...

Lei Hou

Yuxiao Dong

Jie Tang

Juanzi Li

LLMAG RALM

334

932

28 Aug 2023

AI-Generated Content (AIGC) for Various Data Modalities: A SurveyACM Computing Surveys (ACM Comput. Surv.), 2023

Lin Geng Foo

Hossein Rahmani

Jing Liu

760

27 Aug 2023

Code Llama: Open Foundation Models for Code

Baptiste Rozière

...

Louis Martin

464

2,808

24 Aug 2023

Stabilizing RNN Gradients through Pre-training

Luca Herranz-Celotti

Jean Rouat

242

23 Aug 2023

How Much Temporal Long-Term Context is Needed for Action Segmentation?IEEE International Conference on Computer Vision (ICCV), 2023

Emad Bahrami Rad

Gianpiero Francesca

Juergen Gall

ViT

241

22 Aug 2023

SimDA: Simple Diffusion Adapter for Efficient Video GenerationComputer Vision and Pattern Recognition (CVPR), 2023

Zuxuan Wu

268

105

18 Aug 2023

Learning Computational Efficient Bots with Costly Features

140

18 Aug 2023

Story Visualization by Online Text Augmentation with Context MemoryIEEE International Conference on Computer Vision (ICCV), 2023

263

15 Aug 2023

OctoPack: Instruction Tuning Code Large Language ModelsInternational Conference on Learning Representations (ICLR), 2023

Niklas Muennighoff

365

186

14 Aug 2023

A Novel Ehanced Move Recognition Algorithm Based on Pre-trained Models with Positional Embeddings

H. Wen

Jie Wang

Xiaodong Qiao

169

14 Aug 2023

Detecting Spells in Fantasy Literature with a Transformer Based Artificial Intelligence

Marcel Moravek

Alexander Zender

Andreas Müller

07 Aug 2023

AlphaStar Unplugged: Large-Scale Offline Reinforcement Learning

...

Sergio Gomez Colmenarejo

Aaron van den Oord

Wojciech M. Czarnecki

Nando de Freitas

Oriol Vinyals

OffRL

176

07 Aug 2023

RCMHA: Relative Convolutional Multi-Head Attention for Natural Language Modelling

Herman Sugiharto

Aradea

H. Mubarok

249

07 Aug 2023

Exploring Different Time-series-Transformer (TST) Architectures: A Case Study in Battery Life Prediction for Electric Vehicles (EVs)

Niranjan Sitapure

Atharva Kulkarni

AI4TS

07 Aug 2023

Analysis of the Evolution of Advanced Transformer-Based Language Models: Experiments on Opinion MiningIAES International Journal of Artificial Intelligence (IJ-AI) (IJ-AI), 2023

177

07 Aug 2023

Multi-scale Alternated Attention Transformer for Generalized Stereo MatchingChinese Control and Decision Conference (CCDC), 2023

142

06 Aug 2023

DETR Doesn't Need Multi-Scale or Locality Design

281

03 Aug 2023

Knowledge-aware Collaborative Filtering with Pre-trained Language Model for Personalized Review-based Rating PredictionIEEE Transactions on Knowledge and Data Engineering (TKDE), 2023

Wei Zhang

02 Aug 2023

LLMs4OL: Large Language Models for Ontology LearningInternational Workshop on the Semantic Web (SW), 2023

Hamed Babaei Giglou

Jennifer D'Souza

Sören Auer

196

136

31 Jul 2023

Thinker: Learning to Plan and ActNeural Information Processing Systems (NeurIPS), 2023

294

27 Jul 2023

Explainable Topic-Enhanced Argument Mining from Heterogeneous Sources

Yulan He

104

22 Jul 2023

L-Eval: Instituting Standardized Evaluation for Long Context Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2023

Lingpeng Kong

Xipeng Qiu

ELM ALM

469

202

20 Jul 2023

Integrating a Heterogeneous Graph with Entity-aware Self-attention using Relative Position Labels for Reading Comprehension Model

Shima Foolad

Kourosh Kiani

304

19 Jul 2023

Does Circuit Analysis Interpretability Scale? Evidence from Multiple Choice Capabilities in Chinchilla

316

141

18 Jul 2023

Attention over pre-trained Sentence Embeddings for Long Document Classification

Amine Abdaoui

Sourav Dutta

129

18 Jul 2023

CSSL-RHA: Contrastive Self-Supervised Learning for Robust Handwriting Authentication

217

18 Jul 2023

Copy Is All You NeedInternational Conference on Learning Representations (ICLR), 2023

246

13 Jul 2023

A Comprehensive Overview of Large Language ModelsACM Transactions on Intelligent Systems and Technology (ACM TIST), 2023

Saeed Anwar

Muhammad Usman

865

1,229

12 Jul 2023