Sequence Length is a Domain: Length-based Overfitting in Transformer Models

15 September 2021

Papers citing "Sequence Length is a Domain: Length-based Overfitting in Transformer Models"

10 / 10 papers shown

Title
TextTIGER: Text-based Intelligent Generation with Entity Prompt Refinement for Text-to-Image Generation Shintaro Ozaki Kazuki Hayashi Yusuke Sakai Jingun Kwon Hidetaka Kamigaito Katsuhiko Hayashi Manabu Okumura Taro Watanabe VLM 79 0 0 25 Apr 2025
How Effective are State Space Models for Machine Translation? Hugo Pitorro Pavlo Vasylenko Marcos Vinícius Treviso André F. T. Martins Mamba 35 2 0 07 Jul 2024
Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling Liliang Ren Yang Liu Yadong Lu Yelong Shen Chen Liang Weizhu Chen Mamba 64 54 0 11 Jun 2024
MathWriting: A Dataset For Handwritten Mathematical Expression Recognition Philippe Gervais Asya Fadeeva Andrii Maksai 23 4 0 16 Apr 2024
Latent Feature-based Data Splits to Improve Generalisation Evaluation: A Hate Speech Detection Case Study Maike Zufle Verna Dankers Ivan Titov 17 0 0 16 Nov 2023
Assessing Privacy Risks in Language Models: A Case Study on Summarization Tasks Ruixiang Tang Gord Lueck Rodolfo Quispe Huseyin A. Inan Janardhan Kulkarni Xia Hu 13 6 0 20 Oct 2023
Token-Level Fitting Issues of Seq2seq Models Guangsheng Bao Zhiyang Teng Yue Zhang 14 0 0 08 May 2023
Preventing RNN from Using Sequence Length as a Feature Jean-Thomas Baillargeon Hélène Cossette Luc Lamontagne 16 1 0 16 Dec 2022
Six Challenges for Neural Machine Translation Philipp Koehn Rebecca Knowles AAML AIMat 208 1,202 0 12 Jun 2017
Effective Approaches to Attention-based Neural Machine Translation Thang Luong Hieu H. Pham Christopher D. Manning 214 7,687 0 17 Aug 2015