Data Noising as Smoothing in Neural Network Language Models

7 March 2017

Jiwei Li

Dan Jurafsky

Papers citing "Data Noising as Smoothing in Neural Network Language Models"

50 / 80 papers shown

Title
A Little Human Data Goes A Long Way Dhananjay Ashok Jonathan May SyDa 120 4 0 17 Oct 2024
Reducing and Exploiting Data Augmentation Noise through Meta Reweighting Contrastive Learning for Text Classification Guanyi Mou Yichuan Li Kyumin Lee 105 3 0 26 Sep 2024
Predictive Dynamic Fusion Bing Cao Yinan Xia Yi Ding Changqing Zhang Qinghua Hu 69 11 0 07 Jun 2024
A Comprehensive Survey on Data Augmentation Zaitian Wang Pengfei Wang Kunpeng Liu Pengyang Wang Yanjie Fu Chang-Tien Lu Charu Aggarwal Jian Pei Yuanchun Zhou ViT 160 26 0 15 May 2024
Impact of Visual Context on Noisy Multimodal NMT: An Empirical Study for English to Indian Languages Baban Gain Dibyanayan Bandyopadhyay Subhabrata Mukherjee Chandranath Adak Asif Ekbal 90 2 0 30 Aug 2023
Provable Dynamic Fusion for Low-Quality Multimodal Data Qingyang Zhang Haitao Wu Changqing Zhang Qinghua Hu Huazhu Fu Qiufeng Wang Xi Peng 111 62 0 03 Jun 2023
Attributable and Scalable Opinion Summarization Tom Hosking Hao Tang Mirella Lapata 71 9 0 19 May 2023
DropDim: A Regularization Method for Transformer Networks Hao Zhang Dan Qu Kejia Shao Xu Yang 76 12 0 20 Apr 2023
Self-Improving-Leaderboard(SIL): A Call for Real-World Centric Natural Language Processing Leaderboards Chanjun Park Hyeonseok Moon Seolhwa Lee Jaehyung Seo Sugyeong Eo Heu-Jeoung Lim 57 2 0 20 Mar 2023
Selective Text Augmentation with Word Roles for Low-Resource Text Classification Biyang Guo Songqiao Han Hailiang Huang 56 9 0 04 Sep 2022
A Feature-space Multimodal Data Augmentation Technique for Text-video Retrieval Alex Falcon G. Serra Oswald Lanz VGen 79 27 0 03 Aug 2022
Global Mixup: Eliminating Ambiguity with Clustering Xiangjin Xie Yongqian Li Wang Chen Kai Ouyang Li Jiang Haitao Zheng 48 3 0 06 Jun 2022
Transformers as Neural Augmentors: Class Conditional Sentence Generation via Variational Bayes M. Bilici M. Amasyalı ViT 54 2 0 19 May 2022
TreeMix: Compositional Constituency-based Data Augmentation for Natural Language Understanding Le Zhang Zichao Yang Diyi Yang 101 25 0 12 May 2022
BLISS: Robust Sequence-to-Sequence Learning via Self-Supervised Input Representation Zheng Zhang Liang Ding Dazhao Cheng Xuebo Liu Min Zhang Dacheng Tao 72 11 0 16 Apr 2022
CipherDAug: Ciphertext based Data Augmentation for Neural Machine Translation Nishant Kambhatla Logan Born Anoop Sarkar 84 16 0 01 Apr 2022
Hierarchical Sketch Induction for Paraphrase Generation Tom Hosking Hao Tang Mirella Lapata BDL 104 32 0 07 Mar 2022
Syntax-based data augmentation for Hungarian-English machine translation Attila Nagy Patrick Nanys Balázs Frey Konrád Bence Bial Judit Ács 38 2 0 18 Jan 2022
Developing neural machine translation models for Hungarian-English A. Nagy 87 1 0 07 Nov 2021
GNN-LM: Language Modeling based on Global Contexts via GNN Yuxian Meng Shi Zong Xiaoya Li Xiaofei Sun Tianwei Zhang Leilei Gan Jiwei Li LRM 125 39 0 17 Oct 2021
Metadata Shaping: Natural Language Annotations for the Tail Simran Arora Sen Wu Enci Liu Christopher Ré 64 0 0 16 Oct 2021
Data Augmentation Approaches in Natural Language Processing: A Survey Bohan Li Yutai Hou Wanxiang Che 219 284 0 05 Oct 2021
OpenViDial 2.0: A Larger-Scale, Open-Domain Dialogue Generation Dataset with Visual Contexts Shuhe Wang Yuxian Meng Xiaoya Li Xiaofei Sun Rongbin Ouyang Jiwei Li MLLM VLM 91 22 0 27 Sep 2021
Rethinking Data Augmentation for Low-Resource Neural Machine Translation: A Multi-Task Learning Approach Víctor M. Sánchez-Cartagena M. Esplà-Gomis Juan Antonio Pérez-Ortiz Felipe Sánchez-Martínez 67 27 0 08 Sep 2021
AEDA: An Easier Data Augmentation Technique for Text Classification Akbar Karimi L. Rossi Andrea Prati 83 157 0 30 Aug 2021
Influence-guided Data Augmentation for Neural Tensor Completion Sejoon Oh Sungchul Kim Ryan Rossi Srijan Kumar 77 11 0 23 Aug 2021
A Survey on Data Augmentation for Text Classification Markus Bayer M. Kaufhold Christian A. Reuter 145 354 0 07 Jul 2021
An Empirical Survey of Data Augmentation for Limited Data Learning in NLP Jiaao Chen Derek Tam Colin Raffel Joey Tianyi Zhou Diyi Yang 113 178 0 14 Jun 2021
Factorising Meaning and Form for Intent-Preserving Paraphrasing Tom Hosking Mirella Lapata OOD 76 41 0 31 May 2021
Data Augmentation for Text Generation Without Any Augmented Data Wei Bi Huayang Li Jiacheng Huang 57 7 0 28 May 2021
Not Far Away, Not So Close: Sample Efficient Nearest Neighbour Data Augmentation via MiniMax Ehsan Kamalloo Mehdi Rezagholizadeh Peyman Passban Ali Ghodsi AAML 62 17 0 28 May 2021
Empirical Error Modeling Improves Robustness of Noisy Neural Sequence Labeling Marcin Namysl Sven Behnke Joachim Kohler NoLa 39 5 0 25 May 2021
Consistency Training with Virtual Adversarial Discrete Perturbation Jungsoo Park Gyuwan Kim Jaewoo Kang 76 15 0 15 Apr 2021
Rethinking Perturbations in Encoder-Decoders for Fast Training Sho Takase Shun Kiyono 76 46 0 05 Apr 2021
Reweighting Augmented Samples by Minimizing the Maximal Expected Loss Mingyang Yi Lu Hou Lifeng Shang Xin Jiang Qun Liu Zhi-Ming Ma 120 20 0 16 Mar 2021
Neural model robustness for skill routing in large-scale conversational AI systems: A design choice exploration Han Li Sunghyun Park Aswarth Abhilash Dara Jinseok Nam Sungjin Lee Young-Bum Kim Spyros Matsoukas R. Sarikaya 57 9 0 04 Mar 2021
Towards Efficiently Diversifying Dialogue Generation via Embedding Augmentation Yu Cao Liang Ding Zhiliang Tian Meng Fang 82 14 0 02 Mar 2021
N-Shot Learning for Augmenting Task-Oriented Dialogue State Tracking Taha İbrahim Aksu Zhengyuan Liu Min-Yen Kan Nancy F. Chen 55 9 0 27 Feb 2021
Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation Lingyun Feng Minghui Qiu Yaliang Li Haitao Zheng Ying Shen 88 10 0 20 Jan 2021
OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual Contexts Yuxian Meng Shuhe Wang Qinghong Han Xiaofei Sun Leilei Gan Rui Yan Jiwei Li 93 30 0 30 Dec 2020
Data Boost: Text Data Augmentation Through Reinforcement Learning Guided Conditional Generation Ruibo Liu Guangxuan Xu Chenyan Jia Weicheng Ma Lili Wang Soroush Vosoughi 82 109 0 05 Dec 2020
Transformer-Transducers for Code-Switched Speech Recognition Siddharth Dalmia Yuzong Liu S. Ronanki Katrin Kirchhoff 73 47 0 30 Nov 2020
Token Drop mechanism for Neural Machine Translation Huaao Zhang Shigui Qiu Xiangyu Duan Min Zhang 48 14 0 21 Oct 2020
Summarize, Outline, and Elaborate: Long-Text Generation via Hierarchical Supervision from Extractive Summaries Xiaofei Sun Zijun Sun Yuxian Meng Jiwei Li Chun Fan 59 20 0 14 Oct 2020
PHICON: Improving Generalization of Clinical Text De-identification Models via Data Augmentation Xiang Yue Shuang Zhou 58 13 0 11 Oct 2020
Uncertainty-Aware Semantic Augmentation for Neural Machine Translation Xiangpeng Wei Heng Yu Yue Hu Rongxiang Weng Luxi Xing Weihua Luo UQLM BDL 57 22 0 09 Oct 2020
Goal-directed Generation of Discrete Structures with Conditional Generative Models Amina Mollaysa Brooks Paige Alexandros Kalousis 90 9 0 05 Oct 2020
Tell Me How to Ask Again: Question Data Augmentation with Controllable Rewriting in Continuous Space Dayiheng Liu Yeyun Gong Jie Fu Yu Yan Jiusheng Chen Jiancheng Lv Nan Duan M. Zhou 45 37 0 04 Oct 2020
A little goes a long way: Improving toxic language classification despite data scarcity Mika Juuti Tommi Gröndahl Adrian Flanagan Nirmal Asokan 81 25 0 25 Sep 2020
SSMBA: Self-Supervised Manifold Based Data Augmentation for Improving Out-of-Domain Robustness Nathan Ng Kyunghyun Cho Marzyeh Ghassemi 85 146 0 21 Sep 2020