BPEmb: Tokenization-free Pre-trained Subword Embeddings in 275 Languages

5 October 2017

Papers citing "BPEmb: Tokenization-free Pre-trained Subword Embeddings in 275 Languages"

32 / 32 papers shown

Title
Banyan: Improved Representation Learning with Explicit Structure Mattia Opper N. Siddharth 33 1 0 25 Jul 2024
Self-StrAE at SemEval-2024 Task 1: Making Self-Structuring AutoEncoders Learn More With Less Mattia Opper Siddharth Narayanaswamy 31 3 0 02 Apr 2024
Gloss Attention for Gloss-free Sign Language Translation Aoxiong Yin Tianyun Zhong Lilian H. Y. Tang Weike Jin Tao Jin Zhou Zhao SLR 20 37 0 14 Jul 2023
Simulating News Recommendation Ecosystem for Fun and Profit Guangping Zhang Dongsheng Li Hansu Gu Tun Lu Li Shang Ning Gu 16 0 0 23 May 2023
Visual Question Answering: A Survey on Techniques and Common Trends in Recent Literature Ana Claudia Akemi Matsuki de Faria Felype de Castro Bastos Jose Victor Nogueira Alves da Silva Vitor Lopes Fabris Valeska Uchôa Décio Gonccalves de Aguiar Neto C. F. G. Santos 30 23 0 18 May 2023
PWESuite: Phonetic Word Embeddings and Tasks They Facilitate Vilém Zouhar Kalvin Chang Chenxuan Cui Nathaniel Carlson Nathaniel R. Robinson Mrinmaya Sachan David R. Mortensen 34 2 0 05 Apr 2023
Eliciting Latent Predictions from Transformers with the Tuned Lens Nora Belrose Zach Furman Logan Smith Danny Halawi Igor V. Ostrovsky Lev McKinney Stella Biderman Jacob Steinhardt 22 196 0 14 Mar 2023
Uncovering Challenges of Solving the Continuous Gromov-Wasserstein Problem Xavier Aramayo Carrasco Maksim Nekrashevich Petr Mokrov Evgeny Burnaev Alexander Korotin OT 45 5 0 10 Mar 2023
Applying Multilingual Models to Question Answering (QA) Ayrton San Joaquin Filip Skubacz 18 1 0 04 Dec 2022
Few-shot News Recommendation via Cross-lingual Transfer Taicheng Guo Lu Yu B. Shihada Xiangliang Zhang 31 10 0 28 Jul 2022
AsNER -- Annotated Dataset and Baseline for Assamese Named Entity recognition Dhrubajyoti Pathak Sukumar Nandi Priyankoo Sarmah 40 8 0 07 Jul 2022
Annotation Error Detection: Analyzing the Past and Present for a More Coherent Future Jan-Christoph Klie Bonnie Webber Iryna Gurevych 42 43 0 05 Jun 2022
TGANet: Text-guided attention for improved polyp segmentation Nikhil Kumar Tomar Debesh Jha Ulas Bagci Sharib Ali 39 112 0 09 May 2022
Capitalization and Punctuation Restoration: a Survey V. Pais D. Tufis 19 19 0 21 Nov 2021
To Augment or Not to Augment? A Comparative Study on Text Augmentation Techniques for Low-Resource NLP Gözde Gül Sahin 42 33 0 18 Nov 2021
Wine is Not v i n. -- On the Compatibility of Tokenizations Across Languages Antonis Maronikolakis Philipp Dufter Hinrich Schütze 24 17 0 13 Sep 2021
Towards generalisable hate speech detection: a review on obstacles and solutions Wenjie Yin A. Zubiaga 117 164 0 17 Feb 2021
Simple or Complex? Learning to Predict Readability of Bengali Texts Susmoy Chakraborty Mir Tafseer Nayeem Wasi Uddin Ahmad 24 19 0 09 Dec 2020
A Survey on Recent Approaches for Natural Language Processing in Low-Resource Scenarios Michael A. Hedderich Lukas Lange Heike Adel Jannik Strötgen Dietrich Klakow 221 287 0 23 Oct 2020
On a Novel Application of Wasserstein-Procrustes for Unsupervised Cross-Lingual Learning Guillem Ramírez Rumen Dangovski Preslav Nakov M. Soljavcić 22 8 0 18 Jul 2020
SemEval-2020 Task 12: Multilingual Offensive Language Identification in Social Media (OffensEval 2020) Marcos Zampieri Preslav Nakov Sara Rosenthal Pepa Atanasova Georgi Karadzhov Hamdy Mubarak Leon Derczynski Zeses Pitenis cCaugri cColtekin 30 483 0 12 Jun 2020
The SOFC-Exp Corpus and Neural Approaches to Information Extraction in the Materials Science Domain Annemarie Friedrich Heike Adel F. Tomazic Johannes Hingerl Renou Benteau Anika Maruscyk Lukas Lange 27 71 0 04 Jun 2020
Are All Languages Created Equal in Multilingual BERT? Shijie Wu Mark Dredze 25 316 0 18 May 2020
Integrated Eojeol Embedding for Erroneous Sentence Classification in Korean Chatbots Donghyun Choi Ilnam Park M. Shin EungGyun Kim Dong Ryeol Shin 22 1 0 13 Apr 2020
Does BERT Make Any Sense? Interpretable Word Sense Disambiguation with Contextualized Embeddings Gregor Wiedemann Steffen Remus Avi Chawla Chris Biemann 27 174 0 23 Sep 2019
Hierarchical Meta-Embeddings for Code-Switching Named Entity Recognition Genta Indra Winata Zhaojiang Lin Jamin Shin Zihan Liu Pascale Fung 28 19 0 18 Sep 2019
Tree-Transformer: A Transformer-Based Method for Correction of Tree-Structured Data Jacob A. Harer Christopher P. Reale Peter Chin 25 44 0 01 Aug 2019
OmniNet: A unified architecture for multi-modal multi-task learning Subhojeet Pramanik Priyanka Agrawal A. Hussain 27 41 0 17 Jul 2019
Sequence Tagging with Contextual and Non-Contextual Subword Representations: A Multilingual Evaluation Benjamin Heinzerling Michael Strube 13 35 0 04 Jun 2019
Adapting Sequence to Sequence models for Text Normalization in Social Media Ismini Lourentzou Kabir Manghnani ChengXiang Zhai 16 34 0 12 Apr 2019
A Report on the Complex Word Identification Shared Task 2018 Seid Muhie Yimam Chris Biemann S. Malmasi Gustavo Henrique Paetzold Lucia Specia Sanja Štajner Anaïs Tack Marcos Zampieri 21 167 0 24 Apr 2018
Impact of Power System Partitioning on the Efficiency of Distributed Multi-Step Optimization Dongliang Chen A. Bucchiarone Zhihan Lv 23 12 0 31 May 2016