v1v2v3v4 (latest)

Quality at a Glance: An Audit of Web-Crawled Multilingual Datasets

Transactions of the Association for Computational Linguistics (TACL), 2021

22 March 2021

Nasanbayar Ulzii-Orshikh

Annette Rios Gonzales

Andre Niyongabo Rubungo

Toan Q. Nguyen

Mathias Müller

A. Muller

Shamsuddeen Hassan Muhammad

N. Muhammad

Ayanda Mnyakeni

Jamshidbek Mirzakhalov

Tapiwanashe Matangira

Bonaventure F. P. Dossou

ArXiv (abs)PDF HTML HuggingFace (3 upvotes)

Papers citing "Quality at a Glance: An Audit of Web-Crawled Multilingual Datasets"

41 / 191 papers shown

A Few Thousand Translations Go a Long Way! Leveraging Pre-trained Models for African News TranslationNorth American Chapter of the Association for Computational Linguistics (NAACL), 2022

David Ifeoluwa Adelani

Jesujoba Oluwadara Alabi

Angela Fan

Julia Kreutzer

Xiaoyu Shen

...

441

130

04 May 2022

Data Governance in the Age of Large-Scale Data-Driven Language TechnologyConference on Fairness, Accountability and Transparency (FAccT), 2022

...

224

04 May 2022

Handling and Presenting Harmful Text in NLP ResearchConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

290

29 Apr 2022

RobBERTje: a Distilled Dutch BERT Model

Pieter Delobelle

Thomas Winters

Bettina Berendt

194

28 Apr 2022

The Risks of Machine Learning Systems

Samson Tan

Araz Taeihagh

K. Baxter

130

21 Apr 2022

Language Contamination Helps Explain the Cross-lingual Capabilities of English Pretrained ModelsConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

Terra Blevins

Luke Zettlemoyer

312

103

17 Apr 2022

mGPT: Few-Shot Learners Go MultilingualTransactions of the Association for Computational Linguistics (TACL), 2022

Alena Fenogenova

360

190

15 Apr 2022

GPT-NeoX-20B: An Open-Source Autoregressive Language Model

...

371

949

14 Apr 2022

Experimental Standards for Deep Learning in Natural Language Processing ResearchConference on Empirical Methods in Natural Language Processing (EMNLP), 2022

Daniel Varab

Christian Hardmeier

260

13 Apr 2022

Considerations for Multilingual Wikipedia Research

Isaac Johnson

Emily A. Lescak

130

05 Apr 2022

One Country, 700+ Languages: NLP Challenges for Underrepresented Languages and Dialects in IndonesiaAnnual Meeting of the Association for Computational Linguistics (ACL), 2022

...

226

126

24 Mar 2022

Pre-Trained Multilingual Sequence-to-Sequence Models: A Hope for Low-Resource Language Translation?Findings (Findings), 2022

David Ifeoluwa Adelani

Ruisi Su

Arya D. McCarthy

VLM

345

16 Mar 2022

Does Corpus Quality Really Matter for Low-Resource Languages?Conference on Empirical Methods in Natural Language Processing (EMNLP), 2022

Mikel Artetxe

Itziar Aldabe

Rodrigo Agerri

Olatz Perez-de-Viñaspre

Aitor Soroa Etxabe

227

15 Mar 2022

Can Synthetic Translations Improve Bitext Quality?Annual Meeting of the Association for Computational Linguistics (ACL), 2022

Eleftheria Briakou

Marine Carpuat

144

15 Mar 2022

Toward More Meaningful Resources for Lower-resourced LanguagesFindings (Findings), 2022

Constantine Lignos

Nolan Holley

Chester Palen-Michel

Jonne Saleva

141

24 Feb 2022

Sequence-to-Sequence Resources for Catalan

Ona de Gibert

Ksenia Kharitonova

B. Figueras

Jordi Armengol-Estapé

Maite Melero

14 Feb 2022

Cedille: A large autoregressive French language model

Martin Müller

Florian Laurent

196

07 Feb 2022

Documenting Geographically and Contextually Diverse Data Sources: The BigScience Catalogue of Language Data and Resources

Angelina McMillan-Major

...

Daniel Alexander van Strien

Yacine Jernite

209

25 Jan 2022

Towards a Cleaner Document-Oriented Multilingual Crawled CorpusInternational Conference on Language Resources and Evaluation (LREC), 2022

203

189

17 Jan 2022

Multilingual Open Text Release 1: Public Domain News in 44 LanguagesInternational Conference on Language Resources and Evaluation (LREC), 2022

Chester Palen-Michel

June-Woo Kim

Constantine Lignos

VLM

136

14 Jan 2022

A Warm Start and a Clean Crawled Corpus -- A Recipe for Good Language ModelsInternational Conference on Language Resources and Evaluation (LREC), 2022

Vésteinn Snæbjarnarson

Haukur Barri Símonarson

Pétur Orri Ragnarsson

Svanhvít Lilja Ingólfsdóttir

H. Jónsson

Vilhjálmur Þorsteinsson

H. Einarsson

270

14 Jan 2022

Sentiment Analysis with Deep Learning Models: A Comparative Study on a Decade of Sinhala Language Facebook DataInternational Conference on Artificial Intelligence in Electronics Engineering (AIEE), 2022

Gihan Weeraprameshwara

Vihanga Jayawickrama

Nisansa de Silva

Yudhanjaya Wijeratne

150

11 Jan 2022

DOCmT5: Document-Level Pretraining of Multilingual Language Models

156

16 Dec 2021

Ethical and social risks of harm from Language Models

...

Iason Gabriel

535

1,307

08 Dec 2021

Seeking Sinhala Sentiment: Predicting Facebook Reactions of Sinhala Posts

Vihanga Jayawickrama

Gihan Weeraprameshwara

Nisansa de Silva

Yudhanjaya Wijeratne

128

01 Dec 2021

Analysis of Data Augmentation Methods for Low-Resource Maltese ASR

161

15 Nov 2021

BitextEdit: Automatic Bitext Editing for Improved Low-Resource Machine Translation

Eleftheria Briakou

Sida Wang

Luke Zettlemoyer

Marjan Ghazvininejad

179

12 Nov 2021

Recent Advances in Natural Language Processing via Large Pre-Trained Language Models: A SurveyACM Computing Surveys (CSUR), 2021

Bonan Min

Hayley L Ross

Elior Sulem

Amir Pouran Ben Veyseh

429

1,365

01 Nov 2021

PAGnol: An Extra-Large French Generative Model

213

16 Oct 2021

Sparks: Inspiration for Science Writing using Language Models

282

190

14 Oct 2021

Few-shot Controllable Style Transfer for Low-Resource Multilingual Settings

195

14 Oct 2021

Training Dynamic based data filtering may not work for NLP datasets

118

19 Sep 2021

Datasets: A Community Library for Natural Language ProcessingConference on Empirical Methods in Natural Language Processing (EMNLP), 2021

Quentin Lhoest

Albert Villanova del Moral

...

579

705

07 Sep 2021

Survey of Low-Resource Machine TranslationComputational Linguistics (CL), 2021

Barry Haddow

Rachel Bawden

Antonio Valerio Miceli Barone

Jindvrich Helcl

Alexandra Birch

AIMat

502

196

01 Sep 2021

AraT5: Text-to-Text Transformers for Arabic Language GenerationAnnual Meeting of the Association for Computational Linguistics (ACL), 2021

El Moatez Billah Nagoudi

AbdelRahim Elmadany

Muhammad Abdul-Mageed

348

156

31 Aug 2021

Neural Machine Translation for Low-Resource Languages: A SurveyACM Computing Surveys (CSUR), 2021

Surangika Ranathunga

E. Lee

Marjana Prifti Skenduli

Ravi Shekhar

Mehreen Alam

Rishemjit Kaur

321

322

29 Jun 2021

What's in the Box? A Preliminary Analysis of Undesirable Content in the Common Crawl CorpusAnnual Meeting of the Association for Computational Linguistics (ACL), 2021

A. Luccioni

J. Viviano

365

136

06 May 2021

Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled CorpusConference on Empirical Methods in Natural Language Processing (EMNLP), 2021

Dirk Groeneveld

309

562

18 Apr 2021

Samanantar: The Largest Publicly Available Parallel Corpora Collection for 11 Indic LanguagesTransactions of the Association for Computational Linguistics (TACL), 2021

...

369

266

12 Apr 2021

The Effect of Domain and Diacritics in Yorùbá-English Neural Machine TranslationMachine Translation Summit (MT Summit), 2021

David Ifeoluwa Adelani

Dana Ruiter

Jesujoba Oluwadara Alabi

240

15 Mar 2021

Data and its (dis)contents: A survey of dataset development and use in machine learning research

Amandalynne Paullada

Inioluwa Deborah Raji

Emily M. Bender

Emily L. Denton

A. Hanna

313

599

09 Dec 2020