IndicNLG Benchmark: Multilingual Datasets for Diverse NLG Tasks in Indic Languages

10 March 2022

Mitesh M. Khapra

Papers citing "IndicNLG Benchmark: Multilingual Datasets for Diverse NLG Tasks in Indic Languages"

32 / 32 papers shown

Title
Llama-3-Nanda-10B-Chat: An Open Generative Large Language Model for Hindi Monojit Choudhury Shivam Chauhan Rocktim Jyoti Das Dhruv Sahnan Xudong Han ... Rituraj Joshi Gurpreet Gosal Avraham Sheinin Natalia Vassilieva Preslav Nakov 21 0 0 08 Apr 2025
IndicMMLU-Pro: Benchmarking Indic Large Language Models on Multi-Task Language Understanding Sankalp KJ Ashutosh Kumar Laxmaan Balaji Nikunj Kotecha Vinija Jain Aman Chadha S. Bhaduri ELM 85 1 0 27 Jan 2025
Adapting Multilingual LLMs to Low-Resource Languages using Continued Pre-training and Synthetic Corpus Raviraj Joshi Kanishk Singla Anusha Kamath Raunak Kalani Rakesh Paul Utkarsh Vaidya Sanjay Singh Chauhan Niranjan Wartikar Eileen Long SyDa CLL 31 2 0 18 Oct 2024
LexSumm and LexT5: Benchmarking and Modeling Legal Summarization Tasks in English T. Y. S. S. Santosh Cornelius Weiss Matthias Grabmair AILaw ELM 42 2 0 12 Oct 2024
IndicSentEval: How Effectively do Multilingual Transformer Models encode Linguistic Properties for Indic Languages? Akhilesh Aravapalli Mounika Marreddy S. Oota R. Mamidi Manish Gupta 29 0 0 03 Oct 2024
Building pre-train LLM Dataset for the INDIC Languages: a case study on Hindi Shantipriya Parida Shakshi Panwar Kusum Lata Sanskruti Mishra Sambit Sekhar 14 2 0 13 Jul 2024
PARIKSHA : A Large-Scale Investigation of Human-LLM Evaluator Agreement on Multilingual and Multi-Cultural Data Ishaan Watts Varun Gumma Aditya Yadavalli Vivek Seshadri Manohar Swaminathan Sunayana Sitaram ELM 38 8 0 21 Jun 2024
SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages Holy Lovenia Rahmad Mahendra Salsabil Maulana Akbar Lester James Validad Miranda Jennifer Santoso ... Genta Indra Winata Ruochen Zhang Fajri Koto Zheng-Xin Yong Samuel Cahyawijaya 77 9 0 14 Jun 2024
Decoding the Diversity: A Review of the Indic AI Research Landscape Sankalp KJ Vinija Jain S. Bhaduri Tamoghna Roy Aman Chadha 47 5 0 13 Jun 2024
IndicGenBench: A Multilingual Benchmark to Evaluate Generation Capabilities of LLMs on Indic Languages Harman Singh Nitish Gupta Shikhar Bharadwaj Dinesh Tewari Partha P. Talukdar ELM 29 22 0 25 Apr 2024
Revealing Trends in Datasets from the 2022 ACL and EMNLP Conferences Jesse Atuhurra Hidetaka Kamigaito 36 0 0 31 Mar 2024
LLMs Are Few-Shot In-Context Low-Resource Language Learners Samuel Cahyawijaya Holy Lovenia Pascale Fung 38 34 0 25 Mar 2024
Do Not Worry if You Do Not Have Data: Building Pretrained Language Models Using Translationese Meet Doshi Raj Dabre Pushpak Bhattacharyya SyDa 19 2 0 20 Mar 2024
mEdIT: Multilingual Text Editing via Instruction Tuning Vipul Raheja Dimitris Alikaniotis Vivek Kulkarni Bashar Alhafni Dhruv Kumar VLM 30 6 0 26 Feb 2024
Airavata: Introducing Hindi Instruction-tuned LLM Jay Gala Thanmay Jayakumar Jaavid Aktar Husain M. AswanthKumar Mohammed Safi Ur Rahman Khan ... Ratish Puduppully Mitesh M. Khapra Raj Dabre Rudra Murthy Anoop Kunchukuttan 24 23 0 26 Jan 2024
RomanSetu: Efficiently unlocking multilingual capabilities of Large Language Models via Romanization Jaavid Aktar Husain Raj Dabre Aswanth Kumar Jay Gala Thanmay Jayakumar Ratish Puduppully Anoop Kunchukuttan 25 12 0 25 Jan 2024
Cheetah: Natural Language Generation for 517 African Languages Ife Adebara AbdelRahim Elmadany Muhammad Abdul-Mageed 19 4 0 02 Jan 2024
Automatic Data Retrieval for Cross Lingual Summarization Nikhilesh Bhatnagar Ashok Urlana Vandan Mujadia Pruthwik Mishra D. Sharma 11 0 0 22 Dec 2023
Mukhyansh: A Headline Generation Dataset for Indic Languages Lokesh Madasu Gopichand Kanumolu Nirmal Surange Manish Shrivastava 10 4 0 29 Nov 2023
The Obscure Limitation of Modular Multilingual Language Models Muhammad Farid Adilazuarda Samuel Cahyawijaya Ayu Purwarianti 19 6 0 21 Nov 2023
BenLLMEval: A Comprehensive Evaluation into the Potentials and Pitfalls of Large Language Models on Bengali NLP M. Kabir Mohammed Saidul Islam Md Tahmid Rahman Laskar Mir Tafseer Nayeem M Saiful Bari Enamul Hoque LM&MA 16 15 0 22 Sep 2023
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages Samuel Cahyawijaya Holy Lovenia Fajri Koto Dea Adhista Emmanuel Dave ... Genta Indra Winata David Moeljadi Alham Fikri Aji Ayu Purwarianti Pascale Fung 41 7 0 19 Sep 2023
Dolphin: A Challenging and Diverse Benchmark for Arabic NLG El Moatez Billah Nagoudi AbdelRahim Elmadany Ahmed Oumar El-Shangiti Muhammad Abdul-Mageed LM&MA 25 17 0 24 May 2023
InstructAlign: High-and-Low Resource Language Alignment via Continual Crosslingual Instruction Tuning Samuel Cahyawijaya Holy Lovenia Tiezheng Yu Willy Chung Pascale Fung ALM 39 14 0 23 May 2023
PMIndiaSum: Multilingual and Cross-lingual Headline Summarization for Languages in India Ashok Urlana Pinzhen Chen Zheng Zhao Shay B. Cohen Manish Shrivastava Barry Haddow 6 9 0 15 May 2023
Vārta: A Large-Scale Headline-Generation Dataset for Indic Languages Rahul Aralikatte Ziling Cheng Sumanth Doddapaneni Jackie C.K. Cheung 14 8 0 10 May 2023
Naamapadam: A Large-Scale Named Entity Annotated Data for Indic Languages A. Mhaske Harsh Kedia Sumanth Doddapaneni Mitesh M. Khapra Pratyush Kumar V. Rudramurthy Anoop Kunchukuttan 41 26 0 20 Dec 2022
NusaCrowd: Open Source Initiative for Indonesian NLP Resources Samuel Cahyawijaya Holy Lovenia Alham Fikri Aji Genta Indra Winata Bryan Wilie ... Timothy Baldwin Sebastian Ruder Herry Sujaini S. Sakti Ayu Purwarianti 19 47 0 19 Dec 2022
Pretrained Language Models for Text Generation: A Survey Junyi Li Tianyi Tang Wayne Xin Zhao J. Nie Ji-Rong Wen AI4CE 23 124 0 14 Jan 2022
Data-to-text Generation with Macro Planning Ratish Puduppully Mirella Lapata 53 73 0 04 Feb 2021
The GEM Benchmark: Natural Language Generation, its Evaluation and Metrics Sebastian Gehrmann Tosin P. Adewumi Karmanya Aggarwal Pawan Sasanka Ammanamanchi Aremu Anuoluwapo ... Nishant Subramani Wei-ping Xu Diyi Yang Akhila Yerukola Jiawei Zhou VLM 243 284 0 02 Feb 2021
MLQA: Evaluating Cross-lingual Extractive Question Answering Patrick Lewis Barlas Oğuz Ruty Rinott Sebastian Riedel Holger Schwenk ELM 242 490 0 16 Oct 2019