PARIKSHA : A Large-Scale Investigation of Human-LLM Evaluator Agreement
on Multilingual and Multi-Cultural Data

PARIKSHA : A Large-Scale Investigation of Human-LLM Evaluator Agreement on Multilingual and Multi-Cultural Data

21 June 2024

Aditya Yadavalli

Manohar Swaminathan

Sunayana Sitaram

Papers citing "PARIKSHA : A Large-Scale Investigation of Human-LLM Evaluator Agreement on Multilingual and Multi-Cultural Data"

8 / 8 papers shown

Title
HEALTH-PARIKSHA: Assessing RAG Models for Health Chatbots in Real-World Multilingual Settings Varun Gumma Anandhita Raghunath Mohit Jain Sunayana Sitaram LM&MA 32 1 0 17 Oct 2024
Faux Polyglot: A Study on Information Disparity in Multilingual Large Language Models Nikhil Sharma Kenton Murray Ziang Xiao 50 1 0 07 Jul 2024
RTP-LX: Can LLMs Evaluate Toxicity in Multilingual Scenarios? Adrian de Wynter Ishaan Watts Nektar Ege Altıntoprak Tua Wongsangaroonsri Minghui Zhang ... Anna Vickers Stéphanie Visser Herdyan Widarmanto A. Zaikin Si-Qing Chen LM&MA 46 16 0 22 Apr 2024
Cendol: Open Instruction-tuned Generative Large Language Models for Indonesian Languages Samuel Cahyawijaya Holy Lovenia Fajri Koto Rifki Afina Putri Emmanuel Dave ... Bryan Wilie Genta Indra Winata Alham Fikri Aji Ayu Purwarianti Pascale Fung 44 15 0 09 Apr 2024
Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning Shivalika Singh Freddie Vargus Daniel D'souza Börje F. Karlsson Abinaya Mahendiran ... Max Bartolo Julia Kreutzer A. Ustun Marzieh Fadaee Sara Hooker 115 115 0 09 Feb 2024
Can Large Language Models Be an Alternative to Human Evaluations? Cheng-Han Chiang Hung-yi Lee ALM LM&MA 209 568 0 03 May 2023
GLM-130B: An Open Bilingual Pre-trained Model Aohan Zeng Xiao Liu Zhengxiao Du Zihan Wang Hanyu Lai ... Jidong Zhai Wenguang Chen Peng-Zhen Zhang Yuxiao Dong Jie Tang BDL LRM 242 1,070 0 05 Oct 2022
Beyond Static Models and Test Sets: Benchmarking the Potential of Pre-trained Models Across Tasks and Languages Kabir Ahuja Sandipan Dandapat Sunayana Sitaram Monojit Choudhury LRM 39 16 0 12 May 2022