KOBEST: Korean Balanced Evaluation of Significant Tasks

KOBEST: Korean Balanced Evaluation of Significant Tasks

9 April 2022

Papers citing "KOBEST: Korean Balanced Evaluation of Significant Tasks"

19 / 19 papers shown

Title
Trillion 7B Technical Report Sungjun Han Juyoung Suk Suyeong An Hyungguk Kim Kyuseok Kim Wonsuk Yang Seungtaek Choi Jamin Shin 110 0 0 21 Apr 2025
Zero-shot Benchmarking: A Framework for Flexible and Scalable Automatic Evaluation of Language Models José P. Pombal Nuno M. Guerreiro Ricardo Rei André F. T. Martins ALM 70 0 0 01 Apr 2025
CABS: Conflict-Aware and Balanced Sparsification for Enhancing Model Merging Zongzhen Yang Binhang Qi Hailong Sun Wenrui Long Ruobing Zhao Xiang Gao MoMe 48 0 0 26 Feb 2025
Developing a Pragmatic Benchmark for Assessing Korean Legal Language Understanding in Large Language Models Yeeun Kim Young Rok Choi Eunkyung Choi Jinhwan Choi H. Park Wonseok Hwang ELM AILaw 33 0 0 11 Oct 2024
Merging in a Bottle: Differentiable Adaptive Merging (DAM) and the Path from Averaging to Automation Thomas Gauthier-Caron Shamane Siriwardhana Elliot Stein Malikeh Ehghaghi Charles Goddard Mark McQuade Jacob Solawetz Maxime Labonne MoMe 28 2 0 10 Oct 2024
LLM-as-a-Judge & Reward Model: What They Can and Cannot Do Guijin Son Hyunwoo Ko Hoyoung Lee Yewon Kim Seunghyeok Hong ALM ELM 46 5 0 17 Sep 2024
KIT-19: A Comprehensive Korean Instruction Toolkit on 19 Tasks for Fine-Tuning Korean Large Language Models Dongjun Jang Sungjoo Byun Hyemi Jo Hyopil Shin ALM 19 0 0 25 Mar 2024
Optimizing Language Augmentation for Multilingual Large Language Models: A Case Study on Korean Changsu Choi Yongbin Jeong Seoyoon Park Inho Won HyeonSeok Lim ... Yiseul Lee HyeJin Lee Younggyun Hahm Hansaem Kim Kyungtae Lim 29 11 0 16 Mar 2024
CLIcK: A Benchmark Dataset of Cultural and Linguistic Intelligence in Korean Eunsu Kim Juyoung Suk Philhoon Oh Haneul Yoo James Thorne Alice H. Oh ELM 67 15 0 11 Mar 2024
KoDialogBench: Evaluating Conversational Understanding of Language Models with Korean Dialogue Benchmark Seongbo Jang Seonghyeon Lee Hwanjo Yu ELM 27 0 0 27 Feb 2024
Efficient and Effective Vocabulary Expansion Towards Multilingual Large Language Models Seungduk Kim Seungtaek Choi Myeongho Jeong 33 6 0 22 Feb 2024
KMMLU: Measuring Massive Multitask Language Understanding in Korean Guijin Son Hanwool Albert Lee Sungdong Kim Seungone Kim Niklas Muennighoff Taekyoon Choi Cheonbok Park Kang Min Yoo Stella Biderman ALM RALM ELM 47 37 0 18 Feb 2024
Improving Language Models Meaning Understanding and Consistency by Learning Conceptual Roles from Dictionary Myeongjun Jang Thomas Lukasiewicz 22 4 0 24 Oct 2023
HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models Guijin Son Hanwool Albert Lee Suwan Kim Huiseo Kim Jaecheol Lee Je Won Yeom Jihyu Jung Jung Woo Kim Songseong Kim RALM ELM 26 20 0 06 Sep 2023
A Technical Report for Polyglot-Ko: Open-Source Large-Scale Korean Language Models H. Ko Kichang Yang Minho Ryu Taekyoon Choi Seungmu Yang Jiwung Hyun Sung-Yong Park Kyubyong Park 34 29 0 04 Jun 2023
This is the way: designing and compiling LEPISZCZE, a comprehensive NLP benchmark for Polish Lukasz Augustyniak Kamil Tagowski Albert Sawczyn Denis Janiak Roman Bartusiak ... Arkadiusz Janz Piotr Szymañski M. Morzy Tomasz Kajdanowicz Maciej Piasecki 18 10 0 23 Nov 2022
An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA Zhengyuan Yang Zhe Gan Jianfeng Wang Xiaowei Hu Yumao Lu Zicheng Liu Lijuan Wang 174 402 0 10 Sep 2021
Open Korean Corpora: A Practical Report Won Ik Cho Sangwhan Moon YoungSook Song 28 8 0 31 Dec 2020
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 297 6,956 0 20 Apr 2018