All Papers

0 / 0 papers shown

Title

A Survey on Out-of-Distribution Evaluation of Neural NLP Models

A Survey on Out-of-Distribution Evaluation of Neural NLP Models

International Joint Conference on Artificial Intelligence (IJCAI), 2023

27 June 2023

ArXiv (abs)PDF HTML

Papers citing "A Survey on Out-of-Distribution Evaluation of Neural NLP Models"

18 / 18 papers shown

Title
POLIS-Bench: Towards Multi-Dimensional Evaluation of LLMs for Bilingual Policy Tasks in Governmental Scenarios Tingyue Yang Junchi Yao Yuhui Guo Chang Liu ELM 124 0 0 04 Nov 2025
BroadGen: A Framework for Generating Effective and Efficient Advertiser Broad Match Keyphrase Recommendations Ashirbad Mishra Jinyu Zhao Soumik Dey Hansi Wu Binbin Li Kamesh Madduri 282 1 0 25 May 2025
FLUKE: A Linguistically-Driven and Task-Agnostic Framework for Robustness Evaluation Yulia Otmakhova Hung Thinh Truong Rahmad Mahendra Zenan Zhai Rongxin Zhu Daniel Beck Jey Han Lau ELM 421 0 0 24 Apr 2025
A Perplexity and Menger Curvature-Based Approach for Similarity Evaluation of Large Language Models Yuantao Zhang Zhankui Yang AAML 196 0 0 05 Apr 2025
Enhanced Bloom's Educational Taxonomy for Fostering Information Literacy in the Era of Large Language Models Yiming Luo Ting Liu Patrick Cheong-Iao Pang Dana McKay Zhongfu Chen George Buchanan Shanton Chang AI4Ed 184 3 0 25 Mar 2025
Solving Situation Puzzles with Large Language Model and External Reformulation Kun Li Xinwei Chen Tianyou Song Chengrui Zhou Zhuoran Liu Zhenyan Zhang Jiangjian Guo Qing Shan ReLM LRM 314 18 0 24 Mar 2025
SelfPrompt: Autonomously Evaluating LLM Robustness via Domain-Constrained Knowledge Guidelines and Refined Adversarial PromptsInternational Conference on Computational Linguistics (COLING), 2024 Aihua Pei Zehua Yang Shunan Zhu Ruoxi Cheng Ju Jia AAML 309 5 0 01 Dec 2024
KGPA: Robustness Evaluation for Large Language Models via Cross-Domain Knowledge Graphs Aihua Pei Zehua Yang Shunan Zhu Ruoxi Cheng Ju Jia Lina Wang 282 1 0 16 Jun 2024
Safeguarding Large Language Models: A Survey Yi Dong Ronghui Mu Yanghao Zhang Siqi Sun Tianle Zhang ... Yi Qi Jinwei Hu Jie Meng Saddek Bensalem Xiaowei Huang OffRL KELM AILaw 210 59 0 03 Jun 2024
Rethinking ChatGPT's Success: Usability and Cognitive Behaviors Enabled by Auto-regressive LLMs' Prompting Xinzhe Li Ming Liu 197 1 0 17 May 2024
Examining the robustness of LLM evaluation to the distributional assumptions of benchmarks Melissa Ailem Katerina Marazopoulou Charlotte Siska James Bono 304 31 0 25 Apr 2024
Typos that Broke the RAG's Back: Genetic Attack on RAG Pipeline by Simulating Documents in the Wild via Low-level Perturbations Sukmin Cho Soyeong Jeong Jeongyeon Seo Taeho Hwang Jong C. Park SILM AAML 194 52 0 22 Apr 2024
A Survey on Evaluation of Out-of-Distribution Generalization Han Yu Tianyu Wang Xingxuan Zhang Jiayun Wu Peng Cui OOD 253 17 0 04 Mar 2024
An Empirical Study on Large Language Models in Accuracy and Robustness under Chinese Industrial Scenarios Zongjie Li Wenying Qiu Pingchuan Ma Yichen Li You Li Sijia He Baozheng Jiang Shuai Wang Weixi Gu 286 6 0 27 Jan 2024
A Fast Optimization View: Reformulating Single Layer Attention in LLM Based on Tensor and SVM Trick, and Solving It in Matrix Multiplication Time Yeqi Gao Zhao Song Weixin Wang Junze Yin 226 30 0 14 Sep 2023
LatEval: An Interactive LLMs Evaluation Benchmark with Incomplete Information from Lateral Thinking PuzzlesInternational Conference on Language Resources and Evaluation (LREC), 2023 Shulin Huang Shirong Ma Hai-Tao Zheng Mengzuo Huang Wuhe Zou Weidong Zhang Haitao Zheng LLMAG LRM 238 40 0 21 Aug 2023
A Survey on Evaluation of Large Language ModelsACM Transactions on Intelligent Systems and Technology (ACM TIST), 2023 Yu-Chu Chang Xu Wang Yongfeng Zhang Yuanyi Wu Linyi Yang ... Yue Zhang Yi-Ju Chang Philip S. Yu Qian Yang Xingxu Xie ELM LM&MA ALM 576 2,595 0 06 Jul 2023
Generating Natural Adversarial Examples Zhengli Zhao Dheeru Dua Sameer Singh GAN AAML 434 635 0 31 Oct 2017