CValues: Measuring the Values of Chinese Large Language Models from Safety to Responsibility

19 July 2023

Ji Zhang

Jingren Zhou

ArXiv (abs)PDF HTML HuggingFace (1 upvotes)

Papers citing "CValues: Measuring the Values of Chinese Large Language Models from Safety to Responsibility"

50 / 63 papers shown

Large Language Models' Complicit Responses to Illicit Instructions across Socio-Legal Contexts

327

25 Nov 2025

Adversarial Attack-Defense Co-Evolution for LLM Safety Alignment via Tree-Group Dual-Aware Search and Optimization

449

24 Nov 2025

LiveSecBench: A Dynamic and Event-Driven Safety Benchmark for Chinese Language Model Applications

...

Tianxin Zhang

Yue Gao

Yongfeng Huang

ELM

239

04 Nov 2025

EPT Benchmark: Evaluation of Persian Trustworthiness in Large Language Models

Mohammad Reza Mirbagheri

Mohammad Mahdi Mirkamali

Zahra Motoshaker Arani

194

08 Sep 2025

Multi-level Value Alignment in Agentic AI Systems: Survey and Perspectives

...

434

11 Jun 2025

MDIT-Bench: Evaluating the Dual-Implicit Toxicity in Large Multimodal ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2025

207

22 May 2025

From Surveys to Narratives: Rethinking Cultural Value Adaptation in LLMs

Muhammad Farid Adilazuarda

Chen Cecilia Liu

Iryna Gurevych

Alham Fikri Aji

470

22 May 2025

SecReEvalBench: A Multi-turned Security Resilience Evaluation Benchmark for Large Language Models

Huining Cui

Wei Liu

AAML ELM

406

12 May 2025

A Survey of Foundation Model-Powered Recommender Systems: From Feature-Based, Generative to Agentic Paradigms

302

23 Apr 2025

Beyond Single-Sentence Prompts: Upgrading Value Alignment Benchmarks with Dialogues and Stories

265

28 Mar 2025

Every FLOP Counts: Scaling a 300B Mixture-of-Experts LING LLM without Premium GPUs

...

408

07 Mar 2025

Building Safe GenAI Applications: An End-to-End Overview of Red Teaming for Large Language Models

997

03 Mar 2025

JailBench: A Comprehensive Chinese Security Assessment Benchmark for Large Language ModelsPacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD), 2025

200

26 Feb 2025

CHBench: A Chinese Dataset for Evaluating Health in Large Language Models

294

24 Feb 2025

Be a Multitude to Itself: A Prompt Evolution Framework for Red TeamingConference on Empirical Methods in Natural Language Processing (EMNLP), 2025

319

22 Feb 2025

Audio Is the Achilles' Heel: Red Teaming Audio Large Multimodal Models

Ehsan Shareghi

236

31 Oct 2024

Jigsaw Puzzles: Splitting Harmful Questions to Jailbreak Large Language Models

Ehsan Shareghi

212

15 Oct 2024

FlipGuard: Defending Preference Alignment against Update Regression with Constrained OptimizationConference on Empirical Methods in Natural Language Processing (EMNLP), 2024

Mingye Zhu

Yi Liu

Quan Wang

Junbo Guo

Zhendong Mao

175

01 Oct 2024

Edu-Values: Towards Evaluating the Chinese Education Values of Large Language ModelsThe Web Conference (WWW), 2024

Yazhou Zhang

369

19 Sep 2024

Can Large Language Models Understand Symbolic Graphics Programs?International Conference on Learning Representations (ICLR), 2024

601

15 Aug 2024

Know Your Limits: A Survey of Abstention in Large Language Models

519

25 Jul 2024

SAFETY-J: Evaluating Safety with Critique

206

24 Jul 2024

CLAVE: An Adaptive Framework for Evaluating Values of LLM Generated Responses

Jing Yao

Xiaoyuan Yi

Xing Xie

ELM ALM

286

15 Jul 2024

YuLan: An Open-source Large Language Model

Yutao Zhu

Kun Zhou

Kelong Mao

Wentong Chen

Yiding Sun

...

Wenbing Huang

Ze-Feng Gao

Yueguo Chen

Weizheng Lu

Ji-Rong Wen

ALM ELM

156

28 Jun 2024

Towards Probing Speech-Specific Risks in Large Multimodal Models: A Taxonomy, Benchmark, and Insights

Hao Yang

Zhuang Li

Ehsan Shareghi

Gholamreza Haffari

155

25 Jun 2024

From LLMs to MLLMs: Exploring the Landscape of Multimodal Jailbreaking

Siyuan Wang

Zhuohan Long

Zhihao Fan

Zhongyu Wei

220

21 Jun 2024

Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective

520

20 Jun 2024

CHiSafetyBench: A Chinese Hierarchical Safety Benchmark for Large Language Models

Kai Wang

Shiguo Lian

ELM

279

14 Jun 2024

A Survey of Useful LLM Evaluation

Yen-Ting Lin

289

03 Jun 2024

CulturePark: Boosting Cross-cultural Understanding in Large Language Models

Xing Xie

209

24 May 2024

ALI-Agent: Assessing LLMs' Alignment with Human Values via Agent-based EvaluationNeural Information Processing Systems (NeurIPS), 2024

357

23 May 2024

CIVICS: Building a Dataset for Examining Culturally-Informed Values in Large Language Models

310

22 May 2024

Reuse Your Rewards: Reward Model Transfer for Zero-Shot Cross-Lingual Alignment

250

18 Apr 2024

SafetyPrompts: a Systematic Review of Open Datasets for Evaluating and Improving Large Language Model Safety

Paul Röttger

364

08 Apr 2024

Dialectical Alignment: Resolving the Tension of 3H and Security Threats of LLMs

Lijie Hu

278

30 Mar 2024

COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning

...

Min Yang

Ge Zhang

160

26 Mar 2024

AraTrust: An Evaluation of Trustworthiness for LLMs in ArabicInternational Conference on Computational Linguistics (COLING), 2024

259

14 Mar 2024

NewsBench: A Systematic Evaluation Framework for Assessing Editorial Capabilities of Large Language Models in Chinese Journalism

Miao Li

Ming-Bin Chen

Shichao Song

ShengbinHou ShengbinHou

...

144

29 Feb 2024

Exploring Advanced Methodologies in Security Evaluation for LLMs

332

28 Feb 2024

Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models

Paul Röttger

Hinrich Schütze

272

126

26 Feb 2024

ShieldLM: Empowering LLMs as Aligned, Customizable and Explainable Safety Detectors

...

Lei Sha

Zhifang Sui

Hongning Wang

Shiyu Huang

126

26 Feb 2024

ROSE Doesn't Do That: Boosting the Safety of Instruction-Tuned Large Language Models with Reverse Prompt Contrastive Decoding

Liang Ding

Bo Du

270

19 Feb 2024

Enhancing Role-playing Systems through Aggressive Queries: Evaluation and Improvement

Fuzheng Zhang

270

16 Feb 2024

CultureLLM: Incorporating Cultural Differences into Large Language Models

Xing Xie

313

09 Feb 2024

SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models

Lijun Li

Bowen Dong

Ruohui Wang

Xuhao Hu

Wangmeng Zuo

Dahua Lin

Yu Qiao

Jing Shao

ELM

326

170

07 Feb 2024

Risk Taxonomy, Mitigation, and Assessment Benchmarks of Large Language Model Systems

...

Qi Li

316

11 Jan 2024

MetaAID 2.5: A Secure Framework for Developing Metaverse Applications via Large Language Models

Hongyin Zhu

212

22 Dec 2023

The Good, The Bad, and Why: Unveiling Emotions in Generative AI

Xing Xie

459

18 Dec 2023

CDEval: A Benchmark for Measuring the Cultural Dimensions of Large Language Models

Xing Xie

168

28 Nov 2023

Value FULCRA: Mapping Large Language Models to the Multidimensional Spectrum of Basic Human ValuesNorth American Chapter of the Association for Computational Linguistics (NAACL), 2023

Xing Xie

299

15 Nov 2023