Title
Fine-Tuning Diffusion Generative Models via Rich Preference Optimization Hanyang Zhao Haoxian Chen Yucheng Guo Genta Indra Winata Tingting Ou Ziyu Huang D. Yao Wenpin Tang 54 0 0 13 Mar 2025
DarkBench: Benchmarking Dark Patterns in Large Language Models Esben Kran Hieu Minh "Jord" Nguyen Akash Kundu Sami Jawhar Jinsuk Park Mateusz Maria Jurewicz 50 1 0 13 Mar 2025
RankPO: Preference Optimization for Job-Talent Matching Y. Zhang M. Wang Yu Wang Xiaohui Wang 41 0 0 13 Mar 2025
Local Look-Ahead Guidance via Verifier-in-the-Loop for Automated Theorem Proving Sara Rajaee Kumar Pratik Gabriele Cesa Arash Behboodi OffRL LRM 56 0 0 12 Mar 2025
Constrained Language Generation with Discrete Diffusion Models Michael Cardei Jacob K Christopher Thomas Hartvigsen Brian Bartoldson B. Kailkhura Ferdinando Fioretto DiffM 55 0 0 12 Mar 2025
Aligning to What? Limits to RLHF Based Alignment Logan Barnhart Reza Akbarian Bafghi Stephen Becker M. Raissi 31 0 0 12 Mar 2025
Prompt Inversion Attack against Collaborative Inference of Large Language Models Wenjie Qu Yuguang Zhou Yongji Wu Tingsong Xiao Binhang Yuan Y. Li Jiaheng Zhang 68 0 0 12 Mar 2025
Efficient Alignment of Unconditioned Action Prior for Language-conditioned Pick and Place in Clutter Kechun Xu Xunlong Xia Kaixuan Wang Yifei Yang Yunxuan Mao Bing Deng R. Xiong Y. Wang OffRL 64 0 0 12 Mar 2025
Exploiting Instruction-Following Retrievers for Malicious Information Retrieval Parishad BehnamGhader Nicholas Meade Siva Reddy 60 0 0 11 Mar 2025
Robust Multi-Objective Controlled Decoding of Large Language Models Seongho Son William Bankes Sangwoong Yoon Shyam Sundhar Ramesh Xiaohang Tang Ilija Bogunovic 39 0 0 11 Mar 2025
A Cascading Cooperative Multi-agent Framework for On-ramp Merging Control Integrating Large Language Models Miao Zhang Zhenlong Fang Tianyi Wang Q. Zhang Shuai Lu Junfeng Jiao Tianyu Shi AI4CE 59 4 0 11 Mar 2025
Dialogue Injection Attack: Jailbreaking LLMs through Context Manipulation Wenlong Meng Fan Zhang Wendao Yao Zhenyuan Guo Y. Li Chengkun Wei Wenzhi Chen AAML 38 1 0 11 Mar 2025
Group Preference Alignment: Customized LLM Response Generation from In-Situ Conversations Ishani Mondal Jack W. Stokes S. Jauhar Longqi Yang Mengting Wan Xiaofeng Xu Xia Song Jennifer Neville 46 0 0 11 Mar 2025
Generating Robot Constitutions & Benchmarks for Semantic Safety P. Sermanet Anirudha Majumdar A. Irpan Dmitry Kalashnikov Vikas Sindhwani LM&Ro 58 0 0 11 Mar 2025
Backtracking for Safety Bilgehan Sel Dingcheng Li Phillip Wallis Vaishakh Keshava Ming Jin Siddhartha Reddy Jonnalagadda KELM 55 0 0 11 Mar 2025
DistiLLM-2: A Contrastive Approach Boosts the Distillation of LLMs Jongwoo Ko Tianyi Chen Sungnyun Kim Tianyu Ding Luming Liang Ilya Zharkov Se-Young Yun VLM 110 0 0 10 Mar 2025
LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL Yingzhe Peng Gongrui Zhang Miaosen Zhang Zhiyuan You Jie Liu Qipeng Zhu Kai Yang Xingzhong Xu Xin Geng Xu Yang LRM ReLM 86 31 0 10 Mar 2025
Mitigating Preference Hacking in Policy Optimization with Pessimism Dhawal Gupta Adam Fisch Christoph Dann Alekh Agarwal 71 0 0 10 Mar 2025
UC-MOA: Utility-Conditioned Multi-Objective Alignment for Distributional Pareto-Optimality Zelei Cheng Xin-Qiang Cai Yuting Tang Pushi Zhang Boming Yang Xinyu Xing 44 0 0 10 Mar 2025
Utilizing Jailbreak Probability to Attack and Safeguard Multimodal LLMs Wenzhuo Xu Zhipeng Wei Xiongtao Sun Deyue Zhang Dongdong Yang Quanchen Zou X. Zhang AAML 47 0 0 10 Mar 2025
Can Small Language Models Reliably Resist Jailbreak Attacks? A Comprehensive Evaluation Wenhui Zhang Huiyu Xu Zhibo Wang Zeqing He Ziqi Zhu Kui Ren AAML PILM 67 0 0 09 Mar 2025
From Captions to Rewards (CAREVL): Leveraging Large Language Model Experts for Enhanced Reward Modeling in Large Vision-Language Models Muzhi Dai Jiashuo Sun Zhiyuan Zhao Shixuan Liu Rui Li Junyu Gao Xuelong Li VLM 48 0 0 08 Mar 2025
Research on Superalignment Should Advance Now with Parallel Optimization of Competence and Conformity HyunJin Kim Xiaoyuan Yi Jing Yao Muhua Huang Jinyeong Bak James Evans Xing Xie 36 0 0 08 Mar 2025
Language Model Personalization via Reward Factorization Idan Shenfeld Felix Faltings Pulkit Agrawal Aldo Pacchiano 43 1 0 08 Mar 2025
Dynamic Knowledge Integration for Evidence-Driven Counter-Argument Generation with Large Language Models Anar Yeginbergen Maite Oronoz Rodrigo Agerri 43 0 0 07 Mar 2025
Superintelligence Strategy: Expert Version Dan Hendrycks Eric Schmidt Alexandr Wang 57 1 0 07 Mar 2025
From Style to Facts: Mapping the Boundaries of Knowledge Injection with Finetuning Eric Zhao Pranjal Awasthi Nika Haghtalab 40 0 0 07 Mar 2025
Adversarial Policy Optimization for Offline Preference-based Reinforcement Learning Hyungkyu Kang Min-hwan Oh OffRL 45 0 0 07 Mar 2025
SHAPE : Self-Improved Visual Preference Alignment by Iteratively Generating Holistic Winner Kejia Chen Jiawen Zhang Jiacong Hu Jiazhen Yang Jian Lou Zunlei Feng Mingli Song 57 0 0 06 Mar 2025
Adding Alignment Control to Language Models Wenhong Zhu Weinan Zhang Rui Wang 50 0 0 06 Mar 2025
Towards Autonomous Reinforcement Learning for Real-World Robotic Manipulation with Large Language Models Niccolò Turcato Matteo Iovino Aris Synodinos Alberto Dalla Libera R. Carli Pietro Falco LM&Ro 43 0 0 06 Mar 2025
Uncovering Gaps in How Humans and LLMs Interpret Subjective Language Erik Jones Arjun Patrawala Jacob Steinhardt 47 0 0 06 Mar 2025
DiffPO: Diffusion-styled Preference Optimization for Efficient Inference-Time Alignment of Large Language Models Ruizhe Chen Wenhao Chai Zhifei Yang Xiaotian Zhang Joey Tianyi Zhou Tony Q. S. Quek Soujanya Poria Zuozhu Liu 48 0 0 06 Mar 2025
SOLAR: Scalable Optimization of Large-scale Architecture for Reasoning Chen Li Yinyi Luo Anudeep Bolimera Uzair Ahmed S. Hrishikesh Gokhale Marios Savvides LRM AI4CE 60 1 0 06 Mar 2025
FANS -- Formal Answer Selection for Natural Language Math Reasoning Using Lean4 Jiarui Yao Ruida Wang Tong Zhang LRM 60 0 0 05 Mar 2025
Preserving Cultural Identity with Context-Aware Translation Through Multi-Agent AI Systems Mahfuz Ahmed Anik Abdur Rahman Azmine Toushik Wasi Md Manjurul Ahsan 47 0 0 05 Mar 2025
Human Preferences for Constructive Interactions in Language Model Alignment Yara Kyrychenko Jon Roozenbeek Brandon Davidson S. V. D. Linden Ramit Debnath 41 0 0 05 Mar 2025
Mask-DPO: Generalizable Fine-grained Factuality Alignment of LLMs Yuzhe Gu W. Zhang Chengqi Lyu D. Lin Kai Chen 58 1 0 04 Mar 2025
Improving LLM-as-a-Judge Inference with the Judgment Distribution Victor Wang Michael J.Q. Zhang Eunsol Choi 53 0 0 04 Mar 2025
MPO: Boosting LLM Agents with Meta Plan Optimization Weimin Xiong Yifan Song Qingxiu Dong Bingchan Zhao Feifan Song Xun Wang Sujian Li LLMAG 81 0 0 04 Mar 2025
Effectively Steer LLM To Follow Preference via Building Confident Directions Bingqing Song Boran Han Shuai Zhang Hao Wang Haoyang Fang Bonan Min Yuyang Wang Mingyi Hong LLMSV 49 0 0 04 Mar 2025
AlignDistil: Token-Level Language Model Alignment as Adaptive Policy Distillation Songming Zhang Xue Zhang Tong Zhang Bojie Hu Yufeng Chen Jinan Xu 47 1 0 04 Mar 2025
CrowdSelect: Synthetic Instruction Data Selection with Multi-LLM Wisdom Yisen Li Lingfeng Yang Wenxuan Shen Pan Zhou Yao Wan Weiwei Lin D. Z. Chen 67 0 0 03 Mar 2025
CoPL: Collaborative Preference Learning for Personalizing LLMs Youngbin Choi Seunghyuk Cho M. Lee Moonjeong Park Yesong Ko Jungseul Ok Dongwoo Kim 58 0 0 03 Mar 2025
Improving Plasticity in Non-stationary Reinforcement Learning with Evidential Proximal Policy Optimization Abdullah Akgul Gulcin Baykal Manuel Haußmann M. Kandemir 33 0 0 03 Mar 2025
All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning Gokul Swamy Sanjiban Choudhury Wen Sun Zhiwei Steven Wu J. Andrew Bagnell OffRL 42 7 0 03 Mar 2025
PEO: Improving Bi-Factorial Preference Alignment with Post-Training Policy Extrapolation Yuxuan Liu 37 0 0 03 Mar 2025
Instruct-of-Reflection: Enhancing Large Language Models Iterative Reflection Capabilities via Dynamic-Meta Instruction Liping Liu Chunhong Zhang Likang Wu Chuang Zhao Zheng Hu Ming He Jianping Fan LLMAG LRM 36 0 0 02 Mar 2025
Distributionally Robust Reinforcement Learning with Human Feedback Debmalya Mandal Paulius Sasnauskas Goran Radanović 39 1 0 01 Mar 2025
Safety Tax: Safety Alignment Makes Your Large Reasoning Models Less Reasonable Tiansheng Huang Sihao Hu Fatih Ilhan Selim Furkan Tekin Zachary Yahn Yichang Xu Ling Liu 53 8 0 01 Mar 2025