GenARM: Reward Guided Generation with Autoregressive Reward Model for Test-time Alignment

GenARM: Reward Guided Generation with Autoregressive Reward Model for Test-time Alignment

10 October 2024

Udari Madhushani Sehwag

Furong Huang

Sumitra Ganesh

Papers citing "GenARM: Reward Guided Generation with Autoregressive Reward Model for Test-time Alignment"

4 / 4 papers shown

Title
A Survey on Personalized and Pluralistic Preference Alignment in Large Language Models Zhouhang Xie Junda Wu Yiran Shen Yu Xia Xintong Li ... Sachin Kumar Bodhisattwa Prasad Majumder Jingbo Shang Prithviraj Ammanabrolu Julian McAuley 29 0 0 09 Apr 2025
ScalingNoise: Scaling Inference-Time Search for Generating Infinite Videos Haolin Yang Feilong Tang Ming Hu Yulong Li Junjie Guo Yexin Liu Zelin Peng Junjun He Zongyuan Ge VGen DiffM 92 0 0 20 Mar 2025
VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning Y. Liu Kevin Qinghong Lin C. Chen Mike Zheng Shou LM&Ro LRM 57 0 0 17 Mar 2025
Drift: Decoding-time Personalized Alignments with Implicit User Preferences Minbeom Kim Kang-il Lee Seongho Joo Hwaran Lee Thibaut Thonet Kyomin Jung AI4TS 88 1 0 20 Feb 2025