Title
Reducing Annotation Burden in Physical Activity Research Using Vision-Language Models Abram Schonfeldt Benjamin Maylor Xiaofang Chen Ronald Clark Aiden Doherty 58 0 0 06 May 2025
Ergodic Generative Flows Leo Maxime Brunswic Mateo Clemente Rui Heng Yang Adam Sigal Amir Rasouli Yinchuan Li 30 0 0 06 May 2025
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities X. Zhang Jintao Guo Shanshan Zhao Minghao Fu Lunhao Duan Guo-Hua Wang Qing-Guo Chen Zhao Xu Weihua Luo Kaifu Zhang DiffM 57 0 0 05 May 2025
Improving Physical Object State Representation in Text-to-Image Generative Systems Tianle Chen Chaitanya Chakka Deepti Ghadiyaram 25 0 0 04 May 2025
Scalability Matters: Overcoming Challenges in InstructGLM with Similarity-Degree-Based Sampling Hyun Lee Chris Yi Maminur Islam B.D.S. Aritra 20 0 0 02 May 2025
Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation Vaidehi Patil Yi-Lin Sung Peter Hase Jie Peng Tianlong Chen Mohit Bansal AAML MU 77 3 0 01 May 2025
Robust Misinformation Detection by Visiting Potential Commonsense Conflict Bing Wang Ximing Li C. Li Bingrui Zhao Bo Fu Renchu Guan Shengsheng Wang 36 0 0 30 Apr 2025
An Evaluation of a Visual Question Answering Strategy for Zero-shot Facial Expression Recognition in Still Images Modesto Castrillón-Santana Oliverio J. Santana David Freire-Obregón Daniel Hernández-Sosa J. Lorenzo-Navarro 48 0 0 30 Apr 2025
Multimodal Large Language Models for Medicine: A Comprehensive Survey Jiarui Ye Hao Tang LM&MA 74 0 0 29 Apr 2025
ISDrama: Immersive Spatial Drama Generation through Multimodal Prompting Y. Zhang Wenxiang Guo Changhao Pan Z. Zhu Tao Jin Zhou Zhao VGen 41 0 0 29 Apr 2025
Platonic Grounding for Efficient Multimodal Language Models Moulik Choraria Xinbo Wu Akhil Bhimaraju Nitesh Sekhar Yue Wu Xu Zhang Prateek Singhal L. Varshney 52 0 0 27 Apr 2025
SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning Jiaqi Chen Bang Zhang Ruotian Ma Peisong Wang Xiaodan Liang Zhaopeng Tu X. Li Kwan-Yee Kenneth Wong LLMAG ReLM LRM 82 0 0 27 Apr 2025
Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks Yixin Cao Shibo Hong X. Li Jiahao Ying Yubo Ma ... Juanzi Li Aixin Sun Xuanjing Huang Tat-Seng Chua Yu Jiang ALM ELM 84 0 0 26 Apr 2025
TLoRA: Tri-Matrix Low-Rank Adaptation of Large Language Models Tanvir Islam AI4CE 35 0 0 25 Apr 2025
Leveraging Decoder Architectures for Learned Sparse Retrieval Jingfen Qiao Thong Nguyen Evangelos Kanoulas Andrew Yates 47 0 0 25 Apr 2025
ConTextual: Improving Clinical Text Summarization in LLMs with Context-preserving Token Filtering and Knowledge Graphs Fahmida Liza Piya Rahmatollah Beheshti 22 0 0 23 Apr 2025
Accuracy is Not Agreement: Expert-Aligned Evaluation of Crash Narrative Classification Models S. Bhagat Ibne Farabi Shihab Anuj Sharma 22 0 0 17 Apr 2025
Evaluating Menu OCR and Translation: A Benchmark for Aligning Human and Automated Evaluations in Large Vision-Language Models Zhanglin Wu Tengfei Song Ning Xie Weidong Zhang Mengli Zhu ... Pengfei Li C. Li Junhao Zhu Hao-Yu Yang Shiliang Sun 24 1 0 16 Apr 2025
Understanding Learner-LLM Chatbot Interactions and the Impact of Prompting Guidelines Cansu Koyuturk Emily Theophilou Sabrina Patania Gregor Donabauer Andrea Martinenghi ... Udo Kruschwitz D. Taibi Simona Amenta Martin Ruskov Dimitri Ognibene 41 0 0 10 Apr 2025
FastVAR: Linear Visual Autoregressive Modeling via Cached Token Pruning Hang Guo Yawei Li Taolin Zhang J. Wang Tao Dai Shu-Tao Xia Luca Benini 56 1 0 30 Mar 2025
Conformal Prediction and MLLM aided Uncertainty Quantification in Scene Graph Generation Sayak Nag Udita Ghosh Sarosij Bose Calvin-Khang Ta Jiachen Li A. Roy-Chowdhury 52 0 0 18 Mar 2025
TAR3D: Creating High-Quality 3D Assets via Next-Part Prediction Xuying Zhang Yutong Liu Yangguang Li Renrui Zhang Y. Liu ... Wanli Ouyang Zhiwei Xiong Peng Gao Qibin Hou Ming-Ming Cheng 88 3 0 13 Mar 2025
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning Bowen Jin Hansi Zeng Zhenrui Yue Dong Wang Sercan Ö. Arik Dong Wang Hamed Zamani J. Han RALM ReLM KELM OffRL AI4TS LRM 73 18 0 12 Mar 2025
HierarQ: Task-Aware Hierarchical Q-Former for Enhanced Video Understanding Shehreen Azad Vibhav Vineet Y. S. Rawat VLM 47 1 0 11 Mar 2025
EuroBERT: Scaling Multilingual Encoders for European Languages Nicolas Boizard Hippolyte Gisserot-Boukhlef Duarte M. Alves André F. T. Martins Ayoub Hammal ... Maxime Peyrard Nuno M. Guerreiro Patrick Fernandes Ricardo Rei Pierre Colombo 36 0 0 07 Mar 2025
CoServe: Efficient Collaboration-of-Experts (CoE) Model Inference with Limited Memory Jiashun Suo Xiaojian Liao Limin Xiao Li Ruan Jinquan Wang Xiao Su Zhisheng Huo 55 0 0 04 Mar 2025
FedMentalCare: Towards Privacy-Preserving Fine-Tuned LLMs to Analyze Mental Health Status Using Federated Learning Framework S M Sarwar AI4MH 34 0 0 27 Feb 2025
HuAMR: A Hungarian AMR Parser and Dataset Botond Barta Endre Hamerlik Milán Konor Nyist Judit Ács 31 0 0 27 Feb 2025
Model Lakes Koyena Pal David Bau Renée J. Miller 60 0 0 24 Feb 2025
Sequence-level Large Language Model Training with Contrastive Preference Optimization Zhili Feng Dhananjay Ram Cole Hawkins Aditya Rawal Jinman Zhao Sheng Zha 57 0 0 23 Feb 2025
Vector-ICL: In-context Learning with Continuous Vector Representations Yufan Zhuang Chandan Singh Liyuan Liu Jingbo Shang Jianfeng Gao 47 3 0 21 Feb 2025
LOVA3: Learning to Visual Question Answering, Asking and Assessment Henry Hengyuan Zhao Pan Zhou Difei Gao Zechen Bai Mike Zheng Shou 56 8 0 21 Feb 2025
Tabular Embeddings for Tables with Bi-Dimensional Hierarchical Metadata and Nesting Gyanendra Shrestha Chutain Jiang Sai Akula Vivek Yannam Anna Pyayt Michael Gubanov LMTD 77 0 0 20 Feb 2025
Evaluating Large Language Models for Public Health Classification and Extraction Tasks Joshua Harris Timothy Laurence Leo Loman Fan Grayson Toby Nonnenmacher ... Hamish Mohammed Thomas Finnie Luke Hounsome Michael Borowitz Steven Riley LM&MA AI4MH 79 5 0 20 Feb 2025
Pretrained Image-Text Models are Secretly Video Captioners Chunhui Zhang Yiren Jian Z. Ouyang Soroush Vosoughi VLM 58 3 0 20 Feb 2025
Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering Zeqing Wang Wentao Wan Qiqing Lao Runmeng Chen Minjie Lang Keze Wang Liang Lin Liang Lin LRM 79 3 0 17 Feb 2025
KnowPath: Knowledge-enhanced Reasoning via LLM-generated Inference Paths over Knowledge Graphs Qi Zhao Hongyu Yang Qi Song Xinwei Yao Xiangyang Li 41 0 0 17 Feb 2025
SuperMerge: An Approach For Gradient-Based Model Merging Haoyu Yang Zheng Zhang Saket Sathe MoMe 113 0 0 17 Feb 2025
Unlocking the Power of Function Vectors for Characterizing and Mitigating Catastrophic Forgetting in Continual Instruction Tuning Gangwei Jiang Caigao Jiang Zhaoyi Li Siqiao Xue Jun-ping Zhou Linqi Song Defu Lian Yin Wei CLL MU 45 0 0 16 Feb 2025
Model Diffusion for Certifiable Few-shot Transfer Learning Fady Rezk Royson Lee H. Gouk Timothy M. Hospedales Minyoung Kim 40 0 0 10 Feb 2025
Position: AI Scaling: From Up to Down and Out Yunke Wang Yanxi Li Chang Xu HAI 64 1 0 02 Feb 2025
Knowledge-Infused Prompting: Assessing and Advancing Clinical Text Data Generation with Large Language Models Ran Xu Hejie Cui Yue Yu Xuan Kan Wenqi Shi Yuchen Zhuang Wei Jin Joyce C. Ho Carl Yang 49 12 0 28 Jan 2025
A Survey of Large Language Models for Healthcare: from Data, Technology, and Applications to Accountability and Ethics Kai He Rui Mao Qika Lin Yucheng Ruan Xiang Lan Mengling Feng Erik Cambria LM&MA AILaw 65 148 0 28 Jan 2025
Transformer-Based Multimodal Knowledge Graph Completion with Link-Aware Contexts Haodi Ma Dzmitry Kasinets Daisy Zhe Wang 31 0 0 28 Jan 2025
FlanEC: Exploring Flan-T5 for Post-ASR Error Correction Moreno La Quatra Valerio Mario Salerno Yu Tsao Sabato Marco Siniscalchi 76 0 0 22 Jan 2025
Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators Yinhong Liu Han Zhou Zhijiang Guo Ehsan Shareghi Ivan Vulić Anna Korhonen Nigel Collier ALM 117 64 0 20 Jan 2025
Tapping the Potential of Large Language Models as Recommender Systems: A Comprehensive Framework and Empirical Analysis Lanling Xu Junjie Zhang Bingqian Li Jinpeng Wang Sheng Chen Wayne Xin Zhao Ji-Rong Wen 66 19 0 17 Jan 2025
Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks Miran Heo Min-Hung Chen De-An Huang Sifei Liu Subhashree Radhakrishnan Seon Joo Kim Yu-Chun Wang Ryo Hachiuma ObjD VLM 100 2 0 14 Jan 2025
Audio-Language Datasets of Scenes and Events: A Survey Gijs Wijngaard Elia Formisano Michele Esposito M. Dumontier 61 2 0 10 Jan 2025
Exposing Limitations of Language Model Agents in Sequential-Task Compositions on the Web Hiroki Furuta Yutaka Matsuo Aleksandra Faust Izzeddin Gur CLL 63 13 0 03 Jan 2025