Title
Conditioning Large Language Models on Legal Systems? Detecting Punishable Hate Speech Florian Ludwig Torsten Zesch Frederike Zufall AILaw ELM 147 0 0 03 Jun 2025
PARC: A Quantitative Framework Uncovering the Symmetries within Vision Language ModelsComputer Vision and Pattern Recognition (CVPR), 2025 Jenny Schmalfuss Nadine Chang Vibashan VS Maying Shen Andrés Bruhn Jose M. Alvarez VLM 206 0 0 03 Jun 2025
Self-Refining Language Model Anonymizers via Adversarial Distillation Kyuyoung Kim Hyunjun Jeon Jinwoo Shin PILM 335 1 0 02 Jun 2025
Contra4: Evaluating Contrastive Cross-Modal Reasoning in Audio, Video, Image, and 3D Artemis Panagopoulou Le Xue Honglu Zhou Silvio Savarese Ran Xu Caiming Xiong Chris Callison-Burch Mark Yatskar Juan Carlos Niebles 259 0 0 02 Jun 2025
DRAG: Distilling RAG for SLMs from LLMs to Transfer Knowledge and Mitigate Hallucination via Evidence and Graph-based DistillationAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Jennifer Chen Aidar Myrzakhan Yaxin Luo Hassaan Muhammad Khan Sondos Mahmoud Bsharat Zhiqiang Shen VLM 341 2 0 02 Jun 2025
StochasTok: Improving Fine-Grained Subword Understanding in LLMs Anya Sims Thom Foster Klara Kaleb Tuan-Duy H. Nguyen Joseph Lee Jakob N. Foerster Yee Whye Teh Cong Lu 314 2 0 02 Jun 2025
Improve MLLM Benchmark Efficiency through Interview Farong Wen Yijin Guo Junying Wang Jiaohao Xiao Yingjie Zhou Chunyi Li Qi Jia Guangtao Zhai Zicheng Zhang MLLM 194 2 0 01 Jun 2025
Improving Automatic Evaluation of Large Language Models (LLMs) in Biomedical Relation Extraction via LLMs-as-the-JudgeAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Md Tahmid Rahman Laskar Israt Jahan Elham Dolatabadi Chun Peng E. Hoque J. Huang LM&MA 146 7 0 01 Jun 2025
SATA-BENCH: Select All That Apply Benchmark for Multiple Choice Questions Weijie Xu Shixian Cui Xi Fang Chi Xue Stephanie Eckman Chandan K. Reddy ELM 307 4 0 31 May 2025
DefenderBench: A Toolkit for Evaluating Language Agents in Cybersecurity Environments Chiyu Zhang Marc-Alexandre Cote Michael Albada Anush Sankaran Jack W. Stokes Tong Wang Amir H. Abdi William Blum Muhammad Abdul-Mageed LLMAG AAML ELM 347 1 0 31 May 2025
CReFT-CAD: Boosting Orthographic Projection Reasoning for CAD via Reinforcement Fine-Tuning Ke Niu Z. Chen Haiyang Yu Yuwen Chen Teng Fu Mengyang Zhao Bin Li Xiangyang Xue 247 3 0 31 May 2025
Structuring Radiology Reports: Challenging LLMs with Lightweight Models Johannes Moll Louisa Fay Asfandyar Azhar Sophie Ostmeier Tim Lueth S. Gatidis Curtis P. Langlotz Jean-Benoit Delbrouck 233 0 0 30 May 2025
The Road to Generalizable Neuro-Symbolic Learning Should be Paved with Foundation Models Adam Stein Aaditya Naik Neelay Velingker Mayur Naik Eric Wong NAI AI4CE 179 2 0 30 May 2025
Minifinetuning: Low-Data Generation Domain Adaptation through Corrective Self-Distillation Peter Belcak Greg Heinrich Jan Kautz Pavlo Molchanov ALM 132 1 0 30 May 2025
Adaptable Cardiovascular Disease Risk Prediction from Heterogeneous Data using Large Language Models Frederike Lübeck J. Wildberger Frederik Trauble Maximilian Mordig Sergios Gatidis Andreas Krause Bernhard Scholkopf 97 2 0 30 May 2025
Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning Shelly Bensal Umar Jamil Christopher Bryant M. Russak Kiran Kamble Dmytro Mozolevskyi Muayad Ali Waseem Alshikh LLMAG ReLM LRM 180 10 0 30 May 2025
Tag-Evol: Achieving Efficient Instruction Evolving via Tag InjectionAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Yixuan Wang Shiqi Zhou Chuanzhe Guo Qingfu Zhu 3DV 136 0 0 30 May 2025
Beyond Semantic Entropy: Boosting LLM Uncertainty Quantification with Pairwise Semantic SimilarityAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Dang Nguyen Ali Payani Baharan Mirzasoleiman 148 5 0 30 May 2025
On the Expressive Power of Mixture-of-Experts for Structured Complex Tasks Mingze Wang Weinan E MoE 110 0 0 30 May 2025
FinMME: Benchmark Dataset for Financial Multi-Modal Reasoning EvaluationAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Junyu Luo Zhizhuo Kou Liming Yang Xiao Luo Jinsheng Huang ... Jiaming Ji Xuanzhe Liu Sirui Han Ming Zhang Wenhan Luo 150 14 0 30 May 2025
DIP-R1: Deep Inspection and Perception with RL Looking Through and Understanding Complex Scenes Sungjune Park Hyunjun Kim J. Kim S. T. Kim Y. Ro LRM 321 6 0 29 May 2025
ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks Akashah Shabbir Muhammad Akhtar Munir Akshay Dudhane Muhammad Umer Sheikh M. H. Khan Paolo Fraccaro Juan Bernabé-Moreno Fahad Shahbaz Khan Salman Khan LLMAG ELM 187 3 0 29 May 2025
VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC VideosAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Tingyu Song Tongyan Hu Guo Gan Yilun Zhao 250 0 0 29 May 2025
LaMDAgent: An Autonomous Framework for Post-Training Pipeline Optimization via LLM Agents Taro Yano Yoichi Ishibashi Masafumi Oyamada LM&Ro 302 2 0 28 May 2025
MEDAL: A Framework for Benchmarking LLMs as Multilingual Open-Domain Dialogue Evaluators John Mendonça A. Lavie Isabel Trancoso 406 0 0 28 May 2025
From Large AI Models to Agentic AI: A Tutorial on Future Intelligent Communications Feibo Jiang Cunhua Pan Li Dong Kezhi Wang O. Dobre Mérouane Debbah LLMAG AI4TS 361 21 0 28 May 2025
New Tools are Needed for Tracking Adherence to AI Model Behavioral Use Clauses Daniel J. McDuff Tim Korjakow Kevin Klyman Danish Contractor MedIm 164 0 0 28 May 2025
Pre-Training Curriculum for Multi-Token Prediction in Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Ansar Aynetdinov Alan Akbik LRM 316 1 0 28 May 2025
What happens when generative AI models train recursively on each others' outputs? Hung Ahn Vu Galen Reeves Emily Wenger 326 0 0 27 May 2025
Scrapers selectively respect robots.txt directives: evidence from a large-scale empirical study Taein Kim Karstan Bock Claire Luo Amanda Liswood Chloe Poroslay Emily Wenger 109 3 0 27 May 2025
AutoJudger: An Agent-Driven Framework for Efficient Benchmarking of MLLMs Xuanwen Ding Chengjun Pan Zejun Li Jiwen Zhang Siyuan Wang Zhongyu Wei 228 0 0 27 May 2025
MMTBENCH: A Unified Benchmark for Complex Multimodal Table Reasoning Prasham Yatinkumar Titiya Jainil Trivedi Chitta Baral Vivek Gupta LMTD 218 3 0 27 May 2025
Can Compressed LLMs Truly Act? An Empirical Evaluation of Agentic Capabilities in LLM Compression Peijie Dong Zhenheng Tang Xiang Liu Lujun Li Xiaowen Chu Bo Li 414 7 0 26 May 2025
VisualToolAgent (VisTA): A Reinforcement Learning Framework for Visual Tool Selection Zeyi Huang Zeyi Huang Anirudh Sundara Rajan Zefan Cai Wen Xiao Junjie Hu Junjie Hu Yong Jae Lee 215 15 0 26 May 2025
Large Language Models for IT Automation Tasks: Are We There Yet? Md Mahadi Hassan John Salvador Akond Rahman S. Karmaker 169 1 0 26 May 2025
Attention! Your Vision Language Model Could Be Maliciously Manipulated Xiaosen Wang Shaokang Wang Zhijin Ge Yuyang Luo Shudong Zhang AAML VLM 202 1 0 26 May 2025
MMGeoLM: Hard Negative Contrastive Learning for Fine-Grained Geometric Understanding in Large Multimodal Models Kai Sun Yushi Bai Zhen-Yi Yang Jiajie Zhang Ji Qi Lei Hou Juanzi Li VLM 393 0 0 26 May 2025
Balancing Computation Load and Representation Expressivity in Parallel Hybrid Neural Networks Mohammad Mahdi Moradi Walid Ahmed Shuangyue Wen Sudhir Mudur Weiwei Zhang Yang Liu 326 0 0 26 May 2025
Correlating instruction-tuning (in multimodal models) with vision-language processing (in the brain)International Conference on Learning Representations (ICLR), 2025 R. Mamidi Akshett Rai Jindal Ishani Mondal Khushbu Pahwa Satya Sai Srinath Namburi Manish Shrivastava M. Singh Bapi S. Raju Subba Reddy Oota 169 4 0 26 May 2025
The Price of Format: Diversity Collapse in LLMs Longfei Yun Chenyang An Zilong Wang Letian Peng Jingbo Shang 155 6 0 25 May 2025
Delving into Multilingual Ethical Bias: The MSQAD with Statistical Hypothesis Tests for Large Language ModelsAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Seunguk Yu Juhwan Choi Youngbin Kim 252 1 0 25 May 2025
ReFineVLA: Reasoning-Aware Teacher-Guided Transfer Fine-Tuning Tuan V. Vo T. Nguyen Khang Nguyen Duy Ho Minh Nguyen Minh Nhat Vu LRM 167 4 0 25 May 2025
Are Vision Language Models Ready for Clinical Diagnosis? A 3D Medical Benchmark for Tumor-centric Visual Question Answering Y. Chen Wenjie Xiao P. R. Bassi Xinze Zhou Sezgin Er Ibrahim Ethem Hamamci Zongwei Zhou Yaoyao Liu ELM 205 5 0 25 May 2025
S $^2$ GPT-PINNs: Sparse and Small models for PDEs Yajie Ji Yanlai Chen Shawn Koohy 144 0 0 25 May 2025
100-LongBench: Are de facto Long-Context Benchmarks Literally Evaluating Long-Context Ability?Annual Meeting of the Association for Computational Linguistics (ACL), 2025 Wang Yang Hongye Jin Shaochen Zhong Song Jiang Qifan Wang Vipin Chaudhary Xiaotian Han ELM 197 1 0 25 May 2025
Jodi: Unification of Visual Generation and Understanding via Joint Modeling Yifeng Xu Zhenliang He Meina Kan Shiguang Shan Xilin Chen VLM 314 1 0 25 May 2025
VISTA: Vision-Language Inference for Training-Free Stock Time-Series Analysis Tina Khezresmaeilzadeh Parsa Razmara Seyedarmin Azizi Mohammad Erfan Sadeghi Erfan Baghaei Portaghloo AI4TS 511 3 0 24 May 2025
Efficient Long CoT Reasoning in Small Language Models Z. Wang Jinqi Jiang Tian Qiu Hui Liu Xianfeng Tang Huaxiu Yao OffRL ReLM LRM 245 3 0 24 May 2025
Sci-LoRA: Mixture of Scientific LoRAs for Cross-Domain Lay ParaphrasingAnnual Meeting of the Association for Computational Linguistics (ACL), 2025 Ming Cheng Jiaying Gong Hoda Eldardiry AI4CE 179 1 0 24 May 2025
MathEDU: Towards Adaptive Feedback for Student Mathematical Problem-Solving Wei-Ling Hsu Yu-Chien Tang An-Zi Yen 367 0 0 23 May 2025