Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities

23 May 2025

Papers citing "Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities"

20 / 20 papers shown

Title
See, Hear, and Understand: Benchmarking Audiovisual Human Speech Understanding in Multimodal Large Language Models Le Thien Phuc Nguyen Zhuoran Yu Samuel Low Yu Hang Subin An J. Lee ... SeungEun Chung Thanh-Huy Nguyen JuWan Maeng Soochahn Lee Yong Jae Lee AuLLM VLM 194 0 0 01 Dec 2025
LongCat-Flash-Omni Technical Report M-A-P Team Bairui Wang Bayan Bin Xiao Bo Zhang ... Xin Pan Xin Chen Xiusong Sun Xu Xiang X. Xing MLLM VLM 574 4 0 31 Oct 2025
LongInsightBench: A Comprehensive Benchmark for Evaluating Omni-Modal Models on Human-Centric Long-Video Understanding Zhaoyang Han Qihan Lin Hao Liang Bowen Chen Zhou Liu Wentao Zhang VLM 199 0 0 20 Oct 2025
OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM Hanrong Ye Chao-Han Huck Yang Arushi Goel Wei Huang Ligeng Zhu ... Andrew Tao Song Han Jan Kautz Hongxu Yin Pavlo Molchanov 174 3 0 17 Oct 2025
XModBench: Benchmarking Cross-Modal Capabilities and Consistency in Omni-Language Models Xingrui Wang Jiang Liu Chao Huang X. Yu Ze Wang Ximeng Sun Jialian Wu Alan Yuille Emad Barsoum Zicheng Liu VLM 95 0 0 16 Oct 2025
AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration Xinlong Chen Yue Ding Weihong Lin Jingyun Hua Linli Yao ... Yuanxing Zhang Qiang Liu Pengfei Wan Liang Wang Tieniu Tan 245 2 0 12 Oct 2025
OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs Caorui Li Yu Chen Yiyan Ji Jin Xu Zhenyu Cui ... Zili Wang Minghao Liu Junran Peng Zhaoxiang Zhang Jiaheng Liu AuLLM LRM 154 8 0 12 Oct 2025
Qwen3-Omni Technical Report Jin Xu Zhifang Guo Hangrui Hu Yunfei Chu Xiong Wang ... Bowen Yu Jianxin Yang Le Yu Jingren Zhou Junyang Lin AuLLM VGen VLM 200 56 0 22 Sep 2025
CogGuide: Human-Like Guidance for Zero-Shot Omni-Modal Reasoning Zhou-Peng Shou Zhi-Qiang You Fang Wang Hai-Bo Liu LRM 123 0 0 08 Sep 2025
AURA: A Fine-Grained Benchmark and Decomposed Metric for Audio-Visual Reasoning Siminfar Samakoush Galougah Rishie Raj Sanjoy Chowdhury Sayan Nag Ramani Duraiswami 181 3 0 10 Aug 2025
AVATAR: Reinforcement Learning to See, Hear, and Reason Over Video Yogesh Kulkarni Pooyan Fazli OffRL LRM 260 4 0 05 Aug 2025
Qwen2.5-Omni Technical Report Jin Xu Zhifang Guo Jinzheng He Hangrui Hu Ting He ... K. Dang Bin Zhang Xinyu Wang Yunfei Chu Junyang Lin VGen AuLLM 1.1K 333 0 26 Mar 2025
Nexus: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision Che Liu Yingji Zhang D. Zhang Weijie Zhang Chenggong Gong ... Junwei Liao Haipang Wu Ji Liu André Freitas Qifan Wang AuLLM 555 6 0 26 Feb 2025
Qwen2.5-VL Technical Report S. Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge ... Zesen Cheng Hang Zhang Zhibo Yang Haiyang Xu Junyang Lin VLM 691 2,801 0 20 Feb 2025
Baichuan-Omni-1.5 Technical Report Yadong Li Qingbin Liu Tao Zhang Tao Zhang Tian Jin ... Jianhua Xu Haoze Sun Mingan Lin Guosheng Dong Xin Wu AuLLM 328 63 0 28 Jan 2025
Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos Kairui Hu Penghao Wu Fanyi Pu Wang Xiao Yujiao Shi Xiang Yue Bo Li Ziqiang Liu 272 104 0 23 Jan 2025
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning DeepSeek-AI Daya Guo Dejian Yang Haowei Zhang Junxiao Song ... Shiyu Wang S. Yu Shunfeng Zhou Shuting Pan S.S. Li OffRL AI4TS LRM ReLM VLM 1.2K 5,342 0 22 Jan 2025
OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning Ling Fu Biao Yang Zhebin Kuang Jiajun Song Yuzhe Li ... Jingqun Tang Wei Chen Lianwen Jin Yunxing Liu Xiang Bai 343 22 0 31 Dec 2024
AVHBench: A Cross-Modal Hallucination Benchmark for Audio-Visual Large Language ModelsInternational Conference on Learning Representations (ICLR), 2024 Kim Sung-Bin Oh Hyun-Bin JungMok Lee Arda Senocak Joon Son Chung Tae-Hyun Oh MLLM VLM 441 15 0 23 Oct 2024
OmniBench: Towards The Future of Universal Omni-Language Models Y. Li Ge Zhang Yinghao Ma Ruibin Yuan Kang Zhu ... Zhaoxiang Zhang Zachary Liu Emmanouil Benetos Wenhao Huang Chenghua Lin LRM 603 52 0 23 Sep 2024