v1v2 (latest)

VideoChat: Chat-Centric Video Understanding

10 May 2023

Yi Wang

Ping Luo

Yu Qiao

ArXiv (abs)PDF HTML HuggingFace (3 upvotes)Github (3246★)

Papers citing "VideoChat: Chat-Centric Video Understanding"

50 / 563 papers shown

MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval

Shaogang Gong

232

25 Jun 2024

MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning

Xiangyu Zhao

Xiangtai Li

Haodong Duan

Haian Huang

Yining Li

Kai Chen

Hua Yang

VLM MLLM

335

25 Jun 2024

Zero-Shot Long-Form Video Understanding through Screenplay

Yongliang Wu

...

181

25 Jun 2024

EVALALIGN: Supervised Fine-Tuning Multimodal LLMs with Human-Aligned Data for Evaluating Text-to-Image Models

Cheng Zhang

Hao Li

385

24 Jun 2024

Directed Domain Fine-Tuning: Tailoring Separate Modalities for Specific Training Tasks

Daniel Wen

Nafisa Hussain

226

24 Jun 2024

video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models

Guangzhi Sun

Wenyi Yu

Changli Tang

Xianzhao Chen

Tian Tan

Wei Li

Lu Lu

Zejun Ma

Yuxuan Wang

Chao Zhang

248

22 Jun 2024

MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding

Xinyu Fang

Kangrui Mao

Haodong Duan

Xiangyu Zhao

Yining Li

Dahua Lin

Kai Chen

VLM

227

151

20 Jun 2024

Through the Theory of Mind's Eye: Reading Minds with Multimodal Video Large Language Models

274

19 Jun 2024

DrVideo: Document Retrieval Based Long Video UnderstandingComputer Vision and Pattern Recognition (CVPR), 2024

Shutao Li

Hamid Rezatofighi

Jianfei Cai

VLM

202

18 Jun 2024

Holmes-VAD: Towards Unbiased and Explainable Video Anomaly Detection via Multi-modal LLM

Huaxin Zhang

Jialong Zuo

378

18 Jun 2024

VoCo-LLaMA: Towards Vision Compression with Large Language Models

Yansong Tang

402

18 Jun 2024

VideoLLM-online: Online Video Large Language Model for Streaming Video

Joya Chen

Kevin Qinghong Lin

Difei Gao

Mike Zheng Shou

314

109

17 Jun 2024

VideoVista: A Versatile Benchmark for Video Understanding and Reasoning

Yunxin Li

391

17 Jun 2024

Emotion-LLaMA: Multimodal Emotion Recognition and Reasoning with Instruction Tuning

Zebang Cheng

Zhi-Qi Cheng

Jun-Yan He

Yuxuan Zhou

Kai Wang

Yuxiang Lin

Zheng Lian

Xiaojiang Peng

Alexander G. Hauptmann

MLLM

260

118

17 Jun 2024

Beyond Raw Videos: Understanding Edited Videos with Large Multimodal Model

Xinyao Wang

Guang Chen

Dawei Du

Ye Yuan

Longyin Wen

282

15 Jun 2024

GPT-4o: Visual perception performance of multimodal large language models in piglet activity understanding

172

14 Jun 2024

VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMsNorth American Chapter of the Association for Computational Linguistics (NAACL), 2024

Salman Khan

385

14 Jun 2024

VideoGPT+: Integrating Image and Video Encoders for Enhanced Video Understanding

Salman Khan

267

102

13 Jun 2024

Explore the Limits of Omni-modal Pretraining at Scale

Handong Li

255

13 Jun 2024

LLAVIDAL: A Large LAnguage VIsion Model for Daily Activities of Living

Rajatsubhra Chakraborty

Francois Bremond

188

13 Jun 2024

Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs

Bingning Wang

Weipeng Chen

Jing Liu

336

13 Jun 2024

OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

Zhe Chen

...

Dahua Lin

Yu Qiao

Botian Shi

Conghui He

Jifeng Dai

VLM OffRL

270

12 Jun 2024

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

...

Zhengyuan Yang

Kevin Lin

William Yang Wang

Lijuan Wang

Xin Eric Wang

VGen LRM

669

12 Jun 2024

Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams

Haoji Zhang

Yiqin Wang

Yansong Tang

345

12 Jun 2024

Fewer Tokens and Fewer Videos: Extending Video Understanding Abilities in Large Vision-Language Models

Shimin Chen

Yitian Yuan

Shaoxiang Chen

Zequn Jie

Lin Ma

VLM

232

12 Jun 2024

LVBench: An Extreme Long Video Understanding Benchmark

...

575

214

12 Jun 2024

Needle In A Multimodal Haystack

Shuibo Zhang

...

Yu Qiao

Jifeng Dai

Wenqi Shao

Wenhai Wang

VLM

229

11 Jun 2024

Vript: A Video Is Worth Thousands of WordsNeural Information Processing Systems (NeurIPS), 2024

Hai Zhao

376

10 Jun 2024

iMotion-LLM: Instruction-Conditioned Trajectory Generation

308

10 Jun 2024

VP-LLM: Text-Driven 3D Volume Completion with Large Language Models through Patchification

Yu-Wing Tai

233

08 Jun 2024

ShareGPT4Video: Improving Video Understanding and Generation with Better CaptionsNeural Information Processing Systems (NeurIPS), 2024

Lin Chen

Xilin Wei

Jinsong Li

Xiaoyi Dong

Pan Zhang

...

Li Yuan

Yu Qiao

Dahua Lin

Feng Zhao

Jiaqi Wang

385

334

06 Jun 2024

AD-H: Autonomous Driving with Hierarchical Agents

Yifan Wang

Dong Wang

215

05 Jun 2024

Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

...

644

871

31 May 2024

MotionLLM: Understanding Human Behaviors from Human Motions and Videos

Ailing Zeng

Lei Zhang

238

30 May 2024

SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation

Xuelong Li

317

30 May 2024

X-VILA: Cross-Modality Alignment for Large Language Model

De-An Huang

...

Song Han

Dan Xu

Pavlo Molchanov

Hongxu Yin

MLLM VLM

271

29 May 2024

Hawk: Learning to Understand Open-World Video Anomalies

Xiaogang Xu

Jiangbo Lu

194

27 May 2024

Cross-Modal Safety Alignment: Is textual unlearning all you need?

Amit K. Roy-Chowdhury

Chengyu Song

252

27 May 2024

Streaming Long Video Understanding with Large Language Models

Dahua Lin

262

114

25 May 2024

Prompt-Aware Adapter: Towards Learning Adaptive Visual Tokens for Multimodal Large Language Models

Yue Zhang

Hehe Fan

Yi Yang

297

24 May 2024

Continuously Learning, Adapting, and Improving: A Dual-Process Approach to Autonomous Driving

Jianbiao Mei

Yukai Ma

Xuemeng Yang

Licheng Wen

...

Yu Qiao

203

24 May 2024

A Survey on Vision-Language-Action Models for Embodied AI

911

170

23 May 2024

Dense Connector for MLLMs

Yifan Sun

Wanli Ouyang

Jingdong Wang

MLLM VLM

224

22 May 2024

An Empirical Study and Analysis of Text-to-Image Generation Using Large Language Model-Powered Textual Representation

Hao Li

283

21 May 2024

Context-Enhanced Video Moment Retrieval with Large Language Models

Bo Liu

287

21 May 2024

Imp: Highly Capable Large Multimodal Models for Mobile Devices

282

20 May 2024

Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of ExpertsIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024

Baotian Hu

Lin Ma

242

100

18 May 2024

Efficient Multimodal Large Language Models: A Survey

Yizhang Jin

Jian Li

Yexin Liu

Tianjun Gu

Kai Wu

...

Xin Tan

Zhenye Gan

Yabiao Wang

Chengjie Wang

Lizhuang Ma

LRM

308

17 May 2024

SOK-Bench: A Situated Video Reasoning Benchmark with Aligned Open-World KnowledgeComputer Vision and Pattern Recognition (CVPR), 2024

Chuang Gan

278

15 May 2024

FreeVA: Offline MLLM as Training-Free Video Assistant

Wenhao Wu

VLM OffRL

297

13 May 2024