v1v2 (latest)

VideoChat: Chat-Centric Video Understanding

10 May 2023

Yi Wang

Ping Luo

Yu Qiao

ArXiv (abs)PDF HTML HuggingFace (3 upvotes)Github (3246★)

Papers citing "VideoChat: Chat-Centric Video Understanding"

50 / 563 papers shown

Efficient Driving Behavior Narration and Reasoning on Edge Device Using Large Language ModelsIEEE Transactions on Vehicular Technology (IEEE Trans. Veh. Technol.), 2024

189

30 Sep 2024

Visual Context Window Extension: A New Perspective for Long Video Understanding

Hongchen Wei

Zhenzhong Chen

VLM

298

30 Sep 2024

One Token to Seg Them All: Language Instructed Reasoning Segmentation in VideosNeural Information Processing Systems (NeurIPS), 2024

Tong He

Joya Chen

Zheng Zhang

Mike Zheng Shou

VLM VOS MLLM

257

29 Sep 2024

Video DataFlywheel: Resolving the Impossible Data Trinity in Video-Language UnderstandingIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2024

Xiao Wang

Yue Yu

Zijia Lin

Fuzheng Zhang

Di Zhang

Liqiang Nie

VGen

216

29 Sep 2024

E.T. Bench: Towards Open-Ended Event-Level Video-Language UnderstandingNeural Information Processing Systems (NeurIPS), 2024

Ye Liu

Zongyang Ma

Chen Ma

Yang Wu

Ying Shan

Chang Wen Chen

273

26 Sep 2024

LLM4Brain: Training a Large Language Model for Brain Video Understanding

Ruizhe Zheng

Lichao Sun

141

26 Sep 2024

LLaVA-3D: A Simple yet Effective Pathway to Empowering LMMs with 3D-awareness

733

128

26 Sep 2024

MIO: A Foundation Model on Multimodal Tokens

...

465

26 Sep 2024

Multi-modal Generative AI: Multi-modal LLMs, Diffusions, and the Unification

493

23 Sep 2024

Video-XL: Extra-Long Vision Language Model for Hour-Scale Video UnderstandingComputer Vision and Pattern Recognition (CVPR), 2024

Zheng Liu

Bo Zhao

461

140

22 Sep 2024

Interpolating Video-LLMs: Toward Longer-sequence LMMs in a Training-free Manner

Yuzhang Shang

Bingxin Xu

Weitai Kang

Mu Cai

Yuheng Li

Zehao Wen

Zhen Dong

Kurt Keutzer

Yong Jae Lee

Yan Yan

310

19 Sep 2024

MMSearch: Benchmarking the Potential of Large Models as Multi-modal Search Engines

Renrui Zhang

...

Guanglu Song

Peng Gao

Yu Liu

Chunyuan Li

Hongsheng Li

MLLM

287

19 Sep 2024

From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models

422

19 Sep 2024

Generating Event-oriented Attribution for Movies via Two-Stage Prefix-Enhanced Multimodal LLM

Enhong Chen

230

14 Sep 2024

PiTe: Pixel-Temporal Alignment for Large Video-Language ModelEuropean Conference on Computer Vision (ECCV), 2024

Yang Liu

Pengxiang Ding

Siteng Huang

Min Zhang

Han Zhao

Donglin Wang

221

11 Sep 2024

Enhancing Long Video Understanding via Hierarchical Event-Based Memory

Jingyu Liu

Xi Chen

272

10 Sep 2024

VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision ComputationNeural Information Processing Systems (NeurIPS), 2024

Shiwei Wu

Joya Chen

Kevin Qinghong Lin

Enhong Chen

Mike Zheng Shou

VLM

249

29 Aug 2024

CogVLM2: Visual Language Models for Image and Video Understanding

...

Bin Xu

Juanzi Li

Yuxiao Dong

Jie Tang

VLM MLLM

303

198

29 Aug 2024

Training-free Video Temporal Grounding using Large-scale Pre-trained ModelsEuropean Conference on Computer Vision (ECCV), 2024

Minghang Zheng

Xinhao Cai

Qingchao Chen

Yuxin Peng

Yang Liu

238

29 Aug 2024

LMM-VQA: Advancing Video Quality Assessment with Large Multimodal Models

Qihang Ge

Wei Sun

Yu Zhang

Yunhao Li

Zhongpeng Ji

Fengyu Sun

Shangling Jui

Xiongkuo Min

Guangtao Zhai

198

26 Aug 2024

Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities

169

13 Aug 2024

mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language ModelsInternational Conference on Learning Representations (ICLR), 2024

Ming Yan

Fei Huang

Jingren Zhou

MLLM VLM

314

230

09 Aug 2024

VITA: Towards Open-Source Interactive Omni Multimodal LLM

...

577

147

09 Aug 2024

VideoQA in the Era of LLMs: An Empirical StudyInternational Journal of Computer Vision (IJCV), 2024

...

352

08 Aug 2024

User-in-the-loop Evaluation of Multimodal LLMs for Activity AssistanceIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024

Ruta Desai

321

04 Aug 2024

A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks

Chong Ma

...

Tianming Liu

286

02 Aug 2024

ExpertAF: Expert Actionable Feedback from VideoComputer Vision and Pattern Recognition (CVPR), 2024

455

01 Aug 2024

Learning Video Context as Interleaved Multimodal Sequences

248

31 Jul 2024

Urban Safety Perception Assessments via Integrating Multimodal Large Language Models with Street View ImagesCities (Cities), 2024

260

29 Jul 2024

SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models

263

22 Jul 2024

MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity

...

Yu Qiao

313

22 Jul 2024

Navigation Instruction Generation with BEV Perception and Large Language Models

263

21 Jul 2024

F-HOI: Toward Fine-grained Semantic-Aligned 3D Human-Object Interactions

Xuesong Niu

234

17 Jul 2024

Refusing Safe Prompts for Multi-modal Large Language Models

221

12 Jul 2024

MAVIS: Mathematical Visual Instruction Tuning

Renrui Zhang

Xinyu Wei

Dongzhi Jiang

Yichi Zhang

Ziyu Guo

...

Aojun Zhou

Bin Wei

Shanghang Zhang

Peng Gao

Hongsheng Li

MLLM

134

11 Jul 2024

The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective

Bolin Ding

Yaliang Li

Shuiguang Deng

350

11 Jul 2024

Hypergraph Multi-modal Large Language Model: Exploiting EEG and Eye-tracking Modalities to Evaluate Heterogeneous Responses for Video Understanding

...

Ping Wang

323

11 Jul 2024

HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models

Runhui Huang

198

11 Jul 2024

LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models

Feng Li

Renrui Zhang

Hao Zhang

Yuanhan Zhang

Bo Li

Wei Li

Zejun Ma

Chunyuan Li

MLLM VLM

367

439

10 Jul 2024

AffectGPT: Dataset and Framework for Explainable Multimodal Emotion Recognition

Zheng Lian

Haiyang Sun

Guoying Zhao

Jiangyan Yi

Bin Liu

Jianhua Tao

257

10 Jul 2024

Video-STaR: Self-Training Enables Video Instruction Tuning with Any Supervision

237

08 Jul 2024

Multimodal Language Models for Domain-Specific Procedural Video Summarization

Nafisa Hussain

303

07 Jul 2024

Enhance the Robustness of Text-Centric Multimodal Alignments

267

06 Jul 2024

AWT: Transferring Vision-Language Models via Augmentation, Weighting, and Transportation

Limin Wang

324

05 Jul 2024

InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output

Pan Zhang

Xiaoyi Dong

Yuhang Zang

Yuhang Cao

Rui Qian

...

Kai Chen

Jifeng Dai

Yu Qiao

Dahua Lin

Jiaqi Wang

299

171

03 Jul 2024

Video Watermarking: Safeguarding Your Video from (Unauthorized) Annotations by Video-based LLMs

Jinmin Li

Kuofeng Gao

Yang Bai

Jingyun Zhang

Shu-Tao Xia

293

02 Jul 2024

Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time

Dinesh Manocha

412

01 Jul 2024

Tarsier: Recipes for Training and Evaluating Large Video Description Models

Jiawei Wang

Liping Yuan

Yuchen Zhang

304

115

30 Jun 2024

ReXTime: A Benchmark Suite for Reasoning-Across-Time in Videos

Yu-Chiang Frank Wang

354

27 Jun 2024

GUIDE: A Guideline-Guided Dataset for Instructional Video Comprehension

Zekun Wang

Bing Qin

183

26 Jun 2024