v1v2 (latest)

VideoChat: Chat-Centric Video Understanding

10 May 2023

Yi Wang

Ping Luo

Yu Qiao

ArXiv (abs)PDF HTML HuggingFace (3 upvotes)Github (3246★)

Papers citing "VideoChat: Chat-Centric Video Understanding"

50 / 563 papers shown

User Intent Recognition and Satisfaction with Large Language Models: A User Study with ChatGPT

Gjergji Kasneci

192

03 Feb 2024

A Survey on Generative AI and LLM for Video Generation, Understanding, and Streaming

Lin Wang

255

30 Jan 2024

GPT4Ego: Unleashing the Potential of Pre-trained Models for Zero-Shot Egocentric Action Recognition

432

18 Jan 2024

On the Audio Hallucinations in Large Audio-Video Language Models

233

18 Jan 2024

Vlogger: Make Your Dream A VlogComputer Vision and Pattern Recognition (CVPR), 2024

Ziwei Liu

Yu Qiao

Yali Wang

VGen DiffM

156

17 Jan 2024

DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent)International Conference on Machine Learning (ICML), 2024

Guikun Chen

515

16 Jan 2024

Towards A Better Metric for Text-to-Video Generation

Haoning Wu

...

Weisi Lin

Ying Shan

256

15 Jan 2024

ModaVerse: Efficiently Transforming Modalities with LLMsComputer Vision and Pattern Recognition (CVPR), 2024

Xinyu Wang

Bohan Zhuang

Qi Wu

204

12 Jan 2024

Distilling Vision-Language Models on Millions of VideosComputer Vision and Pattern Recognition (CVPR), 2024

...

283

11 Jan 2024

Video Anomaly Detection and Explanation via Large Language Models

Hui Lv

Qianru Sun

253

11 Jan 2024

SonicVisionLM: Playing Sound with Vision Language ModelsComputer Vision and Pattern Recognition (CVPR), 2024

189

09 Jan 2024

Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers

330

03 Jan 2024

Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected Multi-Modal Large ModelsComputer Vision and Pattern Recognition (CVPR), 2024

Xinpeng Ding

Jinahua Han

Hang Xu

Xiaodan Liang

Wei Zhang

Xiaomeng Li

314

02 Jan 2024

Taking the Next Step with Generative Artificial Intelligence: The Transformative Role of Multimodal Large Language Models in Science EducationLearning and Individual Differences (LID), 2024

Gjergji Kasneci

302

01 Jan 2024

Video Understanding with Large Language Models: A Survey

...

760

174

29 Dec 2023

Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action

283

274

28 Dec 2023

Grounding-Prompter: Prompting LLM with Multimodal Information for Temporal Sentence Grounding in Long Videos

247

28 Dec 2023

Visual Instruction Tuning towards General-Purpose Multimodal Model: A Survey

198

27 Dec 2023

Plan, Posture and Go: Towards Open-World Text-to-Motion Generation

284

22 Dec 2023

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

Weijie Su

...

Ping Luo

Yu Qiao

649

2,210

21 Dec 2023

LLM4VG: Large Language Models Evaluation for Video Grounding

408

21 Dec 2023

Generative Multimodal Models are In-Context Learners

...

Tiejun Huang

398

422

20 Dec 2023

VQA4CIR: Boosting Composed Image Retrieval with Visual Question Answering

Wangmeng Zuo

273

19 Dec 2023

DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for Autonomous Driving

364

217

14 Dec 2023

Chat-3D v2: Bridging 3D Scene and Large Language Models with Object IdentifiersNeural Information Processing Systems (NeurIPS), 2023

Rongjie Huang

Xize Cheng

Zhou Zhao

334

13 Dec 2023

Vista-LLaMA: Reducing Hallucination in Video Language Models via Equal Distance to Visual Tokens

Heng Wang

263

12 Dec 2023

Honeybee: Locality-enhanced Projector for Multimodal LLM

402

199

11 Dec 2023

TMT-VIS: Taxonomy-aware Multi-dataset Joint Training for Video Instance Segmentation

Yu Qiao

364

11 Dec 2023

EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning

Mingyu Ding

Ying Shan

371

11 Dec 2023

Audio-Visual LLM for Video Understanding

Lei Zhang

254

11 Dec 2023

LvBench: A Benchmark for Long-form Video Understanding with Versatile Multi-modal Question Answering

340

08 Dec 2023

GPT-4V with Emotion: A Zero-shot Benchmark for Generalized Emotion Recognition

Hao Gu

268

07 Dec 2023

GPT4Point: A Unified Framework for Point-Language Understanding and GenerationComputer Vision and Pattern Recognition (CVPR), 2023

479

05 Dec 2023

VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding

243

04 Dec 2023

TimeChat: A Time-sensitive Multimodal Large Language Model for Long Video UnderstandingComputer Vision and Pattern Recognition (CVPR), 2023

Shicheng Li

372

364

04 Dec 2023

Towards Learning a Generalist Model for Embodied NavigationComputer Vision and Pattern Recognition (CVPR), 2023

643

118

04 Dec 2023

Zero-Shot Video Question Answering with Procedural Programs

188

01 Dec 2023

Dolphins: Multimodal Language Model for DrivingEuropean Conference on Computer Vision (ECCV), 2023

Yulong Cao

330

125

01 Dec 2023

ChatPose: Chatting about 3D Human PoseComputer Vision and Pattern Recognition (CVPR), 2023

298

30 Nov 2023

VTimeLLM: Empower LLM to Grasp Video MomentsComputer Vision and Pattern Recognition (CVPR), 2023

328

244

30 Nov 2023

VBench: Comprehensive Benchmark Suite for Video Generative ModelsComputer Vision and Pattern Recognition (CVPR), 2023

...

Dahua Lin

Yu Qiao

Ziwei Liu

VGen

523

1,001

29 Nov 2023

MM-Narrator: Narrating Long-form Videos with Multimodal In-Context LearningComputer Vision and Pattern Recognition (CVPR), 2023

Zicheng Liu

258

29 Nov 2023

VITATECS: A Diagnostic Dataset for Temporal Concept Understanding of Video-Language ModelsEuropean Conference on Computer Vision (ECCV), 2023

Shicheng Li

Lei Li

227

29 Nov 2023

LLaMA-VID: An Image is Worth 2 Tokens in Large Language ModelsEuropean Conference on Computer Vision (ECCV), 2023

333

480

28 Nov 2023

MVBench: A Comprehensive Multi-modal Video Understanding BenchmarkComputer Vision and Pattern Recognition (CVPR), 2023

...

Ping Luo

Yu Qiao

673

872

28 Nov 2023

SEED-Bench-2: Benchmarking Multimodal Large Language Models

Ying Shan

188

28 Nov 2023

AvatarGPT: All-in-One Framework for Motion Understanding, Planning, Generation and BeyondComputer Vision and Pattern Recognition (CVPR), 2023

Zixiang Zhou

Yu Wan

Baoyuan Wang

191

28 Nov 2023

Video-Bench: A Comprehensive Benchmark and Toolkit for Evaluating Video-based Large Language Models

Bin Lin

Lu Yuan

216

27 Nov 2023

ViT-Lens: Towards Omni-modal RepresentationsComputer Vision and Pattern Recognition (CVPR), 2023

Ying Shan

208

27 Nov 2023

EgoThink: Evaluating First-Person Perspective Thinking Capability of Vision-Language ModelsComputer Vision and Pattern Recognition (CVPR), 2023

Peng Li

265

27 Nov 2023