End-to-end Dense Video Captioning as Sequence Generation

18 April 2022

Papers citing "End-to-end Dense Video Captioning as Sequence Generation"

4 / 4 papers shown

Title
Video LLMs for Temporal Reasoning in Long Videos Fawad Javed Fateh Umer Ahmed Hamza Khan M. Zia Quoc-Huy Tran VLM 81 0 0 04 Dec 2024
Multi-Modal Video Topic Segmentation with Dual-Contrastive Domain Adaptation Linzi Xing Quan Tran Fabian Caba Franck Dernoncourt Seunghyun Yoon Zhaowen Wang Trung Bui Giuseppe Carenini 28 1 0 30 Nov 2023
Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning Antoine Yang Arsha Nagrani Paul Hongsuck Seo Antoine Miech Jordi Pont-Tuset Ivan Laptev Josef Sivic Cordelia Schmid AI4TS VLM 18 220 0 27 Feb 2023
Pix2seq: A Language Modeling Framework for Object Detection Ting-Li Chen Saurabh Saxena Lala Li David J. Fleet Geoffrey E. Hinton MLLM ViT VLM 233 344 0 22 Sep 2021