Unifying Event Detection and Captioning as Sequence Generation via Pre-Training

18 July 2022

Qin Jin

Papers citing "Unifying Event Detection and Captioning as Sequence Generation via Pre-Training"

2 / 2 papers shown

Title
Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning Antoine Yang Arsha Nagrani Paul Hongsuck Seo Antoine Miech Jordi Pont-Tuset Ivan Laptev Josef Sivic Cordelia Schmid AI4TS VLM 18 220 0 27 Feb 2023
Unifying Vision-and-Language Tasks via Text Generation Jaemin Cho Jie Lei Hao Tan Mohit Bansal MLLM 249 525 0 04 Feb 2021