Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting

Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting

7 April 2025

Papers citing "Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting"

1 / 1 papers shown

Title
WikiVideo: Article Generation from Multiple Videos Alexander Martin Reno Kriz William Walden Kate Sanders Hannah Recknor Eugene Yang Francis Ferraro Benjamin Van Durme DiffM VGen 42 1 0 01 Apr 2025