Object Relational Graph with Teacher-Recommended Learning for Video Captioning

Computer Vision and Pattern Recognition (CVPR), 2020

26 February 2020

Ziqi Zhang

Yaya Shi

Chunfen Yuan

Bing Li

Peijin Wang

Papers citing "Object Relational Graph with Teacher-Recommended Learning for Video Captioning"

50 / 116 papers shown

Language-guided Recursive Spatiotemporal Graph Modeling for Video SummarizationInternational Journal of Computer Vision (IJCV), 2025

Jungin Park

Jiyoung Lee

Kwanghoon Sohn

189

06 Sep 2025

GroundFlow: A Plug-in Module for Temporal Reasoning on 3D Point Cloud Sequential Grounding

395

26 Jun 2025

Towards Efficient Partially Relevant Video Retrieval with Active Moment DiscoveringIEEE transactions on multimedia (TMM), 2025

266

15 Apr 2025

Capturing Rich Behavior Representations: A Dynamic Action Semantic-Aware Graph Transformer for Video CaptioningIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2025

291

20 Feb 2025

Spider: Any-to-Many Multimodal LLM

672

14 Nov 2024

Pseudo-labeling with Keyword Refining for Few-Supervised Video CaptioningPattern Recognition (Pattern Recogn.), 2024

292

06 Nov 2024

SPECTRUM: Semantic Processing and Emotion-informed video-Captioning Through Retrieval and Understanding Modalities

Ehsan Faghihi

Mohammedreza Zarenejad

Ali-Asghar Beheshti Shirazi

300

04 Nov 2024

EVC-MF: End-to-end Video Captioning Network with Multi-scale Features

292

22 Oct 2024

MECD: Unlocking Multi-Event Causal Discovery in Video ReasoningNeural Information Processing Systems (NeurIPS), 2024

Yihang Chen

...

Yang Zhang

Yingxue Wang

Hui Lin

Weiyao Lin

VGen CML

519

26 Sep 2024

HOTVCOM: Generating Buzzworthy Comments for VideosAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

Zhixu Li

Yanghua Xiao

Xiaobo Li

Ming-Hsuan Yang

Qingpei Guo

290

23 Sep 2024

Towards Holistic Language-video Representation: the language model-enhanced MSR-Video to Text Dataset

Yuchen Yang

Yingxuan Duan

VGen

234

19 Jun 2024

NarrativeBridge: Enhancing Video Captioning with Causal-Temporal NarrativeInternational Conference on Learning Representations (ICLR), 2024

518

10 Jun 2024

Video-Language Understanding: A Survey from Model Architecture, Model Training, and Data PerspectivesAnnual Meeting of the Association for Computational Linguistics (ACL), 2024

648

09 Jun 2024

Sentiment-oriented Transformer-based Variational Autoencoder Network for Live Video Commenting

Weidong Chen

215

19 Apr 2024

DIBS: Enhancing Dense Video Captioning with Unlabeled Videos via Pseudo Boundary Enrichment and Online RefinementComputer Vision and Pattern Recognition (CVPR), 2024

Hao Wu

Huabin Liu

Yu Qiao

Xiao Sun

3DV

144

03 Apr 2024

OmniVid: A Generative Framework for Universal Video Understanding

Lu Yuan

Zuxuan Wu

Yu-Gang Jiang

VLM VGen

348

26 Mar 2024

ModaVerse: Efficiently Transforming Modalities with LLMsComputer Vision and Pattern Recognition (CVPR), 2024

Xinyu Wang

Bohan Zhuang

Qi Wu

296

12 Jan 2024

Knowledge-enhanced Multi-perspective Video Representation Learning for Scene Recognition

380

09 Jan 2024

Set Prediction Guided by Semantic Concepts for Diverse Video Captioning

Bing Li

208

25 Dec 2023

Subject-Oriented Video Captioning

Guorong Li

Qi Wu

233

20 Dec 2023

Leveraging Generative Language Models for Weakly Supervised Sentence Component Analysis in Video-Language Joint Learning

Zaber Ibn Abdul Hakim

391

10 Dec 2023

CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any GenerationComputer Vision and Pattern Recognition (CVPR), 2023

Yang Liu

Mohit Bansal

306

30 Nov 2023

VidChapters-7M: Video Chapters at ScaleNeural Information Processing Systems (NeurIPS), 2023

294

25 Sep 2023

Accurate and Fast Compressed Video CaptioningIEEE International Conference on Computer Vision (ICCV), 2023

Yaojie Shen

Kai Xu

236

22 Sep 2023

Collaborative Three-Stream Transformers for Video CaptioningComputer Vision and Image Understanding (CVIU), 2023

261

18 Sep 2023

NExT-GPT: Any-to-Any Multimodal LLMInternational Conference on Machine Learning (ICML), 2023

Hao Fei

Wei Ji

498

776

11 Sep 2023

Computation-efficient Deep Learning for Computer Vision: A Survey

Yulin Wang

Gao Huang

363

27 Aug 2023

Video Captioning with Aggregated Features Based on Dual Graphs and Gated Fusion

Yutao Jin

Yinan Han

Jing Wang

201

13 Aug 2023

Bootstrapping Vision-Language Learning with Decoupled Language Pre-trainingNeural Information Processing Systems (NeurIPS), 2023

482

13 Jul 2023

Any-to-Any Generation via Composable DiffusionNeural Information Processing Systems (NeurIPS), 2023

522

266

19 May 2023

VideoOFA: Two-Stage Pre-Training for Video-to-Text Generation

Yashar Mehdad

208

04 May 2023

A Review of Deep Learning for Video CaptioningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

...

Fatih Porikli

291

22 Apr 2023

VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and DatasetIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

531

175

17 Apr 2023

Graph Attention for Automated Audio CaptioningIEEE Signal Processing Letters (IEEE SPL), 2023

258

07 Apr 2023

Scalable and Accurate Self-supervised Multimodal Representation Learning without Aligned Video and Text Data

332

04 Apr 2023

MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks

...

457

29 Mar 2023

Fine-grained Audible Video DescriptionComputer Vision and Pattern Recognition (CVPR), 2023

Zhen Qin

...

Yuchao Dai

Lingpeng Kong

Meng Wang

Yu Qiao

Yiran Zhong

VGen

217

27 Mar 2023

GOAL: A Challenging Knowledge-grounded Video Captioning Benchmark for Real-time Soccer Commentary GenerationInternational Conference on Information and Knowledge Management (CIKM), 2023

Ji Qi

Jifan Yu

Teng Tu

Kunyu Gao

Yifan Xu

...

Juanzi Li

297

26 Mar 2023

MELTR: Meta Loss Transformer for Learning to Fine-tune Video Foundation ModelsComputer Vision and Pattern Recognition (CVPR), 2023

262

23 Mar 2023

Text with Knowledge Graph Augmented Transformer for Video CaptioningComputer Vision and Pattern Recognition (CVPR), 2023

Yufei Wang

278

22 Mar 2023

Accommodating Audio Modality in CLIP for Multimodal ProcessingAAAI Conference on Artificial Intelligence (AAAI), 2023

Qin Jin

243

12 Mar 2023

Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video CaptioningComputer Vision and Pattern Recognition (CVPR), 2023

593

364

27 Feb 2023

STOA-VLP: Spatial-Temporal Modeling of Object and Action for Video-Language Pre-trainingAAAI Conference on Artificial Intelligence (AAAI), 2023

475

20 Feb 2023

ADAPT: Action-aware Driving Caption TransformerIEEE International Conference on Robotics and Automation (ICRA), 2023

Bu Jin

Xinyi Liu

Yupeng Zheng

Pengfei Li

Hao Zhao

Tong Zhang

Yuhang Zheng

Guyue Zhou

Jingjing Liu

543

105

01 Feb 2023

Semi-Parametric Video-Grounded Text Generation

282

27 Jan 2023

VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners

401

09 Dec 2022

Refined Semantic Enhancement towards Frequency Diffusion for Video CaptioningAAAI Conference on Artificial Intelligence (AAAI), 2022

298

28 Nov 2022

Aligning Source Visual and Target Language Domains for Unpaired Video CaptioningIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2021

307

22 Nov 2022

Expectation-Maximization Contrastive Learning for Compact Video-and-Language RepresentationsNeural Information Processing Systems (NeurIPS), 2022

370

21 Nov 2022

Visual Commonsense-aware Representation Network for Video CaptioningIEEE Transactions on Neural Networks and Learning Systems (TNNLS), 2022

Pengpeng Zeng

Haonan Zhang

Lianli Gao

Xiangpeng Li

Jin Qian

Hengtao Shen

206

17 Nov 2022