v1v2v3 (latest)

Auto-Encoding Scene Graphs for Image Captioning

6 December 2018

Jianfei Cai

Papers citing "Auto-Encoding Scene Graphs for Image Captioning"

50 / 310 papers shown

SGDiff: Scene Graph Guided Diffusion Model for Image Collaborative SegCaptioningAAAI Conference on Artificial Intelligence (AAAI), 2025

128

01 Dec 2025

ESCA: Contextualizing Embodied Agents via Scene-Graph Generation

282

11 Oct 2025

DescribeEarth: Describe Anything for Remote Sensing Images

135

30 Sep 2025

RORPCap: Retrieval-based Objects and Relations Prompt for Image Captioning

10 Aug 2025

Statistical Confidence Rescoring for Robust 3D Scene Graph Generation from Multi-View Images

109

05 Aug 2025

From Image Captioning to Visual Storytelling

225

31 Jul 2025

Analyzing the Sensitivity of Vision Language Models in Visual Question Answering

118

28 Jul 2025

FROSS: Faster-than-Real-Time Online 3D Semantic Scene Graph Generation from RGB-D Images

258

26 Jul 2025

A Reverse Causal Framework to Mitigate Spurious Correlations for Debiasing Scene Graph GenerationIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025

412

29 May 2025

From Data to Modeling: Fully Open-vocabulary Scene Graph Generation

182

26 May 2025

Multimodal Machine Translation with Visual Scene Graph Pruning

430

26 May 2025

Tri-FusionNet: Enhancing Image Description Generation with Transformer-based Fusion Network and Dual Attention Mechanism

Lakshita Agarwal

Bindu Verma

ViT

369

23 Apr 2025

PRISM-0: A Predicate-Rich Scene Graph Generation Framework for Zero-Shot Open-Vocabulary Tasks

342

01 Apr 2025

A Causal Adjustment Module for Debiasing Scene Graph GenerationIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025

274

22 Mar 2025

Image Captioning Evaluation in the Age of Multimodal LLMs: Challenges and Future PerspectivesInternational Joint Conference on Artificial Intelligence (IJCAI), 2024

Sara Sarto

Marcella Cornia

Rita Cucchiara

367

18 Mar 2025

Disentangling Fine-Tuning from Pre-Training in Visual Captioning with Hybrid Markov LogicBigData Congress [Services Society] (BSS), 2024

327

18 Mar 2025

SuperCap: Multi-resolution Superpixel-based Image Captioning

289

11 Mar 2025

Controllable 3D Outdoor Scene Generation via Scene Graphs

909

10 Mar 2025

Multimodal Multihop Source Retrieval for Web Question Answering

Navya Yarrabelly

Saloni Mittal

151

07 Jan 2025

Unleashing Text-to-Image Diffusion Prior for Zero-Shot Image CaptioningEuropean Conference on Computer Vision (ECCV), 2024

287

03 Jan 2025

Situational Scene Graph for Structured Human-centric Situation UnderstandingIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024

1.0K

30 Oct 2024

A transition towards virtual representations of visual scenes

Américo Pereira

Pedro Carvalho

Luís Côrte-Real

243

10 Oct 2024

Positive-Augmented Contrastive Learning for Vision-and-Language Evaluation and TrainingInternational Journal of Computer Vision (IJCV), 2024

288

09 Oct 2024

KALE: An Artwork Image Captioning System Augmented with Heterogeneous GraphInternational Joint Conference on Artificial Intelligence (IJCAI), 2024

240

17 Sep 2024

Pixels to Prose: Understanding the art of Image Captioning

Hrishikesh Singh

Aarti Sharma

Millie Pant

3DV VLM

227

28 Aug 2024

Revisiting Image Captioning Training Paradigm via Direct CLIP-based OptimizationBritish Machine Vision Conference (BMVC), 2024

Lorenzo Baraldi

297

26 Aug 2024

Bi-directional Contextual Attention for 3D Dense CaptioningEuropean Conference on Computer Vision (ECCV), 2024

209

13 Aug 2024

BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual CuesEuropean Conference on Computer Vision (ECCV), 2024

Sara Sarto

Marcella Cornia

Lorenzo Baraldi

Rita Cucchiara

189

29 Jul 2024

Fine-Grained Scene Graph Generation via Sample-Level Bias PredictionEuropean Conference on Computer Vision (ECCV), 2024

241

27 Jul 2024

BCTR: Bidirectional Conditioning Transformer for Scene Graph Generation

523

26 Jul 2024

Semantic Diversity-aware Prototype-based Learning for Unbiased Scene Graph Generation

331

22 Jul 2024

Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment

Hao Fei

Meishan Zhang

277

27 Jun 2024

STAR: A First-Ever Dataset and A Large-Scale Benchmark for Scene Graph Generation in Large-Size Satellite Imagery

Yansheng Li

Linlin Wang

Tingzhu Wang

Xue Yang

Junwei Luo

...

Haifeng Li

Bo Dang

Yongjun Zhang

Yi Yu

Junchi Yan

376

13 Jun 2024

ReCon1M:A Large-scale Benchmark Dataset for Relation Comprehension in Remote Sensing ImageryIEEE Transactions on Geoscience and Remote Sensing (TGRS), 2024

Yi Jiang

...

325

10 Jun 2024

Towards Semantic Equivalence of Tokenization in Multimodal LLMInternational Conference on Learning Representations (ICLR), 2024

Xiangtai Li

Hanwang Zhang

579

07 Jun 2024

Image Captioning via Dynamic Path Customization

Jiayi Ji

Yongjian Wu

254

01 Jun 2024

Towards Retrieval-Augmented Architectures for Image Captioning

Lorenzo Baraldi

241

21 May 2024

EGTR: Extracting Graph from Transformer for Scene Graph GenerationComputer Vision and Pattern Recognition (CVPR), 2024

595

02 Apr 2024

From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models

Dahua Lin

339

01 Apr 2024

Semi-Supervised Image Captioning Considering Wasserstein Graph Matching

Yang Yang

288

26 Mar 2024

HiKER-SGG: Hierarchical Knowledge Enhanced Robust Scene Graph GenerationComputer Vision and Pattern Recognition (CVPR), 2024

266

18 Mar 2024

An Image Is Worth 1000 Lies: Adversarial Transferability across Prompts on Vision-Language Models

Jindong Gu

279

14 Mar 2024

A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing Objects in 3D Scenes

222

12 Mar 2024

MeaCap: Memory-Augmented Zero-shot Image Captioning

303

06 Mar 2024

VIXEN: Visual Text Comparison Network for Image Difference Captioning

Jing Shi

249

29 Feb 2024

RoboEXP: Action-Conditioned Scene Graph via Interactive Exploration for Robotic Manipulation

Zhuoran Li

Yunzhu Li

281

23 Feb 2024

SGTR+: End-to-end Scene Graph Generation with TransformerIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

243

23 Jan 2024

Joint Generative Modeling of Grounded Scene Graphs and Images via Diffusion Models

392

02 Jan 2024

Action Scene Graphs for Long-Form Understanding of Egocentric Videos

198

06 Dec 2023

Leveraging VLM-Based Pipelines to Annotate 3D ObjectsInternational Conference on Machine Learning (ICML), 2023

Rishabh Kabra

Loic Matthey

Alexander Lerchner

Niloy J. Mitra

274

29 Nov 2023