v1v2v3 (latest)

Auto-Encoding Scene Graphs for Image Captioning

6 December 2018

Jianfei Cai

Papers citing "Auto-Encoding Scene Graphs for Image Captioning"

50 / 311 papers shown

SGDiff: Scene Graph Guided Diffusion Model for Image Collaborative SegCaptioningAAAI Conference on Artificial Intelligence (AAAI), 2025

175

01 Dec 2025

ESCA: Contextualizing Embodied Agents via Scene-Graph Generation

315

11 Oct 2025

DescribeEarth: Describe Anything for Remote Sensing Images

189

30 Sep 2025

RORPCap: Retrieval-based Objects and Relations Prompt for Image Captioning

135

10 Aug 2025

Statistical Confidence Rescoring for Robust 3D Scene Graph Generation from Multi-View Images

144

05 Aug 2025

From Image Captioning to Visual Storytelling

278

31 Jul 2025

Analyzing the Sensitivity of Vision Language Models in Visual Question Answering

156

28 Jul 2025

FROSS: Faster-than-Real-Time Online 3D Semantic Scene Graph Generation from RGB-D Images

337

26 Jul 2025

A Reverse Causal Framework to Mitigate Spurious Correlations for Debiasing Scene Graph GenerationIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025

458

29 May 2025

From Data to Modeling: Fully Open-vocabulary Scene Graph Generation

199

26 May 2025

Multimodal Machine Translation with Visual Scene Graph Pruning

459

26 May 2025

Tri-FusionNet: Enhancing Image Description Generation with Transformer-based Fusion Network and Dual Attention Mechanism

Lakshita Agarwal

Bindu Verma

ViT

406

23 Apr 2025

PRISM-0: A Predicate-Rich Scene Graph Generation Framework for Zero-Shot Open-Vocabulary Tasks

383

01 Apr 2025

A Causal Adjustment Module for Debiasing Scene Graph GenerationIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025

375

22 Mar 2025

Image Captioning Evaluation in the Age of Multimodal LLMs: Challenges and Future PerspectivesInternational Joint Conference on Artificial Intelligence (IJCAI), 2024

Sara Sarto

Marcella Cornia

Rita Cucchiara

495

18 Mar 2025

Disentangling Fine-Tuning from Pre-Training in Visual Captioning with Hybrid Markov LogicBigData Congress [Services Society] (BSS), 2024

345

18 Mar 2025

SuperCap: Multi-resolution Superpixel-based Image Captioning

335

11 Mar 2025

Controllable 3D Outdoor Scene Generation via Scene Graphs

940

10 Mar 2025

Multimodal Multihop Source Retrieval for Web Question Answering

Navya Yarrabelly

Saloni Mittal

182

07 Jan 2025

Unleashing Text-to-Image Diffusion Prior for Zero-Shot Image CaptioningEuropean Conference on Computer Vision (ECCV), 2024

341

03 Jan 2025

Situational Scene Graph for Structured Human-centric Situation UnderstandingIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2024

1.1K

30 Oct 2024

A transition towards virtual representations of visual scenes

Américo Pereira

Pedro Carvalho

Luís Côrte-Real

268

10 Oct 2024

Positive-Augmented Contrastive Learning for Vision-and-Language Evaluation and TrainingInternational Journal of Computer Vision (IJCV), 2024

337

09 Oct 2024

KALE: An Artwork Image Captioning System Augmented with Heterogeneous GraphInternational Joint Conference on Artificial Intelligence (IJCAI), 2024

276

17 Sep 2024

Pixels to Prose: Understanding the art of Image Captioning

Hrishikesh Singh

Aarti Sharma

Millie Pant

3DV VLM

255

28 Aug 2024

Revisiting Image Captioning Training Paradigm via Direct CLIP-based OptimizationBritish Machine Vision Conference (BMVC), 2024

Lorenzo Baraldi

392

26 Aug 2024

Bi-directional Contextual Attention for 3D Dense CaptioningEuropean Conference on Computer Vision (ECCV), 2024

235

13 Aug 2024

BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual CuesEuropean Conference on Computer Vision (ECCV), 2024

Sara Sarto

Marcella Cornia

Lorenzo Baraldi

Rita Cucchiara

262

29 Jul 2024

Fine-Grained Scene Graph Generation via Sample-Level Bias PredictionEuropean Conference on Computer Vision (ECCV), 2024

269

27 Jul 2024

BCTR: Bidirectional Conditioning Transformer for Scene Graph Generation

593

26 Jul 2024

Semantic Diversity-aware Prototype-based Learning for Unbiased Scene Graph Generation

359

22 Jul 2024

Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment

Hao Fei

Meishan Zhang

309

27 Jun 2024

STAR: A First-Ever Dataset and A Large-Scale Benchmark for Scene Graph Generation in Large-Size Satellite Imagery

Yansheng Li

Linlin Wang

Tingzhu Wang

Xue Yang

Junwei Luo

...

Haifeng Li

Bo Dang

Yongjun Zhang

Yi Yu

Junchi Yan

419

13 Jun 2024

ReCon1M:A Large-scale Benchmark Dataset for Relation Comprehension in Remote Sensing ImageryIEEE Transactions on Geoscience and Remote Sensing (TGRS), 2024

Yi Jiang

...

386

10 Jun 2024

Towards Semantic Equivalence of Tokenization in Multimodal LLMInternational Conference on Learning Representations (ICLR), 2024

Xiangtai Li

Hanwang Zhang

715

07 Jun 2024

Image Captioning via Dynamic Path Customization

Jiayi Ji

Yongjian Wu

310

01 Jun 2024

Towards Retrieval-Augmented Architectures for Image Captioning

Lorenzo Baraldi

264

21 May 2024

EGTR: Extracting Graph from Transformer for Scene Graph GenerationComputer Vision and Pattern Recognition (CVPR), 2024

691

02 Apr 2024

From Pixels to Graphs: Open-Vocabulary Scene Graph Generation with Vision-Language Models

Dahua Lin

377

01 Apr 2024

Semi-Supervised Image Captioning Considering Wasserstein Graph Matching

Yang Yang

336

26 Mar 2024

HiKER-SGG: Hierarchical Knowledge Enhanced Robust Scene Graph GenerationComputer Vision and Pattern Recognition (CVPR), 2024

366

18 Mar 2024

An Image Is Worth 1000 Lies: Adversarial Transferability across Prompts on Vision-Language Models

Jindong Gu

324

14 Mar 2024

A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing Objects in 3D Scenes

248

12 Mar 2024

MeaCap: Memory-Augmented Zero-shot Image Captioning

352

06 Mar 2024

VIXEN: Visual Text Comparison Network for Image Difference Captioning

Jing Shi

280

29 Feb 2024

RoboEXP: Action-Conditioned Scene Graph via Interactive Exploration for Robotic Manipulation

Zhuoran Li

Yunzhu Li

336

23 Feb 2024

SGTR+: End-to-end Scene Graph Generation with TransformerIEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023

278

23 Jan 2024

Joint Generative Modeling of Grounded Scene Graphs and Images via Diffusion Models

471

02 Jan 2024

Action Scene Graphs for Long-Form Understanding of Egocentric Videos

233

06 Dec 2023

Leveraging VLM-Based Pipelines to Annotate 3D ObjectsInternational Conference on Machine Learning (ICML), 2023

Rishabh Kabra

Loic Matthey

Alexander Lerchner

Niloy J. Mitra

301

29 Nov 2023