DiscoSG: Towards Discourse-Level Text Scene Graph Parsing through Iterative Graph Refinement

18 June 2025

Shaoqing Lin

ArXiv (abs)PDF HTML Github (7★)

Main:9 Pages

12 Figures

Bibliography:3 Pages

9 Tables

Appendix:14 Pages

Abstract

Vision-Language Models (VLMs) generate discourse-level, multi-sentence visual descriptions, challenging text scene graph parsers built for single-sentence caption-to-graph mapping. Current approaches typically merge sentence-level parsing outputs for discourse input, often missing phenomena like cross-sentence coreference, resulting in fragmented graphs and degraded downstream VLM task performance. We introduce a new task, Discourse-level text Scene Graph parsing (DiscoSG), and release DiscoSG-DS, a dataset of 400 expert-annotated and 8,430 synthesised multi-sentence caption-graph pairs. Each caption averages 9 sentences, and each graph contains at least 3 times more triples than those in existing datasets.

View on arXiv

Comments on this paper