Advancing Surgical VQA with Scene Graph Knowledge

Advancing Surgical VQA with Scene Graph Knowledge

15 December 2023

Joël L. Lavanchy

Nassir Navab

Papers citing "Advancing Surgical VQA with Scene Graph Knowledge"

11 / 11 papers shown

Title
Multimodal Large Language Models for Medicine: A Comprehensive Survey Jiarui Ye Hao Tang LM&MA 89 0 0 29 Apr 2025
Surgical Scene Understanding in the Era of Foundation AI Models: A Comprehensive Review Ufaq Khan Umair Nawaz A. Qayyum Shazad Ashraf Muhammad Bilal Junaid Qadir 76 0 0 24 Feb 2025
Memory-Augmented Multimodal LLMs for Surgical VQA via Self-Contained Inquiry Wenjun Hou Yi Cheng Kaishuai Xu Yan Hu Wenjie Li Jiang-Dong Liu 33 0 0 17 Nov 2024
Artificial Intelligence for Biomedical Video Generation Linyuan Li Jianing Qiu Anujit Saha Lin Li Poyuan Li Mengxian He Ziyu Guo Wu Yuan VGen 63 1 0 12 Nov 2024
Large Language Model Benchmarks in Medical Tasks Lawrence K. Q. Yan Ming Li Yuyao Zhang Caitlyn Heqi Yin Cheng Fei ... Ziqian Bi Pohsun Feng Keyu Chen Junyu Liu Qian Niu LM&MA AI4MH 53 6 0 28 Oct 2024
LLaVA-Surg: Towards Multimodal Surgical Assistant via Structured Surgical Video Learning Jiajie Li Garrett C Skinner Gene Yang Brian R Quaranto Steven D. Schwaitzberg Peter C W Kim Jinjun Xiong 38 10 0 15 Aug 2024
GP-VLS: A general-purpose vision language model for surgery Samuel Schmidgall Joseph Cho C. Zakka W. Hiesinger LM&MA 49 5 0 27 Jul 2024
PitVQA: Image-grounded Text Embedding LLM for Visual Question Answering in Pituitary Surgery Runlong He Mengya Xu Adrito Das Danyal Z. Khan Sophia Bano Hani J. Marcus Danail Stoyanov Matthew J. Clarkson Mobarakol Islam 47 7 0 22 May 2024
Creating a Digital Twin of Spinal Surgery: A Proof of Concept Jonas Hein Frederic Giraud Lilian Calvet Alexander Schwarz N. Cavalcanti ... Mazda Farshad Siyu Tang Marc Pollefeys F. Carrillo Philipp Fürnstahl 32 10 0 25 Mar 2024
Surgical-LVLM: Learning to Adapt Large Vision-Language Model for Grounded Visual Question Answering in Robotic Surgery Guan-Feng Wang Long Bai Wan Jun Nah Jie Wang Zhaoxi Zhang Zhen Chen Jinlin Wu Mobarakol Islam Hongbin Liu Hongliang Ren 46 14 0 22 Mar 2024
EndoNet: A Deep Architecture for Recognition Tasks on Laparoscopic Videos A. P. Twinanda S. Shehata Didier Mutter J. Marescaux M. de Mathelin N. Padoy 188 840 0 09 Feb 2016