HecVL: Hierarchical Video-Language Pretraining for Zero-shot Surgical Phase Recognition

HecVL: Hierarchical Video-Language Pretraining for Zero-shot Surgical Phase Recognition

16 May 2024

Nassir Navab

Papers citing "HecVL: Hierarchical Video-Language Pretraining for Zero-shot Surgical Phase Recognition"

9 / 9 papers shown

Title
fine-CLIP: Enhancing Zero-Shot Fine-Grained Surgical Action Recognition with Vision-Language Models Saurav Sharma Didier Mutter N. Padoy VLM MedIm 37 0 0 25 Mar 2025
Surg-3M: A Dataset and Foundation Model for Perception in Surgical Settings Chengan Che Chao Wang Tom Vercauteren Sophia Tsoka Luis C. García-Peraza-Herrera MedIm 36 0 0 25 Mar 2025
Recognize Any Surgical Object: Unleashing the Power of Weakly-Supervised Data Jiajie Li Brian R Quaranto Chenhui Xu Ishan Mishra Ruiyang Qin Dancheng Liu Peter C W Kim Jinjun Xiong 83 0 0 25 Jan 2025
OphCLIP: Hierarchical Retrieval-Augmented Learning for Ophthalmic Surgical Video-Language Pretraining Ming Hu Kun Yuan Yaling Shen Feilong Tang Xiaohao Xu ... Jin Ye N. Padoy Nassir Navab Junjun He Zongyuan Ge VLM CLIP 85 10 0 23 Nov 2024
Procedure-Aware Surgical Video-language Pretraining with Hierarchical Knowledge Augmentation Kun Yuan V. Srivastav Nassir Navab N. Padoy 41 7 0 30 Sep 2024
$VidLPRO: A $\underline{Vid}$eo-$\underline{L}$anguage $\underline{P}$re-training Framework for $\underline{Ro}$botic and Laparoscopic Surgery$ VidLPRO: A $\underline{Vid}$ eo- $\underline{L}$ anguage $\underline{P}$ re-training Framework for $\underline{Ro}$ botic and Laparoscopic Surgery Mohammadmahdi Honarmand Muhammad Abdullah Jamal Omid Mohareri 55 1 0 07 Sep 2024
OphNet: A Large-Scale Video Benchmark for Ophthalmic Surgical Workflow Understanding Ming Hu Peng Xia Lin Wang Siyuan Yan Feilong Tang ... Xuelian Cheng Jun Cheng Chi Liu Kaijing Zhou Zongyuan Ge 33 17 0 11 Jun 2024
MAtch, eXpand and Improve: Unsupervised Finetuning for Zero-Shot Action Recognition with Language Knowledge Wei Lin Leonid Karlinsky Nina Shvetsova Horst Possegger Mateusz Koziñski Rameswar Panda Rogerio Feris Hilde Kuehne Horst Bischof VLM 100 38 0 15 Mar 2023
EndoNet: A Deep Architecture for Recognition Tasks on Laparoscopic Videos A. P. Twinanda S. Shehata Didier Mutter J. Marescaux M. de Mathelin N. Padoy 165 828 0 09 Feb 2016