Communities
Connect sessions
AI calendar
Organizations
Join Slack
Contact Sales

Terms and Conditions

Twitter GitHub LinkedIn Bluesky Youtube

© 2026 ResearchTrend.AI, All rights reserved.

Home
Papers
2412.08158
Cited By

How Vision-Language Tasks Benefit from Large Pre-trained Models: A
Survey

How Vision-Language Tasks Benefit from Large Pre-trained Models: A Survey

11 December 2024

ArXiv (abs)PDF HTML Github

Papers citing "How Vision-Language Tasks Benefit from Large Pre-trained Models: A Survey"

3 / 3 papers shown

TIP and Polish: Text-Image-Prototype Guided Multi-Modal Generation via Commonality-Discrepancy Modeling and Refinement

TIP and Polish: Text-Image-Prototype Guided Multi-Modal Generation via Commonality-Discrepancy Modeling and Refinement

123

0

0

12 Nov 2025

Multi-Level LVLM Guidance for Untrimmed Video Action Recognition

Multi-Level LVLM Guidance for Untrimmed Video Action Recognition

185

0

0

24 Aug 2025

DeepInsert: Early Layer Bypass for Efficient and Performant Multimodal Understanding

DeepInsert: Early Layer Bypass for Efficient and Performant Multimodal Understanding

Moulik Choraria

Akhil Bhimaraju

Prateek Singhal

433

0

0

27 Apr 2025

Page 1 of 1