Towards Local Visual Modeling for Image Captioning

Towards Local Visual Modeling for Image Captioning

13 February 2023

Jiayi Ji

Papers citing "Towards Local Visual Modeling for Image Captioning"

9 / 9 papers shown

Title
MLLM-Selector: Necessity and Diversity-driven High-Value Data Selection for Enhanced Visual Instruction Tuning Yiwei Ma Guohai Xu Xiaoshuai Sun Jiayi Ji Jie Lou Debing Zhang Rongrong Ji 90 0 0 26 Mar 2025
TAR3D: Creating High-Quality 3D Assets via Next-Part Prediction Xuying Zhang Yutong Liu Yangguang Li Renrui Zhang Y. Liu ... Wanli Ouyang Zhiwei Xiong Peng Gao Qibin Hou Ming-Ming Cheng 118 3 0 13 Mar 2025
An Ensemble Model with Attention Based Mechanism for Image Captioning Israa Al Badarneh Bassam Hammo Omar Al-Kadi 45 3 0 28 Jan 2025
Semantics Prompting Data-Free Quantization for Low-Bit Vision Transformers Yunshan Zhong Yuyao Zhou Yuxin Zhang Shen Li Yong Li Fei Chao Zhanpeng Zeng Rongrong Ji MQ 94 0 0 31 Dec 2024
Referring Camouflaged Object Detection Xuying Zhang Bo Yin Zheng Lin Qibin Hou Deng-Ping Fan Ming-Ming Cheng 32 17 0 13 Jun 2023
Geometry Attention Transformer with Position-aware LSTMs for Image Captioning Chi-Yin Wang Yulin Shen Luping Ji ViT 39 49 0 01 Oct 2021
RepVGG: Making VGG-style ConvNets Great Again Xiaohan Ding X. Zhang Ningning Ma Jungong Han Guiguang Ding Jian-jun Sun 122 1,544 0 11 Jan 2021
Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning Jiasen Lu Caiming Xiong Devi Parikh R. Socher 85 1,442 0 06 Dec 2016
Aggregated Residual Transformations for Deep Neural Networks Saining Xie Ross B. Girshick Piotr Dollár Z. Tu Kaiming He 282 10,214 0 16 Nov 2016