v1v2 (latest)

SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning

17 November 2016

Wei Liu

Papers citing "SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning"

50 / 440 papers shown

Title
Attention Residual Fusion Network with Contrast for Source-free Domain Adaptation Renrong Shao Wei Zhang Jun Wang 100 0 0 25 Oct 2025
MK-UNet: Multi-kernel Lightweight CNN for Medical Image Segmentation Md Mostafijur Rahman R. Marculescu SSeg 161 2 0 23 Sep 2025
MSA2-Net: Utilizing Self-Adaptive Convolution Module to Extract Multi-Scale Information in Medical Image Segmentation Chao Deng Xiaosen Li Xiao Qin 106 0 0 01 Sep 2025
Multi-Focus Temporal Shifting for Precise Event Spotting in Sports Videos Hao Xu Sam Wells Mohamed Reda Bouadjenek Richard Dazeley 252 1 0 10 Jul 2025
Light as Deception: GPT-driven Natural Relighting Against Vision-Language Pre-training Models Ying Yang Jie Zhang Xiao Lv Di Lin Tao Xiang Qing Guo AAML VLM 123 1 0 30 May 2025
Group-based Distinctive Image Captioning with Memory Difference Encoding and AttentionInternational Journal of Computer Vision (IJCV), 2024 Jiuniu Wang Wenjia Xu Qingzhong Wang Antoni B. Chan 295 0 0 03 Apr 2025
DCAT: Dual Cross-Attention Fusion for Disease Classification in Radiological Images with Uncertainty Estimation Jutika Borah H. Singh MedIm 336 0 0 14 Mar 2025
Deepfake Detection with Spatio-Temporal Consistency and Attention Yunzhuo Chen Naveed Akhtar Nur Al Hasan Haldar Lin Wang 393 4 0 12 Feb 2025
Multi-Modal interpretable automatic video captioning Antoine Hanna-Asaad Decky Aspandi Titus Zaharia 219 1 0 11 Nov 2024
HASN: Hybrid Attention Separable Network for Efficient Image Super-resolutionThe Visual Computer (VC), 2024 Weifeng Cao Xiaoyan Lei Jun Shi Wanyong Liang Jie Liu Zongfei Bai SupR 215 4 0 13 Oct 2024
BA-Net: Bridge Attention in Deep Neural NetworksExpert systems with applications (ESWA), 2024 Ronghui Zhang Runzong Zou Yue Zhao Zirui Zhang Junzhou Chen Yue Cao Chuan Hu Houbing Song 165 2 0 10 Oct 2024
Task-Aware Dynamic Transformer for Efficient Arbitrary-Scale Image Super-ResolutionEuropean Conference on Artificial Intelligence (ECAI), 2024 Tianyi Xu Yiji Zhou Xiaotao Hu Kai Zhang Anran Zhang Xingye Qiu Jun Xu 150 0 0 16 Aug 2024
Surveying the Landscape of Image Captioning Evaluation: A Comprehensive Taxonomy, Trends and Metrics Analysis Uri Berger Gabriel Stanovsky Omri Abend Lea Frermann 308 0 0 09 Aug 2024
An Explainable Non-local Network for COVID-19 Diagnosis Jingfu Yang Peng Huang Jing Hu Shu Hu Siwei Lyu Xin Wang Jun Guo Xi Wu 277 3 0 08 Aug 2024
GSO-YOLO: Global Stability Optimization YOLO for Construction Site Detection Yuming Zhang Dongzhi Guan Shouxin Zhang Junhao Su Yunzhi Han Jiabin Liu 97 5 0 01 Jul 2024
Multi-Aperture Fusion of Transformer-Convolutional Network (MFTC-Net) for 3D Medical Image Segmentation and Visualization Siyavash Shabani Muhammad Sohaib Sahar A. Mohammed Bahram Parvin ViT MedIm 161 6 0 24 Jun 2024
Large Language Models Meet Text-Centric Multimodal Sentiment Analysis: A Survey Hao Yang Yanyan Zhao Yang Wu Shilong Wang Tian Zheng Hongbo Zhang Zongyang Ma Wanxiang Che Bing Qin 314 29 0 12 Jun 2024
Continuum Attention for Neural Operators Edoardo Calvello Nikola B. Kovachki Matthew E. Levine Andrew Stuart 296 18 0 10 Jun 2024
Faithful Attention Explainer: Verbalizing Decisions Based on Discriminative Features Yao Rong David Scheerer Enkelejda Kasneci 189 1 0 16 May 2024
EMCAD: Efficient Multi-scale Convolutional Attention Decoding for Medical Image Segmentation Md Mostafijur Rahman Mustafa Munir R. Marculescu MedIm 306 173 0 11 May 2024
DVMSR: Distillated Vision Mamba for Efficient Super-Resolution Xiaoyan Lei Wenlong Zhang Weifeng Cao 314 30 0 05 May 2024
Socialized Learning: A Survey of the Paradigm Shift for Edge Intelligence in Networked Systems Xiaofei Wang Yunfeng Zhao Chao Qiu Qinghua Hu Victor C. M. Leung 177 8 0 20 Apr 2024
Partial Large Kernel CNNs for Efficient Super-Resolution Dongheon Lee Seokju Yun Youngmin Ro SupR 162 5 0 18 Apr 2024
FoundationGrasp: Generalizable Task-Oriented Grasping with Foundation Models Chao Tang Dehao Huang Wenlong Dong Ruinian Xu Kuanqi Cai 187 27 0 16 Apr 2024
Enhancing Efficiency in Vision Transformer Networks: Design Techniques and Insights Moein Heidari Reza Azad Sina Ghorbani Kolahi René Arimond Leon Niggemeier ... Afshin Bozorgpour Ehsan Khodapanah Aghdam Amirhossein Kazerouni Ilker Hacihaliloglu Dorit Merhof 238 13 0 28 Mar 2024
How to Understand Named Entities: Using Common Sense for News CaptioningACM Transactions on Multimedia Computing, Communications, and Applications (TOMCCAP) (TOMCCAP), 2024 Ning Xu Yanhui Wang Tingting Zhang Hongshuo Tian Mohan Kankanhalli An-An Liu 142 0 0 11 Mar 2024
Mamba-ND: Selective State Space Modeling for Multi-Dimensional Data Shufan Li Harkanwar Singh Aditya Grover Mamba 399 101 0 08 Feb 2024
Deep Learning-based Image and Video Inpainting: A Survey Weize Quan Jiaxi Chen Yanli Liu Dong-Ming Yan Peter Wonka 3DV 164 61 0 07 Jan 2024
Hierarchical Graph Pattern Understanding for Zero-Shot VOS Gensheng Pei Fumin Shen Yazhou Yao Tao Chen Xian-Sheng Hua Jikang Cheng VOS 168 4 0 15 Dec 2023
A Multi-scale Information Integration Framework for Infrared and Visible Image Fusion Guang Yang Jie Li Hanxiao Lei Xinbo Gao 138 37 0 07 Dec 2023
DECap: Towards Generalized Explicit Caption Editing via Diffusion MechanismEuropean Conference on Computer Vision (ECCV), 2023 Zhen Wang Xinyun Jiang Jun Xiao Tao Chen Long Chen DiffM 172 4 0 25 Nov 2023
CompenHR: Efficient Full Compensation for High-resolution ProjectorIEEE Conference on Virtual Reality and 3D User Interfaces (IEEE VR), 2023 Yuxi Wang H. Ling Bingyao Huang 3DV 141 6 0 22 Nov 2023
The Heat is On: Thermal Facial Landmark Tracking James Baker CVBM 96 0 0 14 Nov 2023
FIRST: A Million-Entry Dataset for Text-Driven Fashion Synthesis and Design Zhen Huang Yihao Li Dong Pei Jiapeng Zhou Xuliang Ning Jianlin Han Xiaoguang Han Xuejun Chen 187 3 0 13 Nov 2023
Contactless Fingerprint Biometric Anti-Spoofing: An Unsupervised Deep Learning Approach Banafsheh Adami Nima Karimian AAML 136 6 0 07 Nov 2023
G-CASCADE: Efficient Cascaded Graph Convolutional Decoding for 2D Medical Image SegmentationIEEE Workshop/Winter Conference on Applications of Computer Vision (WACV), 2023 Md Mostafijur Rahman R. Marculescu MedIm 148 60 0 24 Oct 2023
Large Separable Kernel Attention: Rethinking the Large Kernel Attention Design in CNNExpert systems with applications (ESWA), 2023 Kin Wai Lau L. Po Yasar Abbas Ur Rehman VLM 187 369 0 04 Sep 2023
CgT-GAN: CLIP-guided Text GAN for Image CaptioningACM Multimedia (ACM MM), 2023 Jiarui Yu Haoran Li Y. Hao B. Zhu Tong Xu Xiangnan He VLM CLIP 165 24 0 23 Aug 2023
SCSC: Spatial Cross-scale Convolution Module to Strengthen both CNNs and Transformers Xijun Wang Xiaojie Chu Chunrui Han Xiangyu Zhang ViT 118 1 0 14 Aug 2023
Channel-Wise Contrastive Learning for Learning with Noisy Labels Hui-Sung Kang Sheng Liu Huaxi Huang Tongliang Liu NoLa 142 0 0 14 Aug 2023
Enhancing Nucleus Segmentation with HARU-Net: A Hybrid Attention Based Residual U-Blocks Network Junzhou Chen Qian Huang Yuling Chen Linyi Qian Che-Sheng Yu 161 4 0 07 Aug 2023
Dual Aggregation Transformer for Image Super-ResolutionIEEE International Conference on Computer Vision (ICCV), 2023 Zheng Chen Yulun Zhang Jinjin Gu Lingyu Kong Yunbo Wang Feng Yu ViT 225 280 0 07 Aug 2023
Transferable Decoding with Visual Entities for Zero-Shot Image CaptioningIEEE International Conference on Computer Vision (ICCV), 2023 Junjie Fei Teng Wang Jinrui Zhang Zhenyu He Chengjie Wang Feng Zheng VLM 141 61 0 31 Jul 2023
Class Attention to Regions of Lesion for Imbalanced Medical Image RecognitionNeurocomputing (Neurocomputing), 2023 Jia-Xin Zhuang Jiabin Cai Jianguo Zhang Wei-Shi Zheng Ruixuan Wang 167 20 0 19 Jul 2023
Self-Supervised Image Captioning with CLIP Chuanyang Jin VLM SSL 189 3 0 26 Jun 2023
Improving Reference-based Distinctive Image Captioning with Contrastive Rewards Yangjun Mao Jun Xiao Dong Zhang Meng Cao Jian Shao Yueting Zhuang Long Chen EGVM 148 9 0 25 Jun 2023
Focus for Free in Density-Based CountingInternational Journal of Computer Vision (IJCV), 2023 Zenglin Shi Pascal Mettes Cees G. M. Snoek 3DPC 145 14 0 08 Jun 2023
Contextual Object Detection with Multimodal Large Language ModelsInternational Journal of Computer Vision (IJCV), 2023 Yuhang Zang Wei Li Jun Han Kaiyang Zhou Chen Change Loy ObjD VLM MLLM 237 134 0 29 May 2023
Attention Mechanisms in Medical Image Segmentation: A Survey Yutong Xie Bing Yang Qi Guan Jianpeng Zhang Qi Wu Yong-quan Xia ViT MedIm 187 35 0 29 May 2023
Efficient Multi-Scale Attention Module with Cross-Spatial LearningIEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2023 Daliang Ouyang Su He Jian Zhan M.L. Luo Huaiyong Guo Guo-Liang Zhang Zhijie Huang 212 1,022 0 23 May 2023