Boosting vision transformers for image retrieval

21 October 2022

Papers citing "Boosting vision transformers for image retrieval"

28 / 28 papers shown

Title
Composite Sketch+Text Queries for Retrieving Objects with Elusive Names and Complex Interactions Prajwal Gatti Kshitij Parikh Dhriti Prasanna Paul Manish Gupta Anand Mishra 107 2 0 12 Feb 2025
Triplet Synthesis For Enhancing Composed Image Retrieval via Counterfactual Image Generation Kenta Uesugi Naoki Saito Keisuke Maeda Takahiro Ogawa Miki Haseyama 28 0 0 22 Jan 2025
PReP: Efficient context-based shape retrieval for missing parts Vlassis Fotis Ioannis Romanelis Georgios Mylonas Athanasios P. Kalogeras Konstantinos Moustakas 3DPC 16 0 0 18 Oct 2024
A Review of Transformer-Based Models for Computer Vision Tasks: Capturing Global Context and Spatial Relationships Gracile Astlin Pereira Muhammad Hussain ViT 23 0 0 27 Aug 2024
AMES: Asymmetric and Memory-Efficient Similarity Estimation for Instance-level Retrieval Pavel Suma Giorgos Kordopatis-Zilos Ahmet Iscen Giorgos Tolias VLM 16 0 0 06 Aug 2024
LVLM-empowered Multi-modal Representation Learning for Visual Place Recognition Teng Wang Lingquan Meng Lei Cheng Changyin Sun 21 0 0 09 Jul 2024
Other Tokens Matter: Exploring Global and Local Features of Vision Transformers for Object Re-Identification Yingquan Wang Pingping Zhang Dong Wang Huchuan Lu ViT 17 0 0 23 Apr 2024
On Train-Test Class Overlap and Detection for Image Retrieval Chull Hwan Song Jooyoung Yoon Taebaek Hwang Shunghyun Choi Yeong Hyeon Gu Yannis Avrithis 19 2 0 01 Apr 2024
Let All be Whitened: Multi-teacher Distillation for Efficient Visual Retrieval Zhe Ma Jianfeng Dong Shouling Ji Zhenguang Liu Xuhong Zhang Zonghui Wang Sifeng He Feng Qian Xiaobo Zhang Lei Yang 23 5 0 15 Dec 2023
RoboLLM: Robotic Vision Tasks Grounded on Multimodal Large Language Models Zijun Long George Killick R. McCreadie Gerardo Aragon Camarasa VLM 12 5 0 16 Oct 2023
Dark Side Augmentation: Generating Diverse Night Examples for Metric Learning Albert Mohwald Shachar Meir Srikkanth Ramachandran GAN 16 3 0 28 Sep 2023
Enhancing Landmark Detection in Cluttered Real-World Scenarios with Vision Transformers Mohammad Javad Rajabi Morteza Mirzai A. Nickabadi ViT 6 0 0 25 Aug 2023
Masked Momentum Contrastive Learning for Zero-shot Semantic Understanding Jiantao Wu Shentong Mo Muhammad Awais Sara Atito Zhenhua Feng J. Kittler VLM 10 4 0 22 Aug 2023
Conditional Cross Attention Network for Multi-Space Embedding without Entanglement in Only a SINGLE Network Chull Hwan Song Taebaek Hwang Jooyoung Yoon Shunghyun Choi Y. Gu 16 0 0 25 Jul 2023
Chatting Makes Perfect: Chat-based Image Retrieval Matan Levy Rami Ben-Ari N. Darshan Dani Lischinski 50 14 0 31 May 2023
3rd Place Solution to Meta AI Video Similarity Challenge Shuhei Yokoo Peifei Zhu Junki Ishikawa Rintaro Hasegawa 9 3 0 24 Apr 2023
Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models Gowthami Somepalli Vasu Singla Micah Goldblum Jonas Geiping Tom Goldstein 13 299 0 07 Dec 2022
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 258 7,337 0 11 Nov 2021
MobileViT: Light-weight, General-purpose, and Mobile-friendly Vision Transformer Sachin Mehta Mohammad Rastegari ViT 186 1,148 0 05 Oct 2021
DOLG: Single-Stage Image Retrieval with Deep Orthogonal Fusion of Local and Global Features Min Yang Dongliang He M. Fan Baorong Shi Xuetong Xue Fu Li Errui Ding Jizhou Huang 35 92 0 06 Aug 2021
Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron Hugo Touvron Ishan Misra Hervé Jégou Julien Mairal Piotr Bojanowski Armand Joulin 283 5,723 0 29 Apr 2021
Visformer: The Vision-friendly Transformer Zhengsu Chen Lingxi Xie Jianwei Niu Xuefeng Liu Longhui Wei Qi Tian ViT 106 206 0 26 Apr 2021
SoT: Delving Deeper into Classification Head for Transformer Jiangtao Xie Rui Zeng Qilong Wang Ziqi Zhou P. Li ViT 19 10 0 22 Apr 2021
Transformer in Transformer Kai Han An Xiao Enhua Wu Jianyuan Guo Chunjing Xu Yunhe Wang ViT 282 1,490 0 27 Feb 2021
Investigating the Vision Transformer Model for Image Retrieval Tasks S. Gkelios Y. Boutalis S. Chatzichristofis VLM ViT 18 30 0 11 Jan 2021
Learning and aggregating deep local descriptors for instance-level recognition Giorgos Tolias Tomás Jenícek Ondvrej Chum FedML 155 95 0 26 Jul 2020
DetNet: A Backbone network for Object Detection Zeming Li Chao Peng Gang Yu Xiangyu Zhang Yangdong Deng Jian-jun Sun ObjD 79 259 0 17 Apr 2018
Densely Connected Convolutional Networks Gao Huang Zhuang Liu L. V. D. van der Maaten Kilian Q. Weinberger PINN 3DV 244 35,884 0 25 Aug 2016