v1v2 (latest)

GRE Suite: Geo-localization Inference via Fine-Tuned Vision-Language Models and Enhanced Reasoning Chains

24 May 2025

Papers citing "GRE Suite: Geo-localization Inference via Fine-Tuned Vision-Language Models and Enhanced Reasoning Chains"

50 / 50 papers shown

Title
Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models Wenxuan Huang Bohan Jia Zijie Zhai Shaosheng Cao Zheyu Ye Fei Zhao Zhe Xu Yao Hu Shaohui Lin MU OffRL LRM MLLM ReLM VLM 167 130 0 09 Mar 2025
Qwen2.5-VL Technical Report S. Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge ... Zesen Cheng Hang Zhang Zhibo Yang Haiyang Xu Junyang Lin VLM 441 699 0 20 Feb 2025
Preference Optimization for Reasoning with Pseudo Feedback Fangkai Jiao Geyang Guo Xingxing Zhang Nancy F. Chen Shafiq Joty Furu Wei LRM 215 16 0 17 Feb 2025
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning DeepSeek-AI Daya Guo Dejian Yang Haowei Zhang Junxiao Song ... Shiyu Wang S. Yu Shunfeng Zhou Shuting Pan S.S. Li ReLM VLM OffRL AI4TS LRM 395 2,031 0 22 Jan 2025
o1-Coder: an o1 Replication for Coding Yuxiang Zhang Shangxi Wu Yuqi Yang Jiangming Shu Jinlin Xiao Chao Kong Jitao Sang LRM 169 51 0 29 Nov 2024
MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models Ziyu Liu Yuhang Zang Xiaoyi Dong Pan Zhang Yuhang Cao Haodong Duan Zeang Sheng Yuanjun Xiong Dahua Lin Jiaqi Wang 108 12 0 23 Oct 2024
Qwen2.5-Coder Technical Report Binyuan Hui Jian Yang Zeyu Cui Jiaxi Yang Dayiheng Liu ... Fei Huang Xingzhang Ren Xuancheng Ren Jingren Zhou Junyang Lin OSLM 121 337 0 18 Sep 2024
Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement An Yang Beichen Zhang Binyuan Hui Bofei Gao Bowen Yu ... Mingfeng Xue Runji Lin Tianyu Liu Xingzhang Ren Zhenru Zhang OSLM LRM 160 321 0 18 Sep 2024
LLaVA-OneVision: Easy Visual Task Transfer Bo Li Yuanhan Zhang Dong Guo Renrui Zhang Feng Li Hao Zhang Kaichen Zhang Yanwei Li Ziwei Liu Chunyuan Li MLLM SyDa VLM 171 865 0 06 Aug 2024
InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output Pan Zhang Xiaoyi Dong Yuhang Zang Yuhang Cao Rui Qian ... Kai Chen Jifeng Dai Yu Qiao Dahua Lin Jiaqi Wang 144 117 0 03 Jul 2024
G3: An Effective and Adaptive Framework for Worldwide Geolocalization Using Large Multi-Modality Models Pengyue Jia Yiding Liu Xiaopeng Li Xiangyu Zhao Yuhao Wang Yantong Du Xiao Han Xuetao Wei Shuaiqiang Wang D. Yin DiffM 83 13 0 23 May 2024
ControlTraj: Controllable Trajectory Generation with Topology-Constrained Diffusion Model Yuanshao Zhu James Jianqiao Yu Xiangyu Zhao Qidong Liu Yongchao Ye Wei Chen Zijian Zhang Xuetao Wei Yuxuan Liang 121 27 0 23 Apr 2024
Img2Loc: Revisiting Image Geolocalization using Multi-modality Foundation Models and Image-based Retrieval-Augmented Generation Zhongliang Zhou Jielu Zhang Zihan Guan Mengxuan Hu Ni Lao Lan Mu Sheng Li Gengchen Mai VLM 151 17 0 28 Mar 2024
InternLM2 Technical Report Zheng Cai Maosong Cao Haojiong Chen Kai-xiang Chen Keyu Chen ... Jingming Zhuo Yi-Ling Zou Xipeng Qiu Yu Qiao Dahua Lin ALM 72 209 0 26 Mar 2024
ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL Yifei Zhou Andrea Zanette Jiayi Pan Sergey Levine Aviral Kumar 146 79 0 29 Feb 2024
Aligning Modalities in Vision Large Language Models via Preference Fine-tuning Yiyang Zhou Chenhang Cui Rafael Rafailov Chelsea Finn Huaxiu Yao VLM MLLM 120 121 0 18 Feb 2024
InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning Huaiyuan Ying Shuo Zhang Linyang Li Zhejian Zhou Yunfan Shao ... Hang Yan Xipeng Qiu Jiayu Wang Kai-xiang Chen Dahua Lin ReLM LRM 77 85 0 09 Feb 2024
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models Zhihong Shao Peiyi Wang Qihao Zhu Runxin Xu Jun-Mei Song ... Haowei Zhang Mingchuan Zhang Yiming Li Yu-Huan Wu Daya Guo ReLM LRM 203 1,288 0 05 Feb 2024
RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback M. Steyvers Yuan Yao Haoye Zhang Taiwen He Yifeng Han ... Xinyue Hu Zhiyuan Liu Hai-Tao Zheng Maosong Sun Tat-Seng Chua MLLM VLM 225 230 0 01 Dec 2023
LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language Models Marwa Abdulhai Isadora White Charles Burton Snell Charles Sun Joey Hong Yuexiang Zhai Kelvin Xu Sergey Levine LLMAG OffRL LRM 87 42 0 30 Nov 2023
Beyond Hallucinations: Enhancing LVLMs through Hallucination-Aware Direct Preference Optimization Zhiyuan Zhao Bin Wang Linke Ouyang Xiao-wen Dong Jiaqi Wang Conghui He MLLM VLM 143 135 0 28 Nov 2023
GeoCLIP: Clip-Inspired Alignment between Locations and Images for Effective Worldwide Geo-localization V. Cepeda Gaurav Kumar Nayak Mubarak Shah 109 105 0 27 Sep 2023
Aligning Large Multimodal Models with Factually Augmented RLHF Zhiqing Sun Sheng Shen Shengcao Cao Haotian Liu Chunyuan Li ... Liangyan Gui Yu-Xiong Wang Yiming Yang Kurt Keutzer Trevor Darrell VLM 143 396 0 25 Sep 2023
PromptST: Prompt-Enhanced Spatio-Temporal Multi-Attribute Prediction Zijian Zhang Xiangyu Zhao Qidong Liu Chunxu Zhang Qian Ma Wanyu Wang Hongwei Zhao Yiqi Wang Zitao Liu AI4TS 140 21 0 18 Sep 2023
Contextual Object Detection with Multimodal Large Language Models Yuhang Zang Wei Li Jun Han Kaiyang Zhou Chen Change Loy ObjD VLM MLLM 118 88 0 29 May 2023
Where We Are and What We're Looking At: Query Based Worldwide Image Geo-localization Using Hierarchies and Scenes Brandon Clark Alec Kerrigan P. Kulkarni V. Cepeda M. Shah 75 27 0 07 Mar 2023
Grounding Large Language Models in Interactive Environments with Online Reinforcement Learning Thomas Carta Clément Romac Thomas Wolf Sylvain Lamprier Olivier Sigaud Pierre-Yves Oudeyer LM&Ro LLMAG 103 194 0 06 Feb 2023
ReAct: Synergizing Reasoning and Acting in Language Models Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao LLMAG ReLM LRM 478 3,006 0 06 Oct 2022
Is Reinforcement Learning (Not) for Natural Language Processing: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization Rajkumar Ramamurthy Prithviraj Ammanabrolu Kianté Brantley Jack Hessel R. Sifa Christian Bauckhage Hannaneh Hajishirzi Yejin Choi OffRL 105 250 0 03 Oct 2022
Offline RL for Natural Language Generation with Implicit Language Q Learning Charles Burton Snell Ilya Kostrikov Yi Su Mengjiao Yang Sergey Levine OffRL 221 115 0 05 Jun 2022
Where in the World is this Image? Transformer-based Geo-localization in the Wild Shraman Pramanick E. Nowara Joshua Gleason Carlos D. Castillo Rama Chellappa ViT 62 37 0 29 Apr 2022
Correlation Verification for Image Retrieval Seongwon Lee Hongje Seong Suhyeon Lee Euntai Kim 94 51 0 04 Apr 2022
TransGeo: Transformer Is All You Need for Cross-view Image Geo-localization Sijie Zhu M. Shah Chong Chen ViT 109 161 0 31 Mar 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 967 13,285 0 04 Mar 2022
Multi-view Intent Disentangle Graph Networks for Bundle Recommendation Sen Zhao Wei Wei Ding Zou Xian-Ling Mao 118 91 0 23 Feb 2022
CLIPScore: A Reference-free Evaluation Metric for Image Captioning Jack Hessel Ari Holtzman Maxwell Forbes Ronan Le Bras Yejin Choi CLIP 241 1,597 0 18 Apr 2021
Instance-level Image Retrieval using Reranking Transformers Fuwen Tan Jiangbo Yuan Vicente Ordonez ViT 167 93 0 22 Mar 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 1.1K 30,096 0 26 Feb 2021
VIGOR: Cross-View Image Geo-localization beyond One-to-one Retrieval Sijie Zhu Taojiannan Yang Chong Chen 80 175 0 24 Nov 2020
Learning to summarize from human feedback Nisan Stiennon Long Ouyang Jeff Wu Daniel M. Ziegler Ryan J. Lowe Chelsea Voss Alec Radford Dario Amodei Paul Christiano ALM 304 2,195 0 02 Sep 2020
Fine-Tuning Language Models from Human Preferences Daniel M. Ziegler Nisan Stiennon Jeff Wu Tom B. Brown Alec Radford Dario Amodei Paul Christiano G. Irving ALM 613 1,775 0 18 Sep 2019
BERTScore: Evaluating Text Generation with BERT Tianyi Zhang Varsha Kishore Felix Wu Kilian Q. Weinberger Yoav Artzi 598 5,892 0 21 Apr 2019
Lending Orientation to Neural Networks for Cross-view Geo-localization Liu Liu Hongdong Li 62 251 0 29 Mar 2019
CPlaNet: Enhancing Image Geolocalization by Combinatorial Partitioning of Maps Paul Hongsuck Seo Tobias Weyand Jack Sim Bohyung Han 67 68 0 06 Aug 2018
Revisiting IM2GPS in the Deep Learning Era Nam N. Vo Nathan Jacobs James Hays 71 120 0 13 May 2017
Cross-View Image Matching for Geo-localization in Urban Environments Yicong Tian Chen Chen M. Shah ObjD 92 179 0 22 Mar 2017
Large-Scale Image Retrieval with Attentive Deep Local Features Hyeonwoo Noh A. Araújo Jack Sim Tobias Weyand Bohyung Han 3DV 145 777 0 19 Dec 2016
PlaNet - Photo Geolocation with Convolutional Neural Networks Tobias Weyand Ilya Kostrikov James Philbin 78 421 0 17 Feb 2016
Wide-Area Image Geolocalization with Aerial Reference Imagery Scott Workman Richard Souvenir Nathan Jacobs 90 331 0 13 Oct 2015
FaceNet: A Unified Embedding for Face Recognition and Clustering Florian Schroff Dmitry Kalenichenko James Philbin 3DH 562 13,200 0 12 Mar 2015