v1v2 (latest)

Circle-RoPE: Cone-like Decoupled Rotary Positional Embedding for Large Vision-Language Models

22 May 2025

ArXiv (abs)PDF HTML Github (11★)

Papers citing "Circle-RoPE: Cone-like Decoupled Rotary Positional Embedding for Large Vision-Language Models"

6 / 6 papers shown

Revisiting Multimodal Positional Encoding in Vision-Language Models

152

27 Oct 2025

Improving GUI Grounding with Explicit Position-to-Coordinate Mapping

106

03 Oct 2025

AttAnchor: Guiding Cross-Modal Token Alignment in VLMs with Attention Anchors

Junyang Zhang

Tianyi Zhu

Thierry Tambe

27 Sep 2025

The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer

223

14 Apr 2025

Qwen2.5-VL Technical Report

...

703

2,801

20 Feb 2025

Baichuan-Omni-1.5 Technical Report

Tao Zhang

...

328

28 Jan 2025