d:["$","main",null,{"className":"container mx-auto p-4 py-8 sm:px-6 lg:px-8","data-sentry-component":"PapersPage","data-sentry-source-file":"page.tsx","children":[["$","nav",null,{"className":"hidden sm:flex mb-4","aria-label":"Breadcrumb","data-sentry-component":"Breadcrumb","data-sentry-source-file":"Breadcrumb.tsx","children":["$","ol",null,{"role":"list","className":"flex items-center space-x-2","children":[["$","li","0",{"children":["$","div",null,{"className":"flex items-center space-x-2","children":[false,["$","$L1d",null,{"href":"/","prefetch":false,"aria-current":"$undefined","className":"text-sm font-medium hover:underline text-gray-500 dark:text-neutral-400 hover:text-gray-700 dark:hover:text-neutral-300","children":"Home"}]]}]}],["$","li","1",{"children":["$","div",null,{"className":"flex items-center space-x-2","children":[["$","svg",null,{"xmlns":"http://www.w3.org/2000/svg","viewBox":"0 0 20 20","fill":"currentColor","aria-hidden":"true","data-slot":"icon","ref":"$undefined","aria-labelledby":"$undefined","className":"size-5 shrink-0 text-gray-400 dark:text-neutral-500","children":[null,["$","path",null,{"fillRule":"evenodd","d":"M8.22 5.22a.75.75 0 0 1 1.06 0l4.25 4.25a.75.75 0 0 1 0 1.06l-4.25 4.25a.75.75 0 0 1-1.06-1.06L11.94 10 8.22 6.28a.75.75 0 0 1 0-1.06Z","clipRule":"evenodd"}]]}],["$","$L1d",null,{"href":"/papers","prefetch":false,"aria-current":"$undefined","className":"text-sm font-medium hover:underline text-gray-500 dark:text-neutral-400 hover:text-gray-700 dark:hover:text-neutral-300","children":"Papers"}]]}]}],["$","li","2",{"children":["$","div",null,{"className":"flex items-center space-x-2","children":[["$","svg",null,{"xmlns":"http://www.w3.org/2000/svg","viewBox":"0 0 20 20","fill":"currentColor","aria-hidden":"true","data-slot":"icon","ref":"$undefined","aria-labelledby":"$undefined","className":"size-5 shrink-0 text-gray-400 dark:text-neutral-500","children":[null,["$","path",null,{"fillRule":"evenodd","d":"M8.22 5.22a.75.75 0 0 1 1.06 0l4.25 4.25a.75.75 0 0 1 0 1.06l-4.25 4.25a.75.75 0 0 1-1.06-1.06L11.94 10 8.22 6.28a.75.75 0 0 1 0-1.06Z","clipRule":"evenodd"}]]}],["$","$L1d",null,{"href":"#","prefetch":false,"aria-current":"$undefined","className":"text-sm font-medium hover:underline text-gray-500 dark:text-neutral-400 hover:text-gray-700 dark:hover:text-neutral-300","children":"2511.17560"}]]}]}],["$","li","3",{"children":["$","div",null,{"className":"flex items-center space-x-2","children":[["$","svg",null,{"xmlns":"http://www.w3.org/2000/svg","viewBox":"0 0 20 20","fill":"currentColor","aria-hidden":"true","data-slot":"icon","ref":"$undefined","aria-labelledby":"$undefined","className":"size-5 shrink-0 text-gray-400 dark:text-neutral-500","children":[null,["$","path",null,{"fillRule":"evenodd","d":"M8.22 5.22a.75.75 0 0 1 1.06 0l4.25 4.25a.75.75 0 0 1 0 1.06l-4.25 4.25a.75.75 0 0 1-1.06-1.06L11.94 10 8.22 6.28a.75.75 0 0 1 0-1.06Z","clipRule":"evenodd"}]]}],["$","$L1d",null,{"href":"/papers/2511.17560/cited-by","prefetch":false,"aria-current":"page","className":"text-sm font-medium hover:underline text-primary-900 dark:text-primary-300 hover:text-primary-950 dark:hover:text-primary-200","children":"Cited By"}]]}]}]]}]}],["$","div",null,{"className":"mb-12 flex items-start gap-4 md:gap-6 lg:items-center lg:gap-8","children":[["$","$L1c",null,{"src":"https://cdn.parameterlab.de/papers/2511.17560/pages/page.jpg","alt":"$$A^3$: Attention-Aware Accurate KV Cache Fusion for Fast Large Language Model Serving","className":"my-6 aspect-paper w-24 grow-0 shadow-md md:w-32 lg:w-48","width":128,"height":128}],["$","section",null,{"className":"space-y-1 md:space-y-2","data-sentry-component":"Overview","data-sentry-source-file":"Overview.tsx","children":[null,["$","h1",null,{"className":"text-lg font-black leading-tight text-primary-600 dark:text-primary-400 md:text-xl lg:text-2xl xl:text-3xl","children":[[["$","span","0",{"data-testid":"react-katex","dangerouslySetInnerHTML":{"__html":"

A^3

"}}],": Attention-Aware Accurate KV Cache Fusion for Fast Large Language Model Serving"],["$","$L20",null,{"tip":"Technical paper","className":"ml-2 inline-block align-middle","children":["$","$L21",null,{"icon":"fluent-emoji:test-tube","className":"size-5"}]}]]}],null,["$","$L20",null,{"tip":"Publication date","className":"w-fit items-start","data-sentry-element":"ToolTip","data-sentry-source-file":"Overview.tsx","children":["$","time",null,{"className":"text-gray-500 dark:text-gray-400","dateTime":"2025-11-13T00:00:00.000Z","children":"13 November 2025"}]}],["$","$L22",null,{"paper":{"id":"2511.17560","title":"$$A^3$: Attention-Aware Accurate KV Cache Fusion for Fast Large Language Model Serving","abstract":"$23","thumbnail":"https://cdn.parameterlab.de/papers/2511.17560/pages/page.jpg","publishedAt":"2025-11-13T00:00:00.000Z","authors":["Yuechi Zhou","Yi Su","Jianxin Zhang","Juntao Li","Qingrong Xia","Zhefeng Wang","Xinyu Duan","Baoxing Huai"],"authorEntities":[{"slug":"yuechi-zhou","name":"Yuechi Zhou"},{"slug":"yi-su-3","name":"Yi Su"},{"slug":"j--zhang-3","name":"J. Zhang"},{"slug":"juntao-li","name":"Juntao Li"},{"slug":"qingrong-xia","name":"Qingrong Xia"},{"slug":"zhefeng-wang","name":"Zhefeng Wang"},{"slug":"xinyu-duan","name":"Xinyu Duan"},{"slug":"baoxing-huai","name":"Baoxing Huai"}],"emails":["yczhouyc@stu.suda.edu.cn","","","","","","",""],"conferenceInfo":null,"citationCount":0,"likeCount":0,"updatedAt":"2025-11-13T00:00:00.000Z","crawledAt":"2025-11-25T03:53:37.100Z","includingImages":[],"pageImages":["https://cdn.parameterlab.de/papers/2511.17560/pages/page.jpg"],"summary":null,"communities":[],"viewCount":"47","bibtex":"@article{zhou2025_2511.17560,\n title={ $A^3$: Attention-Aware Accurate KV Cache Fusion for Fast Large Language Model Serving },\n author={ Yuechi Zhou and Yi Su and Jianxin Zhang and Juntao Li and Qingrong Xia and Zhefeng Wang and Xinyu Duan and Baoxing Huai },\n journal={arXiv preprint arXiv:2511.17560},\n year={ 2025 }\n}","youtubeIds":[],"connectYoutube":null,"githubUrl":null,"githubStars":0,"versions":[{"version":"v1","title":"$$A^3$: Attention-Aware Accurate KV Cache Fusion for Fast Large Language Model Serving","abstract":"$24","authors":["Yuechi Zhou","Yi Su","Jianxin Zhang","Juntao Li","Qingrong Xia","Zhefeng Wang","Xinyu Duan","Baoxing Huai"],"publishedAt":"2025-11-13T00:00:00.000Z"}],"currentVersion":"v1","paperType":"others","paperStats":{"mainPages":7,"bibliographyPages":2,"appendixPages":3,"figures":8,"tables":5},"huggingFaceUpvotes":null},"disableLink":"$undefined","data-sentry-element":"AuthorNames","data-sentry-source-file":"Overview.tsx"}],["$","ul",null,{"className":"flex flex-wrap gap-1 lg:gap-2","children":[[],["$","$L25",null,{"paperId":"2511.17560"}]]}],["$","div",null,{"data-tour":"paper-external-links","className":"inline-flex gap-1 items-center flex-wrap","children":[["$","$L1d",null,{"href":"http://arxiv.org/abs/2511.17560","target":"_blank","rel":"noopener noreferrer","className":"flex items-center gap-1 text-xs font-medium px-2 py-1 rounded-md bg-gray-100 dark:bg-gray-700 hover:bg-gray-200 dark:hover:bg-gray-600 text-gray-700 dark:text-gray-200 transition-colors","aria-label":"ArXiv page","children":[["$","span",null,{"children":"ArXiv (abs)"}],["$","svg",null,{"ref":"$undefined","xmlns":"http://www.w3.org/2000/svg","width":12,"height":12,"viewBox":"0 0 24 24","fill":"none","stroke":"currentColor","strokeWidth":2,"strokeLinecap":"round","strokeLinejoin":"round","className":"lucide lucide-external-link","children":[["$","path","1q9fwt",{"d":"M15 3h6v6"}],["$","path","gplh6r",{"d":"M10 14 21 3"}],["$","path","a6xqqp",{"d":"M18 13v6a2 2 0 0 1-2 2H5a2 2 0 0 1-2-2V8a2 2 0 0 1 2-2h6"}],"$undefined"]}]]}],["$","$L1d",null,{"href":"https://arxiv.org/pdf/2511.17560","target":"_blank","rel":"noopener noreferrer","className":"flex items-center gap-1 text-xs font-medium px-2 py-1 rounded-md bg-gray-100 dark:bg-gray-700 hover:bg-gray-200 dark:hover:bg-gray-600 text-gray-700 dark:text-gray-200 transition-colors","aria-label":"PDF download","children":[["$","span",null,{"children":"PDF"}],["$","svg",null,{"ref":"$undefined","xmlns":"http://www.w3.org/2000/svg","width":12,"height":12,"viewBox":"0 0 24 24","fill":"none","stroke":"currentColor","strokeWidth":2,"strokeLinecap":"round","strokeLinejoin":"round","className":"lucide lucide-external-link","children":[["$","path","1q9fwt",{"d":"M15 3h6v6"}],["$","path","gplh6r",{"d":"M10 14 21 3"}],["$","path","a6xqqp",{"d":"M18 13v6a2 2 0 0 1-2 2H5a2 2 0 0 1-2-2V8a2 2 0 0 1 2-2h6"}],"$undefined"]}]]}],["$","$L1d",null,{"href":"https://arxiv.org/html/2511.17560v1","target":"_blank","rel":"noopener noreferrer","className":"flex items-center gap-1 text-xs font-medium px-2 py-1 rounded-md bg-gray-100 dark:bg-gray-700 hover:bg-gray-200 dark:hover:bg-gray-600 text-gray-700 dark:text-gray-200 transition-colors","aria-label":"HTML version","children":[["$","span",null,{"children":"HTML"}],["$","svg",null,{"ref":"$undefined","xmlns":"http://www.w3.org/2000/svg","width":12,"height":12,"viewBox":"0 0 24 24","fill":"none","stroke":"currentColor","strokeWidth":2,"strokeLinecap":"round","strokeLinejoin":"round","className":"lucide lucide-external-link","children":[["$","path","1q9fwt",{"d":"M15 3h6v6"}],["$","path","gplh6r",{"d":"M10 14 21 3"}],["$","path","a6xqqp",{"d":"M18 13v6a2 2 0 0 1-2 2H5a2 2 0 0 1-2-2V8a2 2 0 0 1 2-2h6"}],"$undefined"]}]]}],false,null,[],null]}]]}]]}],["$","h1",null,{"className":"mb-4 text-xl font-medium text-primary-600 dark:text-primary-400","children":["Papers citing"," ",["$","span",null,{"className":"font-semibold italic text-primary-900 dark:text-primary-300","children":["\"","$$A^3$: Attention-Aware Accurate KV Cache Fusion for Fast Large Language Model Serving","\""]}]]}],["$","$L1e",null,{"className":"w-full","papers":[],"pagination":{"page":1,"size":0,"totalPages":0,"total":0},"error":"$undefined","data-sentry-element":"PaperTable","data-sentry-source-file":"page.tsx"}],["$","$L26",null,{"currentPage":1,"totalPages":0}]]}]

A3A^3A3: Attention-Aware Accurate KV Cache Fusion for Fast Large Language Model Serving

Papers citing "$A^3$: Attention-Aware Accurate KV Cache Fusion for Fast Large Language Model Serving"

$A^3$ : Attention-Aware Accurate KV Cache Fusion for Fast Large Language Model Serving