DeepSeek FlashMLA 中的 KvCache | 木白的知识小屋

技术分享

🧣DeepSeek FlashMLA 中的 KvCache

00 分钟

2025-2-24

type

status

date

slug

summary

tags

category

icon

password

URL-TEXT

在 FlashMLA 中，KVCache 的使用针对 Hopper GPU架构 和 变长序列服务 进行了深度优化，核心目标是高效管理内存和最大化计算吞吐。

▎KVCache 的“分页存储”设计

问题：传统KVCache按序列连续存储 → 遇到变长序列时（比如同时处理100字和1000字的请求），显存容易产生碎片，利用率低。

FlashMLA的解法： ✅ 效果：避免显存浪费，支持灵活的动态扩展。

分块存储：将KVCache切成固定大小的块（例如每块存64个token的K/V），类似内存分页。

块表（Block Table）：维护一个逻辑到物理块的映射表，动态分配块（类似文件系统的inode）。

▎ 变长序列的“按需处理”

传统瓶颈：同时处理不同长度的序列时，GPU计算会被对齐到最长序列 → 产生大量无效计算。

FlashMLA的优化：

元数据调度：get_mla_metadata 函数根据实际序列长度（cache_seqlens）和头数（h_kv）生成调度计划（tile_scheduler_metadata）。

分片计算：通过 num_splits 将计算拆分为多个子任务，每个子任务适配GPU的并行核心，避免资源闲置。

▎ 极致性能：内存带宽 vs 计算密度

两种场景优化：

内存密集型（3000 GB/s）：通过分块预取、合并内存访问，让K/V数据的加载速度接近GPU显存带宽极限。

计算密集型（580 TFLOPS）：利用Hopper的Tensor Core，将注意力计算拆解为高效矩阵运算，隐藏计算延迟。

关键技术：

异步加载：在计算当前块时，预加载下一个块的K/V数据。

数据压缩：对分块内的K/V使用BF16格式存储，减少显存占用同时保持精度。

▎ 代码流程示例

以单层注意力计算为例：

▎ 通俗类比：图书馆与书架

想象在图书馆找书：

传统方法：每次借书都要从第一本书开始逐本查找（对应无缓存的重复计算）。

FlashMLA的方法：

将书架分成固定大小的格子（分块存储），每个格子贴标签（块表）。

管理员提前记录每本书的位置（元数据调度），你需要时直接按标签取格子（内存高效访问）。

多个读者（GPU线程）同时按标签找书，互不干扰（并行计算）。

▎ 总结：FlashMLA的KVCache优势

灵活适应变长：分页机制让长短序列共存时显存利用率最大化。

极致速度：通过内存访问优化和计算分片，压榨Hopper GPU的硬件潜力。

工业级扩展：支持大规模并发服务场景（如同时处理数千个不同长度的对话请求）。

时海高四秩寄后学书

万岁更相送，贤圣莫能度

万岁更相送，贤圣莫能度

作者:木白
链接:https://www.xiebaiyuan.top/technology/deepseek_flashmla_kvcache
声明:本文采用 CC BY-NC-SA 4.0 许可协议，转载请注明出处。

相关文章

多尺度处理的两大技术：金字塔池化与特征金字塔网络对比解析

稠密算力 vs 稀疏算力：解密现代计算的两种核心范式

老生常谈 — 参数的动态量化和静态量化

Mersenne Twister算法

Pixel Shuffle 与 Pixel UnShuffle

5G-a & 5G Redcap 知多少

目录

你好！我是

木白

欢迎来到谢小白的Blog，这里会分享一些芝士碎片。

赠人玫瑰，手有余香。

如果我的工作对您起到了帮助，
不妨请我喝一杯快乐水

欢迎来我的GITHUB看看

xiebaiyuan - Overview

moving forward. xiebaiyuan has 213 repositories available. Follow their code on GitHub.

xiebaiyuan - Overview

https://github.com/xiebaiyuan

xiebaiyuan - Overview

-- 感谢您的支持 ---

目录

最新发布

¹⁷

¹¹

¹⁰

⁹

⁹

⁸

⁷

⁶

⁵

⁴

⁴

⁴

³

²

²

计算机视觉

²

¹

¹

¹

文章数:

40

建站天数:

328 天