新模型DeepSeek-V2:降低KV Cache、推理成本大幅下降,助力AIGC商业闭环落地

导语:DeepSeek-V2模型通过引入MLA技术实现了KV Cache的大幅减小,从而降低了推理成本。与问答-4等闭源大模型相比,DeepSeek-V2不仅展示出匹敌性能,还将API价格降低至1元/2元每百万输入/输出Tokens。MLA技术的关键创新将KV向量映射到较小的维度,在attention计算过程中再映射回Q向量相同的维度,从而明显降低了KV Cache的显存占用。这一技术创新将有助于推动大模型推理侧商业闭环的落地,并加速各类AIGC应用场景的普及。

 

——————————————
背景:DeepSeek-V2模型具有明显的推理成本优势,我们基于此前发布报告《查找图书为什么H20推理性价比高?》中搭建的推理性能测算框架,分析了MLA技术降低KV Cache所占显存容量是如何影响推理性能/成本。

DeepSeek-V2的推理成本大幅下降
幻方近日发布DeepSeek-V2模型,其最大特点是低API价格;在多项测试中与GPT-4等闭源大模型展示出匹敌性能的同时,其API价格低至1元/2元每百万输入/输出Tokens(比GPT-4低约2个数量级)。

MLA是降低成本的关键技术创新
DeepSeek-V2模型推理成本大幅下降主要受益于Multi-head Latent Attention (MLA)技术,MLA可以将KV向量映射到较小的维度,使得只需保存较小容量KV Cache,在attention计算过程中,再映射回Q向量相同的维度。MLA可明显降低KV Cache所占显存容量,参考论文中数据,相比V1的稠密模型,V2模型减少了推理时93.3%的KV Cache显存占用。

KV Cache减小可增大Batch Size/减小Decode阶段显存读取时间
基于论文数据和我们的推算框架,在同样模型参数量情况下,使用MHA和MLA,单台DGX H800推理时可支持的最大Batch Size分别为4组和90组;使用MHA和MLA,每千个Token对应的KV Cache所需的显存传输时间分别为32ms和1.3ms。Batch Size增大/KV Cache读取时间的缩短,是使用同一算力系统进行推理时Throughput大幅提升、相应推理成本大幅降低的主要原因。

推理成本大幅降低有助于推理侧商业闭环
推理成本的指数级下降有助于减轻大模型厂商/AI应用厂商的营运成本压力,加速大模型推理侧的商业闭环,并加速各类AIGC应用场景的落地普及。

© 版权声明
THE END
喜欢就支持一下吧
点赞14 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容