当前位置: 首页 > 新闻动态 > 科技资讯

Z Lab 发布开源推测解码框架 DFlash

作者:霞舞 浏览: 发布日期:2026-01-09
[导读]:ZLab推出了开源推测解码框架DFlash,该框架采用轻量级BlockDiffusion模型来生成草稿序列,旨在突破自回归大语言模型在推测解码过程中因草稿生成串行化所引发的性能瓶颈。DFlash创新性地将目标模型的隐层特征融入草稿生成过程,作为上下文条件进行建模,从而实现高质量、高效率的并行草稿预测。https://github.com/z-lab/dflash据官方测试结果,DFlash在Qwen3-8B模型上达成高达6.17倍的无损推理加速,解码吞吐量相较当前最优的推测解码方案

z lab 推出了开源推测解码框架 dflash,该框架采用轻量级 block diffusion 模型来生成草稿序列,旨在突破自回归大语言模型在推测解码过程中因草稿生成串行化所引发的性能瓶颈。

DFlash 创新性地将目标模型的隐层特征融入草稿生成过程,作为上下文条件进行建模,从而实现高质量、高效率的并行草稿预测。

https://www./link/b14306cd6ce646b9b7bee6ea942711a1

据官方测试结果,DFlash 在 Qwen3-8B 模型上达成高达 6.17 倍的无损推理加速,解码吞吐量相较当前最优的推测解码方案 EAGLE-3 提升近 2.5 倍。项目现已开源,并同步发布适配 Qwen3-4B 与 Qwen3-8B 的预训练草稿模型,相关技术论文正在整理中,即将正式公开。

研发团队透露,DFlash 正在紧锣密鼓地接入 vLLM 推理引擎,并已规划对大规模 MoE 架构模型的支持路线图。

源码地址:点击下载

免责声明:转载请注明出处:http://sczxchw.cn/news/309096.html

扫一扫高效沟通

多一份参考总有益处

免费领取网站策划SEO优化策划方案

请填写下方表单,我们会尽快与您联系
感谢您的咨询,我们会尽快给您回复!