梁文锋署名论文,DeepSeek首轮融资后大动作:生成速度大涨85%

智东西·2026年06月27日 17:15
DeepSeek联合北大开源新成果。

智东西6月27日报道,继完成500亿元融资后,今日,DeepSeek首次放出开源新成果! 

刚刚,DeepSeek开源了一套让现有模型跑得更快的工程方案:推出DeepSeek-V4-Pro-DSpark、DeepSeek-V4-Flash-DSpark模型,并开源推测解码(Speculative Decoding)框架DSpark以及推测解码训练框架DeepSpec。 

▲DeepSeek-V4-Pro-DSpark开源上新页面截图

根据同步上传的梁文锋署名、联合北京大学完成的论文《DSpark:基于半自回归生成的置信度调度推测解码(DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation)》,将DSpark部署在DeepSeek-V4线上服务系统、承接真实用户流量时,它有效减少了无效校验带来的算力浪费。 

相较于成熟的生产基线方案(MTP-1),在保持整体吞吐不变的前提下,DSpark把单用户生成速度提升60%-85%。更关键的是,在严格交互时延约束下,DSpark避免了吞吐率大幅滑坡,实现了以往无法达成的性能档位,推高了整套服务系统的帕累托最优边界。 

▲DSpark论文截图

Hugging Face地址: 

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark 

GitHub地址: 

https://github.com/deepseek-ai/DeepSpec 

论文地址: 

https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf 

根据Hugging Face上的模型卡,DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark并非新模型,而是在原有版本的基础上,增加了一个推测解码模块,用以加快推理速度、降低成本。 

推测解码,简单来说,是一种大模型推理无损技术,核心流程为先打草稿、后验证。其将草稿生成与目标模型校验解耦,以此加速大语言模型推理。 

当前主流并行草稿器能够单次前向运算生成超长token序列,但由于token之间缺少依赖关系,草稿后续内容的通过率会快速下滑。此外,如果对整段长候选序列无差别校验,会把宝贵的批次算力浪费在极易被驳回的token上,从而导致高并发服务场景下整体吞吐率大幅下降。 

为此,DeepSeek提出DSpark推测解码框架,把高吞吐并行生成与自适应、感知负载的校验机制结合在一起。为保证草稿质量,DSpark采用半自回归架构:将并行主干网络与轻量串行模块相结合,建模块内token依赖,缓解末尾内容通过率衰减问题。 

▲DSpark架构与解码流程

为优化系统运行效率,DSpark引入置信度调度校验机制:根据预估的前缀通过概率与引擎吞吐特征,为每一条请求动态调整校验长度。在多领域离线基准测试中,相比当前最优的自回归草稿器与并行草稿器,DSpark能够显著提升有效通过序列长度。 

如下图所示,针对这DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark两款模型,DeepSeek提供了一个最小推理示例。 

▲DeepSeek提供的最小推理示例

总的来说,用户在部署DSpark版本的DeepSeek-V4模型后,有望在生成速度、首token延迟、并发能力等方面获得体验提升。 

再来看看DeepSpec,这是一个用于训练和评估推测性解码草稿模型(Draft Model)的全栈代码库,或者说工具链,它包含数据准备工具、草稿模型实现、训练代码和评估脚本,支持MIT许可。 

▲DeepSpec开源上新页面截图

DeepSpec的工作流程如下,它会按顺序运行各个阶段,每个阶段的输出为下一个阶段提供反馈: 

1、数据准备:下载提示,重新生成目标答案,并构建目标缓存。 

2、训练:针对缓存的目标输出训练一个模型。 

3、评估:在基准任务上衡量推测解码的接受程度。 

目前,DeepSpec支持的算法包括三个草稿模型:DSpark、DFlash和Eagle3。 

DeepSpec团队还在最后向SpecForge(Apache-2.0)、DFlash(MIT)以及Qwen3和Gemma发文致谢。 

▲DeepSeek致谢情况

可以看到,DeepSeek不仅发布相关模型,还开放完整的训练框架,供开发者和企业用这套工具给自己的Qwen3、Gemma等模型训练草稿模型。 

结语:推理重要度提高 

考验工程化能力 

DeepSeek本次发布虽然低调,也不是新模型迭代,但实际含金量不低。DeepSeek发布了一套让现有模型跑得更快的工程方案,有望带来更快更低成本的推理体验,并降低推测解码的落地门槛。 

大模型竞赛已进入训练与推理并重的系统博弈阶段。本次也是DeepSeek完成融资后,率先落子推理优化赛道。战略意图也很明确:不仅要加速模型迭代和产品化,还要向下抢占算力效率竞争制高点。 

本文来自微信公众号 “智东西”(ID:zhidxcom),作者:李水青,36氪经授权发布。

+1
14

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

最新文章推荐

从“打工仔”到“化工大王”,张国荣干出1400亿港元覆铜板龙头梁文锋署名论文,DeepSeek首轮融资后大动作:生成速度大涨85%被AI带火的“玻璃”:先进封装的隐形地基,产业价值待重估刚刚,DeepSeek V4更新DSpark,推理速度提升80%一家创新药鼻祖破产:投资者亏麻了大型“选妃”现场,米哈游终于不藏了新通信全空间无人体系:一场展会背后的产业雄心与浦东路径秋声 | 大秦储能冲港股IPO:锂价50万山顶囤货血泪史,亏本三年才清完江西赣州被英伟达盯上,连夜搬走黑石头大神Karpathy用Claude的方式,原来是这样的?
36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业