DeepSeek有点含蓄了,实测V3.1有进步,编程等个别场景硬刚GPT-5

鲸选AI·2025年08月20日 10:58
为V4和R2大更新做准备?

没等到Deepseek R2,DeepSeek悄悄更新了V 3.1。

官方群放出的消息就提了一点,上下文长度拓展至128K。128K也是GPT-4o这一代模型的处理Token的长度。因此一开始,鲸哥以为从V3升级到V 3.1,以为是不大的升级,鲸哥体验下来还有惊喜。

01

代码能力与前端审美提升

从开源社区Huggingface上传的模型版本看,模型尺寸达685B,支持 BF16、F8_E4M3、F32 等张量类型,平衡模型的计算精度和效率。

最惊喜的是代码能力提升明显,前端审美也有大幅度提升。我们先看V3.1在代码测试中的变现。

请设计并开发一款结合日历和待办事项(To-Do)的产品,其核心功能应包括:

任务分类与颜色标记:用户能够创建不同类别的任务,并为每个类别分配独特的颜色。当任务被归类后,其在日历视图上应以相应的颜色进行标记,以便快速识别。短期任务管理:*完成标记: 对于计划在特定日期完成的任务,用户应能将其标记为“已完成”。已完成的任务应在界面上以视觉方式(例如,划掉、变灰或显示完成图标)清晰区分。*逾期处理: 如果任务未在计划日期完成,系统应提供明确的视觉提示(例如,颜色变化、闪烁或标记为逾期),并允许用户选择将其延期至第二天或后续日期。长期任务可视化: 对于跨越多天的长期任务,系统应在日历视图上以连续的线条或色块进行标记,清晰展示其持续时间,并支持用户查看和编辑任务的起止日期。

说实话,整个产品的设计其实已经达到了一定的水准,准确理解Prompt,并且也没有什么交互Bug。相比Claude 3.7也并不逊色。

Claude 3.7生成的日历代办事项

当然相比Claude 4.0和4.1的前端还有审美差距。

PS:鲸哥正在利用Claude 4.0做日历+To do的结合体,后续会发布出来,大家可以期待。

天气卡片案例测试

第二个案例能看出来更明显。这个案例是大家经常做测试的天气卡片Case。

创建一个包含 CSS 和 JavaScript 的单个 HTML 文件,以生成一个动画天气卡片。卡片应通过不同的动画直观地表示以下天气条件:风:(例如,移动的云朵、摇曳的树木或风线)雨:(例如,落下的雨滴、形成的水坑)晴:(例如,闪耀的光线、明亮的背景)雪:(例如,落下的雪花、积雪)并排显示所有天气卡片。卡片应具有深色背景。在此单个文件中提供所有 HTML、CSS 和 JavaScript 代码。JavaScript 应包含一种在不同天气条件之间切换的方法(例如,一个函数或一组按钮),以演示每种天气的动画。

注:DeepSeek 新版 V3 模型的生成结果,右侧为 R1 的生成结果

这是新版V3.1生成的效果,是不是已经很美观了,而且还有降雨和太阳等动图效果,这就不只是拿得出手,还有些超出期待了。

我们看GPT-5的演示效果,其实也还行,但是雪花和大风的演示图形有点Bug,以及没有很多天气信息展示。

流程图与复杂案例测试

接着我们测试一个考验DPSK逻辑和构图的案例,要求V3.1创建一个流程图,展示用户、Agent、LLM和MCP Server之间的交互。

V3.1使用Mermaid流程图来表示这一过程,大体过程展示出来了,但是仿佛又缺乏些细节。

不过好事就是有些流程图、逻辑图以后可以教给DeepSeek做了,没有思维脑图产品做的细节,但胜在基础作品直出和有美观度渲染。

继续来做一个更复杂的Case,这是马斯克点赞的Grok 4案例:“3D线框网络与能量脉冲动画”。

DeepSeek V3.1使用了CSS 3D变换来模拟3D效果,纯JavaScript处理交互逻辑,不需要任何外部库。

但不得不说,V3.1在做这种更复杂的案例时,略微有些力不从心。没有做出立体状,效果也不太酷炫。

感觉还是上下文太短,现在很多大模型都已经经200K,V3.1现在处理复杂任务还有距离。

GPT-5生成分效果还可以,用能量球形式展现,脉冲效果也有一定体现。

02

逻辑推理能力进步

虽然是非推理模型,但V3.1的逻辑推理也有一定的进步,这道题的回答中可以看到进步:

单选题某办公室甲、乙、丙、丁四人对本办公室当选先进工作者的职工进行如下预测:甲:乙和丙要么都当选,要么都落选。乙:最多只有2人当选。丙:我不可能当选。丁:你们中肯定有人的预测是错的。结果发现四个人中只有一个人说对了,问以下哪项判断是正确的?()A 甲当选了B 乙当选了C 丙未当选D 丁未当选

豆包这题思考过程对,但是给的答案选项错了。

DeepSeek V 3.1的幻觉率依然很高,让以吴晓波风格写大疆,引用了几本不存在的书作为内容源。

DeepSeek V3.1这波更新不是很大,胜在有进步和又降价。

尽管目前关于DeepSeek R2的传闻很多,其发布日期比传言中的日子,已经滞后很多,但DeepSeek每次更新还是有稳定的进步,R2仍然值得期待。

本文来自微信公众号“鲸选AI”,作者:鲸哥,36氪经授权发布。

+1
2

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

其产品已应用于遥感卫星、低轨试验星及国家部委专项星座任务。

2小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业