年度AI模型大盘点
当清晨的第一缕光透过窗帘,一位懂你日程、知你冷暖的“AI伙伴”也开始了一天的工作。
一杯咖啡氤氲的香气里,行程梳理妥当,甚至晨会的简短发言提纲也已拟好;通勤路上,昨晚未看完的项目文档转化为语音播报,自动标注出关键数据;在工位前,面对庞杂的数据报表,秒级生成可视化图表;下午和客户见面前,输入核心思路,它快速生成PPT初稿,还匹配符合品牌调性的排版与配图;回家途中,语音告知晚餐需求,它会推送适配食材库存的菜谱,甚至联动智能家居提前预热厨具;入夜,当你准备休息,它已筛选好明日最重要的资讯,并道一声“晚安”……
就像水电般自然存在的基础设施,如果说2024年是试探性地触碰AI的年份,那么2025年,我们真切地与AI共同生活、并肩工作,AI应用也正在进行“全场景渗透、全流程赋能”的蜕变,我们的时间感知、决策模式甚至生活节奏,都在被悄然重塑。AI改变的,远不只是工作效率。
这份榜单,也不只是评点优劣,或许并不那么完美,但更想记录AI如何以惊人的速度重塑新范式。我们审视榜单,既是在万千选择中寻找最可靠的“伙伴”,也是追问:当AI的能力深入核心领域,我们该如何驾驭,如何让AI在规范中更好助力这场“智变”。
A面
豆包:破圈的“国民级AI应用”
马年春晚,哪个AI伙伴会承包观众和现场的互动?这次是豆包,它要和火山引擎一起,登上2026年央视春晚的舞台。最近,关于豆包的消息不少,比如DAU(日活跃用户数)破1亿、豆包大模型日均Token调用量已超50万亿、超100家企业累计用量超1万亿……成为中国市场用户体量最大的AI助手,成为“国民级AI应用”。
亮眼的数据来自它的技术“进化”速度,从豆包大模型1.5到1.8,豆包用了大半年时间。比如在复杂推理、竞赛级数学、多轮对话和指令遵循等测试集上,豆包1.6-thinking的表现跻身全球前列,在60个公开评测基准中取得38项最佳成绩;到了豆包1.8,其工具调用能力、复杂指令遵循能力及OS Agent能力均得到增强,解锁了“能看、能写、能做、能规划”的全能技能。比如在视觉理解方面,豆包1.8的单次视频理解帧数从640帧倍增至1280帧,支持以低帧率理解超长视频,并能调用工具对关键片段进行高帧率理解,该能力可广泛用于在线教育、产品质检等场景中。在多项公开评测中,豆包1.8在视觉推理、通用视觉问答、空间理解及视频理解等均获得最佳或接近最佳成绩。
与此同时,其视频生成模型实现了从“无声画面”到“音画精确同步”的质变,推出的“Draft样片”功能,预览与成片高度一致,可帮助创作者提升65%的效率。
上榜理由
豆包呈现了一个独特的样本:它并非以某个单项技术参数的“第一”定义自己,但它将“大模型”具象化为“行动者”。超越炫目的演示,从“对话”迈向“行动”,是AI更具根本性的范式演进。当AI不再仅停留于生成文本与图像,而是开始主动调用工具、操控界面、串联跨平台的复杂流程时,便在实质上介入了真实世界的运行轨道。这固然会引发新的摩擦与思考,但也正因其深入肌理,才可能催生出前所未有的协作形态与生产力革新。
腾讯混元:从“出圈”到“入圈”
2025年,不少人的微信里多了一个“好友”——元宝,以一种新的方式,定义了“智能”在社交生态中的存在形态,是一个不需要下载、注册、刻意打开的独立应用,而是一个“国民级社交平台”里随时待命的“伙伴”。
之前,腾讯元宝最让人眼前一亮的,是在国内头部AI应用中率先实现“混元+DeepSeek”双模型协同,用户能根据需求切换,写代码、解数学题时用响应更快的DeepSeek,分析长文档、做深度策划就切换到擅长逻辑推理的混元,让不同场景的效率都能拉满。
依托腾讯生态的天然优势,元宝的场景渗透也愈发丝滑。当收到一份复杂的PDF文档,无须跳出微信,转发给元宝,一句“帮我总结核心要点并找出行动项”,清晰的摘要便即刻返回;开会时来不及记录,将一段冗长的语音消息丢给它,很快就能得到结构清晰的文字纪要,让AI能力自然融入社交与办公日常,从一种需要“仪式感”的调用,变成了像发送消息一样自然的日常习惯。
就在不久前,腾讯元宝新上线了“任务提醒”功能,被视为从“对话助手”向“个人任务智能体”演进的标志,能理解自然语言、分解复杂任务并推进执行。比如“提醒我每周一、三、五健身,如果下雨就提醒我在家做瑜伽”,元宝就能理解,把智能助手的实用性拉到新高度。
上榜理由
从双模型出圈,到将AI能力以更自然、更紧密的方式融入每个人的社交中,可以看作是从“出圈”到“入圈”的转变。当AI可以无感地嵌入最高频的社交与办公场景,这种“无感化融入”所撬动的是对整个用户行为模式与体验期待的重塑。当技术日趋成熟,其终极价值将更取决于它能在多大程度上理解并服务于人类既有的、复杂的形态。未来的领先者,或许是那些善于让技术隐于无形的服务设计者。
通义千问:吃透100份文档的“AI学霸”
长文本处理哪家强?或许有通义千问的一席之地。
通义千问在2025年发布了性能显著跃升的Qwen2.5和Qwen3系列模型,在预训练方面,Qwen3的数据集相比Qwen2有了一定的扩展。通义官网数据显示,Qwen2.5是在18万亿个Tokens上进行预训练的,而Qwen3使用的数据量几乎是其两倍,达到了约36万亿个Tokens,涵盖了119种语言和方言。
通义千问在中文理解、逻辑推理等方面亮点较多。一方面是免费的文档解析功能,通义千问可解析网页、文档、论文、图书等类别。除了解析在线网页之外,针对单个文档,其能够处理超万页的极长资料,换算成中文篇幅约1000万字;而针对多个文档,可一键速读100份不同格式的资料。另一方面,增强了Transformer架构,面对古籍/生僻词解析不准、专业术语翻译混乱等难题,通义采用旋转位置嵌入(RoPE)技术捕捉文言时序逻辑,技术文档翻译同步保留专业术语一致性,准确率超96%。
除了文本生成大模型,通义的图片生成大模型参数规模达200亿,其视频生成大模型支持一句话生成视频,也能根据提供首帧或首尾帧图片,生成一段丝滑流畅的动态视频。
上榜理由
在工作和学习中,长文档处理是很多人的刚需,通义千问展现了一种独特的价值:让处理海量、复杂的信息变得轻松。无论是万页文献还是一百份混杂的文档,它都能快速梳理脉络、提取精要,拓展个人研究与学习的深度边界。从文本到图像、视频的多模态创造力,让通义千问将核心能力融入正在寻求效率与深度的用户需求中。
WPS AI:一边“聊天”一边干活
2023年,金山办公发布WPS AI,围绕AIGC(内容创作)、Copilot(智慧助理)、Insight(知识洞察)推出系列AI功能;2024年,WPS AI 2.0诞生,聚焦企业特定场景,用AI促进企业知识的智能化应用;2025年7月下旬,推出以WPS灵犀为核心的WPS AI 3.0。
数据显示,截至2025年3月底,WPS Office全球月度活跃设备数为6.47亿。
在新版本中,智能创作升级是核心亮点之一。在WPS Office的部分组件中形成了左侧Office套件、右侧WPS灵犀的同屏交互形态。也就是说,使用者直接在右侧的对话框中用自然语言提出需求,AI在识别意图后,即可对左侧文档区域进行修改,全程无须跳转其他应用。相比于其他产品,灵犀具备多轮对话、修改可控、格式保留等优势,能控制AI生成真实可用的成果。
一方面是门槛较低,使用者可以快速上手,通过对话就能实现文档创作;另一方面是数据处理,WPS知识库能将使用者的云文档升级为知识库,每个人都可以在WPS知识库上搜答案、筛数据,基于私域知识写方案或者文档。
此外,WPS Office引入了全新的PPT创作模式,使用者能在与AI对话中边聊边修改PPT大纲,还能二次精调模板、单页和版式,轻松“聊”出想要的效果。
上榜理由
智能办公已经不是新鲜事物,WPS AI没有创造一个新的、需要刻意学习的产品,而是让AI化身为Office套件中一个随时待命的“灵犀”助手,所有操作在同屏内完成,生成的结果立即可用,这种“对话即创作”的体验,极大降低了智能办公的门槛。甚至,它让每个人沉淀在云端的海量文档,通过知识库功能“活”了起来,转化为可随时调用、支持决策的私域知识资产,成为格子间里人人手握高效创作的“利器”。
当AI迅速融入人类的工作与生活,我们审视的目光也投向“硬币”的另一面。AI快速发展的背后,难免伴随着尚未完善的短板与亟待解决的挑战。这些问题或许是技术落地时的体验落差,或许是创新探索中的合规边界,却也正是行业走向成熟的必经之路。
B面
当AI迅速融入人类的工作与生活,我们审视的目光也投向“硬币”的另一面。AI快速发展的背后,难免伴随着尚未完善的短板与亟待解决的挑战。这些问题或许是技术落地时的体验落差,或许是创新探索中的合规边界,却也正是行业走向成熟的必经之路。
Manus:被Meta收购 留得住用户吗?
2025年,智能体Manus的发展轨迹堪称从狂热到冷却的戏剧性转折,年初,Manus凭借“通用AI智能体”的概念迅速出圈,一段自主完成简历筛选、股票分析等任务的演示视频引发全网关注,内测邀请码被炒至10万元天价,估值一度飙升至5亿美元。
热度褪去后,产品的核心缺陷逐渐暴露。报道显示,从技术路径来看,Manus以模型整合与后训练为核心,并没有自研模型。其技术门槛低也被印证,多个团队在短时间内成功复刻Manus并开源。
此外,有媒体报道,部分用户体验后,提出了运行速度过慢、token使用量惊人、性能并不出色等质疑。公开信息显示,Manus单任务运行成本约为2美元(约合人民币14元),较难满足实际场景中的低成本要求。
这些短板直接影响了用户的留存意愿。2025年3月Manus访问量达到2376万,到了5月就跌到1616万。
如何扭转颓势?Manus在2025年下半年进行了若干次升级,10月Manus 1.5版本上线,针对速度、可靠性等痛点进行优化,12月又新增了文生图功能,并整合进智能体工作流。12月中旬,Manus宣布,其ARR(年度经常性收入)突破1亿美元,共计消耗14万亿Token。
最新的消息是,Manus正式被Meta收购,并创下Meta成立以来的第三大收购纪录,这或许是Manus最好的结局。
点评
Manus的故事是2025年AI智能体领域一个极具代表性的样本,精准点燃市场对“通用智能体”的期待,快速引爆市场。但也有不少质疑的声音,比如缺乏自研基础模型导致门槛较低、易被复刻、运行速度慢、使用成本高等短板。
这个似乎充满短板的产品如今却卖了个好价钱,一方面是 Meta在AI领域寻求突破的布局,另一方面也是其看清了Manus在通用智能体赛道上的潜在价值。“智能体可落地”的价值,才是真正被市场看重的内核。概念亮眼是“敲门砖”,能在实践中沉淀出可复用的能力,才是真正的“硬通货”。
智谱清言:702万月活 更应守住隐私
不会PS也能当设计师?输入“赛博朋克夜景,霓虹灯下雨巷”,“CogView4模型”能够快速出高清图,升级玩法是用“清影”视频模块,比如描述“猫咪追蝴蝶的治愈动画”,模型能够直接生成6秒短视频,还能调节分镜节奏。
凭借亮眼的多模态生成能力,智谱清言收获了不少用户青睐。公开数据显示,2025年1月,智谱清言的月活跃用户数为702万,居国内AI产品的第7位。
但是,2025年5月20日,国家网络与信息安全信息通报中心发布的通告称,在应用宝平台中发现35款移动应用存在违法违规收集使用个人信息的情况,其中包括智谱清言(版本2.9.6)等,检测时间为2025年4月16日至5月15日,主要违规原因是“实际收集的个人信息超出用户授权范围”。
这样的行为无疑戳中用户最敏感的痛点,人们不禁担忧:那些包含个人隐私的对话、基于使用习惯沉淀的偏好,乃至涉及职场上的工作文档,是否都在未被明确告知的情况下被过度采集、长期留存,甚至存在被滥用的风险?
点评
就在2025年底,智谱传出IPO的消息,其技术底座也迎来了新一代的GLM-4.7模型,有望成为“全球大模型第一股”。但能否守住“第一股”的牌面,智谱不仅要在技术上有所为,也要在使用用户数据时“有所不为”。
在数据安全意识日益增强的今天,用户自然会对“榜上有名”的应用产生警惕。任何技术上的亮点,都可能被笼罩在隐私疑虑的阴影之下,最终制约其走向更广阔的未来。当AI渴望成为人类的创意伙伴时,它必须首先是一位值得托付的、恪守边界的信息管家。
本文来自微信公众号 “IT时报”(ID:vittimes),作者:潘少颖 孙永会,36氪经授权发布。















