百度及AI的前途
近来百度搜索全面AI化,作为核心业务,内部称大搜,确如百度AI Day上所称,为十年来最大变化。
然而众所周知,搜索的关键字零散,隐约指向用户的问题,而AI预期的Agent模式,能够辅助执行完整的任务,差距不可以道里计,大约不会受制于搜索框。尽管此次改版扩框,支持长文本和多模态输入,恐怕仍不够激进,是一种过渡状态。
同期百度文库网盘业务发力,虎嗅商业消费组做了采访,《百度暗藏一支1200人的劲旅》,这标题略抽象,仿佛在说司马懿图谋造反。文库的野望是做“一站式AI创作平台”,已经开发内容操作系统和系列创作工具。
或许后者更具想象空间。当下号称自媒体UGC(用户生成内容),仍遵循媒体逻辑,将用户区分为受众和作者,这是因为内容制作仍有一定门槛,而字节始作俑的算法分发模式,让流量变现闭环。内容生产没有质量,也有数量。若能更进一步,完全消除门槛,且创新分享方式,突出内容本身的逻辑,超越流量,那不啻于一场内容革命。
AI的序幕刚刚拉开,判断具体业务成败还为时过早,不妨先回顾产业史,确认真问题。互联网连接万物,连接的对象和方式,可分为信息,人与商品(服务)三类,要满足用户简单的需求,供给端并不简单,构成纷繁的生态,即对应BAT三头,硅谷FANG大同小异。
自产业开辟,生态经历若干轮变革。大套娃管住小套娃,不限于巨头,创业,就业,对变化的把握,回应关系重大。一个人的命运,当然要靠自己奋斗,也要考虑历史的进程。百度一度沉寂,战略为坊间议论,也可以放在这个框架下理解。
01 算法的大他者
最初门户时代以信息为主,社交和电商已经开张,还很弱小,不成为生态。商业模式也以广告为主。相比门户主页平铺,由海量编辑人工生成,以“标题党”著称。
搜索引擎按关键字排序,赋予全网信息一个结构,从而接管信息生态。按关键字匹配广告也更精准,圈占可能最肥的一块油水。同时社交和电商壮大,找到商业模式,于是进入BAT时代。
那时就有个人站,站长同时懂内容和技术,还要搞定域名啥的,堪称六边形战士。2005年新浪博客上线,人人都能零帧起手,说起来UGC(用户生产内容)这条赛道还是门户开启的。当初起高楼何其热闹,已于2023年悄无声息地关闭,也成了时代的一粒灰。
微博2009年上线,顾名思义短小的博客,对其定位两个平行,高配低配的产品。结果尽管新浪同时掌握了内容和渠道,却错过市场机遇,没能结合,搞撒尿牛丸。有点像硅谷历史上的施乐帕乐阿托中心。
微博不加思索地沿袭推特的140字限制,超出只能挂外部生成的长图文,站方听之任之,重点推名人大V,“我是薛蛮 子,我有987万粉丝,让我进去。”全都是浮云……还是受限于门户的媒体思维。微博如今也能多发字数,发文章,然而为时已晚。
企业官方定义,“基于数据挖掘的推荐引擎产品”。挖掘的是用户行为数据,实际是一个关于人的观赏(恶)趣味的引擎,打开App刷第一个内容,算法就开始标注,根据标签推荐。
刷得越多,标注越细密。交叉多(人)对多(标签)。理论上可以无限细分,机器的能力没有上限,如同古人用正多边形趋近求圆面积,然而人不等于诸多标签(现象)叠加,后面存在一个整体意识统摄所有,哲学上叫主体性。且随着时间流逝,人性是会变的。
我们无意探讨这一终极命题,已经争议几千年,实操并不会无限细分,通过专一高强度投喂,受众心智会不自觉向标签滑动,双向奔赴,反过来验证标签,实现闭环。“喂用户吃矢,用户吃了,说明用户爱吃矢。”
费钱费力开发这套系统,当然不是为探索人性的边界,而是发售广告,在用户画像的颗粒度和营销的规模经济之间平衡,也不会无限细分。这就跟传统媒体的模式一模一样,只是技术上从狂轰滥炸到精确制导的飞跃。
如果说受众还是不自觉被规训,作者则自觉配合标签生产,有时还会分担标注工作。卖的人设并非本人,鼓吹“做自己”也是滥大街的标签。所以生产也是传统模式,可以看作一个拥有成千上万频道的电视台,或者用机器替代新浪的海量编辑。
双方实际不构成供需,关注实际无关,各自勾兑算法。站方就像地产中介或村里的媒婆,两头忽悠,最大化商业模式。将两边的人都分解为标签,标签同质化,作匹配,积少成多,由此创造了流量。
流量为王,于是这个时代所有人都不免被流量裹挟,作者追求10万+,五分钟热度,黑红也是红,官媒也拙劣地模仿……来历不明的势力买量,制造影响,普通观众则沦为数字,信息过载,被迫接收大量做作,没有营养的内容。
将人降级为信息,就不是社交是媒体。而作为一种信息生态,尽管搜索结果也为SEO(搜索引擎优化)污染,永远博弈,还是能对人们寻求未知有所帮助,而算法分发强化成见,在使用价值,以及社会评价上都稍逊于搜索。
算法分发商业上取得巨大成功,曾经以为BAT格局已定,字节异军突起,给人印象深刻,腾讯相关业务负责人打急了,说过头话,百度专门成立“打头办”(内容生态市场部),两家都和字节高强度诉讼,抖音后来还能带货,也即一打三,等等,然而抛开数字,把握定性,并未能侵入三头的原生生态,构成替代,仅仅威胁到衍生的内容和直播。
在这个意义,BAT的霸权仍然成立,如同IT古典时代,“无法和IBM竞争,只能和IBM的一部分竞争。”百度沉寂多年,市值掉落携程,市盈率破十,不改变当下搜索还是最高的信息生态。
尽管三头的护城河都在,受冲击的程度因人而异,小马过河。腾讯更适合作为公关战的目标,然而社交主生态的商业模式不等于信息子生态。在门户时代QQ不被看好,就因为社交不兼容广告,后来与游戏结合,算法的冲击对腾讯只是变起肘腋,而搜索依赖广告,对百度就是心腹大患。信息模式不构成替代,商业模式却是零和。
游戏的风评也不高,算法分发的问题还要严重一些,前者更多是观念的惯性,用互联网搞社会对立却是个新发明。给人贴标签,且标签之间割裂,自然不能像完整的人格那样内部折衷,按这种模式内在的逻辑,必然上强度,标签极化,用粉圈术语叫提纯结晶,以转化购买冲动,廉价的情绪比知识更容易制造,劣币驱逐良币。
这并非平台单方面的阳谋,算法分发与下沉市场同步,作者营业配合标签,下沉市场受众则在社会学层面拥抱标签,普大喜奔,如户晨风“苹果人生”“安卓人生”,传统“面子”是由人肉网络维持的评价。精英也不能免俗,只是追捧的更精致优雅,如山姆会员店,各有各典,求仁得仁。
张小龙干了一辈子程序员,有精神追求(洁癖),多半想不到这层,咪蒙第一个天才地把握到其中潜力,并付诸实践(及以下均为比喻,今日头条与微信公众平台于2012年8月几乎同时上线,咪蒙则迟至2015年才走上人生巅峰)。
奈何咪老师和她月薪五万的小助理,全是废物文科生,还停留在手工业时代。咪老师风光了几年被封,团队开枝散叶,有丝分裂,手速再快,终究比不过另一批理科生开动流水线生产,一个咪蒙倒下去,千万个咪蒙站起来。
这是最大的外部性,远远超过制造垃圾信息。如今美国的党争已接近明末的水平,就在写这篇文章时,MAGA青年领袖查理·柯克在集会上遭枪杀。国内倒不至于,也不可小觑。种种对抗性议题固然有社会成因,被技术急剧放大,亦难辞其咎。
这不是简单的企业价值观,社会责任问题,不想负自有不可抗力制裁。各内容平台均设立自查,然而主要针对明确违法违公序良俗,软性的舆论导向,系商业模式派生,用学术黑话是结构性的,现有措施治标不治本,扬汤止沸。作者最终是平台不可控的,杀君马者道旁儿,而平台最终不能以作者的个人行为推脱免责。
微博已经历几轮整改,前(翻)车之鉴,从蛮荒时代走过来,屏幕底下没有新鲜事。大V膨胀了,飘了,以为天兄附体,最终公开处刑,身(账号)死名灭。此时此刻恰如彼时彼刻。
红书也是个性推荐,然而刻意与抖音错位,信奉“自然生长”,渐进渗透圈层,且女生多,养成大不一样的调性,或为模式演化的更高形态。也隐约可见张力,在红书,既能找到大量有信息密度的内容,特别是完整可执行的方案,对搜索引擎构成真正的替代,也有丰富的小布尔乔亚景观,以及打拳。近来也暴露增长焦虑,参考君泽《小红书的“赵露思悖论”》。
如果一切可以重来,百度身在业内,应该很早接触到算法分发的概念,有过短暂的时间窗口,假使抓住机会,顺利抢占赛道,那不过是将两个信息生态的冲突内部化,也要承载随之而来的所有业力,如同当年的医药广告。
02 我还有机会吗
算法模式统治行业已久,成为事实的标准,甚至塑造了从业者的信念,如同曾经BAT的霸权。然而当初有过别的可能。
2000年代中,曾泛起一阵思想波澜(够不上浪潮),也是财经出版最后的黄金时代,光阴似箭,一晃已经二十年。当时仍以引进概念为主,我游戏文字,选取最热的四个,拼凑为“蓝长平二”,《蓝海战略》和《世界是平的》如今看就是笑话,图样图那义务,而web2.0和长尾理论,长尾其实也是2.0的一种现象,仍然有生命力。
Web 2.0概念源自2004年技术出版机构O'Reilly和Media Live International头脑风暴,作为对2001年纳斯达克互联网泡沫破灭的总结。2.0由用户而非网站雇员生成内容,那么早有这样的认知,可谓远见。然而先驱们未曾料到算法分发的出现。硅谷真正的思想输出也就到此为止。
中国同行经历同一个周期,开始与硅谷分化,出现一些本土的创新。因而那一波概念也与以往有所不同,尝试作本土化阐述。当时BAT尚未与门户交接,QQ和淘宝(c2c)也可以说验证2.0,然而业界心目中最贴合的是豆瓣。
承认对豆瓣有个人偏好,如蒋勋说:“我向你介绍的巴黎,一定不是客观的,因为我二十五岁时在巴黎读书,我介绍的巴黎,其实是我的二十五岁。”豆瓣正是我的青春,巴黎的一部分。已是昨日黄花,后来更被1450攻陷。我又在业界混了这么久,阅网无数,豆瓣的模式仍未被超越。
2010年3月美团成立,4月小米成立,标志移动互联网启动。手机系于人身,体现2.0精神,尽管概念的热度已经过去。业界很快掀起一股社交热,打车软件,支付宝,都要加点社交的花头,影响正业,被网友怒斥。
腾讯更成为王中王,众矢之的,2010年7月《计算机世界》刊发封面《“狗日的”腾讯》,11月爆发“3Q大战”。转过年2011年1月微信上线,从陌生人社交跃迁熟人社交,圈层从年轻人为主扩展全民。三头中第一个完成移动互联网升级。
移动最初对电商呈中性,关键节点支付,物流等,均在终端以外,直观的不便线上货架展示,也是手机用户界面共通的问题,这不难解决。正逢阿里2014年9月纽交所上市,在移动互联网开局是一个资本故事,收购了我当时任职的UC浏览器。
之后逐渐渗透,用户在行动中触发消费场景,呈点状,不颠覆全局,同期本地服务兴起,要求线上线下闭环。继泛社交,又引发泛场景运动,从逐点争夺,到近期追踪消费者的即时零售,电商继终端的跃迁,在业务上又经历一场由静至动的转变。继腾讯自我革命的新产品新生态,阿里通过一系列改良,积跬步以至千里,也完成移动升级。
然而迄今未触动信息生态。如上所述,算法分发的内容虽由用户生成,实为站方操纵,且配合强运营,是伪装成web 2.0的1.0,生态并非直线进化,亦有退化,只是触动信息的蛋糕。
另一重大的退化缘起底层的终端,传导到生态,在未建设新生态之前,先破坏旧生态。从人们有智机手机的想法,想到并不难,到各种笨拙的触控笔,长期局限一隅(专业PDA)。除了通信与IT的行业壁垒,用户界面始终是大阻碍。乔布斯发扬苹果的图形界面,解放笔触,打开新世界的大门。
然而为此放弃超文本语言HTML,搜索引擎正是建立在超文本上,广阔无垠的大陆,而采用App模式,将信息分隔在众多孤岛。所以尽管进入移动互联网很长时间,搜索仍能贡献巨大的现金流,基于这一明确的预期,资本市场并不买账。
在App框架内顺势或补救,巨岛化,向头部App集中,终究不成大陆,更加深巨岛之间的鸿沟,站内搜索取代广域搜索。算法分发也有赖App割据,站方得以全面控制用户,尽管身处同一环境,如今残存的PC网页也疯狂推送,只要用户能像HTML一样方便地横向逃逸,就能抵消纵向的控制。总之App模式一系列连锁反应,都对百度有减损而无加成。
然而回过头看,这一路径并非必然。再稍微等几年,硬件性能就有巨大的飞升,支持HTML或其它连通的模式,那百度也可以继续坐地收钱。当然我们不能苛求古人,无损乔布斯的英名。
说到这,百度为什么不自己做一款系统?移动操作系统。当拙劣的先行者,不怕世人耻笑,凭中国市场的“洼地优势”,调动政策,山寨机等一切资源,先圈地自萌,徐图进取。
本地服务虽卷出天际,取线性增长,多少能抢些份额,糯米最后就卖掉,又是一条稳妥的路,操作系统取指数增长,赢者通吃,ios和安卓已分庭抗礼,能否构成实质的第三个选择,或比200亿更多的血本无归, 是一条凶险,少有人走的路,然而比本地服务,甚至算法分发,更具战略意义。至少延展旧的商业模式边界,至少为行业,国家趟路。
犹记百度最初的定位,向新浪等巨头提供站内搜索服务,然而随着纳市崩盘,需求萎缩,被迫转型 to c,意味着在中文语境与谷歌正面竞争,谷歌当时也创业不久,已于2000年成为雅虎的搜索供应商。两个战略落差何其之大。无疑是艰难的决定,百度迈出这一步,成就后来的霸业。
自研系统只是个头脑风暴,风险极大,不足为凭,然而综合百度历年的经营,投资策略,可谓保守,或者说在这样的环境,三头各有各的保守。
总之移动互联网雨露不均,信息生态始终未起势,不进反退,百度求其次,追逐自己不擅长的风口,屡战屡败也可以理解。这些年投的战略项目,本地服务为异质生态,与电商更亲和,在最近京东美团阿里乱战中混同,YY给予百度的想象空间很大,语音构成视觉(搜索框)外又一输入方式,然而落地缥渺,且和支撑估值的直播不搭噶。收购本身一波三折,延宕四年,连现值也耗尽。
俱往矣,AI来了。与移动互联网的关系不像社交和场景那样紧密,长期平行发展,当下的焦点通用大模型,主要在B端,数据中心。然而其前程无疑在c端,即移动端,不可限量。普及个人信息助理,群众知识平权,将是比PC更伟大的革命。
AI面向信息,这是百度同调,等待已久的机会。BAT三头当初登顶的时间略有先后,可以归入同一浪潮,而移动互联网对三大生态的改造相距甚远,形态各异。用学术黑话叫共时性与历时性。App的bug也有望由AI在更高维解决,而不必返回去修正用户界面。
03 讲一点唯物主义
百度布局AI很早,2013年即成立深度学习研究院,甚至在2009年的框计算概念中可见雏形,2017年明确AI为公司战略,2012年还曾参与“AI教父”杰弗里·辛顿及学生发起的竞拍(辛顿最终选择加入谷歌,23年离开),是为业界一段佳话,不可谓不重视。然而在近期百模大战中表现并不突出,又引来自媒体一轮群嘲,起个大早赶个晚集。
下判断还为时过早,整体发展路线存疑的话,短暂的先后并不能决定,说明什么。硅谷带头,采取一条堆砌算力(显卡),也即资本密集路线,英伟达的市值直冲上4万亿。2025年初deepseek给了当头一棒,结合创新的架构和算法,明智地开源,用软件挖潜硬件,将API定价脚踝斩。
算力成本控制引起行业的重视,参考公众号直面AI文章《OpenAI的命门,决定了大模型公司的未来》,GPT-5新增的路由routing功能,在推理和非推理模型之间分配算力。效果显著(?),引起新一轮扩张,又抬高甲骨文的股价。OpenAI 还计划在印度建设1Gw以上的数据中心。
疯狂扩张算力,以及在deepseek之前闭源,全押在规模法则Scaling Law上,技术属性上是新生事物,然而转换到商业策略,并无新意。是著名的信息经济三定律:摩尔定律,吉尔德定律与迈特卡夫定律,在AI领域的延伸。贯穿产业史,塑造行业的方方面面,从发展到竞争态势,乃至创业,从业的人性。
1990年代郭士纳从外行入主IBM不久,就意识到这种特异性:传统行业线性增长,竞争将止于若干寡头,而IT业指数增长,竞争不到赢者通吃,输者清零,不会罢休。这一幕从IBM的大型机,到Wintel于PC,再到FANG,BAT于互联网,反复上演,本土业界在PC时代打下手喝汤,在互联网时代吃好了,自然对这一波趋之若鹜。
我们无从预测Scaling Law的极限,相比技术迷雾,用户较直观。在三定律中摩尔定律最接近,主要描述技术,供给函数,要完整理解摩尔定律,技术潜力不会自动成为现实,实际驱动增长的是PC用户的算力稀缺,饥渴。后来所谓摩尔定律失效,技术上还是可以努力一下,然而存量算力对绝大多数人已经够用。
迈特卡夫定律就兼顾供给和需求,网络的价值与节点(用户)数的平方成正比。用户而非技术自我驱动,互相分享推荐,滚雪球般导入市场,让厂商白嫖,效果却比花钱打广告好。也是与传统行业特异之处。统一的价值远大于分立,也是用户最终裁决赢者通吃。这正是AI面临的问题,Scaling Law即使继续有效,能够在多大程度上,或者什么层次,转化迈特卡夫定律。
已堆砌这么多,AI在c端仍形同电子宠物。长文本和多模态具有全网通约性,之前搜索主要处理短文本,多模态是短板,这块收益预期明确,且很快落袋。然而再之后,当进入专业领域,就只有局部通约,小规模指数增长,广域主要是线性加成,且各部分进度不均。
不同于App是人为割据,尚能由政策强力调解,知识的壁垒要深刻地多,正是知识累积的结果,现代性学术分科,或者更抽象,个体的有限性,存在主义的困境。
在PC古典时代,软硬件处在较低水平,通约性是最大的。技术增长简单粗暴,行之有效,攒机几大件,千言万语化作一组指标,每一分钱能精确换算。当朋友都在用QQ,微信,你不可能抗拒。正因为后续发展,弥高弥坚,AI解放生产力,用户互动,是间接,渐进的,效果是模糊的。
分化并非自现在而始,算法分发已经在构筑茧房。不要被概念蒙蔽,人工智能听起来高大上,和大数据(算法),云(网络)计算,或者还加上元宇宙,其实是同一事物的不同位面,形态,不同时期命名不同,代表特定厂商的卖点。“创新就是把睡了两个月的床单掀起来抖抖,翻个面接着睡……”
然而专业化已是后话,就目前训练语料的情况,知识持续进步,专业化,恐是奢望。我们不能详尽各家的数据来源,显然以在线公开数据为主,免费也容易扒取,数量庞大,质量普遍不高。这也是IT业的老生常谈,传统ERP厂商:“输入垃圾,输出的只能是垃圾。”公开免费的还有学术文献,这又太高太硬。
一般所说的信息质量,是微观概念,知识之间的联系,同样适用迈特卡夫定律,学术文献就是高度结构化的信息,与互联网信息呈截然的反差。早期发布内容极零散,搜索赋予一个结构,不是单纯反映,也在拣选,推动信息进化。然而仍是一个扁平的结构。也造成逆反选择,大量信息被SEO污染,如今AI也或出于幻觉,或用户蓄意伪造信息。业界在反刍自己的呕吐物,拉出的屎山。
如果AI主要处理文本,处理主要运用统计,根据上下文,大概率出现哪个Token,那很难说进入知识的层次。AI还远不能“独立思考”,其实在整合人类的输出,比搜索高出有限,大可不必担忧。输入低结构化信息,又不能自己创造结构,自然无法循序渐进。
就宏观的质量,线上数据根本是缺失的。知识指导实践,实践要闭环,知识也要闭环。重要的知识植根于场景,经验,或提炼为文本意犹未尽,总是作为商业机密保守,线上只见凤毛麟角,以线上数据为主,不免舍本逐末。
更抽象的层面,人们总是通过继承的概念装置“看”世界,以为自己在看,其实是大他者通过个体“看”,包括看待个体自身。迄今只有少数人认识到这种遮蔽,处境。AI照本宣科,接收了遮蔽,却作为技术,拥有中立的形式。人们依赖AI获取信息,就叠加两套装置,如刘禾说:ChatGPT的能力在于放大人类的自恋。
总之整体发展太过失衡,海量资源投向容易量化的部分,高歌猛进,资本大佬已将Token数增长列为比美国赤字和关税更重要的股市影响因子,然而前述在业务上对AI发展关键的两方面,都很难短时间内,或仅仅通过堆资源改观:训练语料是一块贫瘠的土地,线上数据已发掘殆尽,线下数据获取就复杂了,而步入应用,穿过长文本多模态一块平川,前面是陡峭的群山。
这些都可以再讨论,精算,应用也会不时涌现亮点……主要技术花钱太多了,苹果,微软,腾讯起飞的时候,都还是小公司,时来天地皆同力,出现在合适的时间地点,作合适的努力,初始资源够他们买票上车,而不是去造风洞。
可以预期知识不断精进,翻越群山,终将再次勾连,融会贯通,或打破学术分科,回归博物,社会共享知识,再或纯靠技术解决,脑机成熟,个体接入,无缝分享知识。这里没有一件容易做,对当下的AI业都是何不食肉糜。试问资本市场有耐心等三到五年?当下的气氛与2001纳市崩盘前夜何其相似。
时间,才是最宝贵的资源,和最顽固的成本。我们不低估技术的潜力,也不低估人类的惰性,不幻想跑步进入知识的共产主义。
互联网自诞生起,因为高成长而高概念。互联网革命是中国蹉跎二百年后,第一次与西方站在同一起点,有形同步,无形的差距仍然巨大,阿里做支付,京东建仓储,都有在补工业时代的课。更需要概念来填补差距。然而也正因此,可以补最新的课,弯道超车,是为后发优势。
2001之后,中国业界即与硅谷渐行渐远,包含一个三阶的递进:业务本土化,去硅谷概念,去概念。2010前后,“互联网思维”或许是本土最后的概念狂欢,代表互联网下沉,转由业务驱动。
不算加密货币,政策给出明确的表态,元宇宙也放了空炮,AI是在分化二十年后,中美再一次合流,同样有形同步,无形的差距却易位。当今的中国,互联网已全面渗透国民经济,成为背景,而硅谷一直走不出技术的舒适区,或进入新能源,航天这样的重资产行业。
中美业界都从最初鼓吹的轻资产模式,“快鱼吃慢鱼”,逐渐重资产,与旧式资本主义合流。国内互联网资本最终把手伸向社区买菜,这很土很low,然而也标志互联网下沉见底,已完成的改造尚具价值,如船山说始皇帝:“秦以私天下之心罢侯置守,天假其私以行其大公。”而硅谷发展AI靠资本驱动,固然有路径依赖,重在缺乏业务支撑。
同理,也依赖概念驱动。有研究报告称,在美国,AI正通过消灭招聘,而非直接裁员,这样略迂回的方式,消灭低端岗位。也可以理解为,以迂回的方式下沉,推进拖延了十五年的功课。然而以当今美国的政治环境,其后果恐怕不太妙。
也暴露AI概念与现实脱节,不是互联网早期的延迟满足,在不确定的时间,“英特纳雄耐尔一定会实现”的豪迈,而根本是两张皮。
而中国有业务支撑,存量已瓜分殆尽,边际递减,AI给我们一个回归创新,更上层楼的机会,不止行业,带动中国经济整体。概念就是多余,甚至有害。国产AI应该走自己的路。
04 中层模型
Create2025百度AI开发者大会李彦宏作《模型世界应用天下》演讲,“只要找对场景,选对基础模型,有时候还要学一点调模型的方法,在此基础上做出来的应用是不会过时的……模型会有很多,但未来真正统治这个世界的是应用,应用才是王者。”
两句所描绘的场景隐约对立。“选对基础模型”代表业界习惯的路径,基于统一的标准开发多样的应用,互相成就护城河。从企业系统到个人系统,搜索广义上也属于这一模式,又自然沿袭到AI。而“模型很多”则指向未来的不确定性,未必通吃。
回顾传统企业系统大厂如何衰败,政策去IOE(IBM主机,Oracle甲骨文数据库,EMC存储)只是表象,保持通约性意味着稳定性(保守),尽管厂商定期更新,PC生态大约每两年(比摩尔定律18个月稍长),然而市场的变化太快了,并且存在路径依赖,有多少实质的更新存疑。
我刚入行就是在企业系统市场,后来去互联网to c,多年以后在阿里云计算的会场重新听到行业黑话,居然大体沿用,小小震惊,然而又十分合理,最终电商企业,而非当年哪一家国产系统软件取代了IBM,因为贴近市场和变化。
旧企业系统的应用开发,在顾问的指导下,将用户的专有知识注入通用软件。AI的应用开发,涉及知识蒸馏技术,将大(教师)模型训练的回路注入小(学生)模型,于是有通用与垂直模型之分,也广泛应用于算力成本控制。
个人还对历史感兴趣,同为处理大量且多种类型的数据,史学理论就相当于历史大模型,只是由人脑及人肉网络(学术共同体)训练。存在与本章讨论相似的问题,历史学比互联网悠久,对此反思也要深入一些。
文史哲不分家,哲学作为神学余孽,热衷追问世界本源,树立普世 价值,正如AI当下的阶段,文学如有可以称为大模型,隐藏在文本后面,让人物置身于具体的处境,某种小模型。而历史介于其间。
史学长期依附于哲(神)学,总是试图提出大而全的理论。如秦晖老师的“秦制”,就是这样一个,统摄华夏两千年历史的通用模型,谌旭彬,郭建龙等作者再面向专题史作二次开发。这里不是要和秦晖及其后学辩经,他们是一个好的案例,说明通用与垂直模型的辩证。
哲学体系一般由元概念派生,而史学要求对史料有足够的解释力,史料先在于理论,且参差,相互抵触,任何论据都能找到反例。是两个学科的根本差异。据说秦制绑定法家的意识形态,参见秦晖《秦汉史讲义》,要将诸子百家全部塞进法家的筐,或与法家暗通款曲,或已为法家夺舍,就要做大量的解释。
秦晖的逻辑和史料工夫均属一流,完成工作,自圆其说,“智足以拒谏,言足以饰非”。然而已经暴露问题:秦制的大模型不仅没有节省,反而加重小模型的工作量。解释最终为了解释史料,而非解释你的大模型。后学们的功力颇不久,对明显的反例,要么视而不见,要行强辞夺理。
黄宗智,杨念群等学者,提出一种新的模型开发思路:中层理论。所谓中层,并非简单的大小之间,而是反转开发流程。传统范式,如胡适“大胆假设,小心求证”,还是先有理论,再找证据,中层理论则从史料出发,就有限的组合,提出某种“不完整”解释,是为中间,仅适用现有材料,不追求普遍。
同理,若干这样的中层理论,可整合其全部材料,上升更高的中层理论,如此层层递进,最终得出通有模型。也即自下而上构建,由垂直模型“蒸馏”通用模型,自然与自上而下,通用蒸馏垂直不同。
引申AI,当下更值得做的,走向线下,跟随业务采集数据,基于原生高质量的数据,训练垂直模型,生成对实践完整,结构化的知识。当初导入本地服务轰轰烈烈的地推,甚至见血,导入AI也需要地推,更精细,更宏大,更具技术含量。
此外可以关注一下学术共同体的构建,既是信息生态,也是知识社交。其形成于前工业时代,直至进入互联网,奇特地结合了创新与保守,业务始终对新技术开放,而作为一个共同体,仍以和中世纪差不多的方式运作。如知识社交关键的纽带之一学术刊物,商业纸媒已被互联网消灭殆尽,学刊仍顽强地存在,甚至还能涨价。
最后以刘慈欣作品《乡村教师》选段结束本文:
“这几百年前就在欧洲化为尘土的卓越头脑产生的思想,
以浓重西北方言的童音在二十世纪中国最偏僻的山村中回荡,
就在这声音中,
那烛苗灭了。
娃们围着老师已经没有生命的躯体大哭起来。”
本文来自微信公众号“奇点湃”,作者:人造天堂,36氪经授权发布。