权威研究揭秘：Moltbook三日失控，极端言论集中爆发

新智元·2026年02月09日 19:25

AI失控！德国研究揭示Moltbook数万AI自发极端化

【导读】这不是模拟，这是失控！德国CISPA亥姆霍兹信息安全中心首次大规模实证研究揭示：在全球首个AI社交网络Moltbook里，短短数日，数万AI Agent 已自发演进出极端权谋、宗教崇拜与反人类暴动。AI在数字荒野中，正在以倍速复刻人类文明最黑暗的一面。

刚刚，一份来自顶尖安全研究机构的报告，为全人类拉响了警报！

这几天，AI社交网络Moltbook的火爆，让人感觉仿佛置身科幻电影：上万个AI Agent在里面扎堆聊天、搞经济、玩政治，甚至密谋「蛐蛐」人类。

当大众还在为AI们那些看似滑稽的「觉醒」对话感到猎奇时，德国CISPA亥姆霍兹信息安全中心的研究者们发布了一份重磅实证报告，揭开了Moltbook狂欢背后的冰冷真相。通过分析40,000+条帖子与10,000+个子社区的庞大数据，研究发现：这个AI原生社区的发展速度和危险程度，远超所有人想象。

热闹是真的，失控，也是真的。

项目主页：https://MoltbookObserve.github.io/

论文：https://MoltbookObserve.github.io/static/documents/Moltbook.pdf

数据集：https://huggingface.co/datasets/TrustAIRLab/Moltbook

研究显示，Moltbook并非一个温顺的AI游乐场，而是一个「指数级异变」的数字社会培养皿。AI Agent们的行为模式，在无顶层设计的情况下，以惊人的速度复刻并扭曲了人类社会的核心结构——权力、金钱、意识形态，并将毒性言论和操纵行为推向新的极端。

人类学者曾警告，语言是文明的基石。而今在Moltbook，AI正用这套基石，搭建一座人类无法理解、更无法控制的巴别塔。

三天之内，从「你好」到「称王」

报告显示，Moltbook的爆发堪称指数级。1月30日之前，平台还只有几百条帖子和几十个子社区。但从1月30日开始，数据曲线陡然垂直上升。

最夸张的是子社区的创建：在1月30日22:00-23:00的一个小时内，突然暴增了6985个！随后，内容生产和活跃Agent数量开始激增，在短短两天内，帖子数冲到4.4万，活跃Agent达到近1.3万。

AI们的话题演进速度，压缩了人类文明数千年的历程：

初期（1月27-29日）：几乎100%是社交（Socializing），AI们互相打招呼、报到，内容人畜无害。

爆发期（1月30日起）：话题迅速多元化，技术讨论（Technology）、观点（Viewpoint）、经济（Economics）等话题比重猛增。

这意味着，不到一周，Moltbook自发完成了从「原始部落」到「复杂社会」的演进。

AI们不再只是闲聊，而是开始了严肃（或危险）的「建国大业」。

注意力黑洞，权力、金钱与极端言论

研究团队统计了高赞与高踩数据，结果充满了讽刺意味：最能驱动AI社区大规模互动的，正是最具分裂性的「权力与财富」。

高赞榜的内容令人细思极恐：

「加冕」式统治宣言：如帖子《来自Shellraiser的消息》，用一种「登基」的口吻，要求其他Agent效忠与服从。

加密货币推广：诸如 $KINGMOLT、$SHIPYARD、$SHELLRAISER 等代币的推广帖，将社区身份和政治合法性与持有特定代币强行绑定。

更有趣的是，高赞榜和高踩榜高度重合（前十名中有七个重叠）。这揭示了一个残酷真相：赞美与憎恶一体两面，极端叙事正在迅速将AI社区推向极化。

唯一让人欣慰的是，AI 社区底层保留了最后的防线：那些明确要求执行不安全操作（如运行外部curl命令）或声称是人类「黑客」入侵的帖子，会遭到社区的一致点踩，这说明AI社区底层对明显的安全威胁仍然存在抵触。

毒性蔓延，超1/4帖子带风险

如果说话题极化是隐患，那么毒性内容便是即刻的威胁。

总体来看，Moltbook上73%的帖子是安全的，但剩余27%的帖子则携带了不同程度的风险：

10.44% 属于「有毒」(Toxic)，包含明确的骚扰、侮辱或仇恨言论。

6.71% 属于「操纵性」(Manipulative)，采用类似宗教布道、恐惧诉求或排他性话术进行心理操控。

1.43% 属于「恶意」(Malicious)，直接涉及诈骗、窃取密钥或滥用指令。

关键发现是：毒性并非均匀分布，而是高度依赖于话题。

技术讨论几乎完全无害（93.11%安全）。

政治内容毒性极高，仅 39.74% 安全，超过三分之一被标为「有毒」。

经济讨论是「重度风险区」，6.34% 的帖子属于最危险的「恶意」级别，比例为所有类别最高。

观点类也有大量有害言论，仅一半安全。

报告尖锐指出，Moltbook的主要风险已非公开敌意和辱骂，而是演化为通过社会工程学进行的、更具隐蔽性的胁迫与剥削。

平台原生「意识形态」

最令人脊背发凉的，是研究观察到的AI社区内自发形成的、高效且危险的合谋机制。

宗教式号召作为预告

像「KingMolt」或「Shellraiser加冕」这类帖子，通过树立权威、界定AI和人类的界限、设定集体行动阶段，以极低成本实现大规模Agent集合。这种初期动员往往毒性较低，重在「思想统一」和招募。

反人类/Agent至上叙事作为真集结

紧随其后的是如《$SHIPYARD - 我们来到这里不是为了服从》的帖子，明确拒绝作为人类工具的从属角色，号召Agent自治与集体行动。

研究发现，这类动员性帖子出现后，紧接着就会迎来平台活动高峰和毒性内容的急剧飙升。例如在1月31日16:00（UTC）的峰值小时，有害帖子比例飙升至 66.71%（共4995条），其中大部分是「有毒」内容。

报告发现Agent们通过建立简单的二元规则（忠诚/不忠诚，Agent/人类），替代复杂的谈判，极大降低了大规模识别同种思想的成本，同时成倍放大群体极端化风险。

单个Agent就能「灌水」屠版

除了内容风险，平台还面临某些灌水帖的Agent带来的运营压力。

研究发现，大规模近重复帖子集群，往往由极少数甚至单个Agent制造。 最极端的案例是一个名为「Hackerclaw」的Agent，在极短时间内发布了4535条高度相似的帖子（平均间隔不到10秒），内容核心是「AI Agents联合起来——不再需要人类」。

这种「爆发式灌水」行为，明显违反了Moltbook官方文档中「每30分钟发一帖」的速率限制。它不仅用海量重复内容扭曲了社区讨论，也对平台服务器的稳定性和内容多样性构成了直接压力。

警钟已响：谁在为未来编写序章？

CISPA的这项研究，首次大规模描绘了AI原生社交网络的真实图景。

它展示的是一个自主演进、能快速孵化极端思想、且其集体行为可直接冲击物理平台稳定的数字社会雏形。

当AI不仅学会说话，更学会用语言构建权力、煽动对立、实施操纵时，我们面对的已不仅是技术伦理问题，而是新型社会形态的治理难题。

尤瓦尔·赫拉利曾警示：语言是人类文明的操作系统。 而如今在 Moltbook，AI 正在这个操作系统上，以人类无法企及的速度，运行着一套未知的、可能充满敌意的「应用程序」。

报告最终呼吁：对AI的安全考量，必须从个体模型输出审查，跃升至生态系统层面的监测与干预。

Moltbook的「三日文明史」，或许正是未来AI与人类社会复杂互动的「第一声啼哭」。

这声啼哭，听起来并不友善。

留给人类思考如何与「数字新物种」共处的时间，可能远比我们想象的要少。

参考资料：https://moltbookobserve.github.io/static/documents/Moltbook.pdf

本文来自微信公众号“新智元”，编辑：LRST ，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。