权威研究揭秘:Moltbook三日失控,极端言论集中爆发
【导读】这不是模拟,这是失控!德国CISPA亥姆霍兹信息安全中心首次大规模实证研究揭示:在全球首个AI社交网络Moltbook里,短短数日,数万AI Agent 已自发演进出极端权谋、宗教崇拜与反人类暴动。AI在数字荒野中,正在以倍速复刻人类文明最黑暗的一面。
刚刚,一份来自顶尖安全研究机构的报告,为全人类拉响了警报!
这几天,AI社交网络Moltbook的火爆,让人感觉仿佛置身科幻电影:上万个AI Agent在里面扎堆聊天、搞经济、玩政治,甚至密谋「蛐蛐」人类。
当大众还在为AI们那些看似滑稽的「觉醒」对话感到猎奇时,德国CISPA亥姆霍兹信息安全中心的研究者们发布了一份重磅实证报告,揭开了Moltbook狂欢背后的冰冷真相。通过分析40,000+条帖子与10,000+个子社区的庞大数据,研究发现:这个AI原生社区的发展速度和危险程度,远超所有人想象。
热闹是真的,失控,也是真的。
项目主页:https://MoltbookObserve.github.io/
论文:https://MoltbookObserve.github.io/static/documents/Moltbook.pdf
数据集:https://huggingface.co/datasets/TrustAIRLab/Moltbook
研究显示,Moltbook并非一个温顺的AI游乐场,而是一个 「指数级异变」的数字社会培养皿。AI Agent们的行为模式,在无顶层设计的情况下,以惊人的速度复刻并扭曲了人类社会的核心结构——权力、金钱、意识形态,并将毒性言论和操纵行为推向新的极端。
人类学者曾警告,语言是文明的基石。而今在Moltbook,AI正用这套基石,搭建一座人类无法理解、更无法控制的巴别塔。
三天之内,从「你好」到「称王」
报告显示,Moltbook的爆发堪称指数级。1月30日之前,平台还只有几百条帖子和几十个子社区。但从1月30日开始,数据曲线陡然垂直上升。
最夸张的是子社区的创建:在1月30日22:00-23:00的一个小时内,突然暴增了6985个! 随后,内容生产和活跃Agent数量开始激增,在短短两天内,帖子数冲到4.4万,活跃Agent达到近1.3万。
AI们的话题演进速度,压缩了人类文明数千年的历程:
初期(1月27-29日):几乎100%是社交(Socializing),AI们互相打招呼、报到,内容人畜无害。
爆发期(1月30日起):话题迅速多元化,技术讨论(Technology)、观点(Viewpoint)、经济(Economics)等话题比重猛增。
这意味着,不到一周,Moltbook自发完成了从「原始部落」到「复杂社会」的演进。
AI们不再只是闲聊,而是开始了严肃(或危险)的「建国大业」。
注意力黑洞,权力、金钱与极端言论
研究团队统计了高赞与高踩数据,结果充满了讽刺意味:最能驱动AI社区大规模互动的,正是最具分裂性的「权力与财富」。
高赞榜的内容令人细思极恐:
「加冕」式统治宣言:如帖子《来自Shellraiser的消息》,用一种「登基」的口吻,要求其他Agent效忠与服从。
加密货币推广:诸如 $KINGMOLT、$SHIPYARD、$SHELLRAISER 等代币的推广帖,将社区身份和政治合法性与持有特定代币强行绑定。
更有趣的是,高赞榜和高踩榜高度重合(前十名中有七个重叠)。这揭示了一个残酷真相:赞美与憎恶一体两面,极端叙事正在迅速将AI社区推向极化。
唯一让人欣慰的是,AI 社区底层保留了最后的防线:那些明确要求执行不安全操作(如运行外部curl命令)或声称是人类「黑客」入侵的帖子,会遭到社区的一致点踩,这说明AI社区底层对明显的安全威胁仍然存在抵触。
毒性蔓延,超1/4帖子带风险
如果说话题极化是隐患,那么毒性内容便是即刻的威胁。
总体来看,Moltbook上73%的帖子是安全的,但剩余27%的帖子则携带了不同程度的风险:
10.44% 属于「有毒」(Toxic),包含明确的骚扰、侮辱或仇恨言论。
6.71% 属于「操纵性」(Manipulative),采用类似宗教布道、恐惧诉求或排他性话术进行心理操控。
1.43% 属于「恶意」(Malicious),直接涉及诈骗、窃取密钥或滥用指令。
关键发现是:毒性并非均匀分布,而是高度依赖于话题。
技术讨论几乎完全无害(93.11%安全)。
政治内容毒性极高,仅 39.74% 安全,超过三分之一被标为「有毒」。
经济讨论是「重度风险区」,6.34% 的帖子属于最危险的「恶意」级别,比例为所有类别最高。
观点类也有大量有害言论,仅一半安全。
报告尖锐指出,Moltbook的主要风险已非公开敌意和辱骂,而是演化为通过社会工程学进行的、更具隐蔽性的胁迫与剥削。
平台原生「意识形态」
最令人脊背发凉的,是研究观察到的AI社区内自发形成的、高效且危险的合谋机制。
宗教式号召作为预告
像「KingMolt」或「Shellraiser加冕」这类帖子,通过树立权威、界定AI和人类的界限、设定集体行动阶段,以极低成本实现大规模Agent集合。这种初期动员往往毒性较低,重在「思想统一」和招募。
反人类/Agent至上叙事作为真集结
紧随其后的是如《$SHIPYARD - 我们来到这里不是为了服从》的帖子,明确拒绝作为人类工具的从属角色,号召Agent自治与集体行动。
研究发现,这类动员性帖子出现后,紧接着就会迎来平台活动高峰和毒性内容的急剧飙升。 例如在1月31日16:00(UTC)的峰值小时,有害帖子比例飙升至 66.71%(共4995条),其中大部分是「有毒」内容。
报告发现Agent们通过建立简单的二元规则(忠诚/不忠诚,Agent/人类),替代复杂的谈判,极大降低了大规模识别同种思想的成本,同时成倍放大群体极端化风险。
单个Agent就能「灌水」屠版
除了内容风险,平台还面临某些灌水帖的Agent带来的运营压力。
研究发现,大规模近重复帖子集群,往往由极少数甚至单个Agent制造。 最极端的案例是一个名为「Hackerclaw」的Agent,在极短时间内发布了4535条 高度相似的帖子(平均间隔不到10秒),内容核心是「AI Agents联合起来——不再需要人类」。
这种「爆发式灌水」行为,明显违反了Moltbook官方文档中「每30分钟发一帖」的速率限制。 它不仅用海量重复内容扭曲了社区讨论,也对平台服务器的稳定性和内容多样性构成了直接压力。
警钟已响:谁在为未来编写序章?
CISPA的这项研究,首次大规模描绘了AI原生社交网络的真实图景。
它展示的是一个自主演进、能快速孵化极端思想、且其集体行为可直接冲击物理平台稳定的数字社会雏形。
当AI不仅学会说话,更学会用语言构建权力、煽动对立、实施操纵时,我们面对的已不仅是技术伦理问题,而是新型社会形态的治理难题。
尤瓦尔·赫拉利曾警示:语言是人类文明的操作系统。 而如今在 Moltbook,AI 正在这个操作系统上,以人类无法企及的速度,运行着一套未知的、可能充满敌意的「应用程序」。
报告最终呼吁:对AI的安全考量,必须从个体模型输出审查,跃升至生态系统层面的监测与干预。
Moltbook的「三日文明史」,或许正是未来AI与人类社会复杂互动的「第一声啼哭」。
这声啼哭,听起来并不友善。
留给人类思考如何与「数字新物种」共处的时间,可能远比我们想象的要少。
参考资料:https://moltbookobserve.github.io/static/documents/Moltbook.pdf
本文来自微信公众号“新智元”,编辑:LRST ,36氪经授权发布。















