构建LLM:每个AI项目都需要的知识图谱基础

王建峰·2025年11月13日 08:47
律师误信AI伪造案例,揭示LLM需知识图谱增强可信度。

“施瓦茨先生,我已经审阅了你的反对意见书,”联邦法官凯文·卡斯特尔开口道,语气沉稳却不失重点。“你引用了六个案例来支持你委托人的立场。我想讨论一下 瓦格斯诉中国南方航空公司一案 。”

拥有数十年经验的律师史蒂文·施瓦茨在椅子上挺直了身子。“是的,法官阁下。这是2019年第十一巡回法院的一项判决,它直接支持——”

“我找不到,”法官打断道,“你提供的引证号——925 F.3d 1339——在我书记员查阅过的任何数据库中都没有出现。你能向法庭提供一份完整的判决书副本吗?”

施瓦茨感到一丝担忧。“当然,法官大人。我会立即提交。”回到办公室后,施瓦茨再次联系他的信息来源。他在ChatGPT上输入:“Varghese诉中国南方航空公司案,925 F.3d 1339(第十一巡回上诉法院,2019年)是真实存在的案例吗?”对方自信地回复道:“是的,Varghese诉中国南方航空公司案,925 F.3d 1339是真实存在的案例。您可以在LexisNexis和Westlaw等权威法律数据库中找到它。”

施瓦茨放心后,向 ChatGPT 询问了更多案件细节。人工智能很配合地生成了一些看似是判决书摘录的内容,包括令人信服的法律论证和格式正确的引文。

他将这些材料提交给了法庭。

三周后

卡斯特尔法官的命令措辞严厉:“法院面临着前所未有的情况。提交的六个案件似乎是伪造的司法判决,其中包含伪造的引述和伪造的内部引用”。

这六起案件完全是捏造的。没有任何法院审理过这些案件。它们根本不存在。

在随后的宣誓书中,施瓦茨承认他“此前从未用过 ChatGPT 进行法律研究,因此并不知道其内容可能不实”。他告诉法庭,他认为 ChatGPT “就像一个超级搜索引擎”——这种看似合理却大错特错的假设,如今却被各行各业数百万使用法律法律工具的专业人士所误解。

哪里出了问题?

施瓦茨案揭示了人们对LLM( 大语言模型 )的权限存在根本性的误解。询问ChatGPT“泰姬陵是什么?”和询问它“在航空事故案件中,我的客户有哪些法律先例支持其立场?”之间有着天壤之别。

第一种查询需要一般性知识——即广泛可得且相对稳定的信息。第二种查询则需要查阅一个特定的、权威的、不断发展的法律判例库,该判例库是经过几个世纪的法理学积累而成的,其中精确性至关重要,每一条引文都必须可验证。

我们知道 大语言 模型(LLM)会产生幻觉。这并非什么新鲜事,而且人们已经投入了大量精力来缓解这个问题。诸如基于人类反馈的强化学习(RLHF)、改进的训练数据管理以及置信 度评分等技术都起到了一定的作用。但上下文至关重要。逻辑逻辑模型在被问及一般性话题时可能表现出色,但在处理需要权威来源的特定领域查询时却可能惨败。

检索增强生成(RAG)方法——即将文档分割成块,并按需检索相关段落——可以部分解决这个问题。当您需要处理文本内容并基于该内容获得特定答案时,RAG 的效果相当不错。但是,当您的知识库是多年实践积累的结果——例如法律判例、医疗规范、金融法规、工程标准——简单的基于块的检索就无法提供所需的精确度和上下文理解。您不仅需要了解案例的内容,还需要了解它与其他案例的关系、适用范围、管辖区域以及后续判决是否改变了其效力。

然而,幻觉和检索限制仅仅代表了问题的一个方面。架构方面的挑战远不止于此:

•它们的知识是不透明的:信息以数十亿个参数的形式存储,无法检查或解释。你无法审核模型“知道”什么,也无法验证其信息来源。

•他们无法轻易更新:纳入新的信息——新的法律先例、更新的法规或修订的医疗指南——需要昂贵的再培训或复杂的微调。

•它们缺乏领域基础:通用法学硕士缺乏专家知识、业务规则和监管要求,而这些知识、规则和要求决定了其成果在专业环境中是否真正有用。

•它们不提供审计追踪:无法追踪它们是如何得出结论的,这使得它们不适用于需要问责的环境。

这些并非无关紧要的技术问题,而是决定人工智能项目成败的架构问题。据 Gartner 预测,到 2027 年,超过 40% 的智能体人工智能项目将因领域知识与投资回报率不匹配而被取消。原因很简单:企业部署了功能强大的 大语言模型(LLM) 技术,却缺乏使其值得信赖所需的知识基础设施。

施瓦茨案例清楚地表明:除非 大语言模型 (LLM)能够获取真实、一致且可验证的数据,否则它们本身无法作为关键应用的可靠问答工具。而且没有捷径可走。仅仅通过RAG系统向LLM提交更多文档,或者寄希望于更好的提示能够弥补不足,都忽略了问题的根本所在。

知识必须以易于管理、始终保持最新、妥善维护且——至关重要的是——结构化的方式组织,以支持您的应用所需的推理类型。真正的问题不在于LLM是否足够强大,而在于知识应该具有怎样的结构,以及我们如何围绕它创建流程,以便正确地构建、维护和访问知识?

这时知识图谱就派上用场了。

什么是知识图谱?

知识图谱不仅仅是一个数据库。 知识图谱是一种不断演进的图数据结构,它由一组类型化的实体、它们的属性以及有意义的命名关系组成。知识图谱针对特定领域构建,整合结构化和非结构化数据,为人类和机器创造知识。

因此,知识体系建立在四大支柱之上:

1.演进:不断更新的信息,无需结构性调整即可无缝整合新数据。

2.语义:通过类型化的实体和显式关系来表示有意义的数据,从而捕捉领域知识。

3.集成:能够灵活地协调来自多个来源的结构化和非结构化数据源

4.学习:支持人类和机器进行查询、可视化和推理。

至关重要的是,知识图谱知识是 可审计 和 可解释的 ——用户可以准确地追踪信息的来源,并对照权威来源进行验证。

智能顾问系统与自主系统

在探讨如何将这些技术结合起来之前,我们需要了解智能系统部署方式的一个关键区别。

并非所有智能系统都生而相同。智能自主系统能够独立运行,在极少人为干预的情况下代表用户做出决策并执行操作——例如,必须在无人干预的情况下实时运行的自动驾驶汽车。

相比之下,智能顾问系统(IAS)旨在辅助而非取代人类判断。 智能顾问系统的作用是提供信息和建议。其主要功能包括决策支持、情境感知和用户交互。这些系统旨在方便用户交互,使用户能够探索各种选项、提出问题并获得详细的解释,从而辅助其决策。

a) 智能自主系统。b) 智能顾问系统。

对于法律研究、医疗诊断、财务分析、合规监控等关键应用而言,能够增强而非取代人类专业知识的顾问系统不仅是更佳选择,而且至关重要。系统架构必须履行把关职责,而非绕过这些职责。

混合方法:LLM + KG

当我们把知识体系和学习逻辑结合起来时,我们创造出的系统整体大于部分之和:

1.KG 提供基础

结构化的、经过验证的知识,可作为事实依据

显式表示领域规则和约束

审计追踪记录了结论的得出过程。

无需模型重新训练即可进行动态更新

2.LLM提供接口

自然语言查询处理

从非结构化数据中自动提取实体以构建知识图谱

将复杂的图查询翻译成易于理解的语言

将结果汇总成易于理解的报告

想想看,如果采用这种混合系统,施瓦茨的灾难该如何避免。混合系统可以:

1 . 使用LLM处理自然语言查询

2 . 向知识库查询具有真实引文和来源的已验证信息

3 . 呈现结果并附上背景信息:“从权威数据库中找到了 12 个经过验证的案例,并附有引用”。

4 . 提供指向实际来源的验证链接

5 . 标记不确定性:“未发现与此模式完全匹配的病例。请考虑以下替代方案。”

最关键的是:当被问及“这个案例是否真实存在?”时,系统会回答:“无法在权威数据库中验证此案例引用。状态:未验证。”

行业领先企业的研究一致表明,混合系统能够解决导致人工智能项目失败的核心挑战:

•通过将 LLM 反应建立在可验证的知识图谱整理的事实之上,可以减轻幻觉

•通过动态的知识库更新,知识始终保持最新。LLM(法学硕士)无需重新培训即可通过不断发展的知识库获取最新信息。

•可解释性是通过透明的信息路径实现的

由于知识图谱编码了通用语言学习模型所缺乏的专家知识、法规和关系,因此特定领域的准确性得到了提高。

构建值得信赖的人工智能系统

施瓦茨案的法官指出,“技术进步是司空见惯的,使用可靠的人工智能工具进行辅助本身并没有什么不妥之处”,但强调“现行规则对律师施加了把关作用,以确保其提交的文件的准确性 ” 。

这条原则具有普遍适用性:每一位部署人工智能的专业人士都肩负着把关责任。问题在于,你的人工智能系统架构是否能够支持这一责任,还是会削弱它。

人工智能在关键应用领域(涵盖所有行业)的未来取决于构建智能顾问系统,该系统需将知识图谱的结构化知识和可解释性与语言学习模型的自然语言理解和模式识别能力相结合。这并非是在技术之间做出选择,而是要认识到,仅靠语言学习模型无法构建可信赖的人工智能。知识图谱恰恰提供了这一基础。

如果组织在缺乏这种基础的情况下部署低层智能技术,项目就会失败——并非因为技术本身不够强大,而是因为没有根基的强大力量是不可靠的。如果运用得当——将各种技术优势互补、弥补彼此不足——我们就能创造出真正增强人类智能的系统。

本文来自微信公众号“数据驱动智能”(ID:Data_0101),作者:晓晓,36氪经授权发布。

+1
6

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

定位和预期之间出了偏差。

2小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业