挖掘“非结构化”数据价值的5种方法

王建峰·2025年12月09日 12:04
游戏规则改变了

通常我们对待文本和图像的价值就像对待次要的事情一样。到了2026年,如果你的数据平台无法将SQL表与PDF文件连接起来,那它就毫无用处了!

现代数据栈隐藏着一个不可告人的秘密。过去十年,我们一直痴迷于 企业数据中那10%的“干净” 数据——那些整齐地组织在Snowflake、BigQuery或Databricks中的行和列。我们围绕着整数字段和标准化时间戳,构建了复杂的治理、血缘和可观测性体系。 

与此同时,其余 90% 的数据——企业的 “暗物质” ——却在 S3 或 GCS 存储桶和云端硬盘文件夹中腐烂:PDF、电子邮件、通话记录和图像。

到了2025年,游戏规则改变了。你的CEO不再关心你精心构建的星型模式。他们只想问: “哪些供应商合同(PDF)的终止罚款高于我们上个季度从这些合同中获得的收入(SQL)?”

如果你的答案是:“我需要三周时间来构建一个自定义爬虫和一个单独的向量管道”,那么你已经过时了。 

以下是关于 2025 年非结构化数据现状的不那么吸引人的真相,以及为什么你只会 SQL 的技能会成为一种负担。 

不存在的“连接”

2025 年的根本脱节在于,我们仍然缺乏LEFT JOIN语义概念和关系键之间的原生、高性能连接。 

我们有用于相似性搜索的向量数据库,也有用于精确逻辑的关系数据库。将它们连接起来,就好比用胶带把喷气式发动机粘到马身上一样,是工程上的难题。 

现实情况是: 你可以使用向量搜索找到“相似”的合同,也可以使用 SQL 查找“收入”。但是,要将扫描 PDF 中 的特定段落精确映射到 Postgres 表中的特定 交易 ID,却是一场模糊匹配、错觉和血缘关系断裂的噩梦。 

不那么吸引人的解决方案:我们看到“人工智能函数” 正在数据仓库内部兴起。这种趋势不是将数据移到 向量 数据库中,而是将逻辑逻辑模型(LLM)引入 数据本身 。 

专家建议: 停止构建独立的“非结构化数据平台”。力求采用可以SELECT extract_contract_value(pdf_blob) FROM documents直接在主数据仓库中运行的架构。如果你的平台无法进行 SQL 推理,那就迁移。 

“代币税”是新的云账单冲击

2020年,我们为Snowflake积分而恐慌;2025年,我们为 Token消耗 而恐慌。 

将非结构化数据视为一等公民意味着将其数字化。但是,将数百万份文档通过多模态语言学习模型(例如 GPT-4o 或 Gemini 3 Pro)提取结构,不仅速度慢,而且如果盲目操作,还会造成巨大的经济损失。 

统计数据显示: 如果不进行优化,处理 1 PB 的非结构化文本以进行 RAG(检索增强生成)可能需要花费高达 15 万美元 的API 费用。 

不那么吸引人的解决方案:小型语言模型(SLM) 。你不需要推理模型就能从发票中提取日期。 

专家建议: 构建一个“ 模型路由 ”。使用廉价的小型 BERT 模型或专用的 SLM 模型来完成 90% 的提取工作(OCR、分类、实体提取)。只有在需要处理复杂的推理任务时才使用昂贵的“智能”模型。你的首席财务官会感谢你的。 

OCR仍然是你工作中最糟糕的部分

我们拥有通用人工智能(AGI)级别的推理能力,但仍然难以阅读PDF中跨越两页的表格。 

“非结构化”问题通常只是伪装的“解析”问题。大多数 RAG 流水线失败并非因为 LLM 本身存在缺陷,而是因为 PDF 解析器打乱了文本、合并了两列,或者忽略了关键的脚注。 

现实情况是:  “ 输入垃圾,输出幻觉。  ” 如果你的解析工具向模型输入的是一堆乱码的页眉和页脚,那么再多的提示符工程也无济于事。 

不那么吸引人的解决方案:多模态解析器 。到 2025 年末,发展趋势是从启发式解析器(如 PyPDF2)转向基于 Visual-LLM 的解析器,这些解析器会“查看”文档截图以了解布局,然后再读取文本。 

专家建议: 大力投资数据摄取层。更好的解析器带来的投资回报率比更好的语言学 习模型(LLM)高出10倍。 

元数据再次成为新的黄金

向量搜索是概率性的,是一种猜测。在监管严格的行业中,“我认为这是正确的文件”这种说法可能会让你被告上法庭。 

要让非结构化数据可用,你需要确定性的锚点,也就是元数据。到2025年,最成功的数据团队不仅仅是嵌入文本;他们会在文本进入向量存储 之前,使用代理程序为其 添加 结构化属性(例如客户ID、日期、地区) 。 

不那么吸引人的解决方案:混合搜索 。 

专家建议: 切勿仅依赖语义搜索。您的检索策略应始终是(Vector Similarity) AND (SQL Filter):确保您摄取的每条非结构化数据都至少包含 3-5 个结构化元数据字段。 

文档“数据产品”的兴起

我们过去把文件当作“数据块”来处理。现在,它们是产品。 

2025年,PDF合同不再仅仅是一个文件,而是一个数据产品的容器:包含义务清单、付款计划和风险概况。数据工程师的工作就是将这个容器 分解 成可用、可查询的数据资产。 

未来:我们正朝着“通用数据湖” 迈进(这要归功于 Apache Iceberg 等开放格式),其中图像、视频和文本与表格并存,所有这些都由一个单一的目录进行管理。 

专家建议: 审核您的数据目录。如果搜索“第三季度财务数据”返回的是表格而非 PDF 报告,则说明您的目录存在问题。 

未来不在于 SQL 与 NoSQL 之争,而在于结构化数据与非结构化数据之争,以及弥合二者差距的速度。 

本文来自微信公众号 “数据驱动智能”(ID:Data_0101),作者:晓晓,36氪经授权发布。

+1
2

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

一把手需从靠自己转向靠系统,打造高效组织。

2小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业