海外new things | 美国技术初创「Unstructured」A轮融资2500万美元,为大型语言模型开发企业数据预处理工具

宋予·2023年07月24日 18:18
「Unstructured」与美国国防机构的关系密切,已经与美国空军和美国太空部队签署多项合同。

文 | 宋予

编辑 | 刘士武

据外媒TechCrunch报道,为大型语言模型提供企业数据预处理工具的初创公司「Unstructured」近期完成了2500万美元的A轮融资,由Madrona领投,Bain Capital Ventures、M12 Ventures、Mango Capital、MongoDB Ventures、Shield Capita和数位天使投资人跟投。

这家初创公司由Brian Raymond、Matt Robinson和Crag Wolfe三人于2022年联合创办,致力于为企业客户构建和部署自然语言处理(NLP)解决方案。

图片截自企业官网

以GPT-4为例的大型语言模型是许多人工智能应用的基石,但由于无法访问一手数据或输入专有数据,部分企业不愿采用这些模型。此外,许多数据被保存在防火墙之后,因此无法被大型语言模型所利用。为了解决上述问题,「Unstructured」构建了一个平台,让大型语言模型能够提取、整理企业数据,从而扫除技术应用的障碍。

首席执行官Brian Raymond在采访中表示:“此前在Primer AI工作时,我们一次又一次地遇到了瓶颈。我们思索着应当如何提取并预处理包含NLP数据的原始客户文件,并将其转化为经过整理的文件,以便于训练机器学习模型。没有一家数据集成或智能文档处理公司能妥善解决上述问题,因此我们决定成立一家公司,以正面应对这个技术瓶颈。”

“企业每天都会产生大量的非结构化数据,如果将这些数据与大型语言模型向结合,那么企业将能够极大地提高工作效率。然而,由于数据的分散化,当今的数据科学家仍然需要手动建立数据连接器和预处理管道。对此,「Unstructured」提供了一个全面的解决方案,用于连接、转换和暂存自然语言数据。”Raymond补充道。

「Unstructured」开发了一系列数据处理工具,以清理、转换企业数据,包括从网页中删除广告和无关数据、扫描页面并执行光学字符识别等。该公司为特定类型的PDF、HTML、Word 文档、SEC文件以及美国陆军军官评估报告开发了处理管道。

「Unstructured」从零开始训练了自有的文件转换NLP模型,并集成了其他模型,以便从原始文件中提取文本和标题、页眉、页脚等20种离散元素。该公司开发了约15个连接器,从客户关系管理软件等多个数据源提取文档。在下游,「Unstructured」与LangChain(一个用于创建大型语言模型应用程序的框架)、Weaviate和MongoDB的Atlas Vector Search等矢量数据库集成。

Raymond表示,该团队开发的数据处理工具是开源套件,已经被下载超过70万次,被100多家公司所采用。为了创造新的收入来源,该公司计划推出一个商业应用程序接口,可以转换25种不同格式的数据,包括PowerPoint和JPG等。

首席执行官Brian Raymond在加入Primer AI之前曾是美国情报界的活跃分子,曾在中东地区服役,在奥巴马政府时期在白宫任职,随后在中央情报局任职。因此,「Unstructured」与美国国防机构的关系密切。该公司已经与美国空军和美国太空部队签署多项合同,与美国特种作战司令部(SOCOM)合作,“结合任务相关数据”部署大型语言模型。此外,「Unstructured」的董事会成员还包括五角大楼联合人工智能中心主任Michael Groen,以及国防部国防创新部门的领导人Mike Brown。

该公司此前还完成了一轮未披露的种子轮融资,由Bain Capital Ventures领投。

+1
0

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

提及的机构

合创资本
合创资本专注于ICT和医疗健康相关领域的早期风险投资。
联想创投
联想旗下全球科技产业基金,投资布局IT未来

下一篇

为什么抖音坚持要做外卖市场?

2023-07-24

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业