绿洲对谈刘卓涛教授:私域数据的流通密码

绿洲资本·2023年06月08日 14:35
数据是大模型成长的食粮。当大模型走向专属,私域数据如何与大模型交互?

我们有请到清华大学助理教授、博士生导师,国家基金委优青(海外),前Google Cloud 数据中心技术负责人刘卓涛教授与我们从数据角度解读大模型发展的机遇和挑战,Enjoy。

01

绿洲:您的课题组在大模型领域的切入点和发展方向在哪里?

刘教授:大模型有三个核心点:算力、算法和数据。

算力的问题就是“芯片”,国内面临卡脖子的问题;算法方面,我们国家的人才密度其实不错,但是因为缺乏高性能芯片,会一定程度上限制发展速度;数据方面,我认为我们国家有自己独特的优势和机会,我们课题组也一直围绕“数据”为核心展开研究。

ChatGPT 或者 GPT-4 也好,基于的大部分数据均来自互联网的公开数据,这对于构建通用模型或者基础模型是非常好的选择。但如果考虑到面向企业需求的专属模型,在“私域数据”上做微调就不可或缺,例如 Google I/O 最新发布的 Sec-PaLM 和 Med-PaLM 2,就是 PaLM2 在安全领域知识和医疗领域知识上的微调。当然,基础大模型的涌现能力和 in-context learning 的能力可能会一定的程度降低微调的成本。

除此之外,涉及隐私数据的大模型推理也是值得关注的问题,此前欧洲多个国家禁止了 ChatGPT 的使用,出发点之一也是防止隐私的泄漏。

私域数据如何去与大模型交互?这是我课题组目前正在思考和解决的问题。我认为大方向是两个:

一、私有部署: 就像私有云一样,机构或者企业自己去部署一个大模型,保证数据不出域。这中间面临的问题就是企业研发能力的提升,目前很多公司都在做私有部署创业,就如同十多年前公共云出来之后,很多公司都在做垂直云。

二、隐私推理和微调:如果使用如 OpenAI 或者类似专门做大模型的厂商提供的大模模型,不可避免地就会涉及隐私数据,例如使用隐私数据对模型进行微调,或者提供隐私提示词来做推理等。从技术上,这些可以看作是隐私计算的进一步延伸,我也关注到越来越多的学术界和工业界正在向这方面努力。

02

绿洲:这些研究方向如何落实到操作上呢?

刘教授:用“魔法”(笑)。隐私推理和微调的核心技术是隐私计算,再具体一点就是应用密码学;密码学本身有点“反常识”(counter-intuitive)。比如零知识证明——你想证明一个东西,又不需要透露具体内容。

同样的,隐私推理和微调也是在不拿到明文私域数据的前提下,使用这些数据。我大概介绍一下目前的 SOTA (State-of-the-Art)技术以及下一步我们应该做什么:

首先这个领域几年前就有人开始做了,最早开始做的是隐私推理(private inference),即无需把明文数据给模型的前提下完成推理,这些工作的核心是基于安全多方计算(MPC)和同态加密这两个密码学的基本源语,设计神经网络前向传播的计算协议。

目前学术上的 SOTA 应该是阿里发表于 2023 年的“猎豹”(Cheetah),可以在 CV 领域的残差网络(RestNet-32)上做到十秒级的隐私推理。

但是大模型的复杂度要高得多。

我们一般可以用模型大小和非线性函数的复杂性来表征模型复杂度。比如 ResNet 用的是 ReLU(Rectified Linear Unit 修正线性单元),而大模型里面的 Transformer 通常用的是 GELU(Gaussian Error Linear Unit 高斯误差线性单元激活函数),计算比 ReLU 复杂。

而非线性层的计算是密文域计算耗时最多的部分,是整个系统的瓶颈。现在的 SOTA 离实际使用还有很大距离,例如在 BERT 级别规模的模型(几亿参数)上做一次隐私推理,一次需要半个多小时,80G 的通信量,隐私训练要比隐私推理更慢。

无论是对隐私计算公司,还是应用密码学领域,其挑战都是如何应用密码学,如何设计场景,在特定领域定制硬件(domain specific hardware)。就如同零知识证明,是一个工程创新,大模型本身就是工程创新。

我的课题组刚刚做完的一个工作就是如何进一步提升 LLM 的隐私推理性能。总体而言,我们构建了一个 LLM 隐私推理系统,找到其中的性能瓶颈,然后进行相应的模型架构替换和微调,最终效果还不错,这个工作我们最近也会开源。

03

绿洲:这是一个很好的研究方向,ZK(以 AJAX/XUL/Java 为基础的网页应用程序开发框架)也有硬件加速方案,MPC 或者同态也可以做硬件加速方案,您觉得实操层面短期内可以实现落地么?

刘教授:硬件加速是一个不得不提的方向。从我目前的认知来看,进一步提升 LLM 隐私推理和训练的性能,很难绕开硬件的辅助。例如,此前有工作设计了可信硬件来产生安全多方计算所需要的乘法三元组,就可以大幅降低密态计算的开销。

从业界落地来看,应该会和隐私计算的大规模应用步调一致。目前已经部署的隐私计算场景所涉及的计算要比 LLM 推理和微调简单很多。但是由于企业的合规要求,为了合理使用私域数据,隐私计算会变成一个不得不去探索和接受的方式, 可以说,类似于一种“技术税”(Technology Tax)吧。

另外一个可能的思路是不依赖密码学方法,而是使用 DP(Differential Privacy 差分隐私)。从计算角度来看,DP 接近于明文计算,效率肯定没问题,但 DP 对功能会产生一定影响(例如噪音加多之后模型质量会下降)。短期内,企业做基于 DP 的加噪,令数据可以出域(《个人信息保护法》要求原始数据不能出域),可能是个最快落地的解决方案。

04

绿洲:亚马逊最近推出的服务,包括 Google 的 Vertex AI,可以一键在集群里跑各种开源模型。对您描述的隐私计算场景会带来影响么?

刘教授:很多公有云的战略其实都是混合云(Hybrid-Cloud),即需要和用户在本地的私有部署交互,LLM 应该会延续类似的方式,这能满足某些场景的企业数据不出域。但是会依然存在大量需要隐私计算的场景,因为有些机构应用的数据并非在机构本身。

比如银行想看用户的信用评级,需要的是运营商的数据,无论是不是私有部署,都需要银行的数据。那如何抓银行数据就需要隐私计算的协助。

05

绿洲:大模型给隐私计算或者数据本身带来了什么机会?

刘教授:我认为未来大模型的发展会依赖私域数据,为了更加合规的使用私域数据,可以有两个大的思路:

一是隐私计算:如果 LLM 中使用“绝对隐私”的私域数据,那就需要对 LLM 进行隐私推理和微调,这个前面已经具体说过。

二是数据空间:这是一个最近兴起的领域,在欧洲和国内都有很多声音。简单来概括,数据空间允许机构之间进行数据流通和交易,数据提供方可以控制其数据如何被使用,被谁使用,以什么价格使用,如果出现违规如何追责等。一言以蔽之,数据空间是一个安全可控的数据跨域交互平台。相对而言,数据空间中大部分数据的隐私需求没有隐私计算中涉及数据的隐私需求高,因此它所采用的技术栈也不尽相同,同时数据空间通常可以支持更大体量的数据跨域交互和计算,正好弥补隐私计算不足的地方。

当然,隐私计算和数据空间并不是互斥的,二者相辅相成。

06

绿洲:隐私计算/数据空间和 AI Safety 的区别在哪里?

刘教授:其实二者都属于“安全”的范畴,但是二者关注的不是同一个层面的问题:隐私计算或者数据空间关心是如何使用私域数据;而 AI Safety 的侧重点是模型最终能否不带毒,鲁棒性够不够,是否公平,是否有伦理问题等等。

相比于 AI Safety,当下关于数据隐私的讨论可能没有那么多,至少在学术上相关论文还不像 AI Safety 那么多。这个其实也符合很多计算机系统的发展规律:最初考虑性能,然后是安全,最后才是隐私。

例如互联网诞生之后,大家首先想的就是如何把带宽提升,大概 2010 年前后,开始逐渐关注互联网体系结构的安全问题,而直到 2018 年,欧洲 GDPR(《一般数据保护法》)才出台,我国 2021 年也出台相关隐私保护法律,也就是说各种数据已经在互联网上明文流通 20 多年之后,大家才开始大规模关注隐私。

然而,大模型本身就诞生在了数据隐私保护被广泛认识和接受的时代,在我国,数字经济的大背景更令数据本身变成了企业的重要资产,如此一来,数据本身的流通和交易会变成关注的重点,创业者或者学者也都需要适应法规,所以我认为围绕隐私的讨论会越来越多。

07

绿洲:针对这波浪潮,能否对您的研究领域的影响和未来发展做一个总结?

刘教授:大模型对我的研究领域最大的影响就是如何帮助大模型更加合规的使用私域数据,数据空间和隐私计算在这中间将会扮演很重要的角色,在我国大力发展数字经济的背景下,这是一个很大的机会。同时,这也面临许多的技术和非技术层面的挑战。

—— 刘卓涛教授 ,清华大学助理教授,博士生导师

本文来自微信公众号“緑洲资本 Vitalbridge”(ID:Vitalbridge),作者:参赞生命力,36氪经授权发布。

+1
1

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

提及的项目

查看项目库

下一篇

200多万的车谁会买单?

2023-06-08

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业