绿洲对谈张奇教授:边界认知

绿洲资本·2023年08月11日 10:16
浪潮越大,噪声越强,何以求真? 今天我们邀请到复旦大学计算机科学技术学院张奇教授。和张教授对话的过程中,无时无刻都能感受到“求真”二字,Enjoy。

绿洲:您在轻量级自然语言处理工具 FastNLP 和自然语言处理模型鲁棒性测试平台 TextFlint 的工作获得了顶会的奖项,能介绍一下您最新的研究侧重点和进展情况么?

张教授: FastNLP 和 TextFlint 是深度学习模型方面的工作。2021 到 2023 年我们大部分工作都围绕这两个平台开展。2023年开始我们大部分重心都在大模型任务上,未来我们还是针对大模型的鲁棒性开展研究,目前我个人最近比较关心的有几个方面: 

一是大模型领域如何获得高准确率回答。二是对模型能力的解释,从实验上观察到的现象出发,对大模型和深度学习之前模型的区别和联系做解释性工作。第三是模型能力评测。

我们实验室进行的工作包括底层模型预训练、模型推理加强、多智能体等方向的开展。

绿洲:可以介绍一下您在评测方向的工作和思考么?

张教授:传统自然语言评测大部分采用基准(Benchmark)的方式,也就是开放一个数据集,包括训练、 开发和测试三个方面,在此之上训练之后再进行测试,报告结果。但这种模式对大模型不是很适用,因为很多工作无法复现。原因在于,首先很多预训练的底层底板是不公开的,其次除了这个任务本身,还需要其他 SFT(Supervised Fine-Tuning)综合的多任务混合训练模式。从整体而言,无法对开放出来的模型进行复现。很多训练完成的模型框架不开源,很难评测。在这种环境下,导致只要是开放的,可以拿到测试数据的榜单,都会被刷到高值,而不论是否有测试结果或者正确答案。

所以我们针对这个问题,已经做了两期大模型该如何评测的工作。第一期工作是使用多种方式进行评测,譬如普通用户公开评测、众包用户评测、专家实验室评测、GPT-4 对比评测、GPT-4 分项评测等等。第二期针对专业领域到本科阶段,模型做到了什么程度。这些数据在评测前不对任何方开放,评测之后将所有数据开放完成,不再更新榜单,避免出现刷数据的问题。8 月底 9 月初我们计划做第三期评测,准备更大量级的数据,每次只从其中选择一部分数据进行单次评测,也就是每个系统用这部分数据评测完成之后,数据就会被清除。

我们的目标是做有大规模数据支撑的自动化评测,使得榜单的失真性相对较小。

绿洲:我们在和国内外团队交流的时候,大家都比较认可斯坦福的 HELM。您怎么看?

张教授:HELM 将各种自然语言处理任务集成,可以评测语言模型的基本知识覆盖率,但无法对经过 SFT 和强化学习之后模型真正的答题能力进行评测,比如生成语言的流畅度,是否符合逻辑等等。这种评测集合任务数量很多,采用各种评价指标,但我个人觉得还是属于非常基础的评测,和真正使用大模型的距离比较远。

绿洲:这波大模型各界都在追热点,也产生了许多噪音。从评测本身而言,市场如何去客观看待模型的能力呢?

张教授:市场现在十分火热,各大公司,包括创业公司在内,都投入了大量资源,所以在评测问题,不能与单篇论文这类纯学术研究的量级相提并论。评测的结果带来的影响是多元的,技术层面之外,无法面面俱到。

我们实验室第二期的主要工作是从求真出发,做内部研究,以及对评测如何进行评估,在不同的评测方法之间做比较。完成之后,用我们认为最合理的方式,对一部分方法、数据开源和公开,看看大家的想法如何。

评测本身是会促进研究的,从中可以观察发现到很多有趣的现象,这类现象促使研究人员对未来的研究方向有更好的把握。所以,我们做评测并非为了评优评劣,而是希望让研究更上一层楼。

绿洲:评测对自然语言发展的影响主要表现在什么地方?

张教授:评测算是一把双刃剑,做得好促进研究,做得不好会有负面影响。论文发表后大家会根据评测集合上的提升来判断准确率的提升。但事实上有些模型提升度可能非常小,方法的创新性也很小,只是通过某些方法让模型有了一定的改进,在所谓的评测集合上实现了提升。如果这样的论文大量出现,就会把真正有创新性的研究论文淹没掉。在大模型领域,这种评测造成的损伤就更大。

整体而言,公开评测只是一个手段,还是需要亲手去测试模型,判断好坏。我们给公司做项目,在选择模型底板的时候,更多的是依据非公开评测作对比,而不是依据公开评测来决定。

绿洲:那两期评测下来,对您下一阶段的研究有什么启发么?

张教授:今年 2 月我们针对 ChatGPT 做了详细评测,发现了一些有意思的现象:可以明显看到它的早期版本无法完成很多 NLP 的特定任务,譬如词性标注等等。这种现象不是普通用户会提的问题,因此早期版本中针对这类任务的结果都不好。但一两个月之后,新版本中同样的任务结果得到了长足提高;我们也发现 ChatGPT 对于中文和英文明显使用了两种不同的数据集合进行训练。从之前评测工作的结果来看,它的能力是在预训练或者 SFT 阶段注入的。只能说明工作是如何完成的,训练量级的大小,以及做的方式不同。而不能说出现了“涌现”的能力。

通过评测我们发现的主要问题是:首先知识准确性相对较低,甚至可以说非常低。比如 GPT-4 在医疗领域的知识正确性只有 80%。这也促使我们在领域模型方向发力。相对于 GPT-4 来说,领域模型的知识准确性甚至会影响到整个大模型未来的发展。举例来说,在我的专业领域,模型给出的答案,我一眼就能看出有重大错误。但比如现在说的室温超导,模型给出的结果到底哪里正确,哪里错误?用户不可能挨个把知识点到搜索引擎里再查一遍。因此,如何提升正确性,于我而言是十分重要的问题。不过当前而言,在通用领域进行整体提升的难度太高了,在特定领域里做一些工作是更可能实现的。

绿洲:评测大模型是为了判断模型能力,看到您在鲁棒性方面也做了很多研究,现在这个方向的工作做得如何?

张教授: 鲁棒性是深度学习中的大问题。在大模型出现之前,包括 22 年底我们很多论文也是围绕鲁棒性开展。 

鲁棒性问题可以让深度学习模型在标准评测集合上做得非常高,类似 SQuAD 阅读理解的语料集合,可以做到 90%, 比人都高。但如果在问句里,或者原始的位置加两个逗号,后面加个空格,再加点人名,模型准确率就直线下降。这说明深度学习模型学到的还是表层特征。我们希望让模型不要关注表层特征。 

我们之前的评测结果发现大模型依然存在这种问题,只不过它的缓解程度和深度学习相比是下降的。比如在情感倾向分析领域,对深度学习造成影响的鲁棒性变形对大模型作用不大,准确率还可以保持比较高的层级。但对于信息抽取类的自然语言处理任务,大模型准确率的下降幅度和深度学习非常类似。因此在鲁棒性方向我们也会继续研究。

由于大模型更多地还是被用于生成式任务,所以最近半年我们并没有在提升大模型信息抽取等任务的鲁棒性上做很多工作,还是把更多精力投入到大模型最擅长的生成式任务,明年应该还是继续这个方向。

绿洲:领域模型和通用模型之间的确存在很大争议?如果通用模型的推理能力足够强大,是否就不需要领域模型了?

张教授:争议是一定存在的,这也的确是一个大课题。我们实验室内部也有过很多争论,大模型能否解决推理问题?如果推理能力比较好,那通过大模型的通用训练,什么任务都可以做,准确率都能达到要求,就真的没必要去做领域小模型了。

但从我个人而言,大模型并不适合去做推理。它是一个语言模型,擅长的是预测下一个单词,解决句子的生成问题,解决之前自然语言生成上做不好的事情,同时具备了多任务的学习能力。如果硬让它去做推理,即使 GSM8K 的数据集合,模型也只能做出小学应用题,在这个基础上再去加 CoT 和其他东西,提升幅度有限。

推理是准确的,有逻辑的,我们有很好的推理引擎,只是不能把自然语言转换成公理定理引擎的标准格式。目前还没看到大模型有比较好的解释和可能性去完成这样的工作,那为何要去逼它做不适合自己的工作?我觉得大模型还是更擅长在不同的行业,不同的公司,针对不同的工作去完成特定的任务,比如针对某个公司解决对话系统中的某些问题,这种模型在现阶段是更实际的。

行业模型可能都不算真命题。比如金融领域,你要做一个怎样的行业模型,才可以解决金融领域的所有问题?金融牵涉生活的点点滴滴,真能做出来,和通用模型也没有区别了。

绿洲:所以相对通用模型而言,做一个比较强大的,对人类语言有足够理解的模型去做中枢,再去协调任务,每个特定任务就是一个中模型,会更符合发展的方向?

张教授:关于协调模型的讨论也很多,我倒是觉得对语言模型来说真是强人所难(笑)。真正的协调是基于规则的。如果能让大模型做到很好识别,变成结构化的数据之后,协调并不复杂。对于人来说,写点规则,做点很小的程序就可以搞定,没有必要让机器去做。让机器操作最大的问题是黑盒,出了问题你都不知道怎么改。

比如对话系统中最难的是口语化表达,无法变成结构化抽取出来的 Slot,或者横向扩展的时候又新增了一些 Slot,原来的模型抽不出来。让大模型去抽 Slot,下一步转人工还是做其他任务的决策,没有必要用其他模型解决,写个规则,白盒既透明又好控制。

我觉得从应用角度来说,没有必要去追求自动化和完全的零成本,低成本就够了。不需要完全依赖大模型或者通用人工智能来实现这个目标。

绿洲:大模型能力提升,让工业界也想尽快找到落地场景,但是一落地就会发现问题,这中间的争议就更大了。

张教授:是的。测试几个案例结果很好,一上系统,可能完成度只有 80%。但现有的系统,可能用小模型效果就能达到 90%,那为什么不用呢?现在面临的问题是,如果一直沿着 AGI 的路走,拼命让大模型在所有任务上都做到 90 分 95 分,这条路可以走多远?如果真的能做出革命性的变化,变成零成本,那就相当于是一个强大的产品了。

绿洲:OpenAI 应该是想继续朝 AGI 走,他们对这个目标充满热情。

张教授:是的,有足够的资金,系统产品已经上线,有微软的支撑,的确是可以去坚持这条道路的。前提还是要有强大的资源支撑。

绿洲:相信您和工业界也有很多交流,现在大模型的开发存在什么误区么?

张教授:我想可能在于大家对模型能力边界的认知程度。就像刚才您提到的,觉得要把大模型做成中控,零成本地去解决问题。核心问题就在于如何定义这个大模型。它的能力边界在哪里?能解决什么问题?不能解决什么问题?我觉得这点可以从理论或者实验结果上给出分析和实验报告,让大家看到大模型针对不同任务的时候其能力边界在哪里。如果不知道,就会犯错。

绿洲:关于传言说 GPT-4 在对齐做多了之后,能力下降的问题,您有观察到么?

张教授:我们最近没有大规模在特定任务上去打 GPT-4 的接口,所以没有特别跟踪它在某些任务能力上的变化。从其他模型的实验结果来看,还是多任务之间相互影响的问题相对比较明显。让模型完成那么多的通用任务,很多时候就是某方面能力拉上去,另一方面就会掉下来。在几百亿的模型上也会面临同样的问题。所以如果 GPT-4 出现这样的传闻,也不足为奇。它可能会根据用户的输入,做模型权重调整,调整的过程中很可能会存在某些方面能力的下降。

这个角度来说,也同样可以触发沿着大模型当前的路可以走多远的问题。

绿洲:所以大模型安全对齐也是个挑战性的问题?

张教授:安全对齐是非常大的课题。我们要求对齐的能力可能比海外的标准更高更严格。总体而言,我觉得各界对大模型基础理论的认识还是存在不足。如果没有最基础的理论,其他发展很难判断。莱特兄弟制造飞机之前,已经有了最基础的空气动力学原型,在他们造飞机之前也做了几十个模型,甚至做了一个小风洞,在几百次试验之后,最终选择了最初的翼形。在当时虽然不算准确,但是原理是清晰的。对于大模型而言,最缺乏的是简单的并不准确的原理上的认知。如果没有这种认知,继续尝试走下去的成本难以估计。

绿洲:有没有潜在的可能,OpenAI 已经知道了原理,只是没有公开?

张教授:最近在回顾之前的研究和论文的时候,我们也看到了很多和目前实现结果相似的现象。所以我觉得 OpenAI 应该是总结归纳了一些原理,包括 MoE 的架构。

将很多东西集成到一个模型中去,很多任务是不可调和的。比如在 SFT 阶段加入了大量的数据,会使整个模型的问答任务上泛化能力下降,对于问题解答的能力就是致命的。但如果在 SFT 阶段不加入很多数据,很多自然语言处理任务就难以提升。两个任务势必不协调。如果采用 MoE,就可以将不协调的任务隔离开,在 A 模型上用大量 SFT 数据做事,B 模型上用小量数据完成知识问答。

所以 MoE 架构应该是正确的道路,至少目前的实验结果是较好的印证。但是实现的过程是怎样的?是自己学了一层专门做分发,还是刚开始就人为做了query的分解构建?就无从知晓了。

绿洲:您觉得大模型的发展还存在其他问题么?

张教授:目前各种做法都有,国内的高校和公司处于跟随阶段。GPT-3.5 是如何实现的,都没有公开报道,或者相关认知都分散在论文中,没有被综合,也就拿不到基础认知。所以大家都在尝试,代价可能会很高。

绿洲:听说您还在工业智能化方向发力,能给我们介绍一下么?

张教授:我们做工业智能化的目标很简单——降本增效。我们利用大模型做的内容是在工业信息化平台上附加三个功能。第一是整理企业内部私有化知识库;第二是将 BI 平台升级到自然语言交互式平台。这是为了解决非计算机背景的企业管理型干部使用平台的问题;第三是通过 LLM 做 Copilot,集成到工业领域现有开发中实现提升。目前工业领域很多用 PLC,用 ST 语言或者用界面语言开发,需要高水平的程序员,但工业领域要获得这种水平的程序员还是困难的。

我们的工作可以快速低成本地将这三种能力注入到不同公司原有的系统里去,就如同合力式的 PLC,可以大幅度提升效率,快速完成体力活。

绿洲:大模型的精细化发展,和私有化部署小模型的区别在哪里?

张教授:模型的体量分大中小。根据任务的难度,可能用几十亿,一百亿,甚至几百亿的体量。我说的精细化和定制化,就像刚才工业智能化的工作提到的,是根据每个企业的实际情况做定制开发。而不是所谓的工业大模型,所有工业领域都可以使用。我们根据这个公司所服务的客户以及现有的产品决定模型需要完成这三个任务。换一个公司,虽然可能都是工业化,但任务可能完全不同。

短时间内要做出一款通用型产品,我觉得可能性很小。

绿洲:您选择研究方向的初心和目标是什么呢?

张教授:无论是大模型还是深度学习模型,都只是一个算法。我们的核心目标是希望自然语言处理任务能实现低成本产品化。比如现在如果要做信息抽取,我们可能需要标注几百、几千甚至上万的数据。终极目标就是无论怎么换客户,换场景,都只需要标注几十个数据。未来也许只要有几个样本,模型就能学会一个能力。

就好比人类,平时可能很少接触物理书籍。但是如果我告诉你这是一个物理名词,给你举三五个例子,你就可以用较高的准确率去识别物理领域的名词了。我们希望计算机系统最终能达到这种程度的能力,通过给定非常少的样本,就可以学会大部分自然语言处理的任务。

绿洲:这波大模型,和上一波相比,您看好的机会在哪里?

张教授:无论是哪一波浪潮,核心都是和行业结合。如果目前你不是信息化的厂商,只有 AI 技术,冲进去,最后的结果未必持久。比如金融领域,其中的数据和信息化很早就完成了,如果公司有一个金融模型,技术领先性可能只有半年,对于信息化厂商来说,它有足够多的时间和技术理由把你堵在门外。三个月之后对标的系统可能就出现了,也许你的模型可以做到 100 分,但三个月后我可能通过其他相对轻松的渠道获得一个 90 分的系统。因此即使你的系统很完美,还是无法进入这个行业。

如果公司做的不是 AGI 产品,那只能由原来的信息化厂商去完成,或者公司规模够大,收购原有的信息化厂商。上一波 AI 革命,最大的受益者还是那些掌握了原有渠道和资源的公司,做 AI 升级,就不会掉队。

参赞生命力

你觉得什么是科技生命力? 

天马行空的构想,小心谨慎的验证; 

不惧失败的勇气,始终如一的恒心。 

—— 张奇教授 ,复旦大学计算机科学技术学院

本文来自微信公众号“緑洲资本 Vitalbridge”(ID:Vitalbridge),作者:参赞生命力,36氪经授权发布。

+1
2

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

既有绿电“远方来”,也有绿电“身边取”的未来,还有多远?

2023-08-11

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业