绿洲对谈商静波教授：一个回车

绿洲资本·2023年07月14日 11:51

自动化的极致是什么？极弱监督如何实现？人类和 AI 的配合如何取长补短？ WAIC 期间，我们和美国加州大学圣迭戈分校计算机系和数据科学学院商静波教授进行了一次愉快的聊天，商教授将“知行合一”体现得淋漓尽致。Enjoy

绿洲：您研究计算机科学（Computer Science）的初衷是什么？

商教授： 按一下回车键就自动化完成所有的工作，是我学习 Computer Science 的初衷。读博的时候发现一个回车能搞定的场景非常有限。实际生活中的自动化需求往往先需要大量人工标注作为实现的前提，因此我研究的主题变为：如何自动化整个自动化实现的过程，最小化人工数据标注的需要。

减少人工标数据标注的途径有几种：

第一种，远程监督（Distant Supervision）。常见的 Distant Supervision 的方法就是使用维基百科（Wikipedia）或其他已有的知识库（Knowledge Base）来指导现有任务。通常情况下 Knowledge Base 并不是为这个任务专门设计的，所以这样获取的 Supervision 就是“Distant”的，即远程的。我们可以使用 Distant Supervision 来指导很多任务，比如从文本中找到实体（Entity）的名称、找到实体之间的关系（Relation）等等。对于这类任务，Wikipedia 里就有很多现成的内部超链接标记了很多 Entity 和Relation 的信息；把其中与具体任务相匹配的部分拿出来训练模型，再用这些训练好的模型来从新的文本数据中抽取更多的知识和信息。这样就可以通过 Distant Supervision 来解决很多知识抽取（Knowledge Extraction）或者信息抽取（Information Extraction）的任务了。

这类 Distant Supervision 的方法有一个致命的缺点在于很难拓展知识边界。所训练的模型很容易被困在 Knowledge Base 的范畴中。低频（Infrequent）、长尾（Long-tail）、最新（Emerging）的部分几乎都学不到。

第二种，非监督（Unsupervised）。只要输入数据，人给什么数据、模型就学什么，没有任何监督。输出是什么完全由数据决定的。这个方法的问题在于，同样的输入数据可能会面对多个不同的需求；而这在非监督下是无法满足的。比如我要给新闻分类，同样的新文章拿进来，可以按主题、发生地、事件类型分类，要求是截然不同的。

给了数据，人依然需要向模型说明自己想要干什么。这里的“说明”其实就是监督（Supervision）。说得很详细、手把手教很多例子，就是常见的 Fully/Semi-Supervised；说得很简单，就是弱监督（Weak Supervision）；说到简单得不能再简单，就是我们实验室（Shang Data Lab，SDLab）最近几年一直在推的极弱监督（Extremely Weak Supervision），也就是第三种途径。

这就是我想要的。任何任务的极弱监督都不同：任务难，多说几句；简单，就少说几句。监督的范围也不同，一个叫 Full-scope，指所有可能的任务输出都要告知。比如文本分类，这个任务的输出就是类的名字。在 Full-scope 的情况下，人就需要告知模型这些新闻一定是体育、政治、经济、科学、文化这五个大类中的其中一个、每一个新的文章进来也一定是这五个大类中选一个。这样封闭式的多选题，就属于 Full-scope 的范畴。

这么做的缺点是做任务之前得知道所有东西。但是往往领域内的专家也无法做到 Full-scope 这么全。比如我们自己是做 Computer Science 的，我们也很难拍着胸脯保证能把所有的子学科（subareas）都说全。

为了解决这个问题，我的愿景是向知识发现（Knowledge Discovery）走，不要做封闭式（Close-world）的抽取（Extraction），而要做开放式（Open-world）的发现（Discovery）。Discovery 也需要人指导——把人已知最常见的（Popular）的内容先告诉模型，比如“这些是新闻，我要按标题分类，我只知道有体育新闻、政治新闻，其他我不知道，你看着办。”这样就是一个 Partial-scope 的指导，因为只覆盖了很小一部分任务的输出范围。虽然这个指导非常的简短，但如果“模型”是一个受过一定教育的真人，那么完成这个任务所需要的信息基本都有了——输入的文本是什么类型？分类的依据（Classification Criterion）是什么？分类的粒度（Granularity）是什么？因此这件事理论是应该是可行的。在已经所有信息都具备的情况下，计算机是否能完成任务？这中间缺的是其实就是高质量的特征表示（High-quality Representation）。我们的目标就是找到一些高效的方法来按照人给的指导将数据组织到一个隐空间（Hidden Space）中，最后完成任务，做到 80-90% 的准确率就很好了。

这步之后人再给反馈，数据的飞轮就转起来了，传统的 Active Learning、Semi-supervised Learning 等等就都可以用。从产品角度而言，用户上手爽才会继续用。通过几句话就能得到 80-90% 准确的信息，极佳的体验会让用户有动力继续使用、调整、修改以及反馈。这是一个重要的起点。做研究也一样，我们做的开源的软件或者工具都希望能在不同垂类的数据上达到一个即插即用的效果，即 Extremely Weak Supervised Knowledge Discovery。刚才我举的例子是分类（Classification），我们组也做 Multi-word phrase mining。Phrase + Classification 就可以得到 Entity，Entity + Phrase + Classification 就可以得到 Relation。这样一套做下来，整个 Information Extraction 领域中的经典问题和算法都可以得到重塑。

其实很多东西最后的核心都在 Classification，以及找具体的 Span 和 Candidate。目前我们组 Classification 这步投入了大量精力，看能做到多好。最近大语言模型（Large Language Models，LLMs）出来之后，尤其是 OpenAI 的最新 GPT 模型不再公布模型权重，我们也开始探索一些新工作是基于只有语言交互界面（Language User Interface）（LUI-only）的 LLM 做的。LLM 最擅长的就是做头脑风暴（Brainstorm）。这种能力特别适合在做 Discovery 的时候提议很多有价值的候选项。那么用户需要提供的指导就可以是更泛泛的了——比如在分类过程中，用户完全不需要告知任何类的名称、只需要简单提供一些分类的大方向（再适当说明某几个文章是否能放一起），我们最新的方法 GoalEx 和 ClusterLLM 就可以直接把分类的标准和结果一起呈现给用户了，甚至可以同时提供好几档不同粒度的分类供用户挑选。

绿洲：在研究、运用语言模型的过程中你有什么体会呢？

商教授：从心路历程而言，一开始的语言模型，我们是可以拿到模型的参数的、其产出的 Embedding 数据也是可以拥有（Own）的。比如最早的 ELMo、Bert、BART 到稍近一些的 T5 等都可以微调（Fine-tune），拿到数据后既可以微调、也可以调整 Embedding Space 来做研究得到新的方法和模型。目前最大的挑战在于，最大最好的模型（比如GPT-4）只有语言交互界面（LUI）、没法获取 Embedding 数据；并且基本只能做 Commonsense Knowledge，因为微调之后的模型推理（Inference）的价格直接翻好几倍。因此，我个人认为微调这条路无法持续，或者说运用的场景会很受限。即使未来硬件、算法都发达了，要做成最好的模型，总是需要上更大的规模；而规模一旦上去了，普通人就一定无法负担自己来运营这个模型的价格。包装成服务，卖订阅、卖 API 的模式短期 5-10 年内一定会存在。而做这个最好的企业也只会有 2-3 家，就如同 CPU、GPU 中杂牌的市场几乎是不存在的一样。

我们组基本不做从零开始训练 LLM 这件事，因为算力、资金的门槛太高，而且已经有人做得很好，不必去跟。我们原本的技术路线就是基于语言模型做应用，利用极弱监督的方法在不同的垂类、不同的语言、不同的任务上做快速的适配。GPT-4 其实给我们提供了一个很好的基准线（Baseline）。我们最新的论文基本都用到了 GPT-4 来做比较——我们的方法最终会运用 GPT-4 结合人的监督和域数据来得到更好的准确率，甚至直接训练出一个相对较小但效果更好的语言模型。

我认为“智能=知识储备+推理能力”。就 LLM 而言，本质上它只有两样东西：一是知识的储备（Commonsense Knowledge），另一个是逻辑推理的能力（Reasoning）。前者的一个直观体现就是 GPT-4 基本可以背出 40 多 TB 的纯文本数据。这一点是人类望成莫及的。但 GPT-4 的 Reasoning 还比较弱，弱到参加 Codeforces 的编程比赛水平只有倒数 5%。我认为 Reasoning 应该可以训练到初高中普通学生的水平；可能不太能到大学生的水平，因为没有强调专业知识。而初高中普通学生的水平，其实就已经很有意义了。

第一次用 ChatGPT 的时候，我就跟我的 PhD students 和朋友们都说，不要过于高估它的能力，它很棒，但是千万别捧杀。因为 ChatGPT 从 GPT-3.5 模型往后做，都是有监督的，你一拍脑袋最先想到的几个问题非常有可能在模型训练中都已经见过、调教过了。在深度学习的年代，训练误差（Training Error）为零完全不稀奇。目前的 LLMs 能有一定的泛化能力，但依然是达不到高标准的“活学活用”的。其实，人脑是一样的——大家可以回忆一下是否有些同学，考试特别好，做题特别快，但只要题一灵活就不会做。其实按照之前的“智能=知识储备+推理能力”角度来看，就是知识储备非常大，很多简单的问题可以直接通过“查阅”知识来解决，但是缺乏推理、举一反三的能力。

我们真正期待的智能模型是知识不用太大（甚至可以直接插入新的知识）、推理和泛化能力很强、可以完成没有学习过的任务的模型——给几个新的公理，模型能否把它们能演化的定理都推出来？这是当前 LLM 尚未解决的。而这个能力才是真正用 LLM 来解决垂类任务（domain-specific tasks）所需要的核心能力。

我们实验室目前在推进的一个重要方向就是如何用大模型配合人类提供的极弱监督帮助训练（小）模型。大模型越强，我就越高兴，因为它可以为我们提供廉价的监督。比如我们最近做的一个工作 ClusterLLM，平均下来一个 dataset 配 6 角美元的 OpenAI 的 API 花销，就可以把一个相对小的模型做得比大模型（GPT-4）好。我们的成功主要是借鉴了大模型的推理能力，把小模型原本幼儿园、小学生的推理水平拉上去，再结合垂类的数据（domain-specific data），做微调——小模型的微调相对于大模型而言，非常高效、便宜；而最好最大的大模型目前是无法人手一个来随意微调的。这样训练出来的小模型，在特定垂类、特定任务上的能力就是比通用大模型本身强。

把知识储备和推理能力分开看：知识从特定域的数据中学习，推理从大模型学，人只要稍加指导——这就是当前我研究的方向——未来每个人都可以训练自己一个或多个小模型，每个小模型在各人需要的垂类或者具体任务上可以做得很好，可以接受人的反馈、可以微调，并高效迭代。最后一定是 Supervised learning 大于等于 Unsupervised learning。而我的研究的核心就是如何让这开端的第一步迈得更好更稳。

绿洲：AI 会代替人类么？

商教授：LLM 是一个基座，有专门团队去做。我们志不在此。未来需要很多小模型配合大模型能力，将通用大模型作为 CPU 一样的引擎去调用，配合垂类数据解决垂类内的问题，达到 60、70、80、90 分的状态。我认为 100 分是不可能的，大家也不要有想法，95 分都很难。最后那一部分的能力的提升一定是通过人工智能（AI）和人的交互来完成的。

还有责任（Liability）。很多时候 AI 可以做到比人类的平均水平好，比如自动驾驶在某些场景下其实已经可以媲美人类的平均水平。但是人们对 AI 的期待其实是很高的，哪怕 99.99 分都是不够的。这是为什么呢？本质上是责任的问题。出了事，到底谁负责？判罚 AI 去蹲监狱吗？我觉得 AI 永远不可能代替人去做决定。除非法律、伦理都跟上，大家都能接受撞车不用任何人负责，或者有人或者保险公司愿意主动出来担责任，只有在这种环境下才有可能实现。

我个人看好 LLM 的应用的原因是它并不是在替人做决定，而是辅助人在做决定。AI 这个词，让我来解释的话，我会说成是 Augmented Intelligence。它本质上不是代替人或者拟人的东西，而是拓展（人类）智能的边界的。

从进化论的角度来说，从植物进化到动物，最先会的两个能力是感知（Perception），比如视觉等，和运动能力（Mobility）。“看”和“走”这两个能力同时出现并非偶然：“看”是为了更好地“走”，“走”是为了更好地“看”。“走”这件事情目前对具身智能（Embodied AI）来说还是比较难的。走路对人而言为什么很简单？仔细观察周围的人们，很容易发现大家的走路姿势略有不同。从机器学习（Machine Learning）的角度来说，模型（人的关节、肌肉、软组织等）很大，参数（如何控制关节、肌肉等）很多，解（Solution）自然就很多，人类很容易找到可行解。大家找到的可行解不尽相同，但都可行。机器人走路难在哪里？是机械限制了它“解”的空间。

我讲“走路”这个例子，主要是为了说明 AI 和人擅长的东西不同。LLM 作为一个 AI，轻而易举背 40 多 TB 的纯文本，人类做不到；反过来，我们人类只需要学习较小的书籍，就可以掌握复杂的推理能力，LLM 目前做不到。

既然不擅长？为何要逼着去做？很多问题确实长远的角度来看，花时间花精力是可以逐步改善、解决的，但是何不走一条“AI+人”的路径来解决呢？AI 不擅长走路、不擅长推理，人不擅长记忆海量数据，那我们就把 AI 戴人头上：人类当 AI 的腿、AI 帮人提供相关知识、人利用这些知识做推理，各取所长。这样一来一回，就增广（Augment）了智能的边界。特定场景下的机器人是要做的，但是不用做人形，目标不是替代人，而是做人不愿意或者危险的事。既然 AI 和人擅长的就不一样，没有必要非要一样。

这就是我对未来的一个愿景。在这个过程中，很大一部分的所有权（Ownership）其实是在创建智能体的人（Agent Creator）身上的。这个人贡献了很多数据，花了很多时间去调教 AI。那作为研究人员，我们可以在哪里做贡献呢？这其实就又回到的我的研究主题极弱监督（Extremely Weak Supervision）上：第一是拉低门槛，不会编程的人有数据就能去创造智能体。这也是我自己一直以来想完成的一个梦想——希望把训练、创造 AI 的门槛降低到每一个普通人都能参与。这个门槛一旦成功降低了，创造 AI 这件事情就会像我们玩智能手机一样简单，从方方面面来改变我们的生活。否则商业无法规模化，永远是本来就会编程的人有了更好的工具罢了。

AI 不会替代人。用 AI 的人可能会替代不用 AI 的人；AI 用得好的人可能会替代 AI 用得不好的人。因此我强烈建议大家去尝试、去拥抱新的技术，至少体验一下 ChatGPT 类的产品，去写一些复杂的提示词（Prompt），自己感受一下现在 ChatGPT 的能力边界。

绿洲：“AI +人”理想的状态是什么呢？

商教授：我认为未来人和智能体会平等地存在于一个社交网络中。当需要解决一个具体问题时，就可以把相关的（多个）智能体和（多个）人组一个团，拉个群，然后一起讨论、解决问题。在这个过程中，智能体学习人的推理能力，人学习智能体提供的知识。如果真能实现这样的生态，我觉得会很理想。

这其中的难点在于 LLM 的推理能力是否足够支持不同的垂类、是否具备优秀高中毕业生甚至大学生的水平。随着越来越多的人做 LLM，我们相信这方面能力会越来越强。我认为“垂类”=“大学里的专业”，主要是为具备足够推理能力的人/AI 提供新数据的。在有了新数据和推理能力之后，只需要极弱监督，就可以完成最初的智能体的创建。

绿洲：LLM 的能力会不断提升，中间的争议是随着 LLM 的水位上涨，会侵蚀垂类应用或者小模型的生存空间？

商教授：前面我们提到过，垂类上的智能体的核心是数据（Data）+推理（Reasoning）。现在 LLM 训练所使用的数据量已经非常庞大，可以说是基本耗尽了高质量数据。从这个角度出发，LLM 的知识储备已经很难再提高了。但是，LLM 的推理能力一定越来越好。如果是垂类上的应用，很多时候数据都是私有的。没有数据，推理再厉害也没用。这个数据封闭性决定了通用大模型，哪怕最终比所有人加起来都聪明了，也还是普通人的普通知识，垂类没办法都学会。所以我认为垂类应用和垂类上的小模型一定是有生存空间的。

绿洲：这点我们探讨一下，是否存在一个可能，当基础模型的推理能力足够强，譬如有个大科学家预测说，会出现在对话框把欧基米德三大定律丢进去，LLM 就能把欧式几何都推导出来的可能？

商教授：最终能做到这种程度特别好。这里的“三大定律”其实就可以理解为欧氏几何这个垂类里的私有数据。我本身对教育比较感兴趣，这就是教育的终极目标。我最欣赏的学生是只给公理，就能把定理都推出来的，不用来上课，考试前一周翻一遍书就能考出来。这个目标很完美，但有很长的路要走。

我对 LLM 还有一个有趣的观点。计算机科学领域的最高奖是图灵奖。现在做出什么成果一定能获得图灵奖？有一个路子就是去证明“P=NP”。通俗的来说，NP 问题指的是一类寻找答案很难、但是检验答案很简单的问题。要证明“P=NP ”其实就是要给 NP 问题（比如 SAT 问题）找到一个特别高效的找到合法答案的方法。LLM 给我的有趣体验是：LLM 可以从不一样的角度提出一个答案。

（绿洲：这就是陶哲轩在解决数学问题时说的 GPT 可以给他灵感）

没错，如果 LLM 可以朝那个方向训练，找一个机器可以很简单验证的 NP 问题（比如 SAT 问题），说不定 LLM 就可以很快给一个 NP 问题很多个待验证的解而且其中说不定就大概率有一个可行解。如果真能做到，那么至少是计算机世界中生产力的飞跃。但这目前还处于我的一个大胆设想阶段，还并没有付诸实践。

绿洲：所以总的来说，你觉得 LLM 是星辰大海，从现实层面，垂类私有数据加上 LLM 基础推理能力在特定场景有更好的表现，对吗？

商教授：对。除了这点之外，特定的公有数据（Public Data）组合，再配合 LLM 的推理能力也可以有一些创新。所有的这些创新都需要吸引大众一起去做，因为每个人的想法、应用场景都非常独特，只有人人都来参与、数据的飞轮起来了，才能越做越好。最后一定是Supervised learning 大于等于 Unsupervised learning。

绿洲：工业界和学术界持这个观点的占多数，引发的担忧就是这波 AI 最后在工业落地上和上一波会很像。上一轮也是 CV 期待很高，到最后 5% 差距拉不开，比如摄像头的硬件问题。在一个设备上适配的模型放到另一个设备上就未必适用了。这有点像公共数据和私域数据，这一轮到最后是不是还会存在这个问题？

商教授：你说的 CV 那一波的问题没错，而且是一个 AI 模型迁移的通病。但是从我的研究的角度来说，不是说用新闻分类这个垂类任务训练好的模型拿去做医学病例分析这个新的垂类任务，这肯定做不到。我们的目标是从任何的私有数据出发，结合极弱监督与 LLM 的推理能力，都可以快速地得到一个 80 到 90 分的垂类任务专属的模型。回顾一下我们前面提到的新闻分类的例子，我们只需要新闻数据，不需要任何标签，就可以得到一个 90% 左右的正确率。在我的研究中，不同垂类之间公用的部分是 LLM 的推理能力，其他部分都是每个垂类私有的，所以才会有很多小模型。这个小模型在没有标签的情况下，比如你有两个人，一个有很多病例，一个有很多新闻，大家都做分类，最终会是两个不同的智能体，分别带各自的数据来找我：一个说：“我有新闻，按主题分类政治体育”，我们可以做到 80 多分；病例的说：“我有 EHR，按病种分类“，也可以做到 80 多分。在这个过程中没有迁移，有的是同一套算法结合极弱监督与 LLM 的推理能力在创造两个不同的智能体。

绿洲：如果从 80 做到 95 分你的方法是否就很难迁移了？

商教授：这就是数据飞轮起来后的事情了。如果一个人持续用同一个智能体，发现问题之后教智能体，几个例子下来，效果就可以大大提高了。从 80 分到 95 分并没有那么难，难的是怎么在一开始达到 80 分。

绿洲：所以两波的区别是，原来基础能贡献 20%，domain-specific 出 80%的力，导致落到每个域成本就非常高，transfer 和 scale 的成本都很高。但这波是 82 原则，foundation 提供 80%，同一个方法算 20，同一个方法能用于多个域，自己转起来不需要标签，成本下来了。如此一来基础模型的公司是否很有优势？

商教授：没错，我的研究就是致力于如何让 foundation 提供 80%。光有 LLM 的推理能力和私有数据是不够的。前面我们提到同一份数据人们可以提出完全不同的需求。因此这个过程一定还需要配合极弱监督的方法，来真正理解用户给的这些数据要干什么。

绿洲: 能谈一下安全可控可信的问题么？

商教授：在 safety 和 security 这个方面，我们组也有布局。最近 DeepMind 做了一个程序优化，后来有人说他 prompt 了 ChatGPT 也得到了一样的代码。大家有没有想过 GPT 或者 LLM 是否有 universal prompt 的能力（类似于神经网络的 universal approximation capability）？比如我指定一个 output（比如那个优化完的程序），是否一定存在一个 prompt 可以得到一模一样的 output，或者说这个 output 有极大概率被生成。这个命题对吗？

我们实验室最近做了一个工具，有可能可以帮我们回答这个问题。

这个本身是一个深度神经网络（Deep Neural Networks，DNNs）的问题：如何理解一个训练好的 DNN 的输入输出的映射关系。

比如图像识别，假设我们训练了一个模型（ResNet，CNN，或者MLP）是用来分别输入的图片是否是手写的 0 和 1 的。所有的输入图片都是 28 像素乘以 28 像素的正方形灰度图。因为通常计算机中灰度是一个 0 到 255 的整数，所以可能的输入就有 256 的 28*28 次方。这是一个很巨大的输入空间（Input Space），有非常多不同的输入图片。又因为是一个分类问题，输出其实就是一个 0 到 1 之间的数表示该图片是手写数字 1 的概率。

我们感兴趣的输入输出的映射关系是什么呢？就是到底有多少个输入（比如上面提到的灰度图）可以导致某一个输出（比如“是手写数字 1 的概率等于 0.9”）。这本质上是想得到一个输入输出的直方统计图（Output Histogram）——X 轴是输出的值，Y 轴是对应这个输出值的输入个数。

为了解决这个问题，我们的最新工作（ICML’23）已经可以给出一个相对高效、非暴力枚举的、基于 sampling 来估计的 Output Histogram；与此同时，我们还可以告诉你每个输出值对应的有代表性的输入长什么样。我们主要做的是图像的一些模型，因为它们的输出是一个数字。

回到 LLM，模型的输出是什么？是一段生成的文字。输入是什么？是一段提示词（Prompt）。如果给定了一个提示词，通过 LLM 的计算，可以很容易地得到这个提示词产生某一段文字的概率是多少。与图像识别的例子做类比，如果我们将“这段提示词产生一段固定的文字的概率”作为输出看（这也是一个 0 到 1 之间的数字），我们可以通过类似的方法的到一个 Output Histogram，它刻画了有多少个（固定长度的）提示词（Y轴）有多大的概率缠身这段固定的文字（X轴）。

这个 Output Histogram 其实对对 security 和 safety 有很强的指导意义。如果对于某一个应用，我们有一个黑名单（blacklist）是不能生成的，那么就可以通过这个 Output Histogram 来检验到底是否有很多 Prompt 能够以一个很大的概率来生成这些黑名单上的文字。如果在 X 接近 1 的地方 Y 存在一个很高的峰值，那么这个模型就是不安全的；如果只有一个唯一的峰值在 X 很接近于 0 的地方，那么这个模型就是很安全的。有了这个工具，我们就可以对 LLM 的生成有更透彻的理解。

绿洲：这有点像当年做 penetration，如果系统是黑盒，就是通过不断尝试看 output，本质需要一定的 reverse engineer。

商教授：没错。这个任务是非常难的，因为我们面对的是任意的输入。这个输入的空间（Input Space）非常大。我们需要一个高效的采样机制（Efficient Sampler）, 直接来估计这个 Output Histogram 是怎么样的。我们已经做了一个图像作为输入的论文在 ICML’23 上发表了，主要借鉴了一些凝聚态物理上采样的技术。目前，我们正在推进 LLM 上的应用。

绿洲：医疗领域中可信度的问题怎么看？

商教授：关于分诊我的观点是，最后给到病人的输出一定还是基于规则的（Rule-based），一定还得按照现有的 Protocol 来。这个就是我前面提到的责任（Liability）的问题。任何想用 AI 替代人做决定且要承担责任的，都不现实，除非有法律或者保险公司有人愿意做。

如何把普通病人用的语言（Plain language）翻译成非常专业的（domain-specific）的语言，最终可以匹配上 protocol 中的提到的规则？这个是 LLM 可以帮忙的地方。

绿洲：这一波 AI 对美国的教育系统意味着什么？

商教授：ChatGPT 一出，我们学校马上就成立了一个任务小组（Task Force），去研究 ChatGPT 在大学教学中如何使用，哪些需求可以鼓励，哪些不可以，对学术 integrity 是否有影响？最后研究出来一个指导意见（Guideline）。从我的角度而言，所有大学生都应该去用 ChatGPT。从我本人的教学而言，我所有的作业考试都带回家做的（Take-home），至少有 48 小时可以做。在没有 ChatGPT 之前就是可以上网搜索的（Open Internet），搜得到答案也是一种本事。能用 ChatGPT 把这些问题的答案都问出来的人，我认为他本来能力就是足够的，拿一个满分也是应该的。

AI 最擅长解决的是重复劳动。前面也提到了，用 AI 的人会淘汰不用 AI 的人，会用 AI 的人会淘汰不会用 AI 的人。当然这个淘汰不是说 AI 代替了人，而是说会用先进工具的人淘汰了不会用先进工具的人。这个从古至今每一次生产力的发展都是一样的。

前面我们也提到了，“智能=知识储备+推理能力”。知识是随着时代发展、个人发展不断迭代的——新的知识会被不断的加入。因此我认为，教育的核心在于培养推理能力。如何培养推理能力呢？就需要用一定的知识点来教授、练习推理能力。这就好比有了计算器，我们也学加减乘除，也会手算。这是为什么？这是因为这些知识是发展推理能力的重要一环。ChatGPT 目前的推理能力其实是比较弱的，我觉得在必要的基础知识都学习完的情况下，在教育中，尤其是大学阶段，引入 ChatGPT 应该是一个大势所趋的事情。

绿洲：从研究方向上你有什么终极目标或者超大的里程碑么？

商教授：吹过的牛要实现（笑）。一开始说的一个回车解决所有事情。

绿洲：这个目标和 AGI 有什么区别呢？

商教授：我这个方向更数据驱动（Data-driven）更垂类（Domain-specific）。我们的目标是有一套方法可以给每个具体的垂类都孵化出不同的解决方案（Solutions）。从这个角度上和 AGI 略有不同。

我们实验室本质上是用数据挖掘（Data Mining）的这套思路在做文本数据相关的挖掘。虽然我们发很多自然语言处理（NLP）顶会的论文，但我们的这些方法都是数据驱动的。我个人觉得有点遗憾，LLM 没有由 Data Mining 的人做出来，因为它其实一点 Linguistic 都没有，是纯 Data-driven 的，这很符合 Data Mining 的哲学。

绿洲：你对未来的预判是什么？可以在任何时间尺度判断。

商教授：首先会有更好的多模态大模型出来。如果在没有更好的训练方法的情况下，一定是数据量和规模一起上去。我很感兴趣的一个工作是最近 Meta AI 发的 ImageBind。这其中用到了很多个数据集，基本每个数据集都有图片（image），有 image-text，image-IMU sensor，还有 image 加其他东西。图像作为一个锚点，所有的东西都 embed 到同一个 space 里。这可能是未来大模型的趋势，将多模态的数据集整合，公共的模态就是锚点，最后拼起来做一个东西。

我和 UCSD 的 Rajesh Gupta 一起带了几个 PhD students。我们主要想做智能物联网（Smart IoT， AI+IoT）。这里的难点在于 IoT 的数据人去阅读太难，而且量太大（一个传感器 1 秒就能有 100 个数据点、而且会同时有很多传感器）。所以 IoT 的数据怎么标？目前是请人到实验室，佩戴指定的设备，按照一套固定的指令做动作，然后把时间点都记录下来，就有了标注好的训练数据。但这种实验室采集的数据和真实数据差距很远。因此我们还有一个方向是“make the human unreadabe data readable”，即人类不能读的我们都想办法去“翻译”成图像或者文字，变成可解释的，找到最小的语义单元（Semantic Unit）。这个地方是 LLM 可以做的，我们做的事情是，问 LLM：现在有个人带着传感器在这些地方，我想判断他在打篮球，哪些传感器什么样的信号是有用的。LLM 可以给你列一个表，很详细，虽然有重复也有无关的点，但是大部分都是对的。我们可以把这个拿出去做初始化，再做无监督的对齐（Alignment）、纠正，就真的有可能可以自动地发现、产生最小的语义单元，就像自然语言中的单词一样。这个方向是我们最近在探索的。

未来的大趋势我觉得是大模型、多模态。更大的模型，更多（种类）的数据用进去，然后就是各种底座模型的更新换代。在这个过程中，我们的极弱监督方法也会越来越高效，人工愈来愈少，再也不用标数据，甚至脑机接口做好的话，人们大脑里想一想、工作就做完了。这就是生产力飞跃的象征，人力越少，生产力就越高。最后可能就看能否降低模型推理（Inference）的成本，做到人手 1 个、人手 5 个、甚至人手 100 个。移动互联网为何能做大？因为手机成本降低了，人手一个到两个手机。大模型现在的问题就是门槛太高太贵，就算 API 便宜，真正会用也需要一个比较高的技术门槛。真的要商业化，就要降低门槛、控制成本。

参赞生命力

你觉得什么是科技生命力？

时间是最昂贵的。寸金难买寸光阴说得完全没错。因此科技的价值就在于如何把时间变得更有价值——如何使用最少的人力（Minimum human efforts）来完成一个任务、达成一个成就？这个 Minimum human efforts 从另一个角度来看，就是最大化生产力（Maximized productivity），殊途同归。这也是我一以贯之的科研哲学（Research Philosophy）。

—— 商静波教授，UC San Diego 计算机系和数据科学学院

本文来自微信公众号“緑洲资本 Vitalbridge”（ID:Vitalbridge），作者：参赞生命力，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。