NotebookLM 功能逆天了:我是如何用它来深度学习的
神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:别再等AI喂给你知识了。关键中的关键是,你得先教会AI“如何教你”。文章来自编译。
顺便分享一些我用来定制化学习的实用提示词。
我本想用 LangChain 为我的newsletter写个具备 RAG(检索增强生成)功能的专属 AI 智能体聊天机器人的。
但问题是,我完全不知道从何下手。
每一篇教程都默认我已经懂了向量数据库、嵌入(embeddings)和检索管道。那些文档是写给把 Python 玩得滚瓜烂熟的开发者的。Stack Overflow 上的帖子动辄“分块策略”和“相似性搜索”这样的术语,好像人人都该懂似的。
我就卡在那种“一知半解,离真正有用还差得远”的尴尬境地。我理解 ChatGPT 和 Claude。我也用 Make.com、Zapier、n8n、Relay 这些工具写过过自动化流程,感觉已经颇为高级了。
但 LangChain 呢?
用代码开发真正的 AI 智能体?
这感觉就像只看了几个 YouTube 视频,就被人推上手术台去做外科手术一样。
零代码自动化和真正的 AI 智能体开发之间的鸿沟,感觉宽得令人绝望。我无法理解。
然后我想起了那个曾改变过我学习方式的工具。
六个月前,我曾写过一篇关于 NotebookLM 的文章。那篇文章成了我迄今为止最火的一篇——读者显然对“将 AI 变成个性化学习系统,而不只是又一个研究工具”这个想法产生了共鸣。
但我没想到的是:NotebookLM 它自己也在不断进化。
就在我专注于开发 AI 自动化工作流、探索新的 AI 工具的时候,NotebookLM 悄悄地增加了一些功能,彻底改变了可能性。我们说的不是小修小补——而是一种能让你根据自己所处的学习阶段,来定制 AI 如何教你的能力。
而当你试图跨越从零代码到实际开发智能体的鸿沟时,这一点改变了一切。
所以,当我在用 LangChain 和 RAG 系统构建 AI 智能体上碰壁时,我又回到了 NotebookLM。但这一次,我不再只是上传信源然后提问,而是构建了一个完整的学习生态系统,这个系统完全契合我当时的水平:一个懂 AI 概念、但从未实际开发过智能体的“AI 操作员”。
NotebookLM
在继续之前,我想特别提一下 Jason Spielman,他是 NotebookLM 背后的艺术家兼首席设计师。他早期的草图和实验造就了今天的版本。我对这个设计的复杂性感到惊讶——就像看着一个打磨精良、开箱即用的成品送到你家门口。如果你喜欢产品开发的艺术,你可能会想看看他讲述的 NotebookLM 的早期开发故事。
相信我,那故事非常精彩!
好了,言归正传。
当我不再强迫自己像开发者那样学习,而是构建了一个匹配我大脑实际工作方式的系统后,事情发生了变化。
我构建的学习系统
在我真正开始学习之前,我必须解决第一个问题:我到底该读些什么?
当你学习一个全新的东西时,你甚至都不知道哪些资料是靠谱的。Google 一搜“LangChain RAG 教程”,你会得到 10000 个结果。
哪些是给新手的?哪些已经过时了?哪些又默认我具备了我所没有的知识?
就在这时,NotebookLM 的“发现”(Discover) 功能成了我的第一个突破口。
阶段一:筛选“对的”信源(而非“随便”哪个信源)
大多数人没有意识到,你可以定制 NotebookLM 为你查找的信源种类。你不用只问“帮我找找 RAG 的资料”,而是可以具体指定你需要的信源类型。
我是这样使用Discover功能的定制选项的:
定制一:“只从 Reddit 查找信源”
Reddit 的帖子里会有真正的开发者揭露他们在哪儿卡壳了。你会看到像“我是一个试图理解 RAG 的新手,这是最终让我豁然开朗的东西”这样的帖子。这些人往往只是比你快了一步,正在解释他们的突破点。这对于构建初步的心智模型非常完美,不会被各种流行词和行话搞得晕头转向。
定制二:“只查找 YouTube 视频”
这些年来,YouTube 一直是我最大的学习来源,因为它通常有我能轻松跟上的新手指南。上面也充斥着能带你从入门到进阶的内容。
定制三:“只查找来自 LangChain、OpenAI 和 ChromaDB 的官方文档 PDF”
如果你一上来就看文档,那是没用的——文档是写给已经懂基础的人看的。但一旦你从 Reddit 和 YouTube 建立了心智模型,官方文档突然就变得有意义了。指定“仅 PDF”或“来自 LangChain.com”可以防止搜到杂七杂八的博客文章,确保来源的权威性。
定制四:“只从顶级技术出版物查找信源——如 AWS 博客、谷歌云文档、企业案例研究”
这些信源解释了企业为什么要做 RAG 系统以及现实世界的架构决策。一旦你理解了怎么做,你就需要了解生产环境的最佳实践、成本优化和安全考量,而这些只有企业级信源才会涵盖。
通过定制信源类型,我创建了一套多样化的材料来加深对我所学主题的理解。这帮助我避免了单一信源的偏见,让我能看到多元的视角,使我的学习比以往任何时候都更扎实。
此外,你还可以用你 Google Drive 里的文件作为信源。这是他们最近刚加的新功能。
Perplexity 深度研究 + NotebookLM:收集信源的强力组合
🚨 专业提示:想提升你的信源收集效率吗?使用 Perplexity 的深度研究功能来收集高质量信源,然后让它将引用文献汇编为原始链接。把这些链接复制到 NotebookLM 中作为你的信源集。这样,你就快速拥有了一个精选的研究中心。
阶段二:用不同的学习风格打基础
筛选完信源后,我就有了“原材料”。现在我需要真正地从中学习。但问题是:坐下来阅读文档让我感到不堪重负,而且我每天能集中精力的时间有限。
这就是 NotebookLM 多格式生成功能大放异彩的地方。我没有强迫自己用单一的学习方式,而是将格式与情境相匹配——通勤时听音频,需要好好看时看视频,需要深度时读报告。
我们来逐一分解。
1. 用定制化报告打好基础
NotebookLM 定制化报告
当我要学习新东西时,我甚至连“自己不知道什么都不知道”。像“向量嵌入”、“语义搜索”和“检索管道”这样的术语随处可见,但我分不清哪些是核心必备的,哪些只是锦上添花的。
NotebookLM 有一个“报告”功能,提供多种格式:博客文章、简报、学习指南,以及根据你上传的文档自动建议的四种额外选项。你可以用自定义指令来生成它们,也可以自己编写。
不过,我更喜欢从我自己的指令开始。
这里有一些你可以用来创建自己报告的自定义指令:
定制一:将新知识与你已有的知识“锚定”
指令:
通过对比 [我已理解的事物],来解释 [新主题]
我的示例:
“通过对比 make.com 的工作方式,来解释 LangChain 和 RAG”
这么做的好处是:我不再是在真空中学习,而是将新概念锚定在了我已理解的事物上。
NotebookLM 解释说:“在 Make.com 中,你构建的是遵循预定步骤的工作流。而使用 LangChain,你构建的是让 AI 根据用户的问题来决定采取哪些步骤的系统。Make.com 是一个你必须严格遵守的食谱。LangChain 则是给 AI 提供食材,让它自己去烹饪。”
我豁然开朗,明白了为什么我需要换种方式来学这个。
定制二:渐进式增加复杂度
指令:
从对 [主题] 最简单的解释开始,然后逐层增加复杂度
我的示例:
“从对 RAG 最简单的解释开始,然后逐层增加复杂度”
这么做的好处是:避免了第一天就信息过载。
我学到的:
简单版:RAG = 让 AI 能访问你自己的文档,以便它能回答关于这些文档的问题
进阶层:它的工作原理是把文档转换成数字(嵌入),并在用户提问时找到相关的数据块(chunks)
技术层:向量数据库存储嵌入,相似性搜索检索相关数据块,大语言模型(LLM)使用检索到的上下文生成答案
每一层都建立在前一层的基础上,而不是一股脑地把所有东西都砸过来。
定制三:技能等级进阶图
指令:
分 4 个层次解释这个主题:(1) 绝对新手(无术语),(2) 中级(带关键术语),(3) 高级(有技术深度),(4) 专家级见解(指出大多数人容易搞错的地方)
我的示例:
“用这个指令来理解从简单聊天机器人 → 文档助手 → 研究智能体的进阶过程”
这么做的好处是:这给了我一个进阶路径,而不是逼我马上去开发高级版本。
我获得的清晰认知:
新手:FAQ 聊天机器人(需要:基础 RAG、简单嵌入、单一信源)
中级:文档助手(需要:数据块优化、多信源、元数据过滤)
高级:研究智能体(需要:复杂的检索策略、重排序、引用跟踪)
专家级洞察:AI 智能体最适合用于特定场景,而非广泛用途
我意识到我不需要一口气掌握所有东西——我只需要先开发出那个新手版本。
2. 用音频概览打造定制化播客
NotebookLM 音频概览播客
现在,我已经吸收了书面报告,但我需要在“死时间”里进行强化。
比如:我下午散步和去健身房锻炼的时候。
NotebookLM 的“音频概览”功能可以创建由两位 AI 主持人进行的播客式对话。你可以定制格式(“深度探讨”、“简报”、“评析”、“辩论”)、时长和焦点。而且你可以在播放时随时提问。
🚨 专业提示:NotebookLM 的移动应用让我在路上也能听,但我希望能有更多控制权。我希望能下载这个播客并上传到 Spotify,这样我一点就能播放,并且能和我已关注的播放列表无缝衔接。
以下是我的三个播客策略,效果出奇地好:
定制一:新手采访专家
设置:
使用“深度探讨”格式,默认长度。
指令:
设定特定受众:让第一个主持人扮演对 [主题] 一无所知的纯新手,第二个主持人扮演专家。新手应该采访专家,问一些刚接触的人真正会问的基础问题。
我的示例:
“让第一个主持人扮演对 AI 智能体一无所知的纯新手,第二个主持人扮演专家。新手应该就开发 RAG 系统采访专家。”
这么做的好处是:
你能听到那个新手主持人问出你真正想问的问题
专家在解释时不会假设你已具备先验知识
这种采访形式感觉很自然,不像是在听课
我听到的内容:
新手:“好吧,但为什么我不能直接把我的文档粘贴到 ChatGPT 里呢?”
专家:“好问题!这种方法的问题在于……”
这感觉就像在实时收听我自己学习的过程。
定制二:专家辩论
设置:
使用“辩论”格式,默认长度。
指令:
让两位专家就 [主题] 的不同方法进行辩论。一方支持 [方法A],另一方支持 [方法B]。他们应该讨论各种权衡取舍,而不仅仅是争论谁对谁错。
我的示例:
“让两位专家辩论一下,新手是应该从简单的 RAG 开始,还是应该直接跳到高级检索策略。讨论每种方法的权衡。”
这么做的好处是:
倾听双方观点能防止你认为只有一种“正确”的方法
你学到的是决策框架,而不仅仅是事实
它向你展示了有经验的人到底在争论些什么
我听到的内容:
专家1:“从简单的开始,这样你才能理解基础。”
专家2:“但简单的方法会让你养成坏习惯,以后还得花功夫纠正。”
双方:讨论了在什么情况下各自的方法是合理的
这帮助我理解了,我可以追求不同的路径,并不存在一个完美的答案。
定制三:专家评析
设置:
使用“评析”格式,默认长度。
指令:
让一位专家评审这些信源并提出建设性批评:缺少了什么?哪些地方过于简化了?新手在阅读这些材料时通常会误解什么?
我的示例:
“让一位专家评审这些 RAG 教程,并指出缺少了什么、哪些地方过于简化了,以及新手通常会误解什么。”
这么做的好处是:
揭示了你收集的信源中存在的空白
在你形成常见误解之前就向你发出警告
告诉你应该对哪些内容持怀疑态度
我听到的内容:
“这些教程让 RAG 看起来很简单,但它们完全跳过了数据块优化。”
“大多数指南都没提到,你的第一个 RAG 系统很可能会返回糟糕的结果。”
“注意到了吗,这些信源都没讨论成本问题。”
这次评析让我避免了在听完前两遍后就自以为无所不知。
3. 用定制化视频概览让你看得清楚
NotebookLM 视频概览
通过阅读和聆听,我已经理解了这些概念,但有时候我仍然需要有人能像讲入门课(101 presentation)一样给我解释一遍,让我能快速上手,并进阶到更复杂的主题。这就是视频的用武之地。
NotebookLM 的“视频概览”功能可以生成带有 AI 旁白的演示文稿。对于喜欢看的学习者来说,这可能正合你意。
以下是我的3条策略,也是建立在我从播客学到的知识之上:
定制一:结构化的学习路径
指令:
描述一下演示结构:从我需要首先理解的内容开始,接着是下一个内容,再接着是再下一个。按学习顺序组织,而不是按主题复杂度。
我的示例:
“从 RAG 是什么以及为什么存在开始,然后解释我需要知道的核心组件,接着向我展示基本工作流,最后告诉我应该先学什么以及哪些可以缓缓。”
这么做的好处是:
文本幻灯片以清晰的学习顺序列出了信息
在深入细节之前,你能看到全局
在你阅读的同时,旁白会解说每一页幻灯片
我实际看到的内容:
幻灯片1:“什么是 RAG?” 附带 3-4 个要点
幻灯片2:“核心组件” 列出了嵌入、向量数据库、检索、大语言模型
幻灯片3:“基本工作流” 附带编号步骤
没有复杂的图表——只有组织有序的文本,帮我一步步建立理解。
定制二:对比表格演示
指令:
针对特定用例:通过比较复杂度、成本、时间投入和最佳用例等关键因素,帮我在 [选项A]、[选项B] 和 [选项C] 之间做出选择。
我的示例:
“通过比较复杂度、各自的适用时机以及我需要为每种方式学习什么,帮我选择如何构建 AI 智能体。”
这么做的好处是:
简单的基于文本的对比幻灯片清晰地展示了差异
在你阅读的同时,旁白会带你过一遍各种权衡取舍
帮助你做出决策,而不仅仅是消费信息
我实际看到的内容:
NotebookLM 视频概览结果
幻灯片显示了三列:智能体类型、能力和最适用场景
AI 旁白会在幻灯片之外进行更深入的解释
表格突出了关键差异
这种可视化效果很好,帮我选定了自己的路径。我能看清我该如何着手开发我的 AI 智能体。
定制三:错误预防清单
指令:
专注于特定主题:创建一个演示文稿,列出新手在 [主题] 上最常犯的错误。对于每个错误,解释会出什么问题以及该怎么做。
我的示例:
“列出新手在开发 RAG 系统时最常犯的错误。对于每个错误,解释会出什么问题(比如使用的数据块太大或太小)以及该怎么做。”
这么做的好处是:
逐页清单的格式便于日后参考
文本清晰地陈述了 错误 → 后果 → 解决方案
防止你花好几个小时去调试那些显而易见的问题
我实际看到的内容:
幻灯片1:“错误#1:数据块大小” 附带要点解释问题
幻灯片2:“会发生什么” 描述糟糕的检索结果
幻灯片3:“该怎么做” 附带具体指导
这份演示文稿成了我的故障排除参考指南,每当我遇到问题时都会翻看。
阶段三:通过验证“你以为你懂的”来测试你的知识
在通过报告、播客和视频吸收了信息后,我以为我懂了 AI 智能体和 RAG 系统。我可以在读到相关概念时解释它们,也可以在听到解释时跟着点头。
但是,我需要通过测试来确保我真的完全理解了整个概念。
这时候,NotebookLM 的测试功能揭示了“我以为我懂”和“我真的懂”之间的差距。
1. 使用“闪卡”测试我的理解
NotebookLM 的闪卡
我以为我理解了概念,但当我想去实施时,我意识到我只是在背定义,并没有真正理解东西是怎么协同的。
NotebookLM 的“闪卡”功能让你能用自定义指令生成卡片,并能就任何答案要求解释。你可以选择制作多少张卡片,还可以调高或调低难度。最终结果是:一个高度定制的学习环节。
我是这么用闪卡定制功能的:
定制一:基于场景的测试
指令:
创建基于场景的闪卡,测试我就 [主题] 做出的决策能力,而不只是测试定义。给出真实情景,需要我选择正确的方法。
我的示例:
“创建基于场景的闪卡,测试我构建 RAG AI 智能体的决策能力,而不是测试定义”
这么做的好处是:
迫使你应用知识,而不只是认得知识
揭示你是否理解了什么时候运用你所学的知识
暴露在实际理解上的差距
我抽到的一张卡片示例:
“一个用户上传了一份 200 页的 PDF 手册,并想就此提问。你需要:(a) 微调,(b) RAG,(c) 提示词工程,还是 (d) 函数调用?”
我自信地回答了 (c) “提示词工程”,因为我以为只要把内容粘贴到提示里就行了。
错了。
答案是 (b) RAG,因为 200 页超出了上下文窗口的限制,你需要通过检索来提取相关部分。这张闪卡揭示了,我其实并不理解 RAG 在什么时候是必要的,什么时候是可选的。
定制二:新手的常见错误
指令:
专注于新手在 [主题] 上常犯的错误。创建闪卡,测试我是否能识别出哪里错了以及为什么错了。
我的示例:
“聚焦在新手在开发 AI 智能体时常犯的错误”
这么做的好处是:
让你在遇到问题前就有所准备
测试你对故障模式的理解
建立故障排除的直觉
一张帮我免去日后麻烦的卡片示例:
NotebookLM 闪卡示例
看到了吗?这些闪卡完全是根据我的自定义指令量身定做的。如果我想问某个答案背后的逻辑,我可以点击“解释”,它会带我到聊天区,在那里我可以进行更深入的探索。
定制三:学习术语以加深理解
指令:
为我在 [主题] 中总是混淆的特定术语创建闪卡。让我分别用一句话解释相似概念之间的区别。
我的示例:
“为我总是混淆的特定术语创建闪卡:嵌入 vs 向量 vs 向量数据库,语义搜索 vs 关键词搜索,检索 vs 生成。”
这么做的好处是:
澄清那些阻碍你理解的术语
迫使你精确理解,而不是停留在“我好像懂了”的模糊状态
让文档突然变得可读了
那些曾困扰我的术语:
“分别用一句话解释嵌入、向量和向量数据库之间的区别”
嵌入 = 将文本转换为数字的过程或结果
向量 = 那些以数组形式存在的数字
向量数据库 = 为查找相似向量而优化的存储系统
“语义搜索和关键词搜索有什么区别?”
关键词 = 查找完全匹配的词
语义 = 查找意思匹配的内容(即使词语不同)
把这些术语搞清楚后,阅读文档的难度降低了 10 倍。
2. 进行“测验”:测试概念如何应用和关联
NotebookLM 测验功能
如果你和我一样,你不会只满足于闪卡。你会寻找其他方法来测试你对新学主题的理解。这就是为什么我调整了测验,让它进行更高强度的压力测试,以揭示我是否能整合知识并解决实际问题。
NotebookLM 的“测验”功能可以生成带解释的选择题(闪卡则不提供选项)。
这是我的测验定制策略:
定制一:跨概念的综合测试
指令:
创建需要我结合 [主题] 中的多个概念来解决问题的测验题。不要孤立地测试概念——要测试我是否理解它们是如何协同工作的。
我的示例:
“创建需要我结合多个 RAG 概念——嵌入、数据块大小、检索质量和 LLM 生成——来解决实际应用问题的测验题。”
这么做的好处是:
测试你是否理解了整个系统,而不只是组件
揭示你在概念关联理解上的空白
为现实世界的复杂性做准备(在现实中,任何事物都有关联)
我抽到的一道题示例:“你的 RAG 聊天机器人返回的信息是准确的,但用户抱怨答案缺乏上下文。问题最可能出在:(a) 嵌入模型错误,(b) 数据块大小太小,(c) 向量数据库错误,(d) LLM 没理解问题”
我猜了 (a),因为“嵌入”看起来是技术性最强的。
又错了。
答案是 (b) 数据块大小太小——它检索到了精确匹配的内容,但丢失了完整答案所需的周围上下文。这道题揭示了,我并不理解数据块大小是如何影响答案质量的,我只知道它会影响检索。
定制二:权衡决策测试
指令:
创建关于 [主题] 中权衡取舍的测验题。每道题都让我在几个各有优缺点的选项中选择——在没有上下文的情况下,没有普遍‘正确’的答案。
我的示例:
“创建关于 RAG 系统架构权衡的测验题。让我根据不同的优先级(如速度 vs 准确性、成本 vs 质量、简洁 vs 强大)在选项中做出选择。”
这么做的好处是:
为没有完美答案的真实决策做准备
测试你是否理解了为什么要选择某个选项
建立决策框架,而不仅仅是知识
我抽到的一道题示例:“对于一个每天要回答 10000 个问题的聊天机器人,哪种方法能最好地平衡成本和质量:(a) 用高质量嵌入检索 3 个数据块,(b) 用标准嵌入检索 10 个数据块,(c) 用重新排序检索 1 个数据块,(d) 用混合搜索检索 5 个数据块”
这不是要选“正确”答案——而是要理解其中的权衡:
更多数据块 = 更好的上下文,但成本更高
更好的嵌入 = 更好的检索,但更慢/更贵
重新排序 = 提高相关性,但增加复杂性
混合搜索 = 效果最好,但成本最高
这个测验迫使我深入思考每种选择的(潜在)影响,而不只是挑选那个看起来最高级的选项。
定制三:故障模式预测
指令:
创建要求我预测 [主题] 中什么会出问题或失败的测验题。给出情景,问我会发生什么问题,以及为什么。
我的示例:
“创建要求我预测在构建 AI 智能体系统时什么会出问题的测验题。给出应用情景,问我会发生什么问题。”
我抽到的一道题示例:
正确答案是 D,因为要构建一个能真正解决业务问题、满足真实需求的 AI 智能体,特异性(specificity)是必需的。
如果你不确定答案,可以要个“提示”。它会推你一把,帮你靠近正确答案。
究竟发生了什么样的改变
经过一周这样的学习,我终于弄清楚了,到底哪些是我现在就必须知道的,哪些是我可以以后再搞明白的。我可以开始为我的新闻通讯构建 AI 智能体聊天机器人了,这样读者就可以随时访问我的全部知识库——从我的新闻通讯和社交笔记中提取资源——无论他们是想学习还是想探索我的内容档案。
以下是整个过程中最让我惊讶的地方:
我原以为 NotebookLM 的新功能只是为了生成不同格式。播客、视频、闪卡、测验——不就是用更多方式来消费同样的信息嘛,对吧?
错了。
每种格式都解决了一个我甚至没意识到的不同学习问题:
报告为我打下了基础,但我不可能在通勤路上一遍遍重读它们。
播客让我在散步时也能学习,但我无法在脑中想象出各个组件是如何连接的。
视频向我展示了结构,但我(看后)高估了自己实际的理解程度。
闪卡揭示了,我只是“认得”答案,而没有真正“理解”它们。
测验则暴露了,我根本无法实际应用我学到的东西。
我意识到,所有这些功能都是为了通过契合我当前的水平来定制我的学习需求。
六个月前,我写过一篇关于 NotebookLM 作为学习工具的文章。那篇文章成了我最受欢迎的一篇,因为读者对“将 AI 变成个性化学习系统,而不是去跟那些千篇一律的教程”这个想法产生了共鸣。
但我当时没有意识到——而现在我明白了——那就是:
学习的未来,不在于 AI 教你。
而在于你教会 AI 如何来教你。
我在这篇文章中分享的每一个定制提示,都是在告诉 NotebookLM 我的知识差距在哪里、我的大脑是如何建立联系的、哪种学习方式适合我当下的情景。AI 不会魔法,它不知道这些。我必须自己设计我的学习路径。
说真的,这才是真正值得培养的技能。
如果你现在正试图学习一些复杂的东西,无论你像我一样在学 AI 开发,还是在学市场营销、健身或别的什么,都别再强迫自己去啃那些根本不适合你当前水平的教程了。
相反,你应该思考:
你已有的哪些知识可以用来锚定新事物?
你现在到底困惑在哪里?
你是在测试你是否能“认得”信息,还是在测试你是否能真正“应用”它?
然后,利用 NotebookLM 的定制功能来构建你所需要的学习系统。
我分享的提示词不是什么魔法公式。它们只是一些示例,展示了如何设计出匹配你当前位置和未来目标的学习方式。你的定制会看起来不一样,因为你的学习需求是不一样的。
而这,恰恰就是重点所在。
NotebookLM 你用得怎么样?在评论里分享你最得心应手的技巧和窍门吧。
译者:boxi。















