用AI五分钟就能生成一档播客？感觉降维打击了。

摘要

1) 一句话总结 Google NotebookLM 新增“音频概览”功能，支持在5分钟内将文本、文件或网页转化为约10分钟的高拟真双人英文播客，为非阅读场景（如开车、做家务）提供了全新的听觉学习方式。

2) 关键要点

核心功能：通过导入文本、PDF文件或网址链接，AI可自动解析内容并生成双人对话形式的播客音频。
生成效率：处理速度快，最多耗时5分钟即可生成一段约10分钟的音频。
拟真效果：AI主持人具备高度拟真的交互感，包含打断、附和、语气词（如“嗯啊”）以及调侃等自然聊天特征。
使用流程：需登录Google账号，通过创建“笔记本”（独立的知识库）导入资料，即可一键生成音频或进行基于知识库的问答、生成目录和时间线。
适用场景：打破了传统AI工具仅限于“基于文字”的局限，满足听觉学习者的需求，适合在做家务、开车等无法阅读的碎片化时间使用。
实际应用案例：据官方Discord社区反馈，用户已将其用于总结长篇群聊记录、制作博物馆教育音频、生成高中生复习资料以及辅助数学家理解学术论文。

3) 风险与不足

语言限制：目前仅支持生成英文音频，不支持中文等其他语言（对比同类工具如11Labs可支持29种语言）。
声音单一：不支持声音克隆或自定义音色，仅有固定的两款AI声音，长期使用易产生听觉疲劳。
文本趣味性不足：受限于底层的Gemini模型，生成内容的幽默感和趣味性仍不及真人播客，文本表现力也弱于Claude。
社交替代局限：AI工具无法真正替代真实的人际交流与面对面互动。

正文

不是，直接给一篇文章，然后用AI就能生成十几分钟的双人播客，两人有打断、有调侃、有语气，一个捧哏一个逗哽各司其职，比人聊的还好听，你敢信？

这个中秋假期，我信了，真的。

Google做的一款AI笔记应用，Notebook LM ，这几天更新了一个新功能，就是根据文本，生成双人播客。

他们称这个功能，为音频概览。

我把我前几天写的那篇OpenAI上线o1的公众号文章扔了进去，生成了一个播客，给你们听下效果。

这个语气，这个聊天的感觉，我人麻了。

几乎跟真人无异，在一个人说话的时候，另一个人甚至会在其中穿插一些嗯啊之类的语气反应，还会打断，附和。

最重要的是，这种形式，真的很有趣。

过往，我们已经看到了无数，使用AI帮助自己学习的例子。

比如我自己最喜欢的，把一个名词或者一句我不懂的话，扔给Claude或者ChatGPT，然后附一段我自己最喜欢的Prompt：

“我是一个六年级的小朋友，请用极度详细、通俗易懂的例子帮助我理解这部分信息。”

他会给我讲解的非常非常细致，比如，解释一下最近海外独角兽文章中的一句话：” 纯靠语言的经典 scaling law 做 pre-train 的这个物理规律是不是就遇到瓶颈了？”

无敌好用，真的，在我学习路上陪伴了我N久，非常适合我这种笨比门外汉。

但是不管是解释、还是思维导图、还是各种摘要或提问，其实有一个共同点，那就是：

全部都是基于文字的。

但是这种有一个很大的问题是，并不是每个人，或者说每个时间，都是通过阅读来学习的。

很多人其实是听觉学习者，或者在一些不方便阅读的时候，使用听觉来获取信息以及学习，比如播客两个最典型的场景，其实是做家务和开车。

这两个场景，占据了相当大的时间，但是这个时候，你想阅读，是不可能的。

播客的使用量也急剧上升，不管是国内还是国外，播客也都证明了，理解一个主题的最有效方式之一，是倾听两个有趣且投入的人进行对话。

但播客的数量，就那么点，求人不如求己，被动学习不如主动学习。

所以，在此基础上，Google NotebookLM的“ 音频概览 ”应运而生。

只能说他们太懂学习了。

网址在此：https://notebooklm.google/

记得上魔法，然后登录google账号就能直接用。

进去了，先创建一个笔记本，每个笔记本你可以理解为，是一个单独的知识库。

你可以扔网址、扔文件，也可以只粘贴文字。

我把我的人物简历PDF扔进去以后，他就会自动对内容进行解析，给你弹出笔记本指南。

你可以跟知识库一样随便问随便学习，可能列出目录、时间线等等，当然，最屌的还是那个音频概览。

点一下生成，最多耗时五分钟，你就能得到一个大约十分钟的，由两个AI 主持人进行 “深度探讨”的英文音频播客。

我把两人聊我简历的这段小播客，扔到飞书妙记里，给大家看一下大概的内容。

这两人聊的，真的很有趣，情绪价值拉满，中间还会针对我的经历做一些讨论，给我加一些奇奇怪怪的梗。

说实话，听到有人用很聊天的感觉，在聊我的故事，那感觉还是有点羞耻的，但是，不知不觉，这6分钟很快就听完了。。。

整体，这个效果好是好，但是在我听了十几段我把各种乱七八糟的文件、笔记、研报、文章、网站扔进去之后，我也发现了三个很大的问题。

那还是语言问题，作为一个中国人，我还是喜欢听自己的母语，没有什么比中文更酷的语言了，但是现在的NotebookLM，只能生成英文，这肯定不够，11Labs还能生成29种语言呢。
不支持声音克隆，就跟文本、绘图、音乐一样，一定会有人希望用这个东西去做自己的播客的，如果全世界都是现在这两人的声音，那听一听肯定就还是腻了，如果能跟11Labs一样，支持语音克隆，自定义声音，那就完美了。
文本的幽默性还是不够，播客大家很多人听，也是希望能既有趣又有用，真要哐哐的在那听1小时干货，那人也麻了，所以你看为啥半拿铁订阅者那么多，是因为他们真的讲的很有趣啊。。。而NotebookLM受限于自己家的Gemini，在幽默和文本上，真的还是差Claude一大截。

不过音频概览这个功能，也仅仅只上线了几天而已，我的要求可能确实有点多，没事，问题不大，未来可期。

我也顺道，加入了他们官方的Discord群聊，把群里的聊天记录，翻到了上线前的那一天，也发现了很多有趣的使用场景。

有个叫 paradroid的老哥，把Discord一天的聊天记录粘贴到NotebookLM里，每天晚上听一个简短的播客，来总结群里一天的聊天。

有天文博物馆的老哥，用他来做音频，帮助教育工作。

也有高中教师，把它当作给学生复习的音频资料。

还有数学家，用NotebookLM制作的播客，辅助自己理解论文。

等等等等。

好像有一种全新的场景，被开辟出来了。

我觉得，与其担心被AI取代，不如想想怎么利用好这些工具来提高自己。

比如说，就这个小东西，我们可以用它来:

快速消化大量信息，把长篇大论变成有趣的对话。在做家务或者开车的时候”阅读”那些平时没时间看的文章。练习英语听力，顺便学点新知识。甚至可以用来准备演讲稿，听听别人(虽然是AI)怎么聊你的观点。

多个模态之间的相互流转，一定会是未来最主要的旋律。

无需抵制，大胆去用就行了。

就像黑悟空中，黄梅老儿那句经典的台词一样：

既见未来，为何不拜。

一个样。

但是，没错，但是来了。

再牛逼的AI，再有趣的场景，我觉得，也不能替代真实的人际交流。

毕竟，没有什么比和朋友面对面地聊天，一起分享观点和笑声更让人愉快的了。

所以，你要不要一起找个时间，跟你的朋友，坐下来好好聊聊天啊？

说一句：

“我请客，咱们边吃火锅边聊聊天，怎么样？”

wsl-docs

探索

用AI五分钟就能生成一档播客？感觉降维打击了。

摘要

正文

关联主题

关系图谱

目录

反向链接