
“完全抛弃传统的代码编辑器,我直接告诉 AI 去修改代码。”
“一块5090显卡,就可以复刻以前 Transformer 的所有研究。”
“模型以一种奇怪的、类似‘外星人’的方式在进行泛化。”
说出这些话的人,是 Lukasz Kaiser。
作为改变世界的“Transformer 八子”之一、前 Google Brain 核心成员、前 OpenAI 顶尖科学家,他在昨天的一期播客里对现在的 AI 做了深刻的分析。
首先,关于 Transformer 架构是否会继续占据主导地位?
作为 Transformer 架构的创建者之一,Lukasz Kaiser 的观点是:“它还没有完全达到那种我们所有人都能感受到的、可能应该更好的境界。现在有些实验室已经开始研究后‘Transformer’架构,至于哪一个最后会胜出,现在还并不确定。”
当主持人问到多模态模型的时候,他认为,多模态并没有进行真正的架构改变。目前的 Transformer 无法以它现有的速度每毫秒吸收一张高分辨率图像,就是因为它把图像切碎了,而且在这个过程中过于线性,所以根本行不通。
第二,与现在“AI 可能导致人们思维懒惰”的说法不同,Lukasz 还提出了一个反常识的观点:“AI 让思维更加敏捷,甚至在如今的研究人员中已经引发了一种轻度的“精神狂热”,我们根本停不下来”。
“因为正是由于我不需要去关注每个类名或每个细小的函数,但我依然很清楚这些智能体随时可能会脱缰跑偏。所以,你的大脑必须拥有绝对的全局控制权。”
第三,长上下文的解决方案竟然是:把一堆东西写进文件里,然后让它能用 grep 去查找,再让它去写索引文件。这种解决方法在5年前看来只会认为是“非常拙劣的应付手段”
第四,模型并不是不具备泛化能力。它在泛化,只不过是以一种奇怪的、类似“外星人”的方式在进行。
Lukasz 举了一个例子,模型能在其他领域能解决非常非常难的问题,但一到几何题,你就会觉得“好吧,它没有空间理解能力”。然后它只是见到了更多的几何数据,就开始破解几何题了。
第五,小语言模型并不能替代真正的“巨无霸”模型。
一两年前流行的观点:“大语言模型已经走到头了,小语言模型才是未来,小模型才是趋势。”但在 Lukasz 看来,如果你真的想轻松解决重大问题、完美适应你的数据和业务上下文,目前似乎依然没有什么能替代那些真正庞大的“巨无霸”模型。
第六,一块 5090 显卡,就可以复刻以前 Transformer 的所有研究。
当年他们 8 个人写出改变世界的 Transformer 论文时,用的是一台八卡机器,整机真实算力也就 70-80 Teraflops。而 2026 年他放在自己桌子底下的单张5090 显卡,实际算力就已经达到了 ~200 Teraflops(是当年整台顶尖大厂机器的 2.5 倍以上)。
这也意味着,在家里一张 5090 显卡就能把当年关于 Transformer 的所有研究全部跑一遍。
第七,AI 编程的下一个前沿,不是 OpenAI 与 Anthropic 谁输谁赢得问题,而是它们如何很好地延伸到其他领域?
“我认为编程市场足够大,容得下两个优秀的“程序员”产品;现在的悬念在很大程度上变成了:你如何把这种能力带给其他行业和岗位的人们?”
除了上述内容,还有更多硬核观点,包括“Andrej Karpathy 入局RSI、完全抛弃传统的代码编辑器、剩下的 AI 瓶颈都受限于数据、OpenAI 的‘研究员级实习生’、开源模型和闭源模型”等”
全文就在下面!
主持人:非常荣幸能邀请到 Transformer 论文的共同作者来到我们的播客。我觉得没有比“泛化”更好的切入点了,感觉这就是目前大家都在讨论的核心问题。而且我记得在 11 月,我听你说过,基本上这个大问题就是:仅仅依靠推理就足以实现泛化吗?还是需要另外的方法?我想你大概是六个月前说这话的,这在 AI 世界里简直就像过了好几年一样。那么从那时起,你对这个问题的看法发生了怎样的变化?
Lukasz Kaiser:如果我们看看现有的、具备推理能力的 Transformer 模型,加上智能体,它们可以访问 Shell 之类的工具,能做出非常惊人的事情,对吧?令人难以置信的是我们已经走到了这一步。比如在两年前,更不用说在 Transformer 出现之前了。我绝对不会相信,你只需拿来这个“预测下一个词”的工具,给它思维链、强化学习和各种工具,我知道现在自己每天都要花好几个小时和 Codex 或者其他人与其他的模型交流,而且它确实有效,对吧?你跟它讨论工作中的难题,它能听懂,并且能把东西实现出来。所以这很不可思议。
但另一方面,有一种感觉就是它和我们不完全一样,它还没有完全达到那种我们所有人都能感受到的、可能应该更好的境界。我们可以从更少的数据中进行泛化,比如实现更大的跨越,从少得多的数据中理解这些概念。我最近有一个说法,人们常说“美国人在用尽所有其他选项后才会做正确的事”,而大语言模型也是这样,它们会学习一个概念,它们确实能学会,但必须在用尽所有其他选项之后。你需要这上万亿个 Token,你需要去学习所有表面层面的东西,只有当这些都无法解释某个事物时,它们才会最终理解那个概念。
这可不是我们人类的学习方式。我们仅仅通过……比如有时我们自己捏造一些概念,虽然它们不一定很棒,但我们就是这样获取概念的。所以确实让人觉得,还有别的东西可能可以实现更好的泛化,可能可以拥有某种稍微不同的、更偏向长期的理解方式。
但这只是一种感觉,对吧?每当我们试图去精准捕捉它时,它似乎就蒸发了,或者更确切地说,它可能并没有蒸发,而是 Transformer 很快就追赶上来了,对吧?所以在这段时间里,双方都在成长,比如 Transformer 变得更好了,但寻找“其他替代方案”的理由也变得更充分了。我想说,现在有很多实验室都在追求“后 Transformer”架构,人们也看到了有趣的结果,外面肯定有一些有趣的东西。所以,你知道,谁会赢?老实说我仍然不知道。我认为双方都有很好的论据,看看这会如何发展将会极其有趣。
主持人:我想我们的听众会对此很感兴趣。我想在最近 Nearcon 的一次演讲中暗示过空气中弥漫着这种“气息”,对吧?即在进展中正在发生一些事情,激发了这些新实验室和其他人独立出来,去研究一些可能是目前实验室内部正在研究的主导架构的替代方案。那种感觉究竟是什么?是看到了某些早期结果,还是别的什么?或者仅仅是研究人员的直觉?
Lukasz Kaiser:我认为这很大程度上是直觉。你知道,你必须保持清醒,因为很多事情都是在旧金山的派对上发生的,大家互相交流,或者是在播客上,所以某种程度上它可能是自我激发的。但我认为其中有一部分是非常本质的。Yann LeCun 很多年前就一直在说类似的话了,远早于现在。
纵观漫长的历史,我们拥有的这些模型,它们被称为“神经网络”是因为它们旨在模仿我们的大脑,但它们并没有真正做到。即使它们可能有一些相似之处,它们也相当不同,对吧?如果你看看人类是如何学习的,我们能做到的事情……不夸张地说,我们用少得多的数据就能比我们现有的模型做出多得多的事情。所以,感觉作为学习机器,我们拥有的这种核心能力,是我们目前的模型所不具备的。因此,从根本上说,那里应该有一些切实存在的东西,而不仅仅是一种氛围。当然,你也可以提出反驳,认为这些模型总是有上万亿的 Token 来训练,而人类从来没有过。
所以我们只是没有针对“少数据训练”去优化它们。如果你在保持算力不变但限制数据量的情况下,去微调 Transformer,它们可以表现得比现在好得多。所以,有人会说:“为什么要费这劲呢?我们有的是数据,而且现在这已经是一项巨大的产业了。”但让人感觉不对劲的是,即使我们尝试像人类那样用极少的数据去推进,由于人类还能从视觉事物、在世界中的移动以及采取行动中获得大量不同类型的数据,这与纯文本数据并不真正具有可比性,所以很难对此做出非常严谨的科学定论。
但确实存在这样一种感觉:我们还没有完全挖掘出机器学习的全部潜力。也许一旦我们找到了那个缺失的部分,它能让我们现有的成果变得更加惊人。当然,也可能不会。也许当你有那么多数据时,这种差距就消失了,谁知道呢?但作为一名研究人员,这对我来说绝对是极其有趣的。
对很多人来说也是如此。Transformer 曾经很让人着迷,它们很棒。推理能力甚至能解决研究级的数学问题。我相信你一定听说过最近在数学推理方面的进展。我以前是个数学家,所以这极其令人兴奋。我从未想过计算机会在这个时间节点上,像一个真正的研究员一样在高等水平上和我探讨数学,这太疯狂了。但作为一名高水平的研究人员,我又会觉得,好吧,但我们还没有真正搞懂“学习”这回事。确实有这种感觉,对吧?它当然在学习,但它需要海量的数据和算力。这让人觉得我们还没真正走到那步。这仅仅是一种感觉、一种氛围吗?在某种程度上它似乎就是现实,但我们还需要拭目以待。
主持人:搞懂这一点的研究吸引力完全说得通。但其他人可能会看一眼然后觉得:“那又怎样?就算它不像人类又如何?我们有数据,有行之有效的方法。”显然,在某些领域数据是受限的,比如药物研发之类的,在这些领域从有限的数据中学习会非常有帮助。但世界上存在的很多问题其实并没有那么受数据限制,对吧?有时我觉得这两派人几乎是在鸡同鸭讲,比如大实验室里的人会对 Yann LeCun 的言论翻白眼。
Lucas:这么说应该挺客观的。但另一方面,考虑到 AI 领域的快速发展和巨大投入,那些不受数据限制的问题正在被迅速解决。所以很快,所有剩下的瓶颈都将变得相当受数据限制,或者现在已经开始显现了。特别是,要想在物理世界中表现良好,确实感觉必须至少解决一部分这个问题。因为在物理世界中,如果你在某一种机器人硬件上进行训练,它的数据扩展方式可不像虚拟世界、文本世界或互联网世界那样。
主持人:人们肯定在用模拟数据和第一人称视角视频数据等更便宜的来源进行尝试。
Lukasz Kaiser:是的。我是说,我是 Waymo 的忠实粉丝,对吧?我总是开这个玩笑,人们会问:“我的自动驾驶汽车在哪呢?”我说:“我正坐着呢,它们已经在这了。”但随后它们就取消了高速公路驾驶,对吧?因为它们又无法应对某些施工区域了。感觉就像它们处理这些施工区域已经很多年了,我相信它们在模拟环境中跑了数百万英里,在现实驾驶中也跑了不少,但它仍然无法泛化到高速公路上的施工区域。这感觉就是不对劲,对吧?我不知道具体是哪里出了问题,但我敢肯定,没有哪个青少年会有这种问题,没有任何人类会这样。我们有很多其他的问题,但绝对不会出现“能在城市的施工区域开车,却不能在高速公路上开车”的问题,施工区域就是施工区域。
主持人:那你认为这些问题有些是否能在 Transformer 架构内部得到解决?另外,在接下来的几年里,你倾向于关注什么来为这个问题找到更好的答案?
Lukasz Kaiser:机器学习研究中令人兴奋的地方在于它的范畴太广了,你永远不知道自己是需要微调架构、微调数据、微调损失函数,还是需要微调优化过程。对所有这些观点都有合理的论据,而且最重要的是,结果可能是你需要在某种程度上把它们全部微调一遍,对吧?这就像 Transformer 很棒,但它搭配“预测下一个词”的损失函数也很棒;或者你可以让它与强化学习结合使用,但你需要思维链。这就像这些拼图只有在它们咔哒一下扣在一起时才起作用。所以,如果出现了一个新东西,可能需要对所有环节都进行微调。但也有可能 Transformer 的部分组件会保留下来,比如注意力机制大概率还会在那里,对吧?但也许你需要给它加上其他的东西。
我认为许多后 Transformer 架构都在尝试将这种机制与大语言模型进行融合。这当然非常有趣,对吧?这就好比纯粹的 Transformer 在某些问题上表现得不是很好,但如果你加上一些循环机制,或者进行一些微小的架构微调,亦或是引入稍微不同的损失函数,它就能表现得非常出色。所以,即使在小规模上你也能做很多事情。但接下来,它是否能够泛化到语言上并带给你想要的东西呢?这就非常值得拭目以待了。幸运的是,目前有许多实验室正在进行这方面的尝试。不过,另外一件事是,今年我们迎来了智能体,对我而言,这完全是一个颠覆性的变化,它应该是我作为机器学习研究员在过去大概 20 年里所经历的工作方式上的最大变革。
主持人:我不知道你有没有尝试去量化它,但你觉得它让你的工作效率提升了多少?
Lukasz Kaiser:我能非常清晰地量化它。因为我最近刚在自己的私人电脑上尝试复现了一堆论文,全都是一些我过去一直很感兴趣的旧论文,甚至包括一些我自己把代码弄丢了的论文。其中至少有一篇我以前也尝试过复现,我很清楚当时花了我大约 3 周的时间才让代码达到可运行的状态。而在 Codex 的帮助下,我只花了 2 天就搞定了。所以,这大概是把“一周”的工作量缩短到了“一天”。至于这到底是 10 倍还是 5 倍的提升,你知道,也许当年我可以做得更快一些,但这绝对改变了你的工作节奏,因为你现在敢于去着手处理很多事情了。我完全可以同时并行启动 3 个任务,然后让它们自己运行,而在以前我通常同一时间只能专心做一件事,所以它不仅变快了,还变得更加并行化了。
不过,我的意思是,当我做一些私人项目(而不是在生产环境的代码库里工作)时,我基本上已经不再去看代码了。一个朋友曾问我:“你觉得你现在的思维没有以前敏锐了吗?”我仔细想了想,认为事实恰恰相反。因为正是由于我不需要去关注每个类名或每个细小的函数,但我依然很清楚这些智能体随时可能会脱缰跑偏——比如有一次它在禁用状态下运行了某些东西,里面有一些辅助损失函数,它就自作聪明地认为应该再加一个辅助损失,结果跑出来的东西完全离谱且不知所云。所以,你的大脑必须拥有绝对的全局控制权,清楚地知道它到底在干什么?损失函数是什么?关键指标是什么?
但你不需要去管诸如“这个类叫什么名字”、“函数里的具体措辞是什么”这类琐事。你能信任智能体是可靠的,且确实在按照你的想法去实现功能,这本身就相当令人震撼。当然我们有时也会去检查,发现它们确实做到了。但由于你必须在大脑中完全掌控机器学习层面的实际运行情况,比如损失函数是什么、批次是怎么处理的。因此,我觉得它实际上比以前赋予了我更多的“心理控制权”。因为在以前,由我自己来亲自编写代码时,在运行之前,我有时不得不暂时忘掉一部分宏观图景,去专注于那些细微的小问题、调 Bug,然后再回到宏观图景中。到那个时候,也许我已经遗漏了一些细节,只有在跑出错误时才会重新想起来。
而现在,这成了一件极其美妙的事情,你完全可以沉浸在这种流畅的体验中:你只需从机器学习的角度去思考应该发生什么,你告诉它,验证它,它就实现了。所以这不仅仅是节省了时间,它让工作本身变得如此令人愉悦。我想,这在如今的研究人员中已经引发了一种轻度的“精神狂热”,我们根本停不下来。
主持人:OpenAI 非常公开地表示过:“我们的目标是在今年 11 月左右推出达到研究员级别水平的实习生。”作为一名在自己的研究中一直和 Codex 打交道的人,你觉得我们离那个里程碑很近了吗?或者你对这个节点有什么看法?
Lukasz Kaiser:感觉确实很接近一个实习生了,但你必须非常仔细地检查。就像我刚才说的,它可能会直接给你加上一个你根本没要求的辅助损失函数,只因为它觉得这看起来很合理。我不知道人类实习生会不会这么干,也许有时候会吧,我猜当他们比较有创造力的时候会。但比如我有时也会尝试,你知道,我会让它自己运行一整晚,给它设定一个目标,比如“为这个更低的困惑度构建一个更好的模型”。这招从来没成功过。它只会开始做一些非常微不足道的微调,那些东西根本毫无趣味也毫无用处。所以,它目前绝对还没有达到一个真正研究员的水平。
主持人:是的。那么要让它在这方面变得更好?
Lukasz Kaiser:这又绕回到了我们最初的问题,对吧?在很长一段时间里,甚至在 Transformer 诞生之前,我就在研究机器学习中的长上下文,你可以说是研究记忆等等。然后我们开始在 Transformer 上应用它,你知道,上下文变得越来越长。我们甚至得到了 100 万个 Token,考虑到注意力机制的机制,这已经非常庞大了。但现在有了智能体,给人的真实感觉就是,像 grep 或 ripgrep(文本搜索工具)这样的东西,竟然成了我们解决长上下文的方案:让我们把一堆东西写进文件里,然后让它能用 grep 去查找,再让它去写索引文件,这就像是一个微型代码库。
当然,对我这个研究人员来说,如果你 5 年前告诉我这些,我会说:“这算哪门子解决方案,这分明是个拙劣的应付手段,对吧?”但你知道,在机器学习领域,几乎所有东西在某种程度上都是这样。就像 Dropout(随机失活)一样,我们不挑剔,我们只要能用的东西,而且它运行起来出奇地有效,它确实能行。
然后你再加入一点强化学习,比如压缩。如果说有什么原因让我更喜欢 Codex 而不是 Claude Code 的话,那就是压缩。你可以一直跟同一个对话轮次聊下去,它非常擅长进行上下文压缩。为什么它擅长压缩?这里面其实没有那么神秘,对吧?无非是人们对它进行了很好的提示词引导,然后加入了一些强化学习来让它实现这一点。如果你几年前把这个告诉我,说长上下文问题可以通过“用一点强化学习让它能够使用工具并在文件中查找资料,然后进行足够好的总结以维持上下文”来解决,我会说:“好吧,这只是个创可贴,它算不上什么深刻的东西。”但你知道,我们不以解决方案的外表来评判它们,我们以它们的效果来评判,而它确实运行得非常好。所以,回到它能否成为一名研究员的问题上,有些人可能会说:“也许不行,也许你需要这种新的架构。也许你需要一种‘后 Transformer’的东西,它拥有更大的概念框架、能够遵循目标。”这确实是一个合理的论据,对吧?目前看来(现有的系统)似乎能解决这些问题。
但也有其他人会说:“你可以和 Codex 聊上一个月,然后提示它去回顾这些对话并找出元模式,把这些写进一些文件里,然后让它思考该如何利用它们。”而且,如果你收集了上千名研究人员的数据并在上面进行一些强化学习,它可能就会开始表现得像一个研究人员了。在某些方面,这正是研究人员的学习方式,对吧?我们观察别人是如何做研究的,自己进行一些尝试,看看什么有效。
主持人:正如你所说,在大家扩展预训练规模,或者扩展最初的那些推理模型时,你所努力扩展的方向是很直接的,或者至少是说得通的。然而,圣诞节期间我们在 Codex 和 Claude 的代码工具中看到的巨大进步,如果你其实并不知道它的源头是什么,或者没有完全搞清楚,你就很难决定接下来应该往哪个方向推进,以继续提升这些能力。
Lukasz Kaiser:是的,这确实有点让人困惑。不过,我不知道并不代表没有人知道。我想也许有些人对究竟是什么促成了这一飞跃有着更强烈的观点,但我认为在现阶段这一点还没有那么清晰。不管怎么说,它确实已经提升了一段时间了,但中间肯定发生了一些事情。因为之前觉得不可能做到的事,现在在这个基于强化学习的、当下的扩展范式下,感觉完全可行了。
主持人:我想很多人都有一个问题。我们显然已经看到了编程领域和数学领域的巨大提升,这些都属于“可验证的领域”。我觉得围绕强化学习的两个核心大问题依然是:第一,它在“不可验证的领域”能表现得多好?第二,我们在多大程度上能获得泛化,而不需要在每个领域都持续进行海量的数据训练?也许我们可以逐一讨论,先从第一个开始。你如何看待在不可验证领域需要解决的问题?对于在编程和数学之外,接下来可能会有哪些领域迎来突破,你有什么线索吗?
Lukasz Kaiser:我确实认为在不可验证的领域已经取得了相当大的进展。例如,如果你看看 Harvey 这样的法律大模型或者医学领域的应用,它们并不是完全可验证的,但它们其中有很多部分是可验证的,对吧?所以在这方面已经有了很好的进展。而且我认为 GDP Val 也是一个在某种意义上衡量这类能力的基准。我确实认为这些领域取得了非常好的进展,而且在这些领域推进研究也有非常好的激励机制。不过,我不确定把它们完全称为“不可验证”是否完全公平。
它们确实不像编程和数学那样有着完美的验证机制,但对于数学,我认为人们夸大了它的可验证性。编程那种是完全可验证的。但一旦你深入到诸如前端开发之类的领域,它其实也没那么可验证。即使是数学,证明过程也并不是那么轻松或纯净。我是说,你可以用 Lean(交互式定理证明器),但大多数大语言模型处理的数学并没有形式化,所以它并没有那么可验证。因此,这是一个光谱,越往后东西就变得越不可验证。
我之前有一个个人兴趣项目,把诗歌翻译成波兰语,这看起来完全是不可验证的。但随后你让这些模型来充当验证器,你会发现它们能捕捉到相当多的东西。它们能识别韵律之类的内容,也能捕捉到文化梗。所以事实证明,一旦你了解了人们以前是如何进行验证的,你就能达到某种程度的可验证性。不过,我想这个诗歌翻译的项目当时也是为了表明:你可以验证很多东西,但最终(翻译出来的东西)可能依然缺乏“品味”。因为品味不是那种可验证的、容易用言语来描述的东西。如果是的话,那它就可以被验证了,但不能被言语描述并不意味着它不存在,对吧?你读到那些文字时,你大脑中的某种机制会强化这样一种想法,模型漏掉了某些东西。
不过,我们基本上是故意把自己逼进了这个死胡同。因为什么是强化学习?它告诉你,只要你有一个老师、一个验证者,有人告诉你这是好的,这是坏的,我就可以针对它进行训练,然后我就会变得很厉害,这就是模型所做的。所以,每次我过来说“看,我觉得这个做的一点都不够有品味”之类的话时,别人就会说“行,那证明给我看”,然后模型就会精准解决它。我想有些人甚至在进行一些反向的研究,比如对于图像生成,你可以问“这张图到底美不美?”好,这不可验证,但你只需找一群人在训练过程中去点击“这很美”或“这不美”,瞧,生成的图像就会开始变得更美。
Lukasz Kaiser:所以“可验证性”这个概念是很脆弱的,对吧?当你在问人类“这好不好看”的时候,它只是一个非常稀疏的信号。那么,为什么我会认为这不够有品味呢?这显然是因为我的一些经历以及我处理这些经历的方式,让我现在说出了这句话。那为什么模型说不出来呢?这里有两种可能性:一种是它还没有经历过足够多的经验来支持它做出这种判断;另一种是它没有以正确的方式去处理这些经验。
事实上,这两种可能我全信。但即便在现有的处理方式下,只要你给它塞进更多的经验,比如你找一千个人来指点它,它就会变得更好。所以,你发现的每一个漏洞,基本上都可以通过死磕和硬砸数据来堵上。但如果不需要这么做,不是更美妙吗?因为你堵上的每一个漏洞都不再是瓶颈,而随后冒出来的瓶颈,依然是你还没有堵上的那些漏洞。我们就这样陷入了这样一个有趣的循环。但是,如果你有这种像人类大脑一样的方法,不需要这么多计划去堵漏洞,那不是太棒了吗?
主持人:这是否意味着在现有的架构下,只要有人专注去研究,任何有问题的领域都是可以被解决的?只是就像你所说的,这可能需要多得多的精细标注数据,而且相比未来可能出现的更具美感的方式,现有的方法要依赖多得多的手工操作。但是在目前的强化学习方法下,是否并没有哪一类问题或哪一类领域会让你觉得“这对于模型来说实在太难了”?
Lukasz Kaiser:目前来看并没有这种感觉,但你必须把经济成本考虑在内,对吧?意思是说,目前为了让这些模型表现得非常好,你必须从一个相当强大的模型开始,而那个模型本身就相当庞大且昂贵。最重要的是,它通常还是闭源的,所以你无法真正自由地去操作。虽然有 OpenAI 推出的强化学习微调 API,我也挺喜欢这个以及其他一些类似的 API,但你并没有真正拥有完全的访问权限。所以即使有 API,操作起来也可能有点困难。而且除此之外,你在数据等方面需要做出的投资是巨大的,对吧?你单枪匹马是搞不定的,你需要一家公司,需要签一些合同,需要做各种筹备。如果这个领域足够重要,这确实是个可行的方法。但话说回来,如果你能直接和模型交谈,它自己就能摸索着搞定,那不是更棒吗?
主持人:在你看来,当前有没有任何全局能力提升的迹象?比如我们可以想象这样一个世界:好吧,我们先从编程开始,然后做数学,接着为法律和医疗做同样的事。哪怕你在这些领域之间没有获得任何跨领域的泛化,你也可以一个接一个地去攻克。或者,理想情况下,大家可能希望当你在很多不同的领域都做过强化学习之后,在达到某个临界点时,它能像预训练一样,某种“泛化”能力就涌现出来了。你觉得泛化能力会在强化学习中涌现吗?
Lukasz Kaiser:我认为泛化已经在强化学习中涌现了。
主持人:你是指你认为模型已经在全面提升了吗?
Lukasz Kaiser:它们当然在提升。比如你看法律领域,我认为它根本不在目前的强化学习流水线里。但当你去和 Harvey 或者其他模型聊的时候,他们会说这种能力要么是自己涌现出来的,要么是他们只需要在上面做一点点训练,它突然就领悟了。所以,这其中绝对存在泛化。但这种泛化的跨度似乎没有我们想象的那么远,或者说,它有时并没有以我们所期望的方式去泛化。比如它甚至无法从一门数学泛化到另一门数学。
如果你看一下国际数学奥林匹克的例子,哪怕是现在,模型去挑战 IMO 看起来依然有些遥远。但在很长一段时间里,它会有某些特定的题型无法攻克,比如几何,它就是解不出来。它在其他领域能解决非常非常难的问题,但一到几何题,你就会觉得“好吧,它没有空间理解能力”。然后它只是见到了更多的数据,就开始破解几何题了。但那并不是空间理解的数据,也不是物理世界的数据,纯粹就只是更多的几何题数据。
所以,它具有这种“锯齿状”,对吧?它能从这里泛化到那里,但却无法泛化到某个看起来非常接近、但在其思维链的表征中却完全不挨着的地方。也就是说,这在人类看来很接近,但在模型看来却不接近,对吧?
所以,模型并不是不具备泛化能力。它在泛化,只不过是以一种奇怪的、类似“外星人”的方式在进行。这种方式刚好没有覆盖到我能理解的一些泛化路径。当然,随着数据量的增加,它可能会逐渐覆盖更多这方面的空间,但我也非常理解那些说“正是因为模型有这种特性,你很难真正去信任它、很难全盘托出地依赖它”的人。因为你不知道哪里就会存在一个它还没跨过去的坎,所以你必须时刻提防可能出现的问题。而作为机器学习研究员,我在使用它的过程中,我觉得它让我保持着高度的诚实与专注,因为它逼着我必须保持敏锐。所以从这个角度来看,这或许是件好事;但从纯粹的能力角度来看,这并不算好,因为你总希望它不要有这些难以预测的“锋利边缘”,而就目前而言,它确实还有。
主持人:你刚才提到了那些从中受益的应用型公司,随着模型变得越来越好,它们显然是受益者。我觉得这里有一个很大的问题:如果你现在是一家应用型公司,你应该是选择与某家大模型实验室建立极度紧密的合作,共享所有的评估数据,利用你对特定领域的深刻理解去配合它们?还是说,实际上根据掌握的信息去研发近乎属于自己的专属模型,而不是把数据回传给大实验室,才是更好的出路?我很想听听你对目前在核心模型之上构建应用的生存空间的看法。
Lukasz Kaiser:一个确定无疑的事实是:你的预训练模型规模越大、越优秀,你遇到的这种“锋利边缘”就会越少,通常你的整个生活都会变得更轻松,对吧?无论你是在它之上做强化学习,还是在某个更大的模型上做微调,事情都会变得更容易。令人难以置信的是,这种情况一直在持续发生。我不知道你是否还得,大概一两年前,人们一直在说:“大语言模型已经走到头了,小语言模型才是未来,小模型才是趋势。”虽然我们确实拥有了非常惊人的小模型,比如最近推出的只有几十亿参数的 Gemma 系列。记得在 GPT-3 时代,人们还说:“参数量在 1000 亿以下就别想搞什么零样本学习了。”但现在我们已经拥有了表现非常非常出色的 3B(30 亿参数)模型。所以这都很不可思议。但如果你真的想轻松解决重大问题、完美适应你的数据和业务上下文,目前似乎依然没有什么能替代那些真正庞大的“巨无霸”模型。当然,它们非常昂贵、难以使用,而且训练起来更是难上加难。
主持人:我想我们的听众会感兴趣的另一个点是,对于那些不处于最前沿领域的人来说,新一代硬件究竟释放了怎样的可能性?所以我在想,你能不能聊聊这方面。显然,对于某些事情,当我们等待 Blackwell 芯片上线时,情况就像是:“嘿,它们一上线,模型就变得更好了。”我们总是很难说清其中有多少纯粹是因为“你现在可以在硬件上做很多以前做不到的事”,又有多少仅仅是时间上的巧合。但或许你可以顺着这个话题聊聊,我认为这与我们正在讨论的“随着硬件的提升,这些架构是否也会随之变得更好”非常相关。
Lukasz Kaiser:我的意思是,硬件变得越来越好。而且硬件这东西其实很简单,无非就是算力和内存访问,对吧?你需要足够快的内存来喂饱这些算力。但这是一种非常纯粹的、你可以称之为性能的提升。我最近自己组装了一台个人电脑,给自己买了一块 5090 显卡。当时感觉就像:“这只是一块放在写字台底下的显卡,它能干什么呢?”于是我做了一点小测试,结果它的性能简直让人不敢相信。这块 5090 拥有大约 200 Teraflops(万亿次浮点运算)的算力——虽然官方宣称是 400,但在 BF16 精度下有一些是被关闭了的。
回想当年我们研究 Transformer 论文时使用的 GPU,它们单块只有 9 Teraflops 的算力,而我们当时用的是 8 卡机器。在绝对算力的换算下,你可以说当时那一整台机器实际上也就大概 70 到 80 Teraflops 的算力。所以,现在我写字台底下放着的这块单卡,其算力相当于当年那种机器的 5 台总和。这可比以前方便太多了,但我记得我们当时大概总共也就用了 10 台左右的机器。也就是说,你现在完全可以在写字台底下、甚至在你家厨房里,用这台普通的、小小的机箱,把当年关于 Transformer 的所有研究全部跑一遍。这仅仅才过去了几年,甚至还不到十年。所以它们现在的实力真的非常惊人。而且现在我们都是在 BF16 精度下跑所有东西,当然你还可以把精度降得更低,特别是在配合专家混合模型时,这样在推理时就能塞进更多的内容,这太不可思议了。
所以,我们运行这些模型的能力已经得到了戏剧性的提升。这也拓展了你可以研究的事物的边界,你现在可以用这么多有趣的方式来运行研究。它确实给了你这种能力。而且世界上也拥有了更多的 GPU,那些大型实验室正在大规模构建算力。因此,你可以在海量且极速的 GPU 上训练巨大的模型。英伟达一直保持着这一迭代节奏,Google 的 TPU 也在并驾齐驱,它们都在极快地更新换代,算力规模正在不断壮大。而且由于这是一个非常高度可并行化的过程,所以我们现在能够以快得多的速度训练大得多的模型。
Lukasz Kaiser:但我依然认为,更具吸引力的地方在于我们现在能够做更多的研究。我记得当年我刚加入 Google 的时候,大家还在探讨“你需要多少算力才能做出类似人类大脑一样的成果?”这是一个非常模糊的问题,因为要真正模拟一个大脑,现在看来也许是不可能的,或者依然极为遥远。但几十年来人们一直在做这些预测,他们的估算结果通常落在 1 到 100 Petaflops(拍字节次浮点运算)之间。我记得当时我们还在想:“好吧,看来我们还需要几十年的时间才能达到那个水平。”而现在,你只需要买一块单显卡就能达到。这真的太疯狂了,你拥有了这样一个你可以掌控的单件硬件,当然,你还可以在云端轻松获取由它们组成的庞大机群。
所以理论上,你可以在一天之内跑完相当于人类一整年的信息处理量,这当然需要成本,但绝对不是几百万美元的成本,而只是几百到几千美元的成本。如果你相信自己能搞懂这种算法的话,我的意思是,我们是否拥有人类所拥有的那种数据确实存在疑问,有些人正在尝试对婴儿的日常生活进行全天候录制,这里面有很多疑问,但我们正在接近这样一个水平,即大学里的某个人基本上也能够运行一个“童年模拟”。如果你对大脑如何学习有了一个想法,你将能够在短短几天内跑完人类长达 10 年的学习历程,并看看它到底行不行,前提是你知道该如何去评估它。我认为这比“我们能够构建这些庞大模型”这件事本身还要强大,虽然大模型也很强大,因为它们会帮你实现这一切。
我们正在进入这样一个循环。例如,以前我总觉得循环神经网络很受限,因为它们的顺序性太强了,如果你只是在 PyTorch 里运行它们,速度会非常非常慢,对吧?虽然你可以写一个特殊的 CUDA 内核来让它们跑得极快,但编写 CUDA 内核是一件很痛苦的事,你真的不会想去写它。除非你有一个单元测试能证明它和你的慢速代码跑出来的结果完全一致,并且有一个智能体来帮你写这个内核。目前它们在这方面还没有到惊艳的地步,但它们已经能做到了。而且参数量更大的模型可能会表现得非常好,你可能只需要说一句“尽可能完美地压榨这个硬件的性能”,几个小时后回来看,它就已经搞定了。所以,以前那些因为“硬件不契合你的想法”而产生的瓶颈正在消失。当然,硬件本身依然是那个样子,对吧?它无法做任何你想做的事,它依然需要高度并行化,但由于你现在可以直接让智能体帮你编写内核,它能做的事情已经比以前多得多了。
主持人:这太有意思了。因为有些人会说:“天哪,如果没有那少数几家公司才拥有的算力规模,你可能只能做一些基础研究。但归根结底,这些技术是否真正可行,最终还得看它们能否扩大规模,对吧?”而且你必须呆在大实验室里才能体验到这一点。但听到你对高校学术界、爱好者以及那些只靠单块 GPU 瞎捣鼓的人能够在此做出贡献持如此乐观的态度,这真的很棒。
Lukasz Kaiser:我认为,特别是如果你相信应该做出一些根本性的改变时,情况更是如此。
主持人:你认为实际情况更有可能是这样吗?
Lukasz Kaiser:不,这也要看情况。在我心情好的日子里,我确实这么认为。研究总是能带给我们美好的东西,没有理由认为它现在不会。但话又说回来,我们现有的技术看起来也运行得太好了,好到让人觉得不可思议。如果不去把现有的技术推向极致,那也将是一个巨大的错误。但幸运的是,现在有足够多的实验室。在加入大实验室之前我也在学术界呆过,我觉得作为一名学者,最爽快的一点就是你可以让自己的想法野蛮生长,对吧?你无法把规模扩大到那么大,但在较小的规模上,你可以尝试那些完全脱离当前范式的、极其美妙的想法。而且你也应该去尝试,这就是做研究人员的乐趣所在。虽然其中很多都不会成功,有些在小规模下成功了但无法扩大规模。
以目前 8 卡机器的规模来看……虽然确实总会有些想法在发展到一定规模后就失效了,但我认为现在的起点比 5 年前要高得多。因为 5 年前那会儿真的就像是在 MNIST 这种极其微小的项目上打转,很多微调纯粹是极小规模的修修补补。而现在,哪怕是在单台机器上,你所达到的规模也已经不再是小打小闹的修补了。比如,我私底下会用 Andrej Karpathy 的 llm.c 或者 nanoGPT 之类的。那是一个 GPT-2 级别的模型,你在单台机器上花几个小时就能跑出来,对吧?
虽然不巧的是,如今这些机器的价格变得有点贵了,但当新一代 GPU 问世时,旧的就会降价。你实际能做到的事情真的相当惊人。是的,并不是所有这些想法都能成功扩大规模,但在这个过程中你能获得乐趣。
主持人:完全同意。在我们转换话题之前,我想再请教一个研究前沿的问题,那就是多模态模型。我记得你之前在另一个播客里说过,我们在那方面还没有取得太大的进展。你现在依然这么认为吗?你对目前多模态领域的现状怎么看?
Lukasz Kaiser:大家当然在取得进展。这也许和 Yann LeCun 的 JEPA(联合嵌入预测架构)有点沾边。但目前我们在 Transformer 甚至扩散模型中做多模态的方式,最终就像是你在预测周围事物的每一个像素。而如果你想想我此时此刻处在这个环境中,我认为人类每秒钟感知到的信息量是惊人的,甚至在微秒级别。但我们的行动并不能这么快,对吧?我们的神经元传导很慢,它们有长达数百毫秒的处理过程。
但我们随时随地都在接收所有这些感官信号。而且,我们不知怎的成功地从这股疯狂的信息流中学习,可能根本不需要像自回归那样去预测每一个像素。所以我觉得我们现有的模型,还没有真正体现出这种机制的精妙。也许这需要新的研究。不过它们也有相似之处,比如我记得 Thinking Machines 最近推出了多流 Transformer,这感觉很容易实现,对吧?我的意思是,在 Transformer 中你关注以前的 Token。你完全可以拥有好几条这样的数据流来做这件事,这听起来像是对架构的一次简单微调,但可能正是因为简单,它才会是一个极其惊艳的微调。
因为每次我用 Codex 时,我经常会漏掉一些东西并说出来,但随后它在执行某个 Bash 命令。它必须等待我的指令去引导它,这要花上 3 分钟,我就觉得这太缺乏交互性了。它应该直接并行处理。当然你可以加一些侧边栏之类的工具,又是一堆解决方案让体验感觉好一点,但对我们人类来说,所有事情显然都是在同一时间、各个角落同时发生的,我们在这里看和听都是同时进行的,我们的模型也应该表现得像这样。现在有更大的实验室在这方面施加压力,也许它就会实现。
但在目前,我们做多模态并没有进行这些真正的架构改变来保证并行性并进行吸收。比如目前的 Transformer 无法以它现有的速度每毫秒吸收一张高分辨率图像,就是因为它把图像切碎了,而且在这个过程中过于线性,所以根本行不通。这感觉有些不对劲,对吧?就像我们不应该把这些微小的图片切块硬塞进去,它应该直接融入并以某种方式被处理。所以我不认为我们在这种更深层次上已经达到了目标。但另一方面,感觉很多人都在为此努力。所以,至于这对编程来说究竟有没有那么重要,目前还很难说,我相信它总会到来的。
主持人:我很想换个话题,聊聊你在 OpenAI 的那段时光以及你的心路历程。因为显然,过去的几年里发生了很多大事。我想每个人脑海中都会想到那么几个关键时刻,所以我很好奇你的看法。在 OpenAI 方面,公司经历过一些非常公开的瞩目时刻。我在想,在你在那里的时间里,有哪些真正定义了公司的艰难抉择?
Lukasz Kaiser:那些最早期的创立过程我并没有参与。我认为在我加入后的那段时间里,在某个节点上曾面临一个重大抉择:是否要全面转向推理。我觉得公司、管理层以及我们所有人能真正迈出这一步,说出“是的,推理将和预训练一样重要,我们的模型将成为推理模型,并且它们会推向市场”,这是非常勇敢的。你要知道在最开始的时候,推理模型并没有那么善于聊天。不知怎么的,塑造个性变得更难了。它们当时很慢,而且在某种程度上现在依然很慢。那时候大家会动摇:我们真的应该这么做吗?也许人们只是更喜欢纯聊天模型。
但 OpenAI 非常擅长下这种艰难的赌注,并且明确表示:“是的,我们要推出它。我们要走这条路,我们会想办法去应对。”当时同时存在两条模型产品线。这显然很糟糕,对吧?你总想把它们统一起来。但由于一切都在快速变化,这种统一花费了大量的时间。这是一个非常艰难的决定。但如果没有在推理上死磕,我们现在可能就不会拥有所有这些不可思议的东西。而且感觉现在甚至一些更大的实验室在追赶这种强化学习质量时依然面临困难。所以当你全身心投入某件事时,你确实会赢得一些优势。
不过这些日子我也在想,OpenAI 从那时起规模可能已经扩大了 20 倍左右,变成了一家大得多的公司,所有的实验室其实都变大了,我是说 Google 在这之前就很大,但现在每个人,比如 Anthropic 也变大了。由于我之前在 Google 呆了很长时间,我认为一家大公司要做出那样疯狂的豪赌会困难得多,对吧?因为你有太多可以失去的东西,因为你有既定的流程,它就是更难了。我只是希望 OpenAI 能够保留这种能力,其他实验室也是如此。因为是的,现有的技术确实很惊人,它们带我们走了很远。但如果“后 Transformer”世界出现了一些早期的火花,这些大实验室还有能力扑上去吗?还是会走向更保守的一面?
主持人:在推理方面,当时有一些早期的火花,但显然没有海量的数据支撑。我听人形容过,这几乎就像是一种“宗教式的信仰”,坚信只要我们加大投入它就一定会成功。
Lucas:我们现在还没有看到那个传说中的“继承者”(新一代技术),或者至少我还没听说。但在寄希望于它会出现的同时,我们会需要一个新的实验室去推进它,还是说……我的意思是,我认为如果说 OpenAI 擅长什么,那就是下这种疯狂的赌注。
主持人:看到这股新实验室(Neolabs)的潮流显然很有意思,对吧?像 Jerry Tworek 这样的人独立出来,并表示在大型实验室之外做这项工作反而容易得多,对吧?可以带着强烈的信念去下一场重注。
Lukasz Kaiser:是的,这确实是一个很客观的切入点,对吧?但话说回来,当你开始看 GPU 的数量时,如果你处于大实验室之外,情况就有点令人沮丧了。它们很难弄到,而且极其昂贵。不过好在,GPU 并不是一切。而且能拥有这样一个完整的生态系统是非常好的,对吧?你现在既有这些小实验室,也有那些大实验室。
是的,这真的太好玩了。因为身处这里小小的 AI 圈子里,你显然能看到存在着极其激烈的竞争,变革即将来临。即使在现有的路径上,我们依然没有把潜力挖掘殆尽,还有大量的技术可以去尝试,还有很多的数据和改进空间,以及规模更大的模型等着去训练。除此之外,所有这些新事物也都在蠢蠢欲动。也许它们现在还没准备好,但人们正在用优质的资源非常积极地推进它们。
然而,我觉得一旦你走出旧金山,人们对待 AI 的态度基本上就好像它还停留在 Codex 问世前的去年,并且永远不会再改变一样。但现在用这种眼光去看待它是完全错误的。我是说,对我而言,这些编程智能体带来的震撼是如此巨大,以至于很难让人忽略。我称之为 AGI(通用人工智能)。当然了,每个人都可以把他们自己心中所想的称为 AGI。就像当年我们跨过图灵测试一样,也许有一天我们也会跨过 AGI,对吧?我们现在已经不再真正争论图灵测试了,它到底算通过了还是没通过?谁在乎呢?但我们现在用来编程的这些工具,它们显然是具备智能的。
主持人:显然,目前的 AI 编程大战非常激烈,你认为最终会由什么来决定这些 AI 编程产品谁能更胜一筹?它们如何变得比彼此更好?此外,你如何看待像 Codex 和 Claude Code 工具等产品的下一个前沿?
Lukasz Kaiser:我认为编程市场足够大,容得下两个优秀的“程序员”产品。我觉得更大的问题实际上在于:它们如何很好地延伸到其他领域,对吧?编程固然很棒,对我们也很重要,但它其实可以做很多其他职业的工作。就目前而言,我曾尝试向一些朋友推荐 Codex,但它一开始总会问“你的 GitHub 仓库是什么”——光是这一步就直接把很多人劝退了。现在它稍微变得友好了一些,但它依然叫 Codex,所以人们听到这个名字时,并不会觉得“哦,这是我的会计工具”,对吧?相比于你只要随便说点什么就能用的 ChatGPT,我认为操作 Codex 需要一点适应过程,而在代码端使用 Claude 的工具则更需要适应。
所以,我认为现在的悬念在很大程度上变成了:你如何把这种能力带给其他行业和岗位的人们?这可能是更重要的问题。
主持人:Anthropic 在 Claude 协作(cloud co-work)方面所做的努力,基本上就是在为核心代码产品打造一个更友好的版本。
Lucas:作为一名机器学习领域的专业人员,我当然觉得这些能力都是现成的,对吧?我能感觉到它们显然可以做这些事,它们显然可以用 Excel,显然可以做这个、做那个。但随后,我依然会像鹰一样盯着它们。要想在现阶段用好它,你依然需要具备一定水平的操作技巧。这完全是一个可以习得的技能,但我理解大家日常工作都很忙,不一定想去学这个,所以你需要以某种方式让它变得更丝滑。
有一些根本性的原因,让我觉得现阶段你绝不能直接让它在无人看管的情况下自己运行,我认为你不会想这么做的。但另一方面,我认为哪怕它一开始表现得极其完美,你也不会想完全放手,对吧?你需要建立一些信任。所以,问题就变成了:你如何说服人们开始投入一些精力去建立这种信任?它最终会带来回报的,但目前在编程这一端确实存在一个门槛。
主持人:比如,为什么你认为 Anthropic 是第一个在编程领域取得真正成功的公司?
Lukasz Kaiser:我认为 Anthropic 做出了一项非常明智的决断,那就是一心专注于编程,对吧?这个决定是在 OpenAI 正全力以赴做 ChatGPT 的时候做出的。当然,ChatGPT 很棒,但我觉得 Anthropic 做出这个决定的一部分原因也是因为它们在纯聊天领域根本无法与 OpenAI 竞争。不过,它们在探索“除此之外还能做什么”上做出了一个非常棒的抉择。你知道,AI 会经历这些动荡和洗牌,对吧?你必须把赌注押在一些不同于今天主流的事物上。
尽管当下的东西已经很惊人了,比如 ChatGPT 难道不牛吗?当然牛。它是 2025 年最惊艳的 AI,但显然不再是 2026 年的了。也许到了 2027 年,我们又会迎来另一个新物种。所以事情变化得非常快,如果你把赌注押在其他方向上,你就能开辟新局面。这并不是说 OpenAI 没做编程,我们其实也做了,对吧?这也是为什么它后来能以相当快的速度追赶上来。但这在当时确实不是公司的核心焦点。我是说,你要知道,这些公司最初规模都很小,而你却一下子迎来了十亿级别的用户,你有一大堆日常事务要处理,对吧?否则整个盘子就直接散架了。
主持人:你刚才提到了两者的张力,一边是要把当前行之有效的东西做到极致,另一边是要向其他领域敞开大门,一旦在某个新方向看到一线希望,就立马加倍下注。我很想知道你对这种博弈的看法。显然,OpenAI 现在非常公开地进入了一个“高度聚焦”的阶段,对吧?你可以从 Codex 的成果里看出来,或许它们也在削减对 Sora 以及其他一些偏离主线项目的投入。在这种情况下,你如何看待如何去平衡这种张力,也就是一方面要死磕现有的、当下的成果,另一方面又要保留一些未来可能变得极具吸引力的“微弱火种”?
Lukasz Kaiser:这取决于团队文化、规模、资金实力以及看待问题的视角。比如大家都知道的 Google,它就是那种会把所有火种都保留下来的实验室。
主持人:我认为有些人在这方面对 Google 批评得挺狠的,说它们总是错失自己亲手搞出来的发明,没能成为把这些发明转化为商业利益的人。
Lukasz Kaiser:但这种模式对它们很奏效。它之所以奏效,是因为无论未来冒出什么好技术,Google 都能非常轻松地追赶上来,因为它们在相关领域早已有了一支底子深厚的团队,对吧?
主持人:你觉得它们真的追赶上来了吗?感觉现在有很多舆论依然声称它们落后了一点。
Lukasz Kaiser:我觉得它们在 ChatGPT 的对话世界里确实追赶上来了,但在某些领域还没有。我的意思是,我不知道你有没有看最新的“anti-gravity 2”?
主持人:看了,确实。
Lukasz Kaiser:我在 Google I/O 大会后打开试了一下,说实话,我完全分不出哪一个是全新的 Codex,哪一个是它。当然了,推特上也有很多针对这一点的搞笑段子。
所以在这方面,它做得很棒。但我自己也尝试用新的 3.5 Flash 模型来跑我的一些 Codex 任务,结果根本行不通。它没有迈过那个门槛,我是说它并没有给我带来去年圣诞节时体验到的那种突破感,虽然我知道它早晚会跨过去的,对吧?因此,如果你的研发布局非常宽泛,当你以后需要去追赶时,它会让你处于一个更安全的位置;但相应地,你可能无法获得那种即时赢下的胜利,比如像 Anthropic 那样在编程领域成为第一个吃螃蟹的人。当然,有实验室愿意直接冲锋在前并率先攻克难关,这很了不起,我觉得事情本来就应该百花齐放。
而且,OpenAI 曾经也有着非常优秀的敢于下注的文化,但它现在也是一个庞然大物了。GPT 现在拥有十亿用户,它对世界上许多人都至关重要,你必须谨慎。就像 Google 搜索拥有三十亿用户一样,它们对世界上无数人都很重要,你绝对不希望这些工具受到干扰或彻底瘫痪。你应该跑得快,但“打破陈规、一路搞砸”在这里并不是什么好习惯。实际上,我觉得如果这些实验室在前进的道路上没有把所有东西都砸得稀烂,反而是件挺好的事。
主持人:我想很多人都很好奇闭源模型和开源模型之间的差距。感觉现在有两股截然不同的力量在往不同的方向拉扯:一方面,蒸馏模型看起来相对容易,你也看到了很多传闻,说国内的一些开源团队正在用闭源厂商的数据进行模型蒸馏;但另一方面,似乎大实验室手里的这些模型变得越来越大,以至于连它们自己都很难直接部署提供服务,所以连这些大实验室自己也必须在内部进行模型蒸馏。关于未来几年闭源和开源模型之间的差距会扩大还是缩小,你的直觉是什么?
Lukasz Kaiser:是的,这确实不太容易预测。我的感觉是,更大的模型永远更出色。你可以去蒸馏它们,但蒸馏出来的模型永远无法完全达到。当然它们也很棒,特别是当你需要考虑性价比的时候,但它们就是不如那些大模型。我刚才也说了,比如 3.5 Flash,我就没觉得它能跟 5.5 平起平坐。也许因为它是蒸馏出来的产品,对吧?也许你得等等看后面推出的 Pro 版。即使在同一个产品线里,比如我自己都不记得上次用那些 Mini 系列的模型是什么时候了。我认为它们很好,也很有用,但我确实有段时间没用过它们了。
因为每当我用它们的时候,平时都好好的,直到它突然在哪里翻个车,结果反而花掉我大把的时间去排查,搞得我最后还是老老实实换回大模型。所以,你确实可以蒸馏出很多东西。而且无论开源界是选择去蒸馏还是不蒸馏,大实验室自然会想办法不让你轻易把所有东西都蒸馏走,但我觉得它们也不会为此和你拼个你死我活。如果开源模型落后得非常非常远,那确实会是一件很令人沮丧的事,但我认为不存在这种风险。现在有足够多的公司在做开源,而且现在人们有了“主权”的概念。我也非常理解,比如如果你是一个国家,你会希望让你的警察局或者医院运行的 AI 行政辅助系统去依赖某一家可能会突然服务中断的外国公司吗?你懂我的意思。所以对于很多人来说,他们想要主权模型,哪怕这些模型稍微弱一点,反正那些日常任务可能也没那么难。
因此,我认为会有足够的动力去促使开源模型继续存在并发展,同时大实验室也拥有非常好的激励机制去保持技术领先,毕竟人们会继续为此买单。所以,这种并存的状态应该还会维持相当长的一段时间。不过你懂的,在 AI 和科技界,这些话往往会变成打脸的“著名遗言”,你现在说的一些话,到头来可能会完全是另一番景象。我当然不想对未来做绝对的预测。
主持人:但如果播客不试着逼你做点预测,那播客还有什么意义呢?不过,你说的这些都非常有道理。我们很喜欢在采访结束时设置一个“速问速答”环节,把一堆宏观的问题塞在最后。那么作为开始,我很想知道:过去这一年里,在 AI 领域有什么事情是彻底改变了你之前的看法的?
Lukasz Kaiser:最显著的一点是,我之前绝对不相信它们会这么快就变成像“实习生”一样的存在,对此我确实彻底改变了想法。事实上,我过去每天并不会怎么跟 AI 聊天。大家以前总是问我:“那你平时是怎么用 ChatGPT 的?”我当时就会说:“额,我不知道,我昨天问了它一个问题,三天前问了它一个问题,仅此而已。”当时我总觉得“我才不会整天跟我的电脑聊天呢”,但现在在工作上,我确实天天在跟它聊。所以,是的,这算是一个巨大的转变。我以前也完全没想到自己写代码时会连编辑器都不用,但现在我真的不用了,我直接告诉它去修改代码就行。是的,这对我来说是一个认知上的巨大更新。
主持人:这太棒了。在过去几年里,随着你与这些模型更紧密地接触,你对这些模型带来的“存在性风险”(如人类灭绝等毁灭性风险)等安全问题的担忧,是上升了还是下降了?
Lukasz Kaiser:我觉得我这方面的态度并没有发生太大的变化。我一直属于那种“不太过分焦虑,但也绝不能掉以轻心”的一派。而且我依然觉得,以它们现在所具备的编程等各方面的能力,我目前更关注的还是那些具体的、迫在眉睫的风险。比如它们可能会黑进我们的某些系统、导致电网瘫痪或者发生类似的事情。这些才是现阶段我会把注意力集中在上面的风险。这倒不是说存在性风险不重要,有人去思考这些问题是好事,设置一些红线和安全护栏也是好事。归根结底,如果我们真的做出了决定,我们应该有能力关掉这些数据中心,并掌控这一切。但即便模型现在变得比以前好得多,我目前并没有从它们身上感受到任何毁灭人类的威胁。
主持人:站在大实验室的角度来看,感觉最近最轰动的头条新闻,就是安德烈·卡帕西宣布加入 Anthropic 并在那里的 RSI(递归自我提升)团队工作,对吧?你对这件事怎么看?
Lukasz Kaiser:我自己也是这种“技术狂热”的一分子。有了这个 AI 助手的帮衬,你确实能做成海量的研究,对吧?这很不可思议,大家也理应这么做,而且你还能把系统的很多部分优化得更好、运行得快得多。所以,这显然是一条行得通的路。但另一方面,当你去思考那些“后 Transformer 时代”的东西时,你会发现点子的空间是无穷无尽的,然而不幸的是,其中绝大多数都是错的,这就是为什么它被称为“研究”,对吧?你需要极其惊人的运气和实力才能恰好撞上那个正确的方向。
我们隐约觉得那个正确答案可能就飘在空气中的某个地方,但研究就是研究,它也许还离我们有几年的距离。而且哪怕用上世界上最厉害的 AGI 智能体,它们也只是人类水平,或者是研究员水平,哪怕它们能达到“10倍速研究员”的水平,但别忘了,在过去的许多年里,曾有一个庞大的顶尖人类研究员社区试图攻克这些难题,却依然没有做到。所以,这件事本身可能就是极度困难的。并且,我们目前对人类大脑的了解还微乎其微,也还无法将大脑机制以任何绝妙的方式与我们的机器学习联系起来。所以,我一方面认为这很棒,我们会看到现有的技术变得越来越好;但如果你把希望寄托在“研究上的重大突破”上,它所需的条件可能就是:即使你现在正在以一种极其高效的方式搜寻答案、即使你正在探寻一些非常有意思的想法,这也并不意味着你最终就一定能找到它,对吧?
正因为所有点子的空间是如此巨大,以至于即使是非常高效的搜寻,也有可能根本找不到答案。所以总的来说,我在这方面并没有那么严重的“存在性焦虑”。
主持人:我觉得有一个现象挺有意思的。如果我没记错的话,当年和你一起撰写 Transformer 论文的所有共同作者,如今好像都出去创业成立了自己的公司,对吧?我很好奇你有没有过这方面的想法?
Lukasz Kaiser:确实有很多人问过我这个问题,很多很多次。嗯,怎么说呢,我很庆幸自己到目前为止还没有去创业。我觉得无论是在 Google 还是在 OpenAI 的那段时光都非常棒,能够呆在那里并开展这些工作是我的荣幸。我真的很热爱技术工作。要知道,每一个出来创业的人,最开始可能都以为自己不需要在公司管理上花费太多时间,但结果往往是他们不得不把全部精力都陷进去。当然了,有时候公司也确实能成就一些伟大的事情。
主持人:非常感谢你能来到我们的播客,这真的很有趣。
Lukasz Kaiser:非常感谢你的邀请。
参考文献:
https://youtu.be/N1geOimmdDo?si=bKDzcOI15Oc-b2Lj
文章来自于"51CTO技术栈",作者 "林芯"。
【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。
项目地址:https://github.com/browser-use/browser-use
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0