《张小珺商业访谈录：OpenAI姚顺雨》播客摘记

播客摘记

语言

语言是人类为了实现泛化而发明出来的工具，这一点比其他东西更本质。从某种程度上来说，语言也是一个人类发明的工具，但它之所以特殊，就是因为它是一个帮助你解决任何事情的一个有通用或者泛化性的工具。当你学会了这门工具之后，你就可以去做很多新的任务。

智能体

OpenAI AI 有五个分级：
- Level 1: Chatbot. 语言的先验知识；
- Level 2: Reasoner. 基于语言的先验知识，需要能够推理；
- Level 3: Agent. 有了很好的语言先验知识和推理能力之后，结合 context or memory 才能去做能泛化的 Agent；
- Level 4: Innovator. 能让 Agent 有自己的 intrinsic reward, 并能自己探索；
- Level 5: Organization. Multi-Agent Scale, 能够让 Agent 形成组织。
现在主线在从上半场变成下半场，从语言开始，定义推理，定义 Agent，已经有了一个很 general 的方法，并且这个方法是可以泛化的。那我可能需要更多考虑的问题是我要用这个方法去解决什么问题。大家往往看重的是训模型或者方法或者别的东西，但是现在我觉得 bottleneck 已经转移到怎么去定义好的任务，怎么去定义好的环境。
fundamental research 会怎么演变，一个是 memory, 一个是 intrinsic reward, 还有一个事情是 multi-agent. 当然模型自我提升的方法也许是改变自己的权重，也许是有一个基于语言的长期记忆，也许是一个基于 embedding 或者其他东西的长期记忆。但是它会自我提升。但是具体是什么方式，什么时候，我觉得这还有不确定性。
如果你要做一个 Agent, 那你需要的不只是选择能力，而是去自由产生新的动作的能力。
做简单又通用的东西。ReAct 的架构，就是说你能够去推理，然后你可以去产生一个 action, 这是一个最简单的事情，但是最简单的事情可能还是 work 的最好的，可能基于特定的任务你会有很多就是 workflow 或者更 specific 的方法，但是最通用的方法还是类似于 ReAct 这样的方法。
但是我觉得它还是 generalized, 而且我觉得原因就是它能够 reason, 就是说当你可以在一个环境学到一些如何去思考的技能，并且这个思考的技能能够迁移到新的环境，我觉得这个是我说它泛化的本质原因。

task, method and reward

设计 RL task 最难的部分是怎么定义 reward, 要基于结果而不是过程，而且是一个基于规则的，而不是基于人的偏好或者模型的偏好。
你永远可以把亚马逊或者把 Facebook，就你可以做各种各样的环境，就这个事情工程上非常难，但是这个东西总是可以做的，最难的部分是我怎么去设计任务。让这个任务既有难度，又有真实的价值，又有一个很好的 reward.
将任务分为更注重 reliability 和更注重 creativity 两类，并认为这两类任务需要的挑战是不一样的。
我觉得最难的是寻找任务。就是我觉得所有我做的任务就是方法性的，我做的所有方法，其实我觉得最难的事情都是找任务。因为我觉得很显然就是说有一天这样的一个事情会会变得非常有价值，对吧？就是一个智能体既能够推理又可以做动作。但我觉得真正难的点是在当时的环境下，比如你当时只有一个 GPT-3 或者一个 POM, 你怎么去找一些任务能够去证明这个东西有 Promising Initial Signal, 能有好的价值？然后这个东西我觉得其实试了很久，包括我觉得做 Tree of Thought 最难的一点，也是你怎么去把这样的一个 belief 寻找一个任务，或者寻找一个环境，去通过实验结果表达出来。
所以大多数时候人们发现伟大的方法是因为你有一个任务你要解决它，然后恰好这个事情足够通用。但是我觉得我的经历比较特殊，是因为很多时候我是先脑子里面想到一个东西。我觉得它很通用很好，但是我需要去找一些任务去证明它很通用很好或者未来会很有价值。它可能现在还没有足够多价值，但是你需要现在先找一些简单的任务去证明它有价值，我觉得这个事情是很难的。就像创业需要有 product market fit 一样，做人需要有 method task fit，这个事情是最难的。
很有意思的是很多组织的方式能够像一个 general method, 像一个通用方法一样，它能够去帮助创造很多不一样伟大的东西，比如股份制，或者一些机制设计，或者一些组织架构。它就像一个非常通用的 AI 方法一样，它导致了很多不一样的伟大的东西出现。我觉得这个事情本身也很有意思。
任务或者环境非常重要。当你有一个非常差的任务的时候，你永远不可能学到非常好的东西。我觉得首先你要找一个足够有挑战的任务，然后这个任务能够做出有本质的新的方法。

context, memory and environment

现在 AI 的瓶颈不是缺少推理能力，而是缺少一个完整的 context. 如果你要让 AI 实现价值，那你需要去解决这个问题。
我觉得可能我最看重的是处理 context 的能力或者说 memory 的能力，然后基于它去做 lifelong learning 或者 online learning 的能力。
但我觉得会有机会做一些新的环境或者更大的环境下的 Copilot, 然后这两种大的交互方式是互补的或者说不一样的，正交的。就一个是比如说我有一个基于模型的，然后可能是一个 Remote 的 Virtual Machine 或者一个 Environment, 然后在里面做很多事情。然后另一边是有很多既有的环境，比如说既有的这些软件或者既有的这些场景，然后我把 Agent 或者 AI 的能力引进去。我觉得大趋势可能就这两个方面都会发生。
我觉得从某种程度上来说是的，就是说从某种程度上来说，这个世界有一个 memory hierarchy, 就从一个 agent 角度，但是这个 memory hierarchy 最外层永远是环境。Essentially, environment is always the most outer part of the memory hierarchy. 对于人来说，你有你的 memory hierarchy, 你有你的 working memory, 你有你的 long term memory 在脑子里面，但可能最外层的其实是比如你的笔记本，你的 google doc, 你的 notion，这些事情相当于是你的最 long term memory, 或者说你的最外层 memory hierarchy 的部分。
为什么我们现在这个模型的能力，推理这么强，考试这么强，玩游戏这么强，但它还没有创造足够的经济价值？我觉得其实可能根本的原因就是它没有这些 context. 然后在人类社会里面，比较 tricky 的一点就是说，当然我们写下来很多东西，我们用文字，用 google doc, 用 notion, 我们记录下很多东西，但是有很多 context 永远只是在人大脑里面。这个基于分布式的这样一个维护的，对吧？就比如说你老板给你的一些这个行为习惯啊，或者一些很难用语言总结下来的东西，这些 context 它存在人脑海里，人永远没有办法把这些东西全部写下来。这就导致人是不可或缺的，因为只有人有这种能力，就是说进入这样一个环境，然后去获得这样一个 context。如果这个问题解决了，那我觉得可能 utility 问题就可以很大程度解决了。
但是如果你能找到一个产品形态，在那里面就是研究的优势能够转换成商业优势，那就会产生壁垒了。因为如果没有 memory，其实就是大家在拼谁的模型更强。但有了 memory 之后，我拼的不仅是谁的模型更强，而是用哪个更多，哪个粘性更强。我在这里面有了更多积累的 context, 它能够给我更好的体验之后，那我就会有这个粘性。那可能是一种研究优势的方式，商业优势的方式。
很有价值的事情是能够积累 user context 或能构建特殊的 environment 这样的一个公司。因为最终我觉得 AI 或者 AGI 是个系统的话，它需要有 intelligence, 它需要有环境，它还是需要有 User context or the user understanding.

business

创业公司最大的机会就是设计不同的 interface，或者说人和数字世界交互的方式，并且能够利用模型溢出的能力。这两者缺一不可。所以对于创业公司来说最好的机会就是说你做新的交互方式，但是模型不停地有新的溢出能力，让你能够赋能这些新的交互方式。我觉得本质上来说，Cursor 就是创造了一种新的交互方式，就是说它不是一个像人一样交互的方式，而是一个像 Copilot，或者说是一个新的交互方式。我写这个代码的时候，它能给你提示一些东西，或者我能帮你 edit 一些东西，但是没有人和人是这样交互的，这也是它的价值所在。iPhone 它是一个非常通用的产品形态，但它一开始，或者 iPad 它都有一些 killer app 支持它有这个 momentum, 有这个增长的趋势，或者说包括 ChatGPT，包括包括微信，我觉得很多伟大的产品都是这样。你有一个足够通用或者简单或者第一性的交互方式，它有很多想要的空间，但是你去维护它或者路径设计的时候，你能有各种各样的应用能够使它能够不停地增长。
我现在的感觉可能是不同的交互方式下有不同的好的定义，或者说有不同的强的边界。可能最终智能的边界是由不同的交互方式决定的，而不是一个 single model 决定的。那从这个角度来说，我觉得想象空间非常大。
我觉得大多数公司还没有形成数据飞轮。大多数公司还是依赖于模型在变好，然后使用模型变好的这个溢出的能力。然后如果你要有数据飞轮，首先你要能够自己去训模型，并且你能够通过交互有一个很好的 reward, 使得你能够把好的数据和不好的数据分开。我觉得现在可能比较成功的案例就是 MidJourney, 有个非常清晰的 reward, 就是说人更喜欢哪张图，然后这个 reward 和我的应用是 shareline, 就是说我这个 reward 做得更好，那我这个公司就是更成功，然后这个模型就是更好，一切东西都是对齐的，然后有了这样的一个情况下，我又能自己去训模型，我可以去做数据分层，然后你做这个事情又必须比较比较不主线，因为如果很主线的话，我也可以通过 pre-training 或者 RL 或者一些别的方式去把这个能力给提上去，然后我可以通过泛化，我可以通过别的方式。所以现在我觉得对大多数公司好像并没有形成飞轮。
我觉得可能最重要的事情还是想清楚价值，就想清楚你的应用的价值是什么，就是你的痛点是什么，你要解决的问题是什么。我觉得可能更有价值的点是，一个是 agent 和数字世界的交互环境是什么样的，它是基于 MCP 还是 API 还是一些别的东西，另一个是人和 agent 交互的方式是什么样的，这两个事情是你可以去做，它需要很多设计，需要很多工程，需要很多各种各样的东西。我觉得现在做得远远不够好，还有很多进步的空间。我觉得可能还有另一个很重要的事情，就是说怎么去构建一个生态系统，或者怎么去构建积累用户的 intention 或者用户的 context 或者 intention, 然后我觉得这个事情还有很多可以做的空间。
技术是个工具，理解技术的趋势很重要，但是我觉得创造价值是最重要的，或者想清楚你为你的用户带来什么样的增强价值，这是最重要的。只要你的 value 大于你的 cost, 我觉得技术的选择是 flexible，没有说一定会哪种技术路线会胜出，我觉得只要经济上它合理，它就是有可能性。
我觉得好的 AI 产品经理可能就是一个好的产品经理，并且可以第一性思考。因为 AI 是个变化很快的事情，但是我觉得相对更不变的事情是人或者人性，或者人的需求，我觉得这可能是变化反而更慢的事情。那我觉得就是说你能找到一个好的需求，然后你能从第一性原理反推，就是说把这事情做成，那我需要去应用什么样的技术。我觉得这个事情是比较重要的。从第一性原理来说就是一个新的技术产生了，那你需要思考的是，怎么用这些新的技术和你现在的资源去创造新的价值。首先自己要学习这个技术，第二是我觉得你要去思考。
你只有有个 different bet, 你才能够超越之前的霸主。
这个世界可能会有更多交互方式上的创新，带来新的 Super App. 这个世界研究的边界可能不是一个一家机构定义的，而是可能不同的 Super App 共同定义的。
这个时代，可能你去做上限更高的事情是更好的，因为有一个巨大的机会。如果没有一个这样巨大的机会，那可能最佳的路径可能就是去做 Incremental 的事情，去做确定性强的事情，然后一步一步积累。但是恰好有一个上限非常高的事情，那如果你敢想，或者你胆子特别大，或者你想象力很丰富，那就会有好的事情发生，我觉得。

其他

历史的大势就是说我们应该从这种 vertical thinking 重新回到一个更 general 的 thinking, 然后去试图构建一个更通用的这个系统。
目前来说最重要的是解决问题，找到好的问题。
最重要的事情往往就是推翻最基本的假设。
If someone else can do it, then it’s okay to let them do it
我想做的事情就是两条线嘛，就是说一个是简单通用的方法，另一个是更不同的有实际价值的任务，然后这些任务往往就是如何在真实的数字世界创造新的价值。
认知科学或者计算认知科学它的一个核心的故事就是说，我们现在这些 AI 虽然有很多进展，但是它有很多问题，然后我们要去看看人有哪些优势，人是怎么去做这些事情的？为什么人能把这些事情做得更好？可能一个更好的从人身上借鉴的方法是，你去思考人能做什么，而机器现在不能做。这是一个客观的事情。但是，你找到这个问题之后，你可以基于第一性原理去思考怎么去解决这个问题。你不一定要去依赖于人怎么解决这个问题而解决这个问题。你可以从第一性原理要怎么设计。
一点是 Chain of Thought 的 review, 显示这样一个长的思维链，似乎是一个很重要的事情。它是一个产品形态上的突破。世界就是像有很多技术的积累已经像一个洪水达到这个闸口，需要一个时刻让这个东西发展，让大多数人能够感受到这个技术。
还是要思考怎么去创造更多现实世界的价值。当然这个事情在不同的领域，在不同的应用下，会有非常不同的任务设计，有非常不同的方法，有非常不同的各种各样的东西。但是我觉得一个大的趋势就是我们应该去更多思考实际价值，而不是这些被定义出来的类似于考试或者游戏的东西。因为我们发现一旦你可以定义考试或者一个游戏，那离它被解决也不远了。甚至世界之所以很难被解决，就是因为它不是一个被定义或者被游戏或者考试一个很大的特征。就是说它被设计的时候，它就已经有了一个非常设计好的 reward 或者一个非常设计好的答案了，那你现在因为有了这个 general recipe，那离它被解决也不远了。但真实世界之所以很难被解决，就是因为它没有一个标准答案，它没有一个标准的 reward function. 很多时候人做很多事情，他也没有办法去有一个 rational reward, 但是人还是开放的。我觉得现在主要的问题是这个，而不是说我有一个 well-defined answer，我怎么去找到它。这个事情通过 RL 就已经可以做了。就是最重要的事情往往就是推翻最基本的假设。可能我现在最关注的就是一个假设，就是说一个东西的评估是基于比如说 500 个任务，这 500 个任务你分别跑 500 次，然后你把这些平行的这些数据加在一起变成你的一个 reward。但这个我觉得是和人完全不一样，对吧？就是说人你在公司上班，重要的是你比如一天、三十天、一年之后变得有多好，而不是说我在一百个平行宇宙把你放到这个公司第一天你能做多好。我觉得这是一个基本假设的区别。
现在感觉就是我们意识到这个世界上的很多问题是可以用一个统一的方法去解决的。那我觉得这是一个本质的不一样的事情。
我觉得看书还是挺有帮助的。我是一个喜欢看杂书的人，我什么书都看。我觉得这个还是挺有帮助的。我什么电影都看，什么地方都想去。我感觉我从小是一个比较我想试图变得很通用，就是我想试图去了解很多不同的学科，然后去做很多不同的事情。但后来我就发现，一个人即使再聪明，再有经历，他能理解的知识或者能做的事情，也只是人类社会积累的知识的很小一部分。那可能更好的一个事情就是说你去创造一个比你更通用更简短的事情。我觉得我好像一直有一个对这种通用性的一种执念或者追求。
那我觉得如果你要和他去卷，那你认为你会更有效率，或者你能把这个事情做得更好，那我觉得这也是合理的。但是或者你去做一些不一样的事情去探索，我觉得最终你要对这个社会产生价值，然后，但这个时代我觉得很幸运的一点就是说这个技术非常通用，这个技术非常伟大，我觉得有足够多的探索的空间，那我觉得比如说 coding 是一个非常显然大家都在做的事情，那也许我的价值就是说我把这个最初始的 initial signal 给展示出来，那如果别人能做，我觉得别人做也是 ok 的。另一点就是你想要让自己的生活变得更有趣或者更有意思或者更快乐，那你就去做一些让自己喜欢的事情。但这个事情就很难用语言解释，就是一个 taste 或者 preference 的问题。
我挺建议大家去看《智能简史》这本书的。

应用

参考

张小珺Jùn｜商业访谈录：115. 对OpenAI姚顺雨3小时访谈：6年Agent研究、人与系统、吞噬的边界、既单极又多元的世界

版本记录

发布日期，初稿；