OpenAI杀入通用AI Agent背后：四大技术流派与下一个万亿流量之战

本文来自微信公众号：硅谷101，作者：陈茜，题图来自：AI生成

OpenAI推出ChatGPT Agent进军通用AI Agent领域，引发激烈竞争。目前存在四大技术流派：OpenAI代表的浏览器派（操作万能但速度慢）、Manus的虚拟机+浏览器派（本地效率高但外部受限）、GensPark的大模型+虚拟机派（牺牲通用性换取速度与稳定）及Pokee的工作流工具集成派（速度快但通用性差）。共识认为AI Agent将成为未来互联网主要流量入口，颠覆广告生态与商业模式，引发巨头流量入口争夺战。

• 🔧技术路线分野：四种技术流派角逐，通用性与效率难兼得。

• 🌐浏览器派特性：OpenAI通过视觉模型操作网页，能力全面但速度慢。

• 📦虚拟机派优劣：Manus等结合沙盒与浏览器，执行高效但外部访问受限。

• 🧠大模型+沙盒模式：GensPark专注预设工具链，追求稳定牺牲灵活性。

• ⚡工作流集成优势：Pokee/UiPath强化第三方工具调用，场景专精速度快。

• 🚀流量入口变革：AI Agent将成互联网主力用户，“幽灵光标”重塑广告与商业模式。

7月17日，OpenAI正式发布ChatGPT Agent，正式进军通用AI Agent赛道。

外界猜测，在GPT-5即将发布的关键节点，ChatGPT Agent的亮相更像是仓促应战的“占位”之举——通用Agent很可能成为下一代互联网的“万亿流量入口”，让市场格局再次洗牌。

在通用AI Agent赛道中，已经有不少AI初创公司崭露头角，技术路线各有千秋：从浏览器为主的万能路线，到沙盒虚拟机的高效执行，再到工作流集成的专业化方案，几大技术流派正在激烈角逐。

本篇文章，硅谷101和Pokee.ai创始人、前MetaAI应用强化学习团队负责人朱哲清（Bill Zhu），以及硅谷101特约研究员Nathan Wang一起聊聊：OpenAI入局，是否意味着Agent成为又一个被巨头吞噬的市场？还是说，技术壁垒和差异化路线将为创业公司保留生存空间？当“幽灵光标”成为互联网访问的主力军时，广告生态将如何被颠覆？新时代的流量入口霸主又将花落谁家？

一、ChatGPT Agent亮相，通用Agent战局全面开幕

7月17日，OpenAI CEO Sam Altman和四位研究员在直播中介绍了OpenAI ChatGPT Agent。

简单来说，你可以让Agent帮你完成任务：比如，婚礼缺双鞋，去电商平台直接订购；或者设计个宠物周边，直接下单打印；查找信息，之后直接生成PPT等等。

这些任务的demo（演示），看起来完成度都还挺高。它们由OpenAI此前推出的两个工具驱动：Deep Research和Operator。

Deep Research是一款深入研究的分析工具，可以阅读大量网页，生成深度的调研报告，主打“搜索”；而Operator之前是一款只开放给GPT Pro用户的浏览器Agent工具，可以查看网页，同时为用户带来特定操作，主打“执行”。

OpenAI就表示，在两样工具分别推出的过程中，发现很多用户用Operator写的提示词经常很像会用Deep Research去做的任务，比如旅行计划，行程预定等；而Deep Research那边，用户们也在呼吁能增加比如登陆不同网站、去访问受保护资源的能力，这恰好又是Operator擅长的。

所以OpenAI就决定将两个产品融合起来，相当于打通了“搜索与执行”，也就是通用Agent所需要的技能。

同时，这也决定了OpenAI做通用AI的底层路线，是和目前市面上其它的产品有所区别的，存在优势和弊端。

接下来，我们就来聊聊目前通用Agent的四大技术派系。

二、浏览器为主派（OpenAI）：操作万能但速度受限

第一个技术派系就是所谓“browser-based”（浏览器为主）的技术路线，之前OpenAI的Operator就专注于这个路线。

这类智能体主要通过控制网页浏览器来工作。简单说，就是通过视觉模型让AI像人一样去网上搜索信息、点击链接、浏览网页，从而完成用户交代的任务。

这种模式因为可以访问全网信息，通用性很强，几乎是无所不能的。

Bill Zhu（朱哲清）Pokee.ai创始人，前Meta AI应用强化学习团队负责人：

我认为浏览器（Browser）的意义在于，世界上所有的网页和互联网服务，都可以集中呈现在某个页面，所以我只需要我的Agent能够看到网页、去操作网页，我就可以完成我的任务。用户可以看到这个基于浏览器的Agent在页面上点了哪些地方，一页一页地去看浏览器是不是跟人一样在操作网页。

它的缺点是很慢，而且Token消耗特别高，原因在于你去看一个网页，等于把HTML的文件直接拉下来，可能还包含一些脚本（script），然后把它全部拉下来，从零开始全部读一遍，只为了操作一个网页。但是它确实是万能的。

就像朱哲清说的，这个万能的路线有一个致命问题：慢。

原因很简单：浏览器为主的路线，背后的技术是Agent配合视觉模型来做Screencatch（屏幕截图），进而来进行图像识别，所以它注定要主页加载网页、等待响应。

这次我们也看到，“速度慢”是不少人对这次ChatGPT Agent的一个不满之处，很多任务都要耗费几十分钟来完成。

Bill Zhu：

因为Deep Research相对于市面上所有的产品来说，它还是相对比较慢的一个Research产品，再加上Operator（操作者）本身，我们也知道它的Benchmark（基准测试）上面它速度也很慢，所以它把两者结合了以后，整体速率就更慢了。

但这个“慢”可能也会因为大模型的优化和算力的优化，而在未来实现速度提升。

OpenAI的视觉模型和browser点击能力比市面上其它通用Agent更强，所以这个技术派系在之后还会有很大的优化空间。

三、虚拟机+浏览器派（Manus）：本地执行效率高但外部访问受限

在Agent相关的报道和技术分析中，“Sandbox”一词会经常出现，它翻译过来叫做“沙盒虚拟机”（隔离的计算环境，用于安全地运行程序）。

想象一个小朋友在家里玩泥巴。如果ta到处跑，可能把泥巴弄得到处都是，还可能打翻家具，甚至弄伤自己，这简直就是家长的噩梦。

但如果你准备了一个“沙盒”——一个有边界、专门让ta玩泥巴的地方——ta在里面怎么玩都可以，又安全又干净。

简单来说，在AI Agent的应用中，“沙盒”就是一个被限制和隔离的环境，被称之为“虚拟机”，让程序在里面运行，而不会对主系统造成风险。

AI能在这台虚拟电脑里随意打开浏览器上网、运行代码脚本、读取和保存文件等，相当于AI拿到了一个隔离的电脑，像人类一样拆解任务，在虚拟机里上网、编程，完成所有步骤。

而因为是真正的计算机环境，AI可以执行非常复杂的操作流程，从网上获取信息到本地计算处理，一条龙自主完成。

Nathan Wang（硅谷101特约研究员，AI Agent开发者）：

其实虚拟机在做的一个事情，就相当于在一个虚拟搭建的环境中，基于Linux系统通过命令行操作生成各种文件。

所以，虚拟机背后给我感觉更多是调用大模型的编程能力，根据用户需求生成相应代码。只要你有一些编译器或者一些库，它可以把整个程序给渲染输出，最终以网页、PPT等用户易于理解和使用的内容形式呈现，从而实现完成用户请求的目的。

Bill Zhu：

虚拟机环境的好处就在于它可以运行任何的线下的，就是open source(开源）那种package（程序包），但它的缺点就在于它很多情况下无法访问互联网，特别是那种需要全授权身份验证的产品，比如说你要去登录你的Facebook，这些东西它都是肯定做不到的。

所以“虚拟机”为主的路线优点就是本地执行效率高，但因为sandbox对外部服务的访问有限制，所以与现实世界交互还不够灵活。

“虚拟机”为主的通用Agent中做得很好的，是Manus。公司在今年四月融资7500万美元，估值近五亿美元。

但Manus并不是只有沙盒，它结合了我们刚才提及的基于浏览器browser的技术流，只是将沙盒做了进一步优化。

Bill Zhu：

Manus的体验是，它尽可能用一个Sandbox（沙盒）加上Browser（浏览器）的环境，来搭建一个几乎让人觉得万能的环境。

与此同时，Manus的一个缺陷是被浏览器的能力所限制住了。比如，你要去真的发个帖，它做不到，因为它对于整个页面的导航，说我要去选择那个小的按钮，选择完之后去上传一个图片、生成一个视频等，这很难；你要把谷歌表格里的某个单元格改成某种格式，也比较难，因为注意力的空间太小了，浏览器是它的一个主要限制。

第二个缺陷是它很慢，这是Manus和ChatGPT Agent的一个通病，因为用了浏览器，所以它的速度会非常慢——30多分钟做一个任务。

可能它的总体优势可能在于，它Sandbox的环境搭得可能比ChatGPT更好一些。我还不太清楚ChatGPT里面的虚拟机能做到什么程度，但我猜应该Manus在虚拟机里面已经花了很多精力去部署，应该会有一个比较小的优势。

四、大模型+虚拟机派（GensPark）：牺牲通用性换取速度与稳定性

第三种路线强调大语言模型（LLM，Large Language Model）本身结合一个“沙盒”，也就是封闭工具环境来完成任务。

和第二种路线对比来说，与其给AI整个开放电脑，不如给它一套有限但有效的工具箱和一个小型运行环境。

Bill Zhu：

第三种，是大模型加沙盒放一块的Agent，它可能是限制一个大环境。Genspark是一个这样的例子，它并不给你完整的一个沙盒，连浏览器都没有。Genspark有一个大模型作为主体的推理过程，它写代码也完全靠这个大模型；有一个沙盒去运行一些代码、生成一些东西，然后再把它渲染出来。它是fully control（完全控制的）——这个环境内部无法说“现在去下载一个开源的package（程序包）”“现在需要临时去修改一张图片”等任务。如果在它原始的程序包设计里面没有，它自己不会下载一个程序包，去做这件事。

所以Genspark这种设计是，比如说像那种幻灯片Agent、表格Agent，它们在设计的时候把可用的程序包给限制住，不再让用户去用更多的程序包，是一个相对比较封闭的环境和工作流程——在限制环境下用一个大模型做主体写代码，同时用一个小的环境去执行。

这里朱哲清提到的一个典型公司就是GenSpark，这家公司目前是在A轮，估值5.3亿美元，刚在2月份融资1亿美元。

GensPark集成了多种不同规模的语言模型，以及80多个预先构建和测试好的工具。

当有任务时，系统会根据需求调用合适的模型来理解，并直接用相应的API（应用程序编程接口）或内置工具去处理，比如搜索信息、调用地图服务、查询数据库等，而不依赖模拟完整浏览器或操作系统。大语言模型更像大脑中枢，在相对封闭的环境里调度现成能力，快速产出结果。

Nathan Wang：

GensPark给我的印象比较突出的就是，它会接很多第三方的工具，或者是各种API。比如说它其实很多时候它会说，你只要把你LinkedIn的访问权限给到我，我可以通过这个large language model（大语言模型）直接登录你LinkedIn的账户，帮你去生成一个LinkedIn的帖子。

如果用户授权其访问用于代码version control（版本管理）的GitHub账户，它可以直接在GitHub去看你写的程序，改你写的程序，并执行一系列相关任务。此外，它与Google系列产品（如Google Sheets、Google Slides）也能实现无缝对接，把各式各样workflow（工作流）都帮你设计好，把你所需要的工具、所需要的接口都帮你放在那。

GenSpark可能相当于，把这些工作的工作流任务细分到每一个场景中去，具体到某个场景的时候，我再去用这一系列的工作流。这个设计，我去做这件事情肯定是更可靠的，因为我已经限定了我的问题是什么。

总结一下，以GensPark为代表的大语言模型+虚拟机（LLM+Sandbox）技术流相当于标准化工作流，设立了更封闭的环节，牺牲通用性去换取速度和稳定性，来让一部分的任务更快、更靠谱。

五、工作流+工具集成派（Pokee/UiPath）：速度快、交付好但通用性差

第四种路线，本质上是把预先设计好的流程和第三方工具集成结合AI使用。比如朱哲清所创办的Pokee，所用的技术路线叫做“工作流+工具集成”。

可以把它想象成搭积木：开发者先把完成某类任务需要的步骤都规划成一个个节点，也就是工作流（Workflow），每个节点可以调用不同的应用或API（工具集成）。

AI的作用是在运行时根据用户请求，自动选择并执行这些预设的流程，或用自然语言帮你填充参数。

举个例子，Zapier（自动化工作流平台）平台上用户可以设置一个自动化流程：一旦收到新的表单，就让AI读取内容整理摘要，通过Gmail发送给相关人员。

这里AI负责理解内容和写邮件，但从触发表单到发送邮件的步骤是事先定好的。类似地，Pokee AI强调通过强化学习来自动规划和调用工具。

这样的技术路线优点是速度快，交付好，但也被限制在特定任务中，通用性差一些。

Bill Zhu：

我们最后会有自己的deep research Agent（深度研究智能体），加上我们的execution Agent（执行智能体）放在一块，总体体验会有大幅提升。但是总体速度应该是市面上所有产品的4-10倍左右。

能够实现这一优势的原因在于，我们不再需要使用复杂的虚拟机环境，也无需依赖复杂的tool calling（工具调用机制）。我们直接使用第三方集成的SDK和工具，通过自研的工具调用基础模型来调用这些功能的话，整个速度是会大幅度提升的。我们避免了像MCP以及市面上其他产品在工具调用中存在的上下文冗长的问题。

因此每次工具调用的成本可以削减百分之五六十。结合我们自主研发的上下文工程技术（engineering），使得整体成本与OpenAI的ChatGPT Agent和Manus相比有数量级的差异；与垂直化的GenSpark相比，也有几倍的优势。在token使用方面，我们确实存在劣势，特别是与基于浏览器（Browser-based）的Agent相比，我们并不是完全万能的。

这样的优势在于，能够保证每个服务的交付质量非常可靠。因为我们使用的是第三方服务（如Facebook）直接提供的访问权限，不会出现错误。同时这也带来了限制，就是它无法实现所有功能。

结合以上的四种技术流派和对应的代表公司：浏览器为主，做得最好的是OpenAI的ChatGPT Agent，Sandbox（虚拟机）做得最好的是Manus，LLM+Sandbox（大语言模型+虚拟机），代表公司是GensPark，最后是工作流加工具集成，如Pokee、Zapier、UiPath。

可以看出，目前“通用性”和“速度及稳定性”是鱼与熊掌不可兼得，必须要牺牲一个。ChatGPT Agent和Manus选择了前者，而GensPark和Pokee选择了后者。

Nathan Wang：

大家一开始都是想去做通用Agent。但是到最后大家体验完发现，什么都想做，就什么都做不精。这时，产品的迭代又会转到另一个方向：怎么提高它的可靠性、工作流，或者把场景变得更加专精？这可能是当下探索的一个更加实际的方向。

第二个问题是，我怎么能够把我吸引的用户不断地留存下来、去持续付费？第二件事就是，需要靠像类似工作流增加应用场景，让每个应用场景变得更加可靠的模式，才能把用户留住，而不只是说一上来给大家一个非常惊艳的demo（演示），或者一个MVP（最小可行性产品），让大家觉得通用AI Agent已经来临了，但持续去使用的时候又发现不是。如果真正达不到用户要求，很多人可能就会退订、离开平台。

所以现在，更多的通用Agent公司是在解决“怎么能够把用户留住”。工作流加上更多工具，专攻应用场景是一个非常好的路径。

六、幽灵光标，Agent将打响未来流量入口之战

无论是什么技术路线，要想真正让大家用起来，提高可靠性和留存率，加快交互速度是接下来通用Agent的共识方向。

我们可能会看到更加细分的Agent，以及万能通用Agent的百花齐放，包括ToB和ToC的产品也会不同。

所以，虽然OpenAI入局通用Agent赛道，但这场仗看起来还有得打。但同时，这也给我们指明了一个未来的发展共识，就是：Agent们，不管是通用的还是专用的，将代替人类，成为访问互联网的主力军。

Wired杂志在7月底就发布了篇文章说，以后的互联网充斥的都将是所谓的“ghost clicks”（幽灵光标），都是Agent们在与网页交互，抓取信息。这可能意味着一个巨大的变革和机会。

也就是说，“流量”这个词将变得毫无意义，因为都不是真人在点击网页了，而未来的流量入口将成为Agent，而这个赛道也将是下一场巨头之战的中心。

当然，也不排除会有新的公司占据这个巨头的位置。而这个变化可能会来得比我们想象中更快。

Bill Zhu：

无法避免的是，我认为在接下来一到两年，大多数门户网站的流量都将快速下降，无论是电子商务、搜索引擎、视频网站还是其他各类门户网站，它们的流量入口都将变成各个方向的Agent。

这正是Google推出Agent2Agent (A2A)协议的原因。每家公司都可能拥有自己的Agent，实现Agent之间的交互。如果Google能够占据这个协议，并在Gemini中率先部署，它就将成为最大的赢家，因为它成为了Agent入口。ChatGPT和Claude也是一样，它们推出协议的核心目的也是要占据智能体入口的战略地位。

而顺着这个新范式，我们可以期待，未来的广告模式和信息模式都会发生颠覆性的变化。

Bill Zhu：

比如说硅谷101的播客，现在大家都是免费听的。通过YouTube广告分成获得收益。但在未来，获取播客内容本身的知识产权就将具有价值。

每当Agent通过调用或网页访问获取播客信息时，都需要向内容创作者付费。创作者不再需要承担广告流量的责任，广告将由Agent完成。Agent在获得信息后，会在工作流或者用户体验中插入广告。当Agent向用户提供对比选择时，会询问用户想要尝试哪个Agent，此时就形成了排名机制。由于这些问题没有标准答案，它这个时候推荐哪个Agent让用户去试试，它就可以向那个Agent的公司去收钱了，广告收入就在这个环节产生。

而支持每个API、每个第三方的插件的产品本身，以及知识产权本身，都可以直接收费。因此，对于创作者生态和SaaS生态而言，从某种意义上来说这种变化是积极的。创作者不再需要在Google投放广告，也无需免费将内容提供给YouTube进行广告投放，而是有一个Agent直接向你付费，它通过自己的广告机制覆盖成本。我认为创作者不会受到很大冲击。

很开心听到嘉宾说，作为内容生产者，当我们的观众不再是真人，变成了所谓的”幽灵光标”Agent们，但我们的内容还是极具价值的，并且这样的商业模式是更友好的。

但感觉还有挺多技术限制需要去突破，以及很多的协议要达成共识。

Sam Altman（OpenAI联合创始人、CEO）：

虽然这（AI Agent）是一项极其令人兴奋的新技术，但它也带来了新的风险。人们已经大致学会了如何相对安全地使用互联网，尽管当然仍然有诈骗和其他攻击行为存在，而未来人们同样需要学习如何使用AI Agents。社会也需要建立针对AI Agents攻击的防御机制。所以我们是从一个非常稳健的系统开始的，并设置了大量警示机制。随着用户逐渐适应，我们将逐步放宽限制。但我们确实希望人们将其视为一项新技术、一个新的风险面，并采取所有必要的谨慎措施。话虽如此，我们还是希望你会喜欢它。

而就在ChatGPT Agent发布的同一天，OpenAI公布了一个数据：目前ChatGPT每天收到的用户指令高达25亿条。

这是什么概念呢？相当于年化9125亿次。如果把每一次提问指令都等同成一次搜索，ChatGPT已经占据谷歌年搜索量的18%。

而这个数字，随着AI Agent的成熟落地，很可能会继续快速增长。而新的流量入口之战，已经打响。

本文来自微信公众号：硅谷101，作者：陈茜

电车新能源发展网

电车新能源发展网

OpenAI杀入通用AI Agent背后：四大技术流派与下一个万亿流量之战

admin

Related Posts

AI技术加速，可能成为资本主义完美的爆破点

吴婷对话国盾量子应勇：掀起量子革命

发表回复取消回复

You Missed

AI技术加速，可能成为资本主义完美的爆破点

吴婷对话国盾量子应勇：掀起量子革命

OpenAI CFO 首次详解公司战略：B端C端收入五五开、抢IPO 第一名没意义、神秘硬件今年公布

千部难有一部破亿，AI短剧停止“狂飙”？

理解基层社会的另一条线索

《鼬隼身後有雕鶚——“若獎”驚世密局》潜伏在文学背后的“密局”

电车新能源发展网

电车新能源发展网

OpenAI杀入通用AI Agent背后：四大技术流派与下一个万亿流量之战

admin

Related Posts

AI技术加速，可能成为资本主义完美的爆破点

吴婷对话国盾量子应勇：掀起量子革命

发表回复 取消回复

You Missed

AI技术加速，可能成为资本主义完美的爆破点

吴婷对话国盾量子应勇：掀起量子革命

OpenAI CFO 首次详解公司战略：B端C端收入五五开、抢IPO 第一名没意义、神秘硬件今年公布

千部难有一部破亿，AI短剧停止“狂飙”？

理解基层社会的另一条线索

《鼬隼身後有雕鶚——“若獎”驚世密局》潜伏在文学背后的“密局”

发表回复取消回复