万字长文，聊聊下一代AI Agent的新范式

本文来自微信公众号：腾讯研究院（ID：cyberlawrc），作者：腾讯研究院，题图来自：AI生成

文章探讨了通用型AI Agent Manus的创新设计和技术整合，分析了其任务规划与执行能力、多Agent系统潜力及产品体验优势。同时展望了下一代Agent的核心发展方向，包括自我评估、跨环境操作、端到端训练等能力，并提出应对AI时代就业的增量思维和AI领导力转型建议。

• 🚀 产品设计突破：Manus通过可视化任务流程和智能分解，实现从指令到结果的闭环交付。

• 🧩 技术整合创新：融合多Agent协同、记忆管理等现有技术，优化产品体验而非底层突破。

• 🤖 自主评估能力：未来Agent需具备结果反思与目标校准的智能审查机制。

• 🌐 跨环境操作能力：Agent将突破单一平台限制，自主调用多领域工具解决复杂问题。

• 🧠 端到端训练趋势：通过强化学习直接训练模型成为服务，实现“模型即产品”的进化。

• 💼 超级个体转型：AI领导力成为核心，人类需从执行者转向目标制定与成果验收角色。

近日，中国企业发布了全球首款通用型AI Agent——Manus AI，在科技界引发了广泛关注。与传统的AI助手不同，类似Manus这样的应用，不仅仅停留在生成文本或提供建议的层面，而是能够独立思考、规划并执行复杂的任务，实现“从指令到结果”的一站式服务。

在最近的英伟达年度技术大会（GTC）上，黄仁勋将Agentic AI（代理式人工智能）定义为人工智能技术演进的关键阶段，其核心在于从“生成式AI的单次响应”升级为具备自主推理能力的智能体。由腾讯研究院和腾讯学堂主办的圆桌围绕以Manus、Deep Research为代表的下一代Agent在产品创新、技术架构做了深度的解读，探索下一代Agent新范式。

【圆桌嘉宾】

洪思睿

DeepWisdom（MetaGPT），NLP/Agent方向研究员，主要负责算法研发与科研工作，OpenManus开源项目核心贡献者之一。曾获NeurIPS 2019 AutoDL竞赛（NLP）世界冠军，开源多Agent框架MetaGPT论文（ICLR 2024 Oral）与数据解释器（Data Interpreter）论文一作，以及AFLOW论文（ICLR 2025 Oral）作者之一。目前主要关注Agent（多Agent）系统的设计，性能优化等方面，专注Agent在代码生成、复杂数据分析自动化及LLM推理能力增强等领域的应用效果。多篇研究成果已发表于TPAM，ICLR等国际顶级学术会议与期刊。

kongjie(揭光发)

腾讯专家工程师，大模型应用早期实践者与布道师。主讲《AI Agent：构建智能应用的新范式》、《大模型提效研发，从Copilot到Auto pilot》等公司级课程。负责支撑腾讯视频视媒资星海运营管理矩阵系统群；负责玲珑CMS、UN、飞流、逻辑编排及媒资BFF等低代码平台的架构设计与升级。曾任公司低代码Oteam负责人，主导Agent构建与运行平台Edan(A.K.A鹅蛋)、逻辑编排系统Loki的设计与开发，是IEEE低代码标准的主撰写人。

余一

腾讯青腾AI及全球化项目经理。之前是一家风险投资机构的市场投后副总裁，也在科技创投媒体待过多年，曾连续两年获评领英中国年度行家。野生AI布道师，2024年腾讯年度优秀行家，得到AI学习圈导师，人人都是产品经理2024年年度AI行家，多家AI产品公司和独角兽公司的野生外脑。得到、腾讯学堂多门课程、《AI个人探索指南系列》、《AI产品及公司变革研究系列》等开源文档，超二十万人阅读学习。在公司内部，也支持了腾讯科技向善周、腾讯程序员以及多个部门的AI内部培训分享等。

主持人：syanxu(徐思彦)

博士，腾讯研究院高级研究员、《AGI路线图》主理人，主要研究领域为互联网产业经济，负责对互联网前沿技术与趋势跟踪研究，研究前沿数字科技带来的创新经济模式，主要关注领域为AIGC、区块链。牵头研究及撰写《机器外脑：大模型十大趋势》、《产业区块链》、《产业互联网：构建智能+时代新经济图景》等。清华大学博士学位，美国麻省理工学院访问学者。

【内容介绍】

聚焦Manus等类似的产品创新、Agent技术前沿、下一代Agent新范式，深度探讨以下问题：

1. Manus实测真实效果如何，如何评价其产品设计？

2. 目前AI Agent展现能力的场景有哪些？

3. AI Agent在技术上有哪些重大进展？

4. Manus等应用为AI Agent的发展带来哪些启示？

5. 如何看待Agent发展的“下半场”？

6. 未来AI Agent需强化哪些核心能力？

（根据圆桌内容整理：DeepResearch与Manus的对比）

（根据圆桌内容整理：下一代Agent特征）

要点提要：

1.下一代Agent技术的进化

多Agent系统：Manus采用了多个AI助手协同工作的方式，虽然运作方式基本固定，但展示了多Agent系统的潜力。

记忆和上下文管理：未来的Agent需要增强记忆能力和上下文理解能力，以更好地处理复杂任务。

端到端训练：Deep Research展示了通过端到端训练，将整个AI助手的能力直接做成一个模型的方向，这被认为是下一代AI助手的发展方向。

2.下一代Agent的特征

自我评估能力：未来的Agent需要具备自我评估和反思能力，以提升自主能力和智能水平。

跨环境能力：Agent需要能够跨越不同的应用环境，自主使用各种软件工具来解决问题。

自主学习和进化：Agent应具备从使用数据中持续学习和进化的能力，以提升解决问题的效率和个性化程度。

3. 我们应该怎么应对AI时代就业的改变？

增量思维：用增量思维来看待AI的发展，认识到新的行业和工作机会会随之诞生，每个人都能成为“超级个体”。

AI领导力：从执行具体事务转变为制定目标，管理并验收AI的工作成果，成为AI的领导者。

持续学习和适应：用好AI的关键在于持续学习和适应，亲自体验AI在不同场景下的优势和局限，找到自己的价值定位。

以下是圆桌全文：

一、应用实践

徐思彦：

我注意到可能有很多同学还没有用过Manus，或者还没有拿到试用资格。余一，请你给大家介绍一下Manus是怎么工作的，还有，为什么你觉得它特别像一个实习生？

余一：

作为一个普通用户，我很早就开始关注AI助手这个领域，也一直在关注Meta GPT的产品。我的编程能力不强，以前用AI助手产品时总是遇到很多问题。这些产品对普通用户来说不太友好：安装很麻烦，界面不好用，遇到问题时不知道怎么解决。有时候花钱买了却用不好，让人很沮丧。

但这次用Manus的体验完全不一样。可能是因为现在用户还不多，整个产品用起来特别流畅。让我特别惊喜的是，它只用了17分钟就帮我完成了一份很完整的行业分析报告。这份报告包括了：行业现状分析、发展趋势预测、重要公司筛选以及每个公司的详细信息。我还试用了它的其他功能，比如制作网页、开发小程序，还有在小红书上发图片。整个体验都很顺畅，特别是那份17分钟就完成的分析报告，真的让我感到惊喜。

虽然市场上对这个产品有不同看法和争议，我在朋友圈称之为“Agent的DeepSeek时刻”。我之所以这样评价，是因为它的产品设计确实出色。它会展示详细的任务清单，让用户清楚看到它如何规划和分解工作。与以往的AI不同，这个产品不需要太多预设就能智能地处理问题。它能同时处理多个任务，一步步完成并最终交付完整结果，整个过程非常流畅。

这让我想到其他AI产品的发展历程。我早期使用过O1，但它不展示思考过程。后来的DeepSeek R1虽然可以看到思考过程，但效果不够理想。不过，R1的思考方式已经让我印象深刻。

这款新产品通过展示所有步骤和任务清单，让用户能看到完整的工作过程。在数据分析、总结和营销策略制定等方面，它的表现堪比一个优秀的实习生。但在编程方面还需改进——比如编写贪吃蛇游戏或开发小程序时，效果不如Claude 3.7。最近市面上也出现了其他类似的AI开发助手。

总的来说，这是一款对普通用户非常友好的产品。使用后，你就能真正理解什么是AI助手——它就像一个能够自主规划、分解任务并执行的智能助理。这是一个完整但并非完美的产品，它仍受限于自身的技术和AI模型能力，正在不断进步和完善中。

徐思彦：

现在对于Agent还没有统一的定义，你们是如何定义Agent的，manus的这个产品设计符合对Agent演化的预想吗？

揭光发：

关于Agent的定义，我们可以这样理解：与传统的语言模型（LLM）纯文本生成或聊天模式不同，Agent是一个能够自主思考、规划，并使用工具来完成用户任务的系统。它能形成一个完整的任务闭环，不只是针对问题生成简单回应就结束。传统的聊天机器人可能只会打个招呼或写个故事，但真正的Agent能够理解用户需求，进行网络搜索、生成文件、编写代码，最终将完整的成果交付给用户。

在过去两年，业界对Agent这个术语的使用较为混乱，有些从业者甚至把简单的语言模型文本生成也称作Agent。因此，我们需要厘清Agent的概念：现在所说的Agent应该是能够完成具体任务的系统，就像一个实习生能够完成交办的任务那样，而不是仅仅通过对话给出简单的反馈。

从使用语言模型到现在，这个领域经历了相当长的发展。以代码生成为例，Manus的产品形态借鉴了至少两三个技术产品。其中之一是Devin，这是由一个华人团队开发的产品。Manus借鉴了Devin在浏览器中可视化展示代码编写过程的创新。此外，Manus还采用了其他产品的常见做法，比如制定计划和任务清单，这在GPT Pilot等代码协作工具中很常见。它的运作方式模仿真实开发团队，将大任务分解成小任务。

GPT Pilot建立了任务数据库，让AI“工程师”可以认领并完成编码测试任务。所以，Manus的设计并非完全原创，而是整合了其他产品的优秀功能，这也是为什么有人说它是“拼凑”不同技术的产品。

不过，Manus确实巧妙地整合了这些优秀功能，给普通用户带来惊喜。作为业内人士，我认为Manus最大的成功在于产品体验方面：它让用户能清晰地看到AI完成任务的每一步，并实时了解进展。这种体验设计确实出色。但从技术层面来说，它使用的都是近两年比较常见的技术，没有太多突破。关于AI助手的未来发展，我们稍后再讨论。

徐思彦：

Manus给自己的一个定义就是业界“第一个通用Agent”，那这到底是一个概念的炒作呢，还是事实上它具备了一定程度的通用能力呢？

揭光发：

我觉得他们在做营销概念方面很擅长。实际上，这种Agent的基本框架并不复杂——现在的程序员用现成的开源框架，一天就能做出一个类似的Agent。

关于它是否真的“通用”，主要要看它能用什么工具。比如在代码生成领域，像Cursor这样的工具，它就专注于写代码、读写文件、查询网络信息等编程相关的功能。

Manus确实内置了29个工具，这一点已经被网上的人分析出来了。这些工具能够完成日常工作中的很多基本任务，比如写作、收集信息、分析数据、写代码和浏览网页等。

正是因为它的工具覆盖面比较广，所以它才说自己是“通用”Agent。但这并不意味着它真的什么都能做。比如让它去炒股或者处理一些专业领域的特殊任务，它就做不了。

所以准确地说，它只是一个功能相对丰富的基础智能助手，而不是真正意义上的通用Agent。这更多是一个营销手法，显示出这个团队在市场推广方面很有能力。

徐思彦：

如果说DeepSeek相较之前大模型的改进在于通过结合大模型与专家模型来节省资源。那么对于Agent来说，专注细分领域和“通用型”Agent，哪种路径更易落地？

揭光发：

在Agent技术层面，其实就像基础素质教育一样，大家都需要有基本能力。但像人类社会一样，Agent也需要有分工和专业化，根据不同场景提供不同的解决方案。

这是一个可行的发展路径。因为完全通用的Agent在实际应用中反而有局限性，专业深度不如垂直领域的Agent。比如用Claude 3.7做代码生成，画SVG的质量就比写代码好得多。这是因为在垂直领域投入了更多优化，而通用Agent难以在每个领域都做到这么深。

徐思彦：

请余一跟我们分享一下，你觉得AI Agent正在怎么样重塑你的工作流？

余一：

现在的AI系统底层能力很强，集成了很多工具，可以在多个领域都发挥作用。我自己最近也在深入使用这些AI工具。这些AI助手真的很灵活，既能处理日常工作，也能应对专业任务。比如在做调研时，它既可以处理一般性的资料收集，也能提供专业领域的分析。

我觉得，如果一个AI只是简单加入了某个行业的专业知识，这样还不够。反而是通用型AI可能更有优势，因为它技术更全面，基础能力更强，而且使用起来更省钱。这种通用AI很可能会替代一些基础的专业AI。

我在探索它在工作和生活中的作用，看看它有什么优点和不足。虽然还没有完全改变我的工作方式，但像Claude、GPT-4 Pro这些AI工具已经成为我工作中重要的帮手。最大的变化是在搜索方面，现在我不用事事亲力亲为，只要把任务交给AI，定期检查结果就行。而且它会及时反馈进度。

给我最大的感动就是属于说“不用给AI配一个人”，但我也在测到底有多少个任务是可以把我从这里面重度解脱出来，或者是我可能只需要在一定的阶段里面去做一下check和指明方向的任务。

二、技术理解

徐思彦：

我们刚才讨论了应用和产品创新方面的理解。第二部分，让我们探讨一下Manus的技术层面。Manus的AI核心技术是在过去两年各项技术基础上的一个整合。那么它与OpenAI的Deep Research、Devin这些产品相比，具体有哪些异同呢？

揭光发：

好，让我来解释一下目前的技术发展情况。Manus的工作原理和流程图现在网上都能看到。说实话，Manus在核心技术上并没有太大突破，主要的技术创新反而出现在Deep ReSearch这类产品上。

Manus采用了多个AI助手（Agent）协同工作的方式。它包括计划制定、总结和审查等功能，这些功能都需要多次调用大语言模型。有人把这叫做“多Agent系统”，但实际上更像是一个固定的工作流程。

虽然官方团队说他们不是简单的工作流，但他们的运作方式基本是固定的。真正的多Agent系统应该是各个AI助手之间能够自主互相调用和交流，而不是依赖中心化的控制流程。

在技术实现上，Manus使用了一些后训练技术，比如用大模型蒸馏数据到较小的模型中。这样做是必要的，因为如果每次都要加载大量上下文和说明文档，运行成本会很高。总的来说，Manus在技术层面做得很扎实，但没有特别突出的创新。他们最大的成功是在产品体验上。

说到产品体验，有一个有趣的变化：以前当AI在思考和查询信息时，用户会觉得系统太慢，看不懂中间步骤。但是从DeepSeek R1开始，它把推理过程清楚地展示出来，让用户理解AI需要时间来思考。Manus更进一步，即使需要10-20分钟完成任务，用户也能接受这个等待时间。

现在用户已经理解AI程序比普通程序要慢，需要思考时间。当我们把这个过程描述为“AI在认真思考”时，用户的接受度就提高了很多。这是Manus和DeepSeek R1在产品体验上带来的重要改变。

接下来说说几个重要的AI产品。MGX是洪老师团队的产品，它的特点是24/7不间断工作的AI开发团队，通过多个AI助手协作来完成软件开发。在专业领域应用方面，MetaGPT做得非常出色，开发了很多优秀的开源框架。

最后要说的是Deep Research，我认为这代表了下一代AI助手的发展方向。它采用了完全不同的方式：通过端到端训练，把整个AI助手的能力直接做成一个模型。这不同于目前的方式，现在都是把大语言模型和各种工具组合起来，由程序员写控制程序来协调。

我相信未来的AI助手会回归到模型训练的方式。Deep Seek已经在他们的NSA论文中提到了仓库级的代码生成和主动式AI助手的目标。他们开发的新注意力机制就是为了处理超大规模文本而设计的。这是一个值得关注的发展方向。

徐思彦：

Manus，包括现在其他的AI Agent，它们的主要技术瓶颈在哪里？如果他没有瓶颈的话，其他团队是否可以快速复制？

揭光发：

关于AI Agent的技术瓶颈，基础Agent不难搭建，有编程经验者借助现有工具，一天内可理解其工作原理。但真正可用的Agent挑战更大，关键在于错误容忍度。大模型生成内容有错误，多次调用会降低准确率。在研报调研等场景，错误容忍度较高；而在代码编写等场景，错误容忍度低，需专业程序员介入。特别是数据操作类Agent，错误可能影响生产。

因此，需根据不同场景判断错误容忍度，这决定了Agent的可用性。

再看错误原因，首先是模型智能程度，即单次调用大模型的结果是否可接受。目前，SOTA大模型在单次生成上通常优于人类。在简单场景下，大模型的表现已经超出人类平均水平。比如在基础代码编写方面，它能快速生成高质量的函数和单元测试。

但在复杂场景中，比如处理多文件代码或涉及隐含知识时，其表现会大幅下降。这引出了核心瓶颈：记忆能力。

目前大模型是无状态无记忆的，技术上通过为大模型提供丰富的关联上下文来模拟记忆，而提供上下文又不仅仅是存储并提供历史对话那么简单。往往又会涉及几个核心技术点包括上下文的窗口大小RAG技术.前者通过扩大模型的上下文窗口好让它在一次对话中尽可能多的输入内容，但当前大多数模型在超大的上下文上表现的性能仍然差强人意，这里需要一个强有力的解决方案DeepSeek的NSA论文提到的原生稀疏注意力有望解决这个问题；而使用RAG方式来召回记忆，又会面临embedding质量和召回准确率的问题，这使得实现有效记忆变得极其困难。

这里面还有很多技术细节，但简单来说，影响AI Agent性能的两个核心要素：一是模型本身的智能程度，二是在处理复杂规模问题时的上下文和记忆管理。这两点直接决定了Agent的性能表现，其中后者尤为关键，也是当前业界投入大量研究的重点方向。

徐思彦：

洪老师，请你介绍一下你们在开发的OpenManus项目的背景。

洪思睿：

关于OpenManus项目的背景，最初是想用我们自己开发的多Agent框架来挑战SweetBench基准测试。SweetBench是一个项目级别的代码修复数据集，要求在代码仓库中定位和修复代码。因为需要处理大量代码，我们开发了专门的代码定位、扫描和读取工具。

随着大模型能力不断提升，我们把这些开源工具整合到仓库中，并且简化了使用流程。虽然项目最初专注于代码修复，后来我们又增加了网页浏览等功能。

Open Manus采用传统的Agent架构，结合提示词工程和工具调用能力，提供了轻量的Agent开发框架。为了处理长上下文问题，我们也尝试在记忆管理方面进行优化。

另外，我们的产品（MetaGPT X）与此不同，它专注于生成完整的软件项目。最大的创新是它实现了基于任务难度自动分配不同Agent解决问题，具备动态路由和自适应拓扑结构。

举例来说，数据分析任务会自动分配给数据解释器Agent，而前后端开发则交给工程师Agent处理。系统能够根据任务的复杂程度动态调整这种分配方案，并让任务的完成度足够高。

三、下一代AI Agent趋势

徐思彦：

现在让我们进入第三个话题，这可能是大家最感兴趣的：Manus会给未来的AI Agent带来什么启发？

余一：

关于这个产品的壁垒，我认为最核心的是其对用户需求的深刻洞察。在产品发布前，我和产品负责人小红交流过，他们在产品设计上做了很多思考，包括记忆、多模态搜索和多模型调用等技术创新。

他们观察到，虽然目前市场主要集中在底层大模型升级和B端应用上，但在ToC产品方面存在明显缺口。大众用户需要更进一步的、易用的AI产品，而不是仅仅停留在基础的大模型推理能力上。

这款产品借鉴了许多成功经验，团队认为当前正是切入消费级AI市场的最佳时机。产品设计特别注重用户体验，包括流畅性和完成度，为未来的Agent产品开创了一个好的范例。

目前看来，无论是资本圈、市场还是用户的接受度都相当不错，这也说明市场对这类产品有着强烈的需求。

徐思彦：

洪老师，你觉得是哪些能力是接下来Agent最需要强化？Deep Research在此前的访谈中也提到他的最终目标还是要做一个面向AGI的Agent，什么样的Agent可以符合这样的标准？

洪思睿：

让我从技术角度分享一下我的理解。首先，不管是Manus还是其他Agent产品。它们都缺乏一个关键能力：自我评估。虽然这些Agent能用各种工具规划并解决问题，但它们还不会评估最终结果是否达到预期。这种评估能力或自我审查能力非常重要，系统需要给Agent提供这样的反馈。因此在构建Agent系统时提供环境闭环反馈是一个重要环节。无论是通过奖励学习来实现，还是在环境中设置相应的反馈模型。如果Agent能够评估结果，就能进一步评估目标完成情况，从而提升自主能力和智能水平。此外，关于核心能力我们现在看到，无论是更通用的多步推理能力，还是工具使用能力，训练成本都很高，需要采集大量轨迹数据，通过后期训练，包括各种强化学习方法来训练。

但是，我们可以探索让Agent在推理中自主增强能力。也许不需要确认特定模型，而是让Agent主动进行多次探索环境。在整个探索过程中，可以引入集成或混合能力，从而提升最终效果。

当然，这需要降低整体探索成本。举个例子，如果一次执行效果不好出现幻觉，我们可以用不同设置尝试五次，然后混合这些结果。关键是要让用户感觉仿佛只执行了一次，保持速度和成本。

这对工程能力确实提出了巨大挑战。目前任务的学习数据量仍然不足，即使单个任务的数据量要求是几百条，大量不同任务的采集和合成都需要耗费大量资源。我们需要探索新方法，比如将元学习（meta learning）引入Agent设计中。这样能让Agent以更高效的方式学习新任务、适应新环境，从而更好地解决用户的各类问题。虽然Agent已经处理过许多类似问题，但每次遇到的具体情况都会有所不同，迁移能力很重要。

这些细微的问题差异正是我们需要重点突破的。同时，我们还需要加强Agent的记忆能力和上下文理解能力。目前浏览器端的Agent和具备多模态能力的Agent能够感知各种类型的数据，这些数据都会进入其上下文中。关键在于如何保持上下文表征的统一性，确保信息完整，并有效整合不同模态的信息来作出决策。这些都是未来Agent设计中需要重点增强的核心能力。

徐思彦：

接下来还是请揭老师展望一下你觉得这个未来的Agent下半场会以什么样的形式展开？

揭光发：

刚才我们已经讨论了需要强化的核心能力，比如反思能力、记忆能力等。从我的观察来看，通过端到端的训练范式，我们其实能很好地解决这些问题。

OpenAI的O1和DeepSeek的R1这两个模型本质上是“类Agent”模型。它们的特点是不止一次生成，而是分阶段生成：第一阶段进行思考，第二阶段基于思考结果生成答案。这种方式把原本需要多次交互的Agent功能压缩到了模型内部的生成过程中。

根据OpenAI团队的说法，这些新一代Agent本身就是一个模型，而不是传统的Agent工程。它们采用直接训练方式，核心使用强化学习。DeepSeek的R1通过展示思考过程，证明了强化学习配合简单奖励规则就能让模型展现出自主思考能力。

这种训练方式与传统的提示词教导不同——只需设定目标和奖励机制，就能让模型自主学习规划和执行。目前DeepSeek还开源了NSA（原生稀疏注意力）技术，用于解决大规模代码生成和处理超大上下文的问题。当强化学习和稀疏注意力这两项技术成熟后，Agent的训练就迎来了春天。

接下来我们将针对具体场景训练Agent。我们不追求完全通用的Agent，因为这可能不太现实。相反，我们会像培养专业人才一样，根据不同领域和职业来训练专门的Agent。

最近业界提出了一个新观点：未来产品形态将发生重大转变。传统方式需要搭建模块、设计交互流程，但未来可能只需训练一个具备服务能力的模型即可。

在2023年时，我在大模型重塑软件开发的课中就提出一个构想：生成式大模型会经历生成文本、生成代码、生成软件到最终生成服务几个阶段。前两个在两年前已经很常见，生成软件这个领域，Cursor，Clien AI IDE及插件们正在证明，而当下的Agent就是直接为我们提供服务的存在，端到端训练得到的OpenAI Research更是进一步把服务变成可训练可生成的。

他们的模型能够直接提供服务，而不是给用户一个需要自行操作的软件。这一发展令人惊叹，仅用了两年时间就实现了。

我们已进入“模型即产品、模型即服务”的时代。这正是下半场我们需要重点关注的技术方向。

徐思彦：

请洪老师也分享一下对于Agent下半场的想法。另外，Open Manus团队自身下一步有什么样的计划呢？

洪思睿：

对，我觉得揭老师讲得很清楚，Agent的下半场就是要把自主能力训练到模型里面去。通过结合Agent的自主形态，模型能够进一步提高解决问题的成功率。

这其中有很多技术点需要突破。我们正在研究如何训练Agent使用工具，比如将Chain of Thought(COT)的数据输入模型中，这对提升工具决策能力很有帮助。另外就是如何合成执行轨迹的数据。因为Agent在执行过程中会有出错行为，我们不能直接用这些行为来训练，而是需要对数据进行处理、合成和矫正。

这些都是我们目前在做的工作。大家如果查看Open Manus的GitHub，会发现我们已经开始了一些学术合作。我们希望能基于MetaGPT和Open Manus来训练自己的Agent模型，并结合强化学习一起推进。

我认为Agent下半场还需要另一个重要能力，就是跨环境能力。目前Agent还只是活在浏览器里面或者一个单一的环境。它是否能够跨越到不同的应用环境中。我们在处理问题时，往往不只需要在浏览器上操作，还需要使用其他应用软件，比如绘图软件或专业的报表软件。那么Agent能否跨越这些应用环境来帮我们解决问题呢？我认为这是一个非常重要的能力。就像现在有各种各样的代码开发产品和工具，每个工具都有自己的专长——有的擅长前端开发，有的擅长后端开发，有的擅长数据分析。那么Agent能否自主使用这些不同的软件，帮我们构建更复杂的应用呢？这确实是一个关键能力。

随后谈到跨环境能力，第二个重要方向是Agent在产品层面的进化能力，也就是自主学习和进化。

无论是通过轨迹数据训练还是增强模型能力，这都是一个阶段性的过程。最初，我们通过数据来提升它解决问题的能力。但随着个人使用频率增加、应用场景数据积累，它能否从这些数据中持续学习？

比如说，能否提升解决问题的效率，将原本需要50步的操作简化为10步？这样不仅可以降低成本，还能提供更个性化的解决方案。

这种进化能力对Agent来说至关重要。相信在下半场，我们会看到更多这样的产品——越用越符合用户个性化需求的体验。

徐思彦：

那也非常感谢今天三位老师从各自专业的角度帮我们很客观的认识了manus这款火爆产品。以及对Agent下半场的展望，各自都提出了非常有建设性的建议和分析，那由于时间的关系呢，我们今天的圆桌讨论就到这里，接下来还有一点的时间，我想提就是代表线上的观众给各位提一些问题，大家来解答。

Q&A

徐思彦：

今天这场直播非常火爆，大家在后台都留了很多的问题，那首先第一个问题就是在课前就有同学问的，也比较有代表性的，Agent现在发展的这么快，我们的工作还有多久被取代呢？

揭光发：

我可以跟这位同学讲，其实你有这种想法并不孤单，其实不是你自己有这个想法，其实可能是一个生产力爆发的这个阶段，大家都会有那种共同的焦虑。前一两个星期我其实也是去听了梁宁老师的产品课，里面其实也有一个拷问，就说AI发展到现在很强大了，那我们作为产品经理，我们的工作还能保得住吗？对，原来其实我们程序员本身会发现，像cursor写代码的这个工具已经很厉害了，我们都在怀疑后面还需要我们写代码吗？对吧。没想到隔壁产品经理他没有这种焦虑。对，所以说这个其实是一个共性的问题，AI它对整个领域或者行业的打击是全行业的，没有差别的。这个是事实哈，但是我们要看你是怎么去看待这个问题，角度很重要。

让我来分析一下。我们可以从两个角度思考：存量思维和增量思维。存量思维认为我们现有的工作和需求就这么多，既然AI已经能完成这些工作，那我们岂不是没事可做了？是不是就要面临失业了？这种想法很自然，我相信大多数人最初都会这样想。这种情况就像当年珍妮纺织机和汽车出现时一样，那些行业工人的焦虑和恐慌本质上是一样的。

但我们可以换个角度，用增量思维来看这个问题。回看那些纺织工人，或者说马车夫，虽然他们原来的行业消失了，但新的行业随之诞生。比如在汽车刚出现时，谁能想到今天全球会有数亿辆的汽车保有量呢？这在当时是完全无法想象的。

所以我们要用增量思维来思考。借助AI能力，我们每个人都能成为“超级个体”。相应地，整个团队的生产力也会大幅提升。从积极的角度看，团队实力的增强让我们能尝试更多新的挑战。比如开发者不必局限于前端或后端，可以成为全栈工程师，甚至发展跨产品的能力。产品经理可以利用AI快速开发MVP并验证，让所有工作都能加速推进。

作为超级个体，你的能力也需要转型。过去的编码、写文档、做产品原型这些技能可能不再那么重要，你需要实现能力的迭代升级。你要成为AI的领导者，带领AI一起工作。我把这称为“AI领导力”——从执行具体事务转变为制定目标、管理并验收AI的工作成果。意味着每个人都将从执行者转变为小型管理者。这是未来工作本质的重大转变，也对我们提出了新的能力要求。

徐思彦：

我们观察到每个人对于Agent的使用门槛是不一样的，然后团队写作里面也有很多复杂的传统意义上需要人去沟通的问题，那这会不会是Agent在企业落地的一个障碍，有没有解决的方法？

洪思睿：

这确实是个很好的问题。目前大家的共识是，我们会将问题解决流程的接口标准化后提供给业务方，这样可以减少人机交互环节，因为接口不标准化会影响最终的处理效果。随着AI能力的提升，它不仅能进化，还能实现个性化，并学习业务数据。这意味着接口会越来越开放，当同一业务需要服务企业内不同团队时，这些信息流程可以灵活适配，实现自适应。

徐思彦：

好，那最后一个问题给余一，涉及刚刚谈到的AI领导力建设，在个人使用Agent的场景，有没有什么建议给到大家怎么样把Agent用好？

余一：

我先介绍一下背景：之前我在腾讯内网和腾讯研究院的科技向善节上分享过，讲述了我在AI协作2000小时后的心得体会。那里有更详细的内容，但今天我想简单谈谈。虽然刚才揭老师给大家做了很好的心理按摩，但我可能要带来一些不太乐观的消息。这来自于我平时大量接触企业家的工作经历。

今年出现了一些很强烈的信号，我觉得对所有人来说都是一个警醒。过去两年，我遇到的企业家和业务负责人，跟我讨论的主要是一些AI相关的宏观问题。

但今年不同了。现在他们问的都是具体问题：怎么做AI私有化部署？有什么可以借鉴或直接参考的成功案例？如何重构组织流程？

他们都在积极拥抱AI。很多人告诉我已经准备好了资金，想知道该用什么战略来推进，反复提到的就是提升人效、降低成本。这是当下企业老板们正在思考的核心问题，也显示出他们对AI的强烈拥抱意愿。

第二点是两个令人震惊的真实数据。我有个朋友在经营一家企业，我问他为什么客服和销售体系还没有大规模采用AI。他说当时AI只能帮他裁掉两个人。他说：“我们总共才八个人的团队，只能裁掉两个，要改造整个流程的隐性成本太高了。”但到了去年年底，他的团队就只剩下两个人了。

我再分享几个例子。我有个做低代码平台的朋友说，他们公司现在一半的代码都是AI生成的。这说明企业使用AI的程度已经到了一个新的阶段。

再说说硅谷的情况。那边的公司在用AI更新老旧的代码系统。为什么呢？因为在硅谷，请程序员很贵，而且好的程序员不愿意做这种重复性工作，能力一般的程序员又做不好。现在他们有了新办法：花200到500美元让AI生成代码，再请一个资深程序员来检查。这样既省钱又高效。当然，这也意味着一些初级程序员可能会失业，这是个不太好的消息。

我观察到2025年是个重要的转折点。不管是混合办公方式，还是工作流程的改变，包括提高工作效率，都会有很大变化。这种变化不光是在产品层面，企业内部用AI的情况也越来越多。

说到AI什么时候会取代人，外行人往往会给出一些很笼统的回答。但我觉得，在现在这波AI浪潮中，笼统的分析意义不大。我觉得AI的能力就像一条锯齿状的线，远远看是一条直线，但走近了才能看清它在不同方面的强弱。所以我一直建议朋友们：如果今年还不开始用AI，恐怕就要被市场淘汰了。

至于人类还剩多少工作，或者每周能有多少工作时间，这些问题只有自己能回答。你必须把AI引入工作和生活中，亲自体验它在不同场景下的优势和局限。

只有这样才能得出结论。第二点是关于态度问题。我一直认为，也现在依然坚信，用好AI是关键。就像揭老师说的，要做AI的好老板。好老板不一定要比下属能力强，但要能提供他们没有的资源，展现你的价值。否则，就像员工会独立创业一样，你不仅要善于协作。你要证明“跟我合作，我能给你提供独特的资源和能力”。我现在的态度就是：我们要学会给AI打工。跟AI协作的态度就是说去确认我能给AI提供什么样的价值。

徐思彦：

2025年注定是不平凡的一年，相信大家在看到各种新奇实用的AI模型和产品的同时，自己的工作也将迎来巨大的改变、融合与挑战。

今天的圆桌就到这里了。再次感谢三位专家的精彩分享。今年我们会继续不定期举办圆桌活动，围绕生成式AI的最新进展、创新，以及它对我们的影响展开讨论。如果大家想要搭上正确的船，欢迎持续关注我们的圆桌活动。

电车新能源发展网

电车新能源发展网

万字长文，聊聊下一代AI Agent的新范式

admin

Related Posts

自费对比徕芬T1 Pro、松下Air，我想告诉你有关它们的一切……

如何用AI构建个人知识库？

发表回复取消回复

You Missed

自费对比徕芬T1 Pro、松下Air，我想告诉你有关它们的一切……

如何用AI构建个人知识库？

鲍威尔遭刑事指控，怎么回事？

我们在美国一路向北，所见全是这家“穷鬼超市”

我专程逛了3天胖东来，中国最火超市比网上说的更离谱……

做了近视手术能管一辈子吗

电车新能源发展网

电车新能源发展网

万字长文，聊聊下一代AI Agent的新范式

admin

Related Posts

自费对比徕芬T1 Pro、松下Air，我想告诉你有关它们的一切……

如何用AI构建个人知识库？

发表回复 取消回复

You Missed

自费对比徕芬T1 Pro、松下Air，我想告诉你有关它们的一切……

如何用AI构建个人知识库？

鲍威尔遭刑事指控，怎么回事？

我们在美国一路向北，所见全是这家“穷鬼超市”

我专程逛了3天胖东来，中国最火超市比网上说的更离谱……

做了近视手术能管一辈子吗

发表回复取消回复