[Agentic AI] 从智者到行者——Agentic AI的范式革命与技术架构


本文是《理解和部署Agentic AI》系列的一部分:


从“我问你答”到“我问你做”

在讨论Agentic AI之前,我想先讲两个小故事。

我在网上和别人聊天的时候,想要比较一下亚马逊和谷歌最近五年的股票走势来佐证我的一个观点。我先是上网搜索了有没有现成的比较和工具,发现没有。接着问了ChatGPT,你能不能帮我寻找或者生成一个股价对比图。他说做不到。这时候我已经想着放弃了,因为聊天的过程中,不值当特别花个5分钟去专门做个图出来。最后我死马当活马医,用了Cursor最新的Agent模式,就直接把要求丢给它,让它给我生成一张图,上面有谷歌和亚马逊最近五年的股价,同时把两个股票的起点对齐,这样方便我比较。结果没想到的是,Cursor就开始全自动写程序,装依赖,debug,改程序,重新执行,然后在一分钟之内就给了我想要的图,如下图所示。真是令我大受震撼。It just works。

Stock price comparison

第二个例子是,我在做网页的过程中,需要把我的头像变成圆形,用美工的术语来说是加一个圆形的遮罩。有了上一次的经验,我这次就没有打开Photoshop,或者问ChatGPT应该怎么操作Photoshop,而是直接把图扔给了Cursor,在它的agent mode里面描述了一下我想把图PS成什么样的形状。Cursor吭哧吭哧鼓捣出来一个我看不懂的命令行,然后自己安装依赖,出了一张图。但是它把这个圆形的大小弄错了,所以我跟它提了一下这个反馈,它又自己调用命令行搞清楚了这个图的大小应该是多少,然后就给了我一张正确的图。

这两个例子对我的触动蛮大的,原因是它体现了一种非常根本的使用AI的思路的变化,如果我们看上古时期的AI产品,比如一年前的ChatGPT和Claude的话,它的使用模式是“我问你答”——我们有什么不知道的东西会去咨询它。这是为什么那个时候的很多文章会把ChatGPT和Google进行对比。但是在2023年底的时候,至少对于码农来说,我们使用AI的方式很大程度上变成了Copilot,也就是“我问你写”。我们对AI的期待不仅是告诉我一些事情,而且是帮我写一些代码。然后我跑这个代码来执行别的任务。

但是在上面的这两个例子里面,我对AI期待的输出已经不是代码了,而是一个实际的任务,或者说artifact。它可能是一篇文档,可能是一个photoshop的图片,可能是一个数据可视化的图表。换言之,这个使用AI的模式变成了“我问你做”。这个变化是十分根本的。因为不论是我问你答,还是我问你写,AI都只是完成任务的中间步骤而已。在搜集完资料之后,我要自己做判断。在搜集完程序之后,我要自己把它调通,组织 debug,让它正确运行。还要把结果给整理一下,才能为我所用,交付我所承担的工作。

但是“我问你做”,则打通了所有的中间步骤,让 AI 端到端地完成了整个任务,真正地交付了我们最终想要的东西。比如,当我想要这个图的时候,我不用去帮 AI 拆解,去哪个网站找数据,怎么画图。而直接就可以期待 AI 就会把这个图给我,我贴到聊天框里就可以了。类似地,当我想要 Photoshop 一张图的时候,我也不用去向 AI 学习应当如何使用 Photoshop。而是直接就期待它就会给我最终的成果,我传到网上就行了。这是一个相当本质的变化,能让我们真的把精力集中在那些充满不确定、更有难度、需要我们的思考和创造能力的地方,而不用花费大量的精力来做执行和拆解方面的工作。而这个变化,又会进一步推高我们工作的天花板,让我们可以做到以前做不到的事情。

Agentic AI的核心特质:使用工具与多步决策

而从我说你答,到我说你写,到我说你做的变化,则是由Agentic AI引发的。在具体探讨Agent AI的更多细节之前,我想先解释一下我对什么是Agent AI的理解。这个词在互联网上哪怕是AI圈子里都是比较混乱的。大家比较公认的定义是,一个能完成特定任务的AI就可以叫做Agent。但这个定义其实非常笼统,也有很大的歧义。

比如,我做一个GPTs,通过Prompt的方式,教它五行周易,让它能算命。这是符合完成一个特定任务的定义的,但很难支撑我们上面所提到的场景。类似的,我们把AI接入公司内部的知识库,让它进行RAG,从而实现客服智能机器人这样一个产品。它因为有了公司内部的知识,和公开的GPT是不一样的。因此它能完成一个独特的特定任务,也算是Agent。但同样,它也没办法支撑我们上面的“我问你做”的场景。我还可以举出很多例子,比如Fine-Tune之后的模型,比如用特定格式输出的模型等等。但是它们都没有触及我觉得最核心的两点,一个是使用工具,一个是多步决策能力。

使用工具比较好理解,比如AI的一个老大难问题,就是没办法做精确的数学计算。但如果我们给它一个计算器的工具,在做数学计算的时候,不用它自己生成下一个Token的能力来做计算,而是通过调用计算器来做计算,这就可以完美地补足它数学计算不精确的短板。类似的,对互联网的搜索工具,对公司内部数据库进行Query的工具,都可以极大的改善AI能力的短板,让它实现之前做不到、甚至可能长期都做不到的事情——比如知道今天早上的新闻——毕竟我们不太可能把训练一个LLM的时间从几个月缩短到几个小时。因此,一个AI只有拥有了使用工具的能力,才能更好地适应多样的任务需求,让自己可以对世界产生嘴炮之外的现实影响。

那多步决策是什么意思呢?我们传统的AI,它的推理过程是回合制的。比如,你问它一个问题,它回你一个答案,接下来它就等着你做下一步的指示。即使是拥有工具调用能力的AI,比如Open WebUI,也是类似的工作模式。俗话叫踢一脚动一下。但如果你用过Agentic Cursor,或者Devin就会发现,它们的工作模式是走一步看一步,从回合制变成了即时战略制。比如,它会先执行一个命令,如果这个命令成功了,它就停下来了,等待你的下一步指示。但如果这个命令失败了,它就会根据返回的错误信息,进行进一步的修改与调试,直到命令成功为止。因此,从回合的角度来看,它的一个回合中可以包含多个指令,并且指令的数量是不确定的,是根据工具调用的结果,动态决定的。这种多步决策的能力,也是让Agentic AI有用的一个重要因素。

Agentic AI的基本技术架构

既然Agentic AI这么有用,如果我们想要做一个类似Agentic Cursor这样的工具来适配我们自己的工作流的话,应该怎么做呢?

首先,这仍然是一个非常新而且高速发展的领域,所以遗憾的是现在并没有一个成熟的框架或者库来保证,只要你跟着这个框架或者库走,就能够做出来一个很好的东西。但是我觉得他们的基本脉络仍然是有迹可循的。要想搭建一个Agentic AI系统,关键有四个方面:

  1. 调用工具的LLM:从语言输出到现实影响

    LLM本身需要有调用工具的能力。现代的LLM,不论是闭源的GPT、Claude 3.5,还是开源的Llama 3.2,都有相当好的调用工具的能力。同时又考虑到从头训练一个大语言模型,对绝大部分公司来说都是超出能力了,所以这一部分我们简单略过。

  2. 明确成功标准:为AI划定任务终点与检查标准

    这个Agent系统需要有一个明确的成功的标准或者停机的指令。比如,我们给AI交代一个任务:"我有一个文件,里面有5000个数据行,你帮我转换一下格式。"当你跟AI交代,你成功的标准是输出的文件也要有5000行而且不能有null的时候,与不跟它说这个标准相比,它完成任务的质量可能会天差地别。这个其实不是AI本身的挑战,当我们给下属交代任务的时候,往往也有类似的问题。当我们把完成任务的标准定得很清晰的时候,下属或者AI就可以自查并且自己迭代。它对任务的完成度和符合我们期望的概率就会大很多。而当我们没有交代清楚这个标准的时候,即使AI或者下属有多步决策的能力,也会退化成踢一脚动一下,随便弄个东西交个差就等你检查了。比如最多保证它的程序可以跑通,或者没有语法错误,但是浪费了很多它本来明明可以做到的潜力。同时,在思考如何向AI交代完成任务的标准的过程中,这也会逼着我们思考一个问题:AI有没有合适的工具来检验它的任务有没有完成。如果没有的话,我们可能第一步得先让AI做一个这样的工具出来。

  3. 工具描述与标准化:为Agent建立清晰的能力接口

    我们需要有一种机制来跟AI明确地描述它有哪些工具,每个工具分别是做什么的,它的输入输出是什么,AI可以以怎样的方式调用。这部分工业界还没有一个成熟的标准,有一些企业在试图推一些开放性的标准,比如Anthropic的Model Context Protocol(MCP)。你只要把你的工具用这种协议描述出来,支持这个协议的AI就可以调用你的工具。当大家都使用同一种标准的时候,互相协作配合就会简单很多。当然,现在还是Agentic AI发展的早期,就算不支持这个Anthropic倡导的协议,我们也有很多其他的标准,比如Open Web UI也有自己的协议,甚至我们也可以自己定义一个私有协议都可以。

  4. Orchestrator:多步执行与并行策略的中控台

    虽然说到Agentic AI,网上大多数文章主要在描述Agent Orchestrator这个组件,但它可能是确定性最高的一个部分。这个Orchestrator会维持一个多部决策的工作流,它会根据我们布置的任务调用LLM,来决定需要使用什么工具,以及根据LLM的回应,真的去调这个工具,并且把结果返回给LLM,然后再进行下一步的推理,它可能还会实现一些并行等等功能,来加速整个推理的过程。这方面业界也有了一些工具,比如Microsoft有个AutoGen,但是目前也没有一个非常成熟统一的库或者框架。

结语

当AI从“我问你答”悄然转向“我说你做”,我们每个人的角色与心态都需要重新定位。在这样一种全新的人机协作模式中,我们的核心价值是什么?我们又该如何为自身和公司提前布局?当AI已经不再单纯嘴炮,而是真的能干活的时候,我们终于可以,而且也必须把更多精力投入到创造性思考、策略布局以及对未知领域的探索中。毕竟,机械化的重复与实现细节将被AI轻松接管,而真正的价值将来自于对问题本质的理解。

或许你可以在自己的下一个项目中加入这样的Agentic工具了。哪怕只是先从一个小任务开始,用Cursor来进行数据可视化的助手、自动格式转换,或是快速原型设计。在这样Build的过程中,你会逐渐发现自己的角色正从一个执行者转向引导者和策划者,从一个苦于细枝末节的搬砖工转向善于利用AI能力的老板。而这,就是Builder’s Minderset的魅力。

这个未来不只属于前沿的技术公司,也不只属于某一个行业,而将属于所有愿意投入其中、不断思考和行动的人们。

Comments