用一次摸鱼经历详解AI管理实战

虽然我重度使用 AI 工(摸)作(鱼)已经很久了,觉得AI倍增生产力是一件现实的事情,但最近摸鱼摸出的新境界还是让我觉得值得分享一下。

我是一个Applied Scientist。今天在洗澡的时候突然有了一个新的建模的思路,接着就在穿衣服的时候对着手机叨逼叨,讲了三四分钟的话,啰里吧嗦没有章法地转译成了一千多字的中文 prompt。然后去电脑前面贴给 Cursor。Cursor 复述了它要做的事情我觉得没有问题之后就让它开始做。接着我就去把娃送到学校。

我从学校回来的时候,发现 Cursor 搞了二十多分钟,差不多刚刚忙完。在这二十分钟里它实现了我的建模思路,在各种组合配置上跑了一百多轮实验,找到了最有希望的组合,跟进去继续调优。然后再对它做各种角度的数据分析,最终写成了一个文档。也提供了可视化,方便我检查。在分析的过程中它发现了一个数字对不上的地方,这导致它又回头返工,修掉了一个 bug。

这其实是一个相当重量级的工作。比如一个 Senior Scientist 今天stand up告诉我:“昨天我有一个新的建模想法,把它实现了出来。在一百多种参数组合上做了实验,找到了最好的几种进行了后续深入分析,理解了它们的优劣,也做了可视化。这个是我的报告,我还在继续查验正确性,后面可能有更新。”我会觉得这是一个很强的 Scientist。且不论业务上的价值,至少这个工作效率是Exceed Expectation的。但是我干的事情只是洗澡的时候有一个想法,穿衣服的同时在对着手机逼逼,送娃前按一下回车。这就完成了一个Senior Scientist一天的工作量,下面全天就可以划水了。这种摸鱼的效果是非常舒适的。

但我想说的不是“AI很好用,大家都来用AI,立刻就可以划水”。因为如果你真的去这么尝试的话会发现,AI其实没这么好用,会笨,会偷懒,有各种各样的坑。但也不是说上面就都是扯淡,这也是一个真实的案例——我后来在stand up上用AI给的可视化结果做了个deep dive,跟大家一起cross check了正确性(没有发现问题),然后基于这些实验结果做出了一些跟业务相关的决策。AI的工作是有确实的业务价值的,只是用好AI有它自己的门槛。像我们之前多次提到的一样,我们需要去像人一样去管理AI,才能避开一些常见的坑。

这篇文章就想从AI的经理的角度出发,分享一下让AI能够像这样顺滑工作的几个关键环节和管理原则(甚至是秘诀),和为什么要这么做。

招聘

招聘是所有其他管理任务的基础。一个足够自驱、成熟老练的团队,不需要经理的引导,也可以自我驱动,短时间内出活。而再强的经理面对一个底子太差的团队,在不 manage out 的前提下也只能慢慢磨,逐渐提高团队素养,短期内出活是别想了。因此准确识别人材,知人善任是非常重要的。尤其考虑到 AI 相比于真人,在可塑性方面还是差一些,因此选择正确的模型做不同的任务就更为关键。

这方面没有太多技巧,主要靠积累第一手经验,通过自己使用不同的 AI 构建不同的产品来建立体感。我的体感是,如果需要写产品文档、做技术决策、辅助思考,Gemini 2.5 Pro 是最好的选择。做一些短平快的项目,Cursor 上的 Cheetah,也就是传闻的 Grok Coding Fast 2(更新:Cursor今天刚刚承认是自己开发的一个新模型Composer 1),是非常理想的。但如果要做像上面的例子中间说的多步骤的复杂项目,还是得 GPT-5-Codex。Claude 4.5 Sonnet 是一个不错的水桶模型,没有太多短板,日常使用非常舒服。但是在上面这种尤其复杂的项目里,我还是倾向不去用它。因为它有一个很讨厌的特性是偷懒。比如让它修一个 unit test, GPT-5 Codex 可能就会死磕,实在修不好再跑过来跟你说对不起我修不好。但 Claude 有一个倾向是,它修了一阵修不好,就把那个 test 偷偷给禁用了,或者在 terminal 上打一个 echo “所有测试全部修复! 🎉”,然后跟你报告修复完毕。或者有一些很难的任务,它会在不通知用户的情况下自己说:啊这个好难啊,那我们去做一个简化版,把真正需要它干的脏活累活跳过去了。这就让我不敢把太复杂的任务交给它,鬼知道它会不会在里面埋什么坑。有可能看它做完了,回头一复查,发现做的是个简化版,就完全没意义。

所以如果想要实践上面说的极致摸鱼的话,选择GPT-5-Codex是一个首要前提。

任务委托

和人类一样,向AI交代任务其实是非常难的。我举个例子就好理解了:我们在家帮老婆做家务或者让老公帮我们做家务。一个普遍现象是,老婆对老公做什么家务以及怎么做往往有非常明确的期望。但是老公因为不知道这些期望,最终做出来一团糟。老婆埋怨老公不懂她的意思,老公埋怨老婆你没跟我说呀。类似的还有园丁来家里剪树,我们以为他会把树稍微修剪一下,结果完工之后发现把一棵大树锯得就剩几个粗杈子。这些都是典型的需要精确地交代任务的场景。但我们没有沟通得足够仔细,就导致了我们觉得老公干事糊弄,或者园丁瞎剪。但如果我们抛开curse of knowledge,抛开之前的期待,会发现他们做事其实是有道理(justified)的,不是真的在糊弄,只是不符合我们具体的期待而已。

不论是做家务,还是给家政/园丁交代任务,还是工作中给下属交代任务,我们都要尤其避免这种 curse of knowledge。有些决策我们因为平时一直这么做已经养成习惯,就会下意识地忽略这里其实还有其他可能的做法。小到一棵树剪多高,大到项目中先做哪一步再做哪一步。如果我们不交代清楚,就很难保证老公/园丁/下属会未卜先知地遵循我们平时的习惯。因此不论对人类下属还是对 AI,期待他们读心,自动照着我们的习惯来,是我们首要克服的坏习惯。

这里面很有用的一个技巧是换位思考:假如我什么都不知道,是一个新入职的员工,看到这段任务要求可能会怎么做?里面有没有什么地方有另一种做法?我需要添加哪些描述才能把这个任务限定在我期待的框架内?刚开始的时候可能需要每个任务都做一下这样的练习,但是很快我们就会习惯这种思维方式,跟 AI 形成默契,知道哪些叙述是重要的,哪些是可以交给它自由发挥的。而且在这个过程中我们往往也会发现,有些小决策让它自由发挥也无妨。就好像做家务,做完了以后抹布放在哪儿,没有放在我平时放的地方确实有点硌应,但是抓大放小,看在它把家务活干了的份上也可以忍。

此外还有一个特别有用的技巧,就是语音输入。打字其实是一个很累的东西:打得快了经常打错字,我得时刻看着哪里打错了,然后再按退格键删了再重新想。这个巨大的精神负担就不由自主限制了我们提示词的长度。比如要是愿意打一两百个字跟AI交代任务已经算是相当好的老板了。但是语音输入可能因为反正不能改,反而没有这个问题。面对麦克风,我们讲话比打字要快很多也更自然,这就让我们可以非常轻松地用两三分钟讲出几百字。有时候我甚至经常跟AI唠个五六分钟,识别出一两千字的提示词。

省时间都是小事,关键是从信息的丰富程度来说这是一个脱胎换骨的变化。很多我们打字的时候觉得“可说可不说,但是因为打字太烦了我干脆就不说了”的信息,在语音输入聊天的场景下自然而然就会说出来。虽然最终成文的严谨性不如打字,但是AI完全能够理解这些看起来杂乱无章的信息。所以我觉得用AI要想效果好,一个秘诀就是不跟它打字聊天,而是跟它语音嘴炮。这个嘴炮是literally用麦克风嘴炮。通过语音给AI的任务交代足够完备,在唠嗑的过程中叙述了很多细节期待,所以它才能有效地完成我心里想的任务。

所以语音输入在AI年代,不是一个降本性质,省时间的东西,而是一个增效性质,能让AI脱胎换骨的工具。一定要重视。

入职培训

我们下面讲一下入职培训。之所以先讲任务委托再讲入职培训,因为AI和人不一样,往往不经过入职培训也能做相当多的事情。而且任务委托确实是使用AI最困难的一点。

AI和人非常不一样的地方是,LLM本身是没有记忆的,所有的信息都必须通过上下文窗口来拿到。它的每次推理面对的都是一个全新的空白的上下文窗口。一个东西如果不在上下文窗口里,它就等于不存在。所以入职培训对于AI来说并不像对人类新员工那样只需要做一次,而是每次我们跟它新开一个对话窗口的时候都需要做一遍。

这里面最关键的地方是理解:AI和人类员工一样需要入职培训,至于怎么做相对来说都不那么重要。我一般会从三个角度来给它做培训,交代必要的背景信息:

第一是提示词本身就是最直接的交代背景的地方。比如这个特定的文档用英文来写,报告里不要出现引号等等。有些指令我们自然而然就会发现我们要经常提到它,这时候就有必要把它沉淀出来,变成一个文档。所以哪些东西放在提示词里、哪些东西放在文档里,我觉得不用墨守成规,根据内容来定;而是不妨从提示词开始,根据频率来定。文档只是避免我们重复输入提示词的一种手段而已。人为规定特定的东西就一定要出现在文档里,这就有点形式主义舍本逐末了。归根结底,文档里的内容也还是要通过上下文窗口才能被LLM读取的。所以给AI做入职培训的基本方法是:利用提示词进行核心信息补充,利用@文档来节约输入时间。

第二是,不仅要说做什么,而且要说为什么要这么做。这一点和任务交代是相辅相成的。我们毕竟不可能跟AI穷举每一个可能的决策。但是AI其实足够聪明,我们可以跟它解释我们为什么要干这个任务,它根据这个背景就可以自己推断出很多细节决策应当如何进行。换句话说就是更懂我们。我经常会把Confluence上面相关的产品文档复制一份到Cursor repo里面。这样当我需要跟它解释项目背景的时候,可以直接让它去读这个文档。它有了产品和商业方面的背景之后,一方面微观的决策会更贴心,另一方面宏观上往往也会给出一些有深度的建议,对于我们推动进度、思考问题也很有帮助。

第三是,关键的技术决策和架构我也会专门沉淀到一个文档里。有些时候大家会觉得,AI写代码小项目还行,大项目就力不从心,有种管中窥豹的感觉,没办法认识到整个项目的架构。这就是因为缺少了相关的架构文档,没有做好入职培训。这用人类新员工一类比就很容易理解了。一个新员工拿到一个大repo和一个提示词,他也很难搞清楚大的框架、大的设计模式是什么。但如果有一个高层次的概述,让他知道应该看哪些文件,以及几个关键的总纲性质的文件在哪里,就可以极大地加速他的工作,也能改善工作质量。这对于AI也是完全一样。因此,像我们在这篇文章说的,磨刀不误砍柴工。对于还不是AI-native的codebase,先让AI通读一下代码,写出提纲挈领的文档是很有好处的。对于新的repo,也不妨在写代码的过程中让AI维护一个这样的工程设计文档,可以让它在未来走得更远。

虽然我们为了强调AI没有记忆叫它入职培训,但这种培训是可以积累的。在开发的过程中让AI积累经验教训,构建知识资产,是一个可以增值有复利的东西,要及早开始做。

过程指导

在我们这个具体的摸鱼实例中,AI知道去进行更深入的数据分析并且多轮迭代,在迭代中还知道交叉验证,从而找到了一个bug。这件事情也不是它自己无师自通知道要这么做,而是我们在提示词中跟它说的。但是我们的提示词让它做的事情并不是你要去做ABCDE,而是给了它一个方法论。比如:

你在做完基础模型训练之后去找两个表现最好的模型,进行多角度的深入分析,理解它的优劣。如果看到有值得深入分析或者可疑的地方,再进行一轮迭代。在这个过程中要尤其注意交叉验证数据是否正确。

这个提示词就是我们在这篇文章中提到的 Senior Manager 干的事情。我们并不是跟AI具体讨论你要从这几个角度分析,然后根据它分析的结果我们来告诉它下一步应当在这两个角度进行迭代。相反,我们从更高屋建瓴的角度给了它一个抽象的工作流程,具体向哪个方向迭代是它自己决定,但是总之需要做两轮迭代。这在人类的管理中也是一个很实用的高级技巧。经理的职责不是手把手教,而是赋能(enabling),因材施教,授之以渔。对于GPT-5-Codex这样的高级模型,这种关于流程的叙述往往非常有效。通过几轮迭代,它真的可以大幅提升任务完成的质量。

再举一个例子:我有一个关于Outlook的表情包,但是想把里面的旧版Outlook logo换成新版。类似的,我也跟Manus说,你帮我换一下,但是换完以后,用你的视觉能力看一眼生成的图像,如果需要调整你再迭代两轮。它在整个过程中老老实实进行了多轮迭代和调整。从我们的体感上看,就是一把直接完成了任务。这么用AI就是比别人更好用。

所以在模型足够好的前提下,信任AI,给它复杂的任务和方法论上的指导,可以大幅提升它的效果。而且像类似的指导,如果我们发现经常要跟AI叙述的话,也不妨把它沉淀成一个文档,类似我们在Wide Research里面做的一样。

产品验收

经理的另一个核心任务是对组员完成的任务进行验收。这件事对于对AI和对人来说同样重要,因为人类hallucination的概率未必比AI低。但是对AI工作的验收比对人类工作的验收要更简单。这主要是因为执行的成本被大幅降低了。我举两个例子。

第一是你可能会看过有种视频,它用非常精美的动画去可视化某个算法或者某个模型的内部细节。很多我觉得光看公式很难理解的算法,看了它的可视化,尤其是内部状态是怎么改变的以后,一下就懂了。类似的,如果我们对交付的工作可以做一个可视化出来,它会极大地简化我们的验证过程。比如,业务逻辑做成一个可以交互的状态机,让我们可以用一些简单的例子套进去看;或者机器学习模型把中间结果用不同的颜色展示出来。这些可视化往往可以让我们迅速发现问题。

但可视化的主要问题在它的门槛太高了。如果是人来写的话,不论是类似的网页还是动画,做个几天毫不稀奇。这是为什么虽然它很好,但是在实际工作中大家还是很少用它的原因。但有了AI的帮助,这些可视化非常简单。我们完全可以在布置任务的时候就把这样的可视化放进它的目标产出里。换言之,我们把可验证性/可观察性和文档一样,从一开始就作为first-class deliverable,从而极大降低我们验收的难度。

另一个类似的方法是AB组赛马。在人类公司里,每个项目都分AB组是完全不切实际的,因为它会让人力成本暴涨100%。但是对AI来说无非就是新开一个窗口而已。注意这里的AB组未必是两个组干同样的事情。比如在我上面的摸鱼实例里,我是先让这个AI训练了一个模型,接着又新开了一个完全独立的AI,给它我们训练出来的模型和测试集,让它自主地写出来测试和计算的代码,从而独立地验证我们之前跑出来的各种指标是正确的。这不能解决所有的问题,但同样的可以极大简化我们的项目验收。

因此,使用 AI 的一个关键要素是从最开始就想着怎么样去验收这个项目。让 AI 不要止步于把任务本身做完,还要注意思考如何让我们轻松验收这个项目,把它当做一个重要目标。

总结

总的来看,要想用好 AI,我们有一些看上去零散的秘诀,比如说用 GPT-5-Codex、用语音输入、教 AI 方法论,以及让它把写文档和验收作为首要目标之一。但这些秘诀其实都是围绕管理 AI 这个核心目标服务的。它们正好是一个经理每天所要完成的核心管理任务:招聘、任务委托、入职培训、过程指导和产品验收。管理的核心是杠杆化。我们做的这五件事情,都是为了把能复用的东西沉淀下来,能委托的东西分发出去。让我们用5%的精力掌舵整个项目,撬动剩下的95%的执行工作。这样就可以像一个杠杆一样放大我们的智能和核心技能,并最终赋能给一个执行力近乎无限的虚拟团队。

这个摸鱼,只是这个杠杆带来的最浅层的红利。它更深刻的意义在于,让你有机会去思考那些以前没时间思考的、更重要的问题。当AI能够完美地执行你的how时,你会有更多的时间去思考,去定义what和why。

Comments