我的赛博长生之路:一场拓展生命边界的AI实验

AI何以从小弟成为大哥?

在过去的一两年里,我与AI的关系发生了一个根本性的转变。它从一个听我指令、表现尚可的实习生,演变成了一个能在复杂决策上给我提供深刻指导的大哥角色。这个转变的发生,源于我解决了一个看似简单的关键之处。

这个质变的催化剂,是高质量、大剂量的上下文(Context)输入。

举一个真实的例子。前段时间,我面临一个相当复杂的职业决策,涉及到几个潜在的机会,每个机会都附带着一套复杂的利弊分析。我花了大概十分钟的时间,用语音把我能想到的所有相关信息都叙述了一遍:这个决策的历史背景、我的长期目标、几个选项在技术和组织架构上的挑战、我老板的潜在看法、甚至更高层级管理者可能会有的顾虑等等。

我把这段未经整理的、充满了口语化表达的文本,直接扔给了当时最强的AI模型。它没有给出一份简单的利弊清单,而是展现了相当成熟的分析能力。它精准地指出了我的叙述中一个我自己都未曾意识到的、关于长期目标和短期选择之间的核心矛盾;并且基于我对行业趋势的判断,提出了一个我完全没有考虑到的潜在风险。整个分析的深度和广度,远超我的预期。与此同时,他还从VP,CEO的角度给了建议,让我在present的时候提早解答了他们最关心的问题。和AI对话的这半小时,给我的职业生涯发展提供了巨大的助力。

这个经历让我意识到,我们与AI之间真正的瓶颈,可能不是它的模型智商,而是我们与它沟通的带宽。我们时常感受到的AI的局限性,在很大程度上,只是我们沟通渠道狭窄所造成的症状。这篇文章,就是对我为了系统性地拓宽这条带宽,而进行的一系列实验和思考的复盘。

1. 为倾诉修路,对抗输入摩擦

我的探索过程并非一蹴而就,而是一个反复迭代、不断深入的过程。

最初,我和大多数用户一样,一方面惊叹于AI的能力,另一方面也对它的各种局限感到困扰。它经常给出一些不适用的方案,或者一本正经胡说八道,或者提出一些我已经思考过并证伪的想法。

在不断地使用和交互中,我开始尝试用一种共情的角度去理解这个问题:如果我是AI,在只拿到我给出的那几句简短提示的情况下,我能给出更好的答案吗?结论通常是不能。这让我意识到一个问题,AI和人类一样,也需要一个入职培训的过程(onboarding process)。一个新员工,即便他再聪明,如果不了解公司的背景、历史项目和团队情况,他也只能提出一些表面的、不切实际的建议。

这个观察让我形成了一个核心假设:AI的能力瓶颈,很多时候不是被它的智商限制的,而是被我们给它的上下文(Context)限制的。我们给的上下文越丰富、越精准,它就越能从一个泛泛而谈的实习生,变成一个能理解细微差别的资深专家。比如幻觉,很多时候是因为AI在训练的时候非常强调要有帮助(You are a helpful AI assistant),但当没有足够上下文的时候,它就只能做出假设来满足helpful这个要求,这就是幻觉。上下文的供给,对高质量的AI回答不是一个辅助因素,而是一个决定性因素。

但这个假设马上就遇到了现实的挑战。要给足上下文,意味着大量的输入。我个人很不喜欢打字。因为键盘输入的效率很低,尤其是在手机上。即便是在电脑端,打字的速度也远远跟不上思考的速度。这种高昂的输入摩擦,是阻碍我们释放AI全部潜能的最大障碍。

因此,我动手为自己开发了一个语音识别工具。它与传统的语音识别方案不同,使用的是GPT-4o-realtime模型,这个模型的优势在于高准确率、低延迟和高智能。这让我得以用一种think out loud甚至brain dump的模式来和AI沟通。我不再需要刻意组织精美的书面语言,可以想到什么就说什么,甚至在语速很快的情况下,AI也能很好地理解。

这个工具虽然不是一个完美的方案,但它极大地拓展了我与AI之间的沟通带宽,让我能够真正地、以很低的成本,把海量的上下文一次性地倾倒给它。这是后续所有实验的基础。

2. 为记忆奠基,对抗遗忘摩擦

在解决了单次沟通的带宽问题后,一个新的、更深层次的痛点很快就浮现了出来:我那个新晋的AI大哥,每次都会失忆。

我发现,虽然我能高效地给它提供上下文,但我大部分的沟通时间,并不是在提出新的、有洞察力的问题,而是在机械地重复同一个上下文。比如,同一个项目,每次和AI开启新的对话,我都得把它的来龙去脉、技术背景、人员构成、我的个人偏好全部重说一遍。这种感觉非常糟糕,因为它把一个创造性的脑力劳动,降级成了一种重复性的体力劳动。

我最初的应对方式很朴素,就是有意识地去维护一系列的提示词(Master Prompts)。我会建立一些本地文档,比如“我的家庭背景”或者“我的项目A背景”。这在一定程度上解决了问题,但体验依然很差。我需要手动去查找、复制、粘贴,而且一旦信息有变,我还要记得去更新这些文档。总的来说,这是一种摩擦力巨大的、难以持续的解决方案。

在这个不断手动维护prompt的过程中,我逐渐意识到,我们当前使用AI的方式,有一种平时不烧香,临时抱佛脚的感觉。我们平时让AI与我们的生活完全隔绝,只有在需要它解决问题的时候,才临时、仓促地把我们的背景介绍给它。

这促使我的思考发生了一个根本性的转变:我能不能不临时抱佛脚?我能不能平时就邀请AI走进我的生活,让它自己去观察、去学习,而不是每次都由我来重新汇报?

这个想法,就直接催生了我的下一个核心实验:我开始用Apple Watch在生活中进行全天候录音

具体操作很简单,就是打开Apple Watch上的Voice Memo应用。它的续航能力可以支持大约十个小时的连续录音,基本能覆盖我一天的活动。每天,我会把这些录音文件收集起来,进行语音识别,然后把生成的文本存入我的个人数据库。

一开始,我只是想把这些录音作为背景知识的补充。但很快,我发现了一个意想不到的复利效应。因为我之前已经养成了用语音工具think out loud的习惯,所以我的日常录音里,并不仅仅是生活的琐事,而是自然而然地捕捉到了大量我与AI进行深度沟通的原始语料——包括我给AI布置的复杂任务、我对它输出的纠正、我自己的思考和洞察。

这让我的录音数据含金量变得非常高。它不再只是一堆生活噪音,而是成了一个高质量的信息漏斗,不断地吸收我在生活中有意或无意间传递出的、那些琐碎但珍贵的信息。可以说,是我之前为了解决输入摩擦而做的努力,意外地为这个记忆摩擦的解决方案铺平了道路,让录音实验很快就展现出了巨大的价值。

当然,光有数据还不够,还需要高效地利用它。为此,我自己开发了一个类似ChatGPT的小工具,我称之为Agentic Workbench。它的核心能力是,可以接入我本地的个人数据库。我实现了一个Agentic Retrieval System,它不像RAG一样是一个固定的工作流,而是当AI在思考如何完成一个任务时,如果它自主判断需要更多背景信息,它才会触发搜索工具,自己去构造关键词,从我的记忆数据库里检索相关信息,并利用这些信息来支撑它的分析和回答,或者在必要的时候迭代关键字进行进一步搜索。通过这种方式,我把信息的利用也变成了一个低摩擦的、由AI自主驱动的过程。

举个栗子。有一次我开车,注意力不集中,差点和另一辆车发生剐蹭。在以前,这种事因为我正在开车,无法分心记录,很可能就过去了。但因为当时我正开着录音,不需要做任何操作,就可以立刻开始口述复盘:刚才发生了什么,我的初步反思是什么,我认为问题出在哪里。之后我还顺便给AI布置了一个待办事项:“晚上提醒我,把这件事的经验教训总结一下,放到我的驾驶错题本里。”后来,我的自动化脚本在处理录音时,识别了出所有的待办事项并生成提醒。这件事就没有被遗忘,而是真正沉淀了下来,对我后续的驾驶安全持续提供帮助。这就是零摩擦记录与Agentic系统结合带来的价值。

3. 从听觉到视觉,拓展感知的边界

在听觉数据的采集和利用流程跑通之后,一个自然的逻辑延伸问题出现了:既然听觉信息如此有效,那么视觉呢?

人类对世界的感知是多模态的,视觉甚至占据了主导地位。为了给我的AI伙伴提供一个更全面的、理解我物理环境的维度,我开始了下一个实验:用第一人称相机记录我的视觉世界。

我最初使用的是一个磁吸式的可穿戴相机,Insta360 Go 3S。它很小巧,可以方便地吸附在磁吸项链上,记录第一人称视角。但也存在明显的局限,比如续航能力只有四个小时左右,无法实现真正的全天候记录。

这个限制再次激发了我的工程师本能。目前,我正在用ESP32单片机加上专用的CMOS图像传感器模组,自己动手设计和制作一个能够利用单片机的深度睡眠功能、实现更长续航的可穿戴相机。这个项目还在进行中,但基础的硬件原型已经有了。

尽管工具尚不完美,但我进行这个视觉记录实验也有两周了。拍摄了几万张图片以后,初步的感受是,它确实捕捉到了大量与录音非常互补的信息。比如,我让AI分析过去一周拍摄的图片,它能从中识别出我经常使用的物品、我常去的地方、甚至我与家人互动时的物理距离和姿态。

当然,如何结构化地利用这些视觉信息,它在什么样的时机应该被AI调用,如何与听觉信息融合以支撑AI的思考,这些都还是我正在积极探索的问题。这个实验更像是一个起点,它为AI打开了一扇新的、观察和理解我所处物理世界的窗户。

4. 从思考到行动,当GUI也成为一种摩擦

当我的AI系统拥有了日益丰富的多模态感知能力和长期记忆后,它已经成为了一个强大的思考伙伴。但我的探索并未止步于此。一个再聪明的思考者,如果不能行动,其价值终究是受限的。

于是,我的下一个探索方向变得非常明确:如何让AI跨越数字世界和物理世界之间的鸿沟,成为一个能帮我干活的行动伙伴?

在这个过程中,我又发现了一种全新的、甚至有些讽刺的摩擦力,我称之为行动摩擦。这种摩擦,来自于AI需要去操作那些为我们人类设计的、充满了非结构化步骤和冗余信息的系统。

我举两个典型的例子。

第一个是买菜。现在我们大多使用Instacart或者Weee!这样的App。但这个过程,如果你仔细分析,会发现它依然是一个摩擦力很大的体力活。你需要去搜索关键词,然后在一堆品牌里选择,加入购物车;你还要回忆家里还缺什么,哪些东西需要补货。整个过程充满了重复性的点击和短暂的记忆负担。这对我来说,是一种低价值的、可以被优化的时间消耗。

当我看到OpenAI发布基于o3的Operator时(以前的gpt-4o的版本太难用了),我立刻就在这个场景上进行了实验。我给它的指令不是一个简单的购物清单,而是一个更宏观的目标,比如:“分析我过去三个月在Weee!上的订单,结合我的购买周期,生成一份本周需要补充的购物清单,并直接加入购物车。”

结果非常理想。它真的像一个管家一样,分析出“你平均每5天消耗一盒牛奶,现在已经第6天了”,然后自动帮我把这些东西都加好。最终,一个原本需要我花30分钟的琐碎体力活,变成了一个只需要我花5分钟进行最终审核删除买单的轻松体力活。

第二个例子是寄包裹,它更能体现AI在行动上的超能力。在美国寄包裹,线上填地址是一个特别典型的、高摩擦力的体验。一个完整的地址信息,在网页上被强制拆分成四五个输入框:街道号码、街道名称、城市、州(通常是一个下拉菜单)、邮编。每个框的交互形式还不一样。

我尝试让Operator来帮我完成这个任务。我只需要给它一个完整的地址字符串,然后下达指令:“去Shippo网站,用UPS帮我把这个包裹寄出去,不要选保险。”它就像一个熟练的代练,一步步地在网页上点击、填入正确的信息、选择对应的州,完美地理解并操作了这个为人类设计的、充满冗余的GUI。

这个实验让我产生了一个强烈的感触。GUI这个几十年前为了降低普通人使用计算机的摩擦力而诞生的伟大发明,在发展到今天,很多时候其本身的复杂性反而成了一种新的、巨大的摩擦源。而AI的出现,恰好完成了一个有趣的历史轮回。它作为一个非人类的智能体,反而极其擅长去操作这些为人类设计的、充满摩擦的GUI,把我们从我们自己创造的“方便”的牢笼中解放出来。

所以,AI不仅在降低我们思考上的摩擦,更在降低我们与生活、与我们自己创造的数字工具之间的行动摩擦。

终局与哲学:我的赛博长生

现在,我们可以回到最初的问题了:我为什么要做所有这些事?

这背后驱动我的,是我对一种务实的“赛博长生”的追求。

为了让大家更好地理解这个概念,我们可以先从一个非常现实的计算开始。就拿刚才说的买菜的例子。假设我自己开车去超市,来回路程加购物,大概需要一个小时,花费100块钱。如果我用AI辅助在网上买,可能只需要10分钟,但商品加服务费总共要花120块钱。

这里面就有一个换算:我多花了20块钱,但为自己节省了50分钟的时间。我是怎么看待这笔交易的呢?我是在用20块钱,买回了50分钟的生命。这是一个非常严肃的等式。因为这50分钟,我可以用来陪伴我的孩子,可以用来构思一个新的实验,可以用来读一篇重要的论文。这些事情的价值,远远超过那20块钱。这种花钱买命的思路,就是我所有行动的一个最朴素的起点。

而这种思路,经过不断的实践和思考,最终形成了我个人的一个哲学,我把它叫做赛博长生。我想强调一下,我说的“赛博长生”,不是科幻电影里那种虚无缥缈的意识上传,它是一种极其务实的、我们每个人在当下就可以实践的生命观。

具体来说,我理解的赛博长生,包含三个核心层面:

第一,是提升生命的密度。这本质上是一种时间的置换。通过AI这样的工具,我能把大量花在低价值、重复性体力活上的时间置换出来,然后把这些“买”回来的时间,投入到高价值的脑力活上,比如创造、学习和深度思考。虽然一天都只有24小时,但生命的产出密度是完全不同的。

第二,是提升生命的质量。这关系到一种精力的聚焦。人的意志力和专注力是有限的资源。通过把烦心事外包给AI,我们不仅节省了时间,更重要的是节省了宝贵的心力/能量,让我们能以一个更饱满、更专注的状态,去投入到我们真正热爱的事情中去,这直接决定了我们每一天的幸福感和满足感。

第三,是拓展生命的边界。这一点最让我兴奋。有些事情不是花时间就能解决的,它涉及到能力的突破。就像如果没有飞机,我一辈子也无法体验飞行的感觉。飞机拓展了我们物理活动的边界。同样,AI这个工具,正在极大地拓展我们认知和创造能力的边界。它能像大哥一样,给我提供我原本接触不到的高阶视角;它能帮我分析海量的数据,完成我个人无法完成的研究。

所以,对我来说,赛博长生的本质,就是通过智能工具,最大化地压缩我们生命中的垃圾时间和重复劳动,同时无限放大我们的创造力、体验和影响力,让我们在有限的时间里,活出无限的宽度、深度和高度。

当然,我的探索还远未结束。

目前,我所有的努力,都还停留在构建一个增强的我(The Augmented Me)的阶段。这个系统是高度个人化的,它以我为中心,为我服务。

但这引出了一个更宏大、也更复杂的问题:当这种能力不再是我个人的专利,当每个人都开始构建自己的赛博长生系统时,世界会变成什么样?

我的赛博长生系统,如何与他人的赛博长生系统交互?两个都拥有完整记忆和高阶视角的AI大哥,将如何协助它们背后的主人进行协作或博弈?

而被AI深度协助和影响的我们,还是我们自己在活着吗?

Comments