关于AI知识引擎的随想

(来自我在AI生产力训练营群聊中的发言)

有人提到用AI做会议纪要。会议纪要其实是一个特别粗浅,然而很困难的领域,具体为什么困难我们下面说。我设想的是一个knowledge engine,它一方面可以通过语音识别和录入的方式,把我们生活和工作中不同来源的信息收集和存储起来;另一方面要能从这些原始资料中提取出抽象的知识;还要能在我们进行输出的时候及时地提醒我们。

举个例子,比如我们在公司开会的时候提了一嘴,说产品A需要考虑personalization这个问题。同时还讲了其他可能不是特别insightful的内容,或者影响的时间范围很短的决策,比如今天前我们要把某项action item做完。那AI在里面就会干两件事情:

  1. 分辨出来前者是一个有长久时间影响的方向,战略方向性质的内容,后者是一个短期的可以迅速丢弃的内容。
  2. 把前者作为知识库的一部分索引起来,而将后者丢弃。

然后未来当我们在写一个文档或者在我们开会讲话的时候提到,说B产品也需要personalization,这时候AI就应当有能力跳出来提醒我们说,你在某年某日说过A也需要personalization,A和B既然都需要做这个项目,那需不需要把两边进行统筹规划,在设计架构的时候就要考虑到复用性。

我觉得像这样的AI知识助手就不再是一个秘书性质的角色,而可以帮助我们完成更有深度的思考,承担起更加复杂的责任,也能为公司创造更多的价值。但这也是一个非常困难的问题。主要有以下几个挑战:

  1. 巧妇难为无米之炊,document不足在很多公司是一个老大难问题。公司里面很多tribal knowledge不会在任何document上出现,同时我们会议上有时候有一些非常好的想法,但是因为不牵扯action item也不会出现在会议记录上,就这么永久地丢失了,非常可惜。我对它的解决方法是:

    • 对于参加的所有非one-on-one的会议,我会在Mac上做一些hack,让电脑能同时录下我的声音和参会人的声音,然后扔给本地的语音识别模型,对所有的会议都进行识别和存档。
    • 我广泛使用自己做的语音识别平台来作为高效的输入手段,在这个过程中把我所讲的话,平时的一些insights,包括正在说的这段话都存档起来,作为AI knowledge engine的基石。
    • 我没有这样做,但是我有同事这么做了,他在家里做了一个麦克风阵列,把办公室里说的所有话,包括扬声器放出来的参会人的声音,包括他自己在思考时候thinking out loud都记录下来,然后扔给语音识别。通过这三种方式,也许是一条可行的解决数据问题的基石。
  2. 知识的提取。我个人觉得这是目前AI的一个弱点。比如大家可以做一个最简单的尝试,找一个你觉得很有收获的会议的录像或者录音,然后把它扔给AI,让它提取中间最重要的部分,或者最有insights的部分,最有启发的部分。你可以试试去tweak它的prompt,来看它能不能得到让你惊喜的结果。

    我的经验是在很多情况下,它看的更多是形式,它会给出特别漂亮、规整的会议纪要。先说与会者是谁,时间,然后记流水账,大家讨论了什么问题,然后再说action item,然后再说会议结论。形式很漂亮,内容很空洞,很多insights它根本就放不进去。我试过各种prompt engineering,到现在都没有成功,效果都特别差。

    有一个我发现有用的小技巧是,你可以先让它针对这段会议提出可能有insights的问题,然后再让它去回答这些问题。这种先inspire它,然后再引导它回答的模式,会比直接让它得出结论要好很多。我管它叫inspire, not command,但即便是这样,它所提取出来的知识仍然是相当缺乏深度的。

  3. 怎么让它在我们输出的时候,能够及时地参与我们的对话,及时地提醒。这不仅是一个modeling的问题,同时也是infrastructure的问题,因为当我们输入的时候,它是需要不断地去检查我们输入的内容,然后可能去做RAG的。这个过程如果调用公开的API的话,可能会造成巨大的费用,延时也是一个问题,所以可能在infrastructure上面也有一些挑战。另外,如何合理地construct prompt,利用context window来让它有效地支持我们的写作,拿到相关的知识,做出合理的推断,都是相当大的挑战。

因此总体来说,我觉得知识管理是一条可能可行的,让AI为人类的工作创造巨大价值的道路,但是到目前为止,这并不是一个trivial的问题。以上我们谈到的三个挑战,只有第一个挑战大概解决了,但是二和三还都是相当困难和开放的问题。我也很期待看看大家有没有相关的讨论和建议。

Comments