人工智能的一些随想

玩了一晚上OpenAI的ChatGPT，有一些关于技术的看法：ChatGPT的核心优势两点：1. 它对交互的目的有了很准确的把握；2. 它可以记住上下文，准确知道你在下一句话说的对上一句话的指代是什么意思。还有第3点是它生成的文本都是符合格式的，比如你要叫它分析东西，他会列12345，叫它写信会知道落款等等。但一方面这个GPT-3已经演示过了，一方面只要解决了第1点（目的的理解），基本上就可以做到，所以我没有把这一点列入核心优势。

它的弱点主要在，跟这个世界基本上是脱节的。他可以生成大段漂亮的文字，看起来非常自然，但如果真的去看的话，会发现内容上很多错误。比如生成菜谱，有配料表，第一二三步，看起来很正确，但里面的信息都是错的，比如用高压锅腌咸鸭蛋。生成学术论文，有引用格式也正确，但真的去看他的引用文献的话会发现是编出来的，没这篇文章。这也是GPT-3决定的。GPT-3只是一个文本生成模型，他没有自己的知识库。或者从更抽象的程度来说，GPT-3是一个纯统计的模型，不是rule based，它没有任何硬的约束。所以它适合做一些主观题，给出一些模棱两可的回答。却不适合当作搜索引擎来使用，查阅客观事实。

这两方面的特质决定了ChatGPT的应用范围。它很擅长通过对话理解人的意图，所以适合用于客服系统等需要大量交互的地方。在这种场合，它的输出不用是具体的文本（可以是一些搜集信息的追问，但不用提供客观事实），而是某个客服话题，来返回一些文档，从而规避各种事实错误的问题。ChatGPT的远景不应当是一个独立的人工智能（standalone AI as is），因为我个人认为GPT-3这种纯粹基于文本生成的统计模型无法解决事实错误的问题。它的出路在于和知识库结合起来，也就是像笨笨的Siri和Alexa那样加入硬性的规则和知识——或者搜索引擎的索引。这样才能解决事实错误这个痛点。当然，如何平衡软的统计规律和硬的规则是一个很难的问题，技术上也有很多可能的路线。这里不具体讨论。总之，ChatGPT在交互方面给了我们很惊艳的启发，甚至可以直接产生商业价值，但我个人认为这些光鲜亮丽的回答背后暗藏着一种技术路线的尽头，和一种知识+生成模型的模式的希望。

之前发过文，介绍对ChatGPT的一些思考。总的来说是觉得媒体过分乐观了。不过我个人觉得里面的确藏了一些革命性的东西，但这个革命不是ChatGPT本身。而是一种思潮。为了解释这种思潮，我们需要先退一步，看看NLP的经典任务。NLP是一个比较零散琐碎的领域，有很多任务。比如给一段yelp review，看它是正面的情感还是负面的情感。给一段话，看里面有没有名人名物（named entity）。从2018年开始，NLP基本被Transformer统一，里面又分成两派，BERT和GPT。二者之间的区别远远不是表面上看起来双向和单向这么简单。二者的训练目标和使用方法是截然不同的。BERT是一种传统的模型，它的训练目标是，给它看很多句子，把这些句子中间的一个词遮住，然后叫它猜这个词是什么。它的使用方法是，在新的应用场景里面用新的数据简单训练（微调，finetune），然后应用。比如上面看yelp review的例子，BERT会看很多很多的文本（不仅限于yelp review），然后得到一个预训练的模型，这一步不需要任何人工标注。然后喂给它yelp review，告诉它这个是正面的，那个是负面的。这样把BERT内部的一些参数进行细微的调整，它就可以完成判断yelp review的态度这样一个任务了。

相比之下，GPT的训练目标是生成一段新的文本。它从头开始训练的目标就是跟人对话。使用方法也是直接跟它对话。比如yelp review这个例子，它在默认情况下甚至不需要看更多的yelp review就可以得到相当好的结果（zero shot learning）。当然你也可以用对话的方式给它看一些例子（叫做instruct），然后它会给出更好的结果。

其实这几年BERT基本上都是比GPT好一截的，因为直接搞一个跟人对话的模型实在是太难了。但从GPT3开始，GPT开始屠榜了，接着又出了ChatGPT，展现出了研究者都很惊讶的上下文理解能力。这里面有一个insight，就是如果想要去完成"理解一件事情"的任务，最好的方法似乎不是去训练一个模型来理解这个东西，而是去训练一个模型来生成这个东西，然后用里面暗藏的逻辑去理解。这个似乎也是合理的，因为我自己就有体会，很多时候以为自己懂了，但真的试图去教别人的时候才发现没有完全理解。所以教学相长好像也是合理的。这就是我说的一个应用范式上的革命。

为什么这是个革命呢，这是因为如果纵观这十几年的深度学习的发展，里程碑性质的东西没几个，但他们都有一个共同的特点：让我们可以用更多的GPU，更多的数据，训练更大的模型。比如AlexNet用GPU end to end训练，一下好了很多。ResNet解决了梯度爆炸的问题，把层数从10层一下推到了1000层，性能爆炸，到现在ResNet改都是state of the art。NLP那边，受制于LSTM很难并行化，相对进展缓慢，直到Transformer可以大规模并行，一下有了突破。接着就反哺CV，Visual transformer继续屠榜，并且催生出了CLIP，Latent Diffusion这样的现象级模型。所以一个主题是，深度学习牛逼的地方就是，只要你给它更多的数据，更复杂的模型，它就能给你更强的智能。到现在都没有看到传统机器学习的饱和的情况。我们这十多年干的事情，就是类似保持摩尔定律，让这个更多数据更多参数的趋势能够持续下去。直到GPT这个东西出现：理解一个东西的最好方法是去生成—这个如果被时间证明真的是正确的道路的话，可能是一个非常根本且重大的发现。这个也不难验证，现在这个观察只在NLP领域成立，CV还没有类似成熟度的研究。所以我们可以拭目以待，看看CV领域有没有类似的规律。对于业内的人来说，这也是一个disruptive innovation的机会。

纵观人工智能的进展这么多年的历史，越来越有一个感受，人工智能之所以难只是因为人类太弱鸡。人工智能的定义其实一直在变化。举几个例子：二战的舰炮火控计算机，可以根据目标的距离，方位，速度，风向，根据物理模型进行快速精确的操作，从而引导舰炮打击目标。这个计算机甚至是纯机械或者机电的，但计算速度和精度都远超人类。这算不算人工智能？如果说给个公式死算不算人工智能，要有逻辑推理能力。那我们再看70年代的四色定理的证明。人类证不出来的数学定理，计算机通过极其复杂的推理证出来了（当时甚至没人能审这个证明过程，因为太长了，拖了好久才确认是对的）。这算不算人工智能？如果说光有推理能力不算人工智能，还得有知识，80年代的专家系统比如Mycin，甚至可以通过决策树的方式来看病开药，而且比普通诊所的医生误诊率都低。有知识，有推理，超越能力，算不算人工智能？它们和我们现在俗称的人工智能差别到底在哪里？我们这些年的发展主要在干啥了？

如果回到现代，看看现代的潮流：机器视觉希望让电脑看懂照片，自然语言处理希望让电脑看懂文字，语音识别希望让电脑听懂声音。仿佛只有这些才算人工智能。这些问题有个特点：都是人类擅长计算机不擅长的东西。当然这个计算机不擅长的界限这么多年一直在变，比如前面提到的证明数学定理，用决策树问诊，好像电脑一旦能做出来这些就又不算人工智能了。但最后剩下的这几个计算机的老大难问题，仔细看看其实都是人类的缺陷。

举个例子，为什么理解一张照片很难？一个重要原因是相机有两大先天缺陷，第一是拍出来是二维图像，天生丢了一个维度，第二是仅限可见光，又丢了无数信息。所以造成了很多歧义。为什么理解语言很难？也是因为有很多歧义，自然语言处理搞了几十年的问题，怎么判断用户说的苹果到底是苹果电脑还是苹果这个水果，这句话中间的"它"，到底指代的是什么。这完全就是语言的落后性决定的，如果重新定义单词表不搞这些同义词不搞缩略指代，搞成类似脚注的形式，这个问题就会容易很多。而这个语言的落后性，又是因为人类阅读和说话的声音局限的，带宽太低了才要用奇技淫巧在语言上做文章。所以你看现在定义的人工智能为什么难，完全是因为人类弱鸡。要是真有个AI机器人有深度传感器，有多波段相机，有为高带宽通信专门设计的语言和知识，这些视觉理解语言理解根本就不是问题。我要是AI都要感叹，扶不起来啊！

Computing Life

人工智能的一些随想

Comments

Categories

Tags

Recent Comments