AI最近到底有哪些进展？

近期，在AI领域发生了许多变革，让业内人士和普通人都感到不安。我们每天都会看到各种关于AI的知识和新闻，虽然标题常常让人心惊肉跳，但我们却无法完全理解它们对我们的影响。因此，我对这个问题进行了一些思考和总结。我认为，在自然语言处理（NLP）和计算机视觉（CV）领域，最近的变化有着许多相似之处，主要表现在以下三个方面：

通用基础模型的诞生：像GPT和ChatGPT这样的基础模型改变了建模方法。在这之前，NLP领域有许多任务，如判断评论正负面，或从句子中找出地名。每个任务都需要不同的数据集和模型架构。然而，通用基础模型的出现打破了这种局面，它们不再针对某个任务而设计，而是可以在无需调整的情况下完成所有任务。
生成式模型的突破：GPT的出现让机器能生成流畅、富有逻辑的文本，使得区分机器生成的内容和人类说的话变得困难。这意味着我们不再受限于特定类别的输出，如大众点评是正面还是负面，也不仅限于简短回答，而是可以让机器自由输出大段文本，不影响用户体验。这为我们设计用户界面提供了更大的灵活性。
会话式UI大幅降低应用门槛：ChatGPT表明，通过聊天或会话来利用NLP基础模型是一种非常好的方式。过去，利用机器学习模型需要高级专业知识和编程能力。而现在，有了会话式UI，即使是小学生，只要能说话，就可以利用这些模型的能力。这得益于两个方面的进步：一是输入方面，模型能更准确地理解用户意图；二是输出方面，机器可以自然地输出长篇有逻辑的话。这让我们可以用自然的方式与模型交流。

计算机视觉领域的趋势也非常相似：

近期流行的模型，如ClipSeg、GroundingDino和SegmentAnything，可以被视为半通用基础模型，因为它们输出通用的像素级信息，可应用于物体识别、检测和分割等任务。
这些模型与NLP基础模型类似，可以接受用户自定义的文本作为输入。也就是说，在这些模型出现之前，我们需要预先确定感兴趣的对象（如松鼠）并收集相应数据。如果在训练完成后，我们想检测其他对象（如兔子），那么在不改动模型的情况下无法实现。但这些新模型在接收图像输入的同时，还可以接受任意文本作为输入。因此，在不改动模型的情况下，我们可以让模型检测松鼠或兔子，只需修改输入文本即可。这是一个巨大的变化，与NLP领域的会话式UI有类似之处。
第三个变化是生成式模型。与NLP一样，我们终于可以让一个模型生成非常逼真的图像。这对于UI来说非常重要。例如，我们一直希望有一种技术，通过核磁共振等方法扫描人脑，就能反推出他看到或梦到的场景。在过去十年中，这项技术的大部分进展并非来自神经科学，而是因为我们生成的图像越来越逼真，这极大地提升了输出的观感。

综上所述，我们可以看到，近期NLP和CV领域的突破和发展是高度相近的。两者都在从针对特定任务的专用模型转向解决所有任务的通用模型。同时，它们都取得了让生成内容更接近人类的突破。这些进展使得我们能够设计出更低门槛的应用模型方法。