近期,在AI领域发生了许多变革,让业内人士和普通人都感到不安。我们每天都会看到各种关于AI的知识和新闻,虽然标题常常让人心惊肉跳,但我们却无法完全理解它们对我们的影响。因此,我对这个问题进行了一些思考和总结。我认为,在自然语言处理(NLP)和计算机视觉(CV)领域,最近的变化有着许多相似之处,主要表现在以下三个方面:
- 通用基础模型的诞生:像GPT和ChatGPT这样的基础模型改变了建模方法。在这之前,NLP领域有许多任务,如判断评论正负面,或从句子中找出地名。每个任务都需要不同的数据集和模型架构。然而,通用基础模型的出现打破了这种局面,它们不再针对某个任务而设计,而是可以在无需调整的情况下完成所有任务。
- 生成式模型的突破:GPT的出现让机器能生成流畅、富有逻辑的文本,使得区分机器生成的内容和人类说的话变得困难。这意味着我们不再受限于特定类别的输出,如大众点评是正面还是负面,也不仅限于简短回答,而是可以让机器自由输出大段文本,不影响用户体验。这为我们设计用户界面提供了更大的灵活性。
- 会话式UI大幅降低应用门槛:ChatGPT表明,通过聊天或会话来利用NLP基础模型是一种非常好的方式。过去,利用机器学习模型需要高级专业知识和编程能力。而现在,有了会话式UI,即使是小学生,只要能说话,就可以利用这些模型的能力。这得益于两个方面的进步:一是输入方面,模型能更准确地理解用户意图;二是输出方面,机器可以自然地输出长篇有逻辑的话。这让我们可以用自然的方式与模型交流。
计算机视觉领域的趋势也非常相似:
- 近期流行的模型,如ClipSeg、GroundingDino和SegmentAnything,可以被视为半通用基础模型,因为它们输出通用的像素级信息,可应用于物体识别、检测和分割等任务。
- 这些模型与NLP基础模型类似,可以接受用户自定义的文本作为输入。也就是说,在这些模型出现之前,我们需要预先确定感兴趣的对象(如松鼠)并收集相应数据。如果在训练完成后,我们想检测其他对象(如兔子),那么在不改动模型的情况下无法实现。但这些新模型在接收图像输入的同时,还可以接受任意文本作为输入。因此,在不改动模型的情况下,我们可以让模型检测松鼠或兔子,只需修改输入文本即可。这是一个巨大的变化,与NLP领域的会话式UI有类似之处。
- 第三个变化是生成式模型。与NLP一样,我们终于可以让一个模型生成非常逼真的图像。这对于UI来说非常重要。例如,我们一直希望有一种技术,通过核磁共振等方法扫描人脑,就能反推出他看到或梦到的场景。在过去十年中,这项技术的大部分进展并非来自神经科学,而是因为我们生成的图像越来越逼真,这极大地提升了输出的观感。
综上所述,我们可以看到,近期NLP和CV领域的突破和发展是高度相近的。两者都在从针对特定任务的专用模型转向解决所有任务的通用模型。同时,它们都取得了让生成内容更接近人类的突破。这些进展使得我们能够设计出更低门槛的应用模型方法。
Comments