07-以数据为中心的AI¶
本页统计信息
-
本页约 915 个字, 预计阅读时间 3 分钟。
-
本页总阅读量次
过去的AI研究范式主要是以模型为中心的(model-centric),我们的研究目标是为各种不同的任务以及数据形式,设计各种elegant的新模型,并取得更好的效果,而在Transformer架构的预训练模型逐渐统一了AI各个研究领域(比如CV中的Vision Transformer, NLP中的BERT到如今的LLM)的当下,我们研究某个具体的小问题,往往也会采用这些预训练模型作为统一的Backbone,这样一来,模型层面的可设计内容实际上就减少了。同时,很多研究表明,高质量的数据对于模型性能的提升也非常大,比如对于一个大模型来说,几千条高质量的指令数据做微调的效果可能比几万条普通数据做微调的效果更好,这说明,数据对于模型的性能有非常大的影响,如果我们在模型层面难以做出更好的改进了,那我们就可以尝试从数据层面下手,而Data-Centric AI,就是研究如何提高数据在机器学习的全流程中的作用。
1. 基本介绍¶
以数据为中心的AI(Data-centric AI,DCAI)说白了就是研究如何对数据做工作而不是对模型做工作的方向。DCAI希望能够提出一套完整的框架,来开发、迭代和维护AI系统中所需要的数据,具体来说,DCAI的主要研究方向有这样三个,分别是: - 对训练数据的开发,构建有效的训练数据 - 对推理数据的开发,设计合适的推理数据 - 对数据的持续维护
而围绕这三个具体的目标,DCAI又有着非常多的子方向,可以用下面这张表来概括: - 训练数据的开发:训练数据的开发的目标是收集和生产高质量的训练数据来训练机器学习模型,它包括这样五个子方向,分别是数据收集、数据标注、数据的准备/清洗/转换、数据的精简以及数据的增强 - 推理数据的开发,推理数据的开发是指开发出好的测试数据集,以提供对模型更详细的了解,或通过数据输入触发模型的特定功能。具体来说推理数据的开发可以分成三个部分,分布内的测试数据集开发、分布外的测试数据集开发以及近几年兴起的提示工程(Prompt Engineering) - 数据的维护,现实世界中的数据往往不是一次性构建完成的,而是逐渐构建起来的,所以对大量的数据进行持续的维护就非常重要,数据的维护主要有这样几个研究方向:数据的理解,数据的质量评估以及数据的存储和检索。 考虑到本身自己的研究方向问题,我们这里主要关注训练数据的开发以及提示工程这两块的内容。
2. 训练数据开发¶
上面说到,训练数据的开发主要分成五个子方向,分别是数据收集、数据标注、数据的准备/清洗/转换、数据的精简以及数据的增强,这实际上是一套完整的训练数据准备流程,如下图所示:
这篇综述总结了以下几个关于训练数据开发的子方向的方法类别: