AI数据质量监控：数据质量的关键KPI都有哪些？-编程知识

AI所支持的程序或设备成功实施的关键取决于用于训练模型的数据。使用低质量训练数据会导致模型训练不良，从而可能需要额外时间和预算进行重新训练和测试。为防止这种情况，最佳方法是在模型训练过程中实施质量检查。需要注意的是，不同质量度量的目的不尽相同，有些度量更适合各类数据。

这些度量包括：

评分者间可信度——单审和双审、审计
F1分数——准确率、召回率
准确性——黄金数据集、测试

数据各不相同，衡量标准也是如此。不同类型的度量适合不同的项目需求。

评分者间可信度

单审是由两名不同的标注者对同一条数据进行标注（一名负责标注，另一名负责确认标注正确性），检查标注是否一致。如果一致，则确定数据标注正确。如果两人标注不一致，则需要再次审核。引入第三名标注者处理这条数据。如果第三名标注者的结果与前两人中的任何一人一致，则认为所标注结果正确。如果标注结果都不一致，则丢弃数据，再次执行此过程。此过程只有两种情况，不是100%一致就是不一致。如果需要，可以允许部分一致。这即为何如果不满足准确性阈值要求，数据质量便不足以训练模型按预期运行的原因所在。

审核员可以结合单审和双审，也可以独自工作。审核员是经验丰富的标注人员，他们能够始终高质量工作，评估已完成标注的数据，检查标注是否正确。审核员还向数据处理人员提供反馈，告知他们错误之处。让多名审核员参与一个项目是明智之举，这样可以审核更多数据，并防止不良数据进入模型。

F1分数

F1分数通常用于分类数据集，它是基于所提供训练数据的模型预测准确性的分数。计算该分数有两个重要度量：召回率和准确率。召回率是指检索到的相关条目的百分数。准确率是指相关的检索项目的百分数。客户发现F1有助于在其数据标注中找到准确率和召回率之间的平衡。如果只追求准确率或召回率，F1并没有什么用。

准确性

基于测试的准确性通过项目前和项目期间所进行的测试予以衡量。预筛选是我们众包团队所经历的流程，旨在确保他们了解如何根据项目需求具体地标注数据。他们需要正确回答一系列问题才可获准工作。在整个项目中还会加试。

另一种测验方法是通过黄金数据集，它们是预标注数据片段，被集成到标注为测验的数据集中。在嵌入的测试由一个人标注后，将会提供准确性分数。如果标注者在任何一种测试方法中均达到一定的分数，则能够继续在项目中工作。这些类型的测试让项目负责人能轻松识别不符合项目需求的标注者，并从正在训练的模型中除去他们以及他们所处理的数据。

获取正确的数据

仅仅确保获得的数据按照项目要求准确标注是不够的；数据还必须对程序或设备有益并且完整。完整的数据涵盖了成功训练模型所需的所有可能用例。

数据获取有四种主要方式：

手动采集
使用技术结合人机协同
使用预标注数据集（PLD）
使用合成数据

如果没有预算或时间限制，手动获取所需的全部数据是个很好的选择。需要加快流程的企业可以使用PLD。我们的网站上有250多种PLD，随时可用。也可以使用混合模型，其中，预标注数据作为起点，然后通过人工处理剩余的数据为模型训练做好准备。

或者，如果数据本质上是敏感的（如医疗和金融行业），则宜使用生成式数据，其中数据值与真人无关。生成式数据称为合成数据，可以创建不含个人身份信息（PII）的数据，是难以实现的边缘案例的理想选择。我们与Mindtech合作，为客户提供这些合成数据解决方案。

高质量数据始于标注者

保证数据高质量的一种基本方法是使用专门的标注人员，他们能够准确标注数据，并严格遵守项目要求。在澳鹏，我们在全球各地拥有超过100万名众包人员。通过我们的托管服务，众包人员通过严格的预筛选标注测试，确保他们能够根据项目要求准确地标注数据。

为确认标注在整个过程中均可正确执行，还需要检查数据质量。数据检查通常通过审核流程进行。这个流程由审核员完成，他们遵循相同的预筛选过程，以证明他们可以合乎项目要求，并防止标注不良的数据被用于训练模型。

主观质量与客观质量

重要的是要注意质量度量并不总是明确的。它们可以分为两类，主观的和客观的。

以下是一些用例示例：

客观用例：分类和细分
主观用例：相关性排名和情绪分析

客观用例通常包含直接的答案。例如询问图像中是否包含炸薯条，或在自行车周围放置边界框。答案的差异在主观用例中很常见。例如，询问一个人他们看到的结果是否与他们搜索的主题相关，或者询问他们正在查看的书面内容是否包含正面信息。对于这些示例，每个人给出的答案都会略有不同，因为世界上没有任何两个人是相同的。这些客观度量收集用户与项目或程序交互时可能如何看待的共识。F1和基于测试的质量度量非常适合处理更客观的数据集，而评分者之间的可信度则优于主观数据集。