AI所支持的程序或设备成功实施的关键取决于用于训练模型的数据。使用低质量训练数据会导致模型训练不良,从而可能需要额外时间和预算进行重新训练和测试。为防止这种情况,最佳方法是在模型训练过程中实施质量检查。需要注意的是,不同质量度量的目的不尽相同,有些度量更适合各类数据。
这些度量包括:
- 评分者间可信度——单审和双审、审计
- F1分数——准确率、召回率
- 准确性——黄金数据集、测试
数据各不相同,衡量标准也是如此。不同类型的度量适合不同的项目需求。
评分者间可信度
单审是由两名不同的标注者对同一条数据进行标注(一名负责标注,另一名负责确认标注正确性),检查标注是否一致。如果一致,则确定数据标注正确。如果两人标注不一致,则需要再次审核。引入第三名标注者处理这条数据。如果第三名标注者的结果与前两人中的任何一人一致,则认为所标注结果正确。如果标注结果都不一致,则丢弃数据,再次执行此过程。此过程只有两种情况,不是100%一致就是不一致。如果需要,可以允许部分一致。这即为何如果不满足准确性阈值要求,数据质量便不足以训练模型按预期运行的原因所在。
审核员可以结合单审和双审,也可以独自工作。审核员是经验丰富的标注人员,他们能够始终高质量工作,评估已完成标注的数据,检查标注是否正确。审核员还向数据处理人员提供反馈,告知他们错误之处。让多名审核员参与一个项目是明智之举,这样可以审核更多数据,并防止不良数据进入模型。
F1分数
F1分数通常用于分类数据集,它是基于所提供训练数据的模型预测准确性的分数。计算该分数有两个重要度量:召回率和准确率。召回率是指检索到的相关条目的百分数。准确率是指相关的检索项目的百分数。客户发现F1有助于在其数据标注中找到准确率和召回率之间的平衡。如果只追求准确率或召回率,F1并没有什么用。
准确性
基于测试的准确性通过项目前和项目期间所进行的测试予以衡量。预筛选是我们众包团队所经历的流程,旨在确保他们了解如何根据项目需求具体地标注数据。他们需要正确回答一系列问题才可获准工作。在整个项目中还会加试。
另一种测验方法是通过黄金数据集,它们是预标注数据片段,被集成到标注为测验的数据集中。在嵌入的测试由一个人标注后,将会提供准确性分数。如果标注者在任何一种测试方法中均达到一定的分数,则能够继续在项目中工作。这些类型的测试让项目负责人能轻松识别不符合项目需求的标注者,并从正在训练的模型中除去他们以及他们所处理的数据。
获取正确的数据
仅仅确保获得的数据按照项目要求准确标注是不够的;数据还必须对程序或设备有益并且完整。完整的数据涵盖了成功训练模型所需的所有可能用例。
数据获取有四种主要方式:
- 手动采集
- 使用技术结合人机协同
- 使用预标注数据集(PLD)
- 使用合成数据
如果没有预算或时间限制,手动获取所需的全部数据是个很好的选择。需要加快流程的企业可以使用PLD。我们的网站上有250多种PLD,随时可用。也可以使用混合模型,其中,预标注数据作为起点,然后通过人工处理剩余的数据为模型训练做好准备。
或者,如果数据本质上是敏感的(如医疗和金融行业),则宜使用生成式数据,其中数据值与真人无关。生成式数据称为合成数据,可以创建不含个人身份信息(PII)的数据,是难以实现的边缘案例的理想选择。我们与Mindtech合作,为客户提供这些合成数据解决方案。
高质量数据始于标注者
保证数据高质量的一种基本方法是使用专门的标注人员,他们能够准确标注数据,并严格遵守项目要求。在澳鹏,我们在全球各地拥有超过100万名众包人员。通过我们的托管服务,众包人员通过严格的预筛选标注测试,确保他们能够根据项目要求准确地标注数据。
为确认标注在整个过程中均可正确执行,还需要检查数据质量。数据检查通常通过审核流程进行。这个流程由审核员完成,他们遵循相同的预筛选过程,以证明他们可以合乎项目要求,并防止标注不良的数据被用于训练模型。
主观质量与客观质量
重要的是要注意质量度量并不总是明确的。它们可以分为两类,主观的和客观的。
以下是一些用例示例:
- 客观用例:分类和细分
- 主观用例:相关性排名和情绪分析
客观用例通常包含直接的答案。例如询问图像中是否包含炸薯条,或在自行车周围放置边界框。答案的差异在主观用例中很常见。例如,询问一个人他们看到的结果是否与他们搜索的主题相关,或者询问他们正在查看的书面内容是否包含正面信息。对于这些示例,每个人给出的答案都会略有不同,因为世界上没有任何两个人是相同的。这些客观度量收集用户与项目或程序交互时可能如何看待的共识。F1和基于测试的质量度量非常适合处理更客观的数据集,而评分者之间的可信度则优于主观数据集。