人工评估 | 人工标注员

news/2025/3/1 16:00:19/文章来源:https://www.cnblogs.com/huggingface/p/18604738

人工标注员

这是 人工评估 系列文章的第二篇《人工标注员》,全系列包括:

  • 基础概念
  • 人工标注员
  • 技巧与提示

推荐阅读 这篇综述 的第三章,介绍了许多数据标注质量管理的实践经验。如果你追求的是生产级的质量,并且具备实施条件,那么请继续阅读吧!

Best_annotation_practices

无论项目规模多大,一旦定义了具体的评估任务和打分细则,请注意:

  • 选择合适的标注员,如果可能的话提供经济激励
    你可能希望参与任务的标注员具有以下品质:
  1. 符合特定的人口统计特征。
    例如:母语是测试目标语言、较高的教育水平、特定领域的专业知识、多样化的地域背景等。
    根据评估任务不同,对标注员统计特征需求也不一样。
  2. 提供高质量标注。
    有些任务中筛选合适的标注员很重要,比如近期有一种任务是检查回答是否是 LLM 生成的。
    个人认为,除非你众包标注员有强烈的自我驱动意识,否则一般还是支付合理的费用更好。
  • 设计标注准则
    请务必深入思考制定标注准则,非常值得花费大量时间去做!我们在制作 GAIA 数据集时的耗时最多的地方就是这里。

  • 迭代标注
    很多时候标注员会误解标注指南 (他们的想法可能比你想象的更模棱两可),所以要做好多轮迭代标注的准备,来不断改进直到达到你的需求。

    • 质量检查手动筛选
      你需要仔细检查答案的质量 (检查标注员间的答案一致性),并筛选出质量最优、相关性最高的答案。

你也可以使用专用工具来构建高质量标注数据集,如 Argilla。

深入阅读推荐链接:

  • ⭐ 五分钟构建自己的标注平台,Moritz Laurer 出品的数据标注教程。这篇文章介绍了使用开源工具 (如 Argilla 和 Hugging Face) 的实际经验,可以帮助更好的理解大规模人工标注的注意事项。
  • ⭐ 标注实践指南。这是一篇 2023 年所有关于人工标注论文的综述,内容完整,干货满满,但很容易理解。
  • ScaleAI 出品的另一篇标注实践指南,专注于人工评估。它是对上述文档的更轻量级补充。
  • 关于减少人工标注分歧的假设与挑战,论文探讨了标注员间分歧来源的原因,以及在实践中的缓解方法。

原文链接: https://github.com/huggingface/evaluation-guidebook/blob/main/contents/human-evaluation/using-human-annotators.md

作者: clefourrier

译者: SuSung-boy

审校: adeenayakup

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/851879.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

manim边做边学--淡入淡出

本篇介绍Manim中的淡入和淡出动画效果。 淡入FadeIn 主要用于让对象以渐变的方式在场景中显现。 它的特点是视觉上柔和过渡,能自然地引导观众注意新出现的元素。 淡出FadeOut 则是使对象逐渐透明直至消失。 用于移除已完成展示作用的元素或者进行场景切换过渡,它渐变消失的特…

js带模糊效果的隐藏滑动侧边栏插件

pushbar.js是一款带模糊效果的js隐藏滑动侧边栏插件。pushbar.js能制作上下左右四个方向的滑动侧边栏效果,并且在侧边栏菜单显示的时候,主页面会带有炫酷的模糊特效。在线演示 下载使用方法 在页面中引入pushbar.js和pushbar.css文件。<link href="dist/css/pushbar…

【python应用】命令行pdb调试python程序

首先准备一段有问题的python代码,如下: # cat test.py # 摘自:DevOps 和自动化运维实战一书 #! /usr/bin/env python s=0 n = int(s) print (10/n)使用python -m pdb 进入调试交互模式,常用指令如下l: 展示所有源码内容;n: 单步执行;p +变量名:打印变量的值;exit: 退出…

多段区间的时间滑块slider实现方式

多段区间的时间滑块slider实现方式写在前面:今天要实现一个尖峰平谷的数据配置,这可一下难倒我了,但是还好互联网上大神云集,感谢各位大神的倾情分享,现在就写下我的感悟,留给看到这篇文章的你参考链接--写在前面,希望好帖子和文章能够被更好的被发现首先就是查看功能的…

【OS】进程切换的本质是什么?

#缓冲区溢出攻击 #进程切换 我们都知道操作系统最重要的功能之一是多任务能力,也就是可以运行超过CPU数量的程序——即进程,要想实现这一功能就必须具备将有限的CPU资源在多个进程之间分配的能力,在程序员看来,我们的程序在一直运行,而在CPU看来程序其实在“走走停停”,程…

贵阳知识付费系统解决方案

随着信息技术飞速发展,教育行业正面临着前所未有的变革契机。作为数字化转型的重要一环,在线教育和知识付费逐渐成为行业内外关注的焦点。以贵阳市为代表的西部地区在近年来也积极投入教育资源整合和技术赋能,以求突破地域限制,打造更加开放和高效的知识传播体系。@www.tuz…

【日记】衣柜到了!ww(444 字)

正文终于愿意打墨水了。虽然今天上班还是一整个想死的心情。物理意义上上到有些恶心反胃。所以工作上的事情就不说了,免得倒垃圾,未来也都不想看。写这则日记时嘴里正嚼着大轩轩给的泡泡糖 w。以前没吃过大大,不过感觉跟其它泡泡糖没有多大区别。新衣柜到了!好耶!对比了一…

自定义资源支持:K8s Device Plugin 从原理到实现

本文主要分析 k8s 中的 device-plugin 机制工作原理,并通过实现一个简单的 device-plugin 来加深理解。1. 背景 默认情况下,k8s 中的 Pod 只能申请 CPU 和 Memory 这两种资源,就像下面这样: resources:requests:memory: "1024Mi"cpu: "100m"limits:mem…

Apply 类似下拉求和的那个下拉的动作 或者右拉的动作

import pandas as pd #每一列包含一科成绩 data ={Math:[80,90,70],English:[75,85,90],science:[88,92,78]} df=pd.DataFrame(data) #定义一个求差的方法 最大减去最小值的差值 def diff_max_min(col):return max(col)-min(col) #调用这个方法,axis=0按照列求 每列的差值 res…

Linux 系统中ld命令

001、Linux中ld命令是链接命令,其作用是将链接文件(经过编译和汇编后的机器码文件)和库文件整合为可执行文件或者是库文件。 ld(Link eDitor)命令是二进制工具集GNU Binutils的一员,是GNU链接器,用于将目标文件与库链接为可执行文件或库文件。002、(base) [root@PC1 tes…

面向服务的整车EE架构(SOA)设计开发咨询服务

经纬恒润多年来一直致力于为客户提供先进电子电气架构解决方案,近年来,经纬恒润在国内率先开展整车SOA架构的技术研发和业务布局,参与多款SOA架构下量产车型的研发,积累了丰富的SOA架构设计经验。概述面向服务的架构(Service Oriented Architecture, SOA)是一种从IT领域引…

axis 轴

import pandas as pddata = {col1: [1, 2, 3], col2: [4, 5, 6]}df = pd.DataFrame(data)第一种求整列的和column_sum = df.sum(axis = 0)print(column_sum)输出结果col1 6col2 15dtype: int64第二种求整行的和row_sum = df.sum(axis = 1)print(row_sum)输出结果0 5…