预训练语言模型公平性-公平性度量、去偏方法

news/2024/11/17 19:24:49/文章来源:https://www.cnblogs.com/yqw0710/p/18350418

一、内在偏见与外在偏见  

    

1、内在偏见:训练前数据集中存在的刻板印象;

2、外在偏见:用来衡量偏差如何在下游任务中传播。通常包括微调,然后评估其关于性别和种族等敏感属性的表现;

3、许多NLP应用程序对现有的语言模型进行了微调,这些模型将外在偏见和内在偏见交织在一起。

 

二、10种度量方法

2.1 内在度量  

    

 2.2 外在度量

    

 

二、5种去偏方法

     

1、CDA:通过交换一个数据集中的偏差属性词来重新平衡一个语料库,然后进行额外的预训练;

2、Dropout:增加注意权重和隐藏激活的dropout参数,并进行额外的预训练;

3、INLP:训练一个线性分类器来预测想要从表示中删除的受保护的属性来削弱模型的表示,通过将表示投影到学习分类器权重矩阵的零空间来去偏。

4、Self-Debias:一种后去偏技术,利用模型的内部知识来阻止它生成有偏见的文本,不会改变模型的内部表示或其参数;

5、SentenceDebias:基于投影,需要对特定类型的偏差估计一个线性子空间,从原始的句子表示中减去投影到估计的偏差子空间上的句子表示来去偏。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/780193.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

航天科技 “小快轻准”解决方案助力中小企业数字化转型

数字化转型喊了很多年,中小企业为何对降本增效无动于衷?“数字化转型,是中小企业的必答题。” 但是面临动辄十几万甚至几十万上百万的改造成本,投入真金白银,存在回报期长,不确定性大的问题,所以成本受限成为一大绊脚石。除了资金问题,缺人缺技术缺数据也是转型的难点…

IntelliJ IDEA 2024.2 发布:Spring Data JPA即时查询、自动补全cron表达式

今早看到,IntelliJ IDEA 2024.2 发布的邮件提示,看了一眼这个版本更新的新特性真的太适合我了!也许这些能力对关注DD的小伙伴也有帮助,所以搞篇博客介绍和推荐一下。下面就来一起看看这个版本中推出的几个强大新特性。 Spring Data JPA 的即时查询 在2024.2 Ultimate版本中…

CF379F New Year Tree

题意 给定图:每次在叶子结点加入两个点,并实时输出树的直径长度。 思路 每次增加两个点,直径至多变化一个点,长度最多加 1,所以对加入的点处理 lca,并且更新长度和点即可。 代码 #include <bits/stdc++.h>using namespace std;const int N = 1000010;int fa[30][N]…

【总结】注册码泄露原理以及例题

该题目采用了SIMD指令集,该指令格式在CTF和攻防对抗中经常出现,可以提高执行效率的同时也可以增加逆向的难度。对于此类指令和题目,我们分析的方法是:遇到查意思,查的多了就跟看正常代码一样,采用动态分析。引言 题目给了小明的机器码:1653643685031597 用户user_id:xi…

Docker Desktop 出现 Unable to calculate image disk size 错误提示的解决方法

Win11安装了Docker Destop,版本为4.25.2。Docker Desktop能随系统启动而启动,其内部管理的容器也可以正常启动,但是不和谐的地方也出现了: 在从通知区域双击Docker Desktop的图标后,它就会出现如下错误信息,虽不影响使用,但是相当碍眼:解决方案: 【1】进入设置,关闭“…

docker pull实现断点续传

本文介绍了使用Docker从DockerHub上下载容器镜像时很有可能出现的网络中断的问题。默认情况下,如果Docker下载镜像的过程中被中断了,是要从头开始下载的,而且再次下载也有可能受到网络波动的影响。这里提供了一种配置docker参数文件的方法,以及在该方案不生效的情况下的手动…

清除电脑c盘空间—Windows.edb

前言:一大早发现电脑好卡,然后看c盘居然红了,238G的总空间呢,按理现有软件不会占用这么多内存的。 1、火绒的垃圾清理走一波,没清掉多少 2、c盘右键=》属性=》常规下的 磁盘清理 ,也没清掉多少 3、c盘右键=》有个释放c盘空间,点开后发现是wps清理大师,不知道什么时候存…

简单理解H264编码

H264视频码流原理参考帖子:https://blog.csdn.net/go_str/article/details/80340564?spm=1001.2014.3001.5502 0、序言: 首先要弄明白编码的目的。当你此刻显示器正在播放一个视频,分辨率为1280*720,帧率为25,那么一秒所产生正常的数据大小为:1280*720(像素)*25(张)…

.NET 8 + Blazor 多租户、模块化、DDD框架、开箱即用

前言 基于 .NET 8 的开源项目,主要使用 WebAPI + Blazor 支持多租户和模块化设计,DDD构建。可以帮助我们轻松地搭建起一个功能完善的Web应用程序。除了帮助你快速构建应用程序之外,项目也可以当做学习资料。我们可以从中了解到多租户、CQRS、DDD架构、云部署、Docker容器化等…

日程表-获取当前周,点击切换上一周和下一周

获取本周的开始日期和结束日期(本周周一到周日):var currentTime = new Date() this.getThisWeekData(currentTime, 0)点击切换上周的周历(把当前周的周一的时间传进去就行,如“2024-08-05”): this.getThisWeekData(currentData.startData, -7)点击切换下周的周历(把当前…

「代码随想录算法训练营」第三十三天 | 动态规划 part6

322. 零钱兑换题目链接:https://leetcode.cn/problems/coin-change/ 文章讲解:https://programmercarl.com/0322.零钱兑换.html 题目难度:中等 视频讲解:https://www.bilibili.com/video/BV14K411R7yv/ 题目状态:略微有点思路,但还是有点转不过来。思路: 这次是找最小的…

工序汇报保存时提示“汇报数量大于领料数量”

1、配方单没有下推生产领料,生产订单的领料套数为0 2、该校验和领料套数基于配方单”是否关键件”的物料下推生产领料的情况。