Transfomer 中的强制教学(Teacher Forcing)-编程知识

Transfomer 中的强制教学(Teacher Forcing)

news/2025/3/10 14:16:43/文章来源:https://www.cnblogs.com/xiezhengcai/p/18762591

在预测阶段，我们希望输入 "天雷滚滚我好怕怕" 和 "[cls]" 能预测出下一个token: 劈

于是我们在训练阶段，我们的输入是 "天雷滚滚我好怕怕" 和 “[cls]劈得我浑身掉渣渣”，由于我们希望"[cls]" 能预测出 “劈” 字。

我们在损失函数计算的入参设置为： "劈得我浑身掉渣渣[sep]"

我们强制让“[cls]”学习到需要输出的token为“劈”，同理让 “[cls]劈” 学习到需要的输出token为 “得”

这儿的重点在于预测词与我们目标词之间有一个有移位。同时让损失函数的计算也右移一位。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/896812.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

jenkins安装后可用插件版本需要高版本的jenkins才能使用

首先我们直接用清华镜像源https://mirrors.tuna.tsinghua.edu.cn/jenkins/updates/，比如我们要找Jenkins2.429对应版本 emmmm，没有429,427凑合用吧获取这个地址，放到updatesite 进服务器，找到default.json，替换掉它，然后重启jenkins。 cp default.json default.json.ba…

党政机关数字化转型必备：10款信创认证项目管理工具深度测评

党政机关数字化转型是适应时代发展、提升治理效能的关键举措。在这一过程中，信创认证项目管理工具发挥着至关重要的作用。它们不仅能助力项目高效推进，还能保障信息安全与合规性。以下将对10款信创认证项目管理工具进行深度测评，为党政机关在数字化转型道路上的工具选择提供…

材料焊接工艺大全-芯晨微纳（河南） -专注于激光代加工

一、材料焊接中的“焊接力” 材料焊接，准确说应该为“材料互联”，是通过物理力、化学力、机械作用力等方式将原本相互隔离的材料连为一体的过程。物理力中的四种基本力是万有引力、电磁力、强相互作用力和弱相互作用力。具体的，按性质（根据它们的物理性质来命名和分类）分…

Zabbix 7.2 + Grafana 中文全自动安装ISO镜像

简介基于Zabbix 官方的Alma Linux 8 作为基础镜像。镜像源都改为国内大学镜像站，自动联网安装Zabbix+Grafana。安装中文字体、Zabbix和Grafana也配置默认中文。Zabbix 也指定中文字体，绘图无乱码。配置时区为东八区，Zabbix配置Web时区也为东八区。Grafana自动安装zabbix源…

第十八章项目绩效域（2025年详细解析版）

目录导学太极八卦与项目管理体系项目管理整体框架图绩效域原则和绩效域的关系18.1 干系人绩效域干系人绩效域概述定义预期目标绩效要点：促进干系人参与目的作用促进干系人参与要做的六项活动与其他绩效域的相互作用(了解)关联为什么要促进干系人参与?为什么干系人重要?执…

PCA9306DCTR特征—400kHz I2C/SMBus电压电平转换器/S9S08DZ60F2VLCR/CC2650F128RSMR/MAX4715EXK SPST 开关

PCA9306DCTR是一款2 位双向 400kHz I2C/SMBus 电压电平转换器，可以在 1.2V 到 5V 之间实现双向电压转换而无须使用方向引脚。PCA9306DCTR是一款2 位双向 400kHz I2C/SMBus 电压电平转换器，可以在 1.2V 到 5V 之间实现双向电压转换而无须使用方向引脚。PCA9306DCTR具有低导通状…

快速理解Kubernetes 系统架构

Kubernetes 架构解析1. 整体架构：管理层 + 执行层管理层（Master 节点）——"老板团队"API 服务器（kube-apiserver） ▶️ 公司的"前台"，所有指令必须通过这里传达（如部署应用、查看状态）调度器（kube-scheduler） ▶️ 像"项目经理"，决…

001TypeScript开发实战

1、点击文件，点击打开文件夹 2、选择文件夹，打开文件夹 3、点击终端，新建终端 4、在终端内输入npm init vue@latest 按回车 5、写入项目名称 vue3-ts-cms 6、选择：这里我们先这样选择，Router(单页面应用开发)Pinia(状态管理)这次我们搭建一下7、这里我们选择NO 可以看见…

信创概念深度科普：从3大政策背景到5类典型应用场景全解析

信创，即信息技术应用创新产业，近年来在我国的科技发展领域占据着愈发重要的地位。它不仅仅是一个简单的产业概念，更是我国实现科技自立自强、保障国家信息安全的关键支撑。随着数字化时代的加速推进，信创产业迎来了前所未有的发展机遇，其涵盖的范围广泛，涉及到众多的政策…

数字逻辑可编程阵列逻辑（PAL）

数字逻辑可编程阵列逻辑（PAL）参考书籍：数字逻辑基础与Verilog设计原书第3版 P402 这里先给个可编程逻辑阵列（PLA）的例子。PLA的常用示意图中画X的就是选中的。所以图 B.27 的计算过程为： \[\begin{align} P_1=& \ x_1x_2\\[1mm] P_2=& \ x_1 \overline x_{3…

基本项目目录解析

1、这里是说明vscode的相关配置的 recommendations 推荐的意思最好安装的一些插件这个必须安装也可以看到这里有安装插件的弹窗 2、public这里是放入的我们的一些资源的 3、这里是放站点图标的，网站的的图标 4、src 就是放我们的源代码的5、node_modules 文件夹主要用来存…

ASE150N10-ASEMI中低压MOS管ASE150N10

ASE150N10-ASEMI中低压MOS管ASE150N10编辑：ll 强劲功率处理，驱动无限潜能 ASE150N10 最为亮眼之处在于它出色的电流承载能力。高达 150A 的连续漏极电流，如同一条奔腾不息的电子洪流，能够轻松应对各类大功率需求场景。想象一下，在电动汽车的动力控制系统里，它稳稳地调控着…

Transfomer 中的强制教学(Teacher Forcing)

相关文章