避坑指南:Mask操作时不要使用float(-inf)填充

news/2024/11/8 0:58:35/文章来源:https://www.cnblogs.com/sq-feng/p/18534302

在Transformer等类似深度学习任务中有掩码自注意力机制等子模块,会涉及默认的填充值,

建议填一个足够小的数,如-1e6就OK了,如果设置成float('-inf'),如:

if mask is not None:mask = mask.expand(attention_scores.shape[0], -1, -1, -1)attention_scores = attention_scores.masked_fill(mask == 0, float('-inf'))

那么softmax处理后会出现nan,可能是因为它需要计算exp(float('-inf'))先,所以会出现很离谱的数字,所以不要这么做。


参考这个图

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/828604.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

游记:第37届校赛

T7 悦跑圈!启动! 改完这个题我就睡觉 求在s1或s2闭合的最小环,所以我枚举了边,假设一条边的两头分别是u和v,我以为环就是dij跑出来的d[u]+d[v],虽然不会立刻原路返回起点,但是中间可能有重复路径,而环是不能有这种路径的,所以从一开始就错了。(不长记性,失恋三部曲忘…

zlibrary镜像网站,z-library中文入口(持续更新)

zlibrary,一个全球领先的数字图书馆,拥有超过1300万册电子书资源,供人下载。它跨越多个学科,从古典文学到现代科技,再到人文艺术,无所不包。ZLibrary的使命是促进教育平等,让每个人都能便捷地获取知识。zlibrary数字图书馆镜像网址 zlbrary最新官网地址:https://zh.z-l…

MacOS(Unix系统)炫酷完美终端配置

MacOS(Unix系统)炫酷完美终端配置 1 下载安装 iTerm2 1.1 iTerm2,没有上架到AppStore,只能通过下载zip包安装,这是下载地址: https://iterm2.com/downloads.html ,压缩包双击打开后,将解压后的App拖动到【应用程序】文件夹就完成了。1.2 打开iTerm2 配置如下图,iTerm2…

流程编排LiteFlow-业务代码解耦

LiteFlow真的是相见恨晚啊,之前做过的很多系统,都会用各种if else,switch这些来解决不同业务方提出的问题,有时候还要“切一个分支”来搞这些额外的事情,把代码搞得一团糟,毫无可读性而言。如何打破僵局?LiteFlow为解耦逻辑而生,为编排而生,在使用LiteFlow之后,你会发…

Linux中awk命令实现指定字段的第一个字母大写

001、[root@PC1 test]# ls a.txt [root@PC1 test]# cat a.txt ## 测试数据 abcd KHG DETT dre ssae rtE [root@PC1 test]# awk {$1 = toupper(substr($1, 1, 1)) substr($1,2); print $0} a.txt ## 此处借助awk的内置函数…

java学习11.7

继续学习spring的内容

高级语言程序设计第六次作业

这个作业属于哪个课程:https://edu.cnblogs.com/campus/fzu/2024C/ 这个作业要求在哪里: https://edu.cnblogs.com/campus/fzu/2024C/homework/13303 学号:092300125 姓名:张天荣#include<stdio.h>int P(int num){int i;for(i=2;i<=num/2;i++){if(num%i==0)return…

【Maple2023软件下载与安装教程】

1、安装包Maple 2023: 链接:https://pan.quark.cn/s/8141b75ee5b5 提取码:d6AZ Maple 2022: 链接:https://pan.quark.cn/s/c726906349f2 提取码:geCP Maple 2021: 链接:https://pan.quark.cn/s/a5f710946c9a 提取码:fGKB Maple 2020: 链接:https://pan.quark.cn/s/83fd1…

SpringBoot操作Excel实现单文件上传、多文件上传、下载、读取内容等功能

SpringBoot操作Excel实现单文件上传、多文件上传、下载、读取内容等功能@目录项目整体描述页面图简介:功能概括说明具体功能举例代码介绍首页index.html操作成功跳转hello.html首页跳转index.html代码方法1:读取指定的Excel方法2:读取上传的Excel里面的内容方法3:java单文件…

2024-2025-1 20242407《网络》第二周学习总结

2024-2025-1 20242407《网络》第二周学习总结 教材学习内容总结教材学习中的问题和解决过程 问题一:对于维吉尼亚密码的加密方式不是很理解 解决方法:通过询问AI基于AI的学习

WPF StatusBar控件 这一块也能放一些东西

WPF StatusBar控件 这一块也能放一些东西StatusBar控件一般在窗口的底部。用于显示有关应用程序当前状态的各种信息,如光标位置、字数、任务进度等。<Window x:Class="WpfApp14.MainWindow"xmlns="http://schemas.microsoft.com/winfx/2006/xaml/presentati…

Multi-Scale and Detail-Enhanced Segment Anything-1-LMSA-轻量级多尺度适配器

代码 插图 均来自官方开放资源 用自适应的全局平均池化获得不同尺寸的大小(设置的值就是每层经过池化之后的大小) 再用上采样 让不同尺寸的特征图来到原始大小上 然后将它们和原特征图在深度方面叠加` import torch.nn as nn import torch import torch.nn.functional as F …