关于学习过程中的小点

  • nfev : 函数求值次数
  • njev : Jacobian 评估的数量
  • nit :算法的迭代次数

 

permute(dims)#维度转换
torch.split #[按块大小拆分张量]

 Pytorch.view

 Pytorch中使用view()函数对张量进行重构维度,类似于resize()、reshape()。用法如下:view(参数a,参数b,...),其中总的参数个数表示将张量重构后的维度,如果参数=-1,表示这该维度由pytorch自己补充。

例如 张量a的维度为1*6,a.view(2,3)的维度为2*3,a.view(-1,2,1)的维度为3*2*1

 torch.Size

torch.Size括号中有几个数字就是几维
第一层(最外层)中括号里面包含了两个中括号(以逗号进行分割),这就是(2,3,4)中的2
第二层中括号里面包含了三个中括号(以逗号进行分割),这就是(2,3,4)中的3
第三层中括号里面包含了四个数(以逗号进行分割),这就是(2,3,4)中的4 

 

 F.softmax

 F.softmax作用:
按照行或者列来做归一化的
F.softmax函数语言格式:

# 0是对列做归一化,1是对行做归一化
F.softmax(x,dim=1) 或者 F.softmax(x,dim=0)

F.log_softmax作用:
在softmax的结果上再做多一次log运算
F.log_softmax函数语言格式: 

F.log_softmax(x,dim=1) 或者 F.log_softmax(x,dim=0)

 logits

(1)总结来说就是:

f(wx+b)之后的输出,没有归一化的输出值,作为logits。

将logits进行softmax归一化,得到最后的结果。

(2)具体来说是:

也可以这么理解:logits与 softmax都属于在输出层的内容,

logits = tf.matmul(X, W) + bias

再对logits做归一化处理,就用到了softmax:

Y_pred = tf.nn.softmax(logits,name='Y_pred')

——————————————————————

Unscaled log probabilities of shape [d_0, d_1, ..., d_{r-1}, num_classes] and dtype float32 or float64.

可以理解logits ——【batchsize,class_num】是未进入softmax的概率,一般是全连接层的输出,softmax的输入。

CausalLMOutputWithPast 

因果语言模型(或自回归)输出的基类

dict 对象

Python 中的 dict 对象是一种 关联式容器 对象,用于保存由 键 ( key )到 值 ( value )的映射关系。 借助关联式容器,程序可快速定位到与指定 键 相关联的 值 。 dict 对象在 Python 程序中使用频率非常高,如果应用不当将严重影响程序的执行效率。

实验参数

run_language_modeling.py

mlm: bool = field(default=False, metadata={"help": "训练mask语言模型而不是语言模型"})
mlm_probability: float = field(default=0.15, metadata={"help": "mask语言模型token的loss速率"})
plm_probability: float = field(default=1 / 6,metadata={"help": "置换语言建模时屏蔽令牌的跨度长度与周围上下文长度的比率。"},)
max_span_length: int = field(default=5, metadata={"help": "用于置换语言建模的屏蔽令牌跨度的最大长度。"})
train_embs: Optional[str] = field(default='no', metadata={"help": "whether the train word embeddings"})max_source_length: Optional[int] = field(default=512, metadata={"help": "the max source length of summarization data. "})train_max_target_length: Optional[int] = field(default=100, metadata={"help": "the max target length for training data. "})val_max_target_length: Optional[int] = field(default=100, metadata={"help": "the max target length for dev data. "})

model.train():
在使用pytorch构建神经网络的时候,训练过程中会在程序上方添加一句model.train(),作用是启用batch normalization和drop out。

model.eval():
测试过程中会使用model.eval(),这时神经网络会沿用batch normalization的值,并不使用drop out。

 tensor.detach()

从计算图中脱离出来。

假设有模型A和模型B,我们需要将A的输出作为B的输入,但训练时我们只训练模型B. 那么可以这样做:

input_B = output_A.detach()

它可以使两个计算图的梯度传递断开,从而实现我们所需的功能。

返回一个新的tensor,新的tensor和原来的tensor共享数据内存,但不涉及梯度计算,即requires_grad=False。修改其中一个tensor的值,另一个也会改变,因为是共享同一块内存,但如果对其中一个tensor执行某些内置操作,则会报错,例如resize_、resize_as_、set_、transpose_。

 torch.mean()

mean()函数的参数:dim=0,按列求平均值,返回的形状是(1,列数);dim=1,按行求平均值,返回的形状是(行数,1),默认不设置dim的时候,返回的是所有元素的平均值。

CrossEntropyLoss()///criterion

对数似然损失函数

torch.pairwise_distance():

计算特征图之间的像素级欧氏距离

  • x1:第一个输入的张量
  • x2:第二个输入的张量
  • p:矩阵范数的维度。默认值是2,即二范数。

transforms.Lambda

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/26333.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Boojum:zkSync的高性能去中心化STARK证明系统

1. 引言 2023年7月17日zkSync官方twitter Say hello to Boojum宣称在不regenesis的情况下,将zkSync Era迁移至Boojum证明系统。 Boojum为STARK证明系统(PlonkFRI),开源代码见: https://github.com/matter-labs/era-…

Python爬虫学习笔记(三)————urllib

目录 1.使用urllib来获取百度首页的源码 2.下载网页图片视频 3.总结-1 4.请求对象的定制(解决第一种反爬) 5.编解码 (1)get请求方式:urllib.parse.quote() (2)get请求…

微信小程序用户登录及头像昵称设置教程(前后端)

目录 1.背景分析 2.具体需求分析 3.前端设计 3.1 用户登录 3.2 头像昵称填写(个人信息界面) 4.后端设计 4.1项目架构分析 4.2 代码分析 实体类 dao层 service层 controller层 工具类 5.nginx部署 6.效果演示 1.背景分析 众所周知&#x…

拒绝无效内卷|*CTF 2023邀你一起hack for fun!

注意 ⚠️ 2023年07月29日 *CTF 2023携重磅赛题惊喜来袭 请求加入你的假期计划! 7月29日09:00-30日09:00 CTF 2023 再度回归 由复旦大学*****战队倾力打造 赛题一如既往质量与趣味并存 知识量与时效性双高 结合时下最新安全漏洞 专注底层逻辑思考 注重知识点本身 …

四阶龙格-库塔方法matlab程序与误差对比

四阶龙格-库塔方法matlab程序与误差对比 简介参考code四阶龙格-库塔函数微分方程函数主程序 结果分析 简介 本例子函数参考了【1】中的函数,增加了解析方法的函数与四阶龙格-库塔方法对比,并计算了百分比误差,最大误差在0.3%左右。 参考 【…

Codeforces Round 884 (Div. 1 + Div. 2)(视频讲解A--D)

[TOC](Codeforces Round 884 (Div. 1 Div. 2)&#xff08;视频讲解A–D&#xff09;) 视频链接&#xff1a;Codeforces Round 884 (Div. 1 Div. 2)&#xff08;视频讲解A–D&#xff09; A Subtraction Game 1、 板书&#xff1a; 2、代码 #include<bits/stdc.h> #…

奇奇怪怪的知识点-EXCEL(1)

如何用Excel提取想要的数据 参考链接&#xff1a;Excel表格中如何在一串数字中提取几位数字 在日常工作中经常会用到EXCEL表格来进行数据的提取和处理&#xff0c;有时候很长一串数据我们只需要提取指定位数后面的数字&#xff0c;EXCEL中内置了很多丰富的函数可以帮助我们高…

【复盘】记录一次类型不一致导致的Kafka消费异常问题

背景 业务主要是通过A系统向B系统写入Kafka&#xff0c;然后B系统消费Kafka 将结果写到Kafka中&#xff0c;A进行消费最终结果。 在整个流程中&#xff0c;A写入Kafka会写入一张 record1表记录&#xff0c;然后在A消费最终结果的时候也记录一张record2表。主要改动的话 只是B系…

uniapp editor组件 如何上传图片

需求&#xff1a;我们在使用uniapp的editor组件时&#xff0c;主要是为了保持输入内容的格式。里面的文字可以有颜色、粗体、排列样式&#xff0c;可以插入图片。就像下面这样。 一、如何处理图片&#xff0c;好让它在 rich-text组件中显示 &#xff1f; 逻辑&#xff1a;我们…

设计模式详解(一):工厂方法——Factory Method

目录导航 工厂方法及其作用工厂方法的好处工厂方法的实现关系图实现步骤 工厂方法的适用场景工厂方法举例 工厂方法及其作用 工厂方法是一种创建型设计模式。所谓创建型设计模式是说针对创建对象方面的设计模式。在面向对象的编程语言里&#xff0c;我们通过对象间的相互协作&…

STC89C52--实时时钟(DS1302)

目录 一:介绍 1:具体介绍 2:DS1302总结 3:RTC 二:使用说明 1:电路图和内部结构 A:电路图 B:内部结构 C:CE D:时钟/日历(SCLK) E:写保护位 2:命令字节 3:寄存器地址/定义 4:时序图与数据读写 A:单字节写步骤代码&#xff08;Write&#xff09; B: 单字节读步骤代码…

基于jsp+Servlet+mysql的汽车销售系统

基于jspServletmysql的汽车销售系统 一、系统介绍二、功能展示1.项目骨架2.登录界面3.首页4.购物车5.添加车辆6、编辑车辆信息 四、其它1.其他系统实现五.获取源码 一、系统介绍 项目类型&#xff1a;Java web项目 项目名称&#xff1a;基于JSPServlet的汽车销售系统 项目架…