[PyTorch][chapter 44][时间序列表示方法4]

前言:

    训练复杂度 O=E*T*Q

参数

全称

E 迭代次数

Number of the training epochs

T数据集大小

Number of the words in the training set

Q 模型计算复杂度

Model computational complexity

  E,T 一般都认为相同,所以这里面主要讨论Q,模型本身的训练复杂度


目录

  1.    NN-LM
  2.   RNN-LM
  3.   SKIP-grame
  4.   CBOW

一 NNLM 

 输入 N个词预测下一个词

1.1 模型Forward:

         1  输入 N 个[d,1] 的one-hot 向量

          2 concat 后

                    x \sim [N*d,1]

         3 经过第一个线性层 torch.nn.Linear

               z=W^Tx+b  输出[h,1]

               其中参数

              W \in[N*d,h]

              b \in[h,1]

        4  经过一个激活函数

             a= tanh(z)

      5   经过第二个线性层  torch.nn.Linear

           z=U^Ta+b

         参数

          U \sim [h,v]

         b \sim [h,1]

          6  经过softmax 后得到输出

 1.2  Q 模型计算复杂度:

        Q=W+U+b=N*d*h+v*h+N*d


二 RNN-LM

   2.1 模型

 2.2 模型Forward

      1  当前时刻的输入单词 x_{t} \sim [d,1]

      2   当前时刻隐藏层 

          S_t= U^Tx_t+W^TS_{t-1}

         其中: U \sim [d,d]

                    W \sim [d,d]

         3 当前时刻的输出

          \hat{y_t}=softmax(V^TS_t)

           其中:

                    V \sim [d,v]

     所以

     Q=U+V+W=d*d+d*d+d*v


三 SKIP-grame

 跟https://mp.csdn.net/mp_blog/creation/editor/131523503

稍微有点不一样, 前面讲的 z=W^Tx,x\sim[v,1],W \sim [v,d]

这里直接用一个 w_t \sim [d,1] 代表该单词。前面博客只是为了

更深入的了解为什么要用[d,1]向量代表该单词

 假设利用当前的中心词预测周围N个词

Q=N(d+v*d)

 当为Hierarchical softmax时候

 Q=N(d+d*log_2v)

当采用 Negative Sampling 时

Q = N(d+d*(k+1))

 

 


四  CBOW

    

 Q=N*d+d*v

层次softmax

 Q= N*d+d*log_2v

负采样

 Q=N*d+d*(k+1)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/20582.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

驱动day6

驱动程序 #include <linux/init.h> #include <linux/module.h> #include <linux/of.h> #include <linux/of_irq.h> #include <linux/of_gpio.h> #include <linux/platform_device.h> #include <linux/mod_devicetable.h> #include …

LayUI 实现二级导航栏

目录 实现步骤&#xff1a; 1. 分析数据库 2. 构建数据源 2.1 编写实体类 2.2 编写节点实体类 2.3 构建BuildTree节点结构方法类 2.4 编写dao类 2.5 编写数据Acntion控制类 3. 前台准备 3.1 配置mvc.xml文件 3.2 页面编写 3.3 运行效果 实现步骤&#xff1a; 1. 分…

Linux系统使用(超详细)

目录 Linux操作系统简介 Linux和windows区别 Linux常见命令 Linux目录结构 Linux命令提示符 常用命令 ls cd pwd touch cat echo mkdir rm cp mv vim vim的基本使用 grep netstat Linux面试题 Linux操作系统简介 Linux操作系统是和windows操作系统是并列…

在线试用Stable Diffusion生成可爱的图片

文章目录 一、 Stable Diffusion 模型在线使用地址&#xff1a;二、模型相关版本和参数配置&#xff1a;三、图片生成提示词与反向提示词&#xff1a;提示词1提示词2提示词3提示词4提示词5 一、 Stable Diffusion 模型在线使用地址&#xff1a; https://inscode.csdn.net/insc…

centos7 环境下部署 nacos单机模式

1、官网下载 nacos 官网地址&#xff1a;home 去github上下载nacos-server。我下载的是 nacos-server-1.4.1.tar.gz 2、安装 nacos 下载完成后&#xff0c;将安装包上传到 centos 创建 nacos 目录&#xff08;安装位置任意&#xff09; mkdir -p /usr/local/nacos解压 nac…

实战打靶集锦-021-glasgowsmile

提示&#xff1a;本文记录了博主的一次曲折的打靶经历。 目录 1. 主机发现2. 端口扫描3. 服务枚举4. 服务探查4.1 手工访问4.2 目录枚举4.3 手工探查4.4 搜索EXP4.5 joomlascan4.6 用户猜测与密码爆破4.7 构建反弹shell 5. 提权5.1 优化shell5.2 枚举系统信息5.3 探查/etc/pass…

第24章:事务基础知识

一、数据库事务Transactions 1.为什么要使用事务 事务可以让数据库保持一致性&#xff0c;通过事务的机制恢复到某个时间点&#xff0c;即使系统崩溃数据库修改的数据不会丢失。 2.存储引擎支持事务的情况 命令: show engines; 只有InnoDB支持事务 3.事务基本概念 事务&a…

【Distributed】分布式ELK日志文件分析系统(一)

文章目录 一、ELK 概述1. 为什么要使用 ELK2. 完整日志系统基本特征3. ELK 简介3.1 ElasticSearch&#xff08;ES&#xff09;3.2 Kiabana3.3 Logstash3.4 其它组件Filebeat缓存/消息队列Fluentd 4. ELK 的工作原理5. Linux 系统内核日志消息的优先级别 二、 部署 ELK 集群服务…

JAVA开发(JAVA视频监控接口相关)

一、背景 最近在做视频监控接口相关的开发&#xff0c;需要调用视频的接口获取直播地址&#xff0c;回放地址&#xff0c;然后集成到web里查看。 二、涉及的接口 1、获取卡口的id 2、通过卡口id获取通道&#xff08;设备的id&#xff09; 3、通过设备的id获取到直播地址 4…

密码学入门——HMAC

文章目录 一、什么是HMAC二、HMAC的步骤 一、什么是HMAC HMAC是一种使用单向散列函数来构造消息认证码的方法(RFC2104)&#xff0c;其中 HMAC的H就是Hash的意思。 HMAC 中所使用的单向散列函数并不仅限于一种&#xff0c;任何高强度的单向散列函数都可以被用于HMAC&#xff0…

Java028——Runtime 类

一、Runtime 类介绍 Runtime 类是JDK 提供的运行时类&#xff0c;该类为 Java 程序提供了与当前运行环境相连接的一个通道,Java 程序可以利用该类对当前的运行环境执行一些简单的操作。 二、Runtime 对象的创建 Runtime 类对象不能使用 new 关键字创建&#xff0c;只能通过 …

jmeter 终端命令执行jmx文件 生成jtl日志文件

终端命令执行jmx文件 生成jtl日志文件&#xff0c; 步骤如下&#xff1a; 步骤1&#xff1a;终端进入jmx文件目录 步骤2&#xff1a;执行命令&#xff1a;jmeter -n -t ****.jmx -l ****.jtl -n 以cli模式&#xff08;命令行运行模式&#xff09;运行jmeter -t 需要运行的…