NLP 笔记:LDA(训练篇)

1 前言:吉布斯采样

吉布斯采样的基本思想是,通过迭代的方式,逐个维度地更新所有变量的状态

1.1 举例 收拾东西

  • 假设我们现在有一个很乱的屋子,我们不知道东西应该放在哪里(绝对位置),但知道哪个和哪个应该比较近(相对位置)

我们每次选取一个物品,假设其他的位置都是正确的,那么这个应该放在哪个位置

比如:选取一个衣架,把他放到另一个衣架边上

衣服放到裤子边上

一步一步来,直到东西已经正确放置

2 LDA 的两个原则

一个文章中单词的主题越集中越好

同一个单词的主题越集中越好

那the这种词怎么办?这种不重要的词舍弃掉

3 LDA 目标

有了LDA的两个基本原则后,LDA的目标可以变为(颜色代表topic):

4 LDA 更新过程

首先随机给每个单词染色

对于第一个单词ball,假设其他单词颜色是正确的

首先看同一个文件里面,其他单词的颜色

然后看看同一个单词,在所有文件里面出现的颜色

他们的乘积就是对应的概率权重

但是,我们不希望出现绝对的零,我们对所有的权重加一个很小的值:

然后以乘积结果作为权重,采样,采到哪个,就染成什么颜色

以此类推,一个一个重新染色所有的单词

那怎么知道应该染成什么颜色呢?这个是人为做的

参考内容:

Training Latent Dirichlet Allocation: Gibbs Sampling (Part 2 of 2) (youtube.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/563112.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

攻防世界[EASYHOOK]

攻防世界 * 2 题目:EASYHOOK题目地址:[](https://adworld.xctf.org.cn/challenges/list)总结:最后来聊一下hook 题目:EASYHOOK 题目地址: 拿到程序后无壳直接ida32打开,发现逻辑如下,输入长度…

GT20L16S1Y标准汉字字库芯片完全解析(1)

本文内容参考: 字库芯片GT20L16S1Y使用记录-CSDN博客 GT20L16S1Y字库IC驱动_gt20l16s1y字库芯片测试程序-CSDN博客 《GT20L16S1Y 标准点阵汉字库芯片产品规格书 V4.0I_K 2023-04》 特此致谢! 一、概述 GT20L16S1Y是(上海集通数码科技有限…

云原生(五)、Docker-Swarm集群

基础环境说明 1、环境准备 1、启动4台服务器(在同一个网段内)。 2、重命名4台服务器,方便区分。 hostnamectl set-hostname swarm1 reboot安装docker。参考文章:云原生(二)、Docker基础 2、DockerSwarm…

注册中心的基础知识

什么是注册中心 当服务启动时,将服务信息服务名称/IP/端口写入注册中心.注册中心接收服务端信息时保存服务信息,并且维护服务列表数据当服务消费者启动时会通过IP:端口(注册中心)远程链接注册中心. 获取服务列表信息.缓存到本地 当消费者调用服务时,查找缓存到本地的服务列表…

使用 ReclaiMe Pro 查找并恢复网络中的 SSH 服务器数据

天津鸿萌科贸发展有限公司是 ReclaiMe Pro 数据恢复软件的授权代理商。ReclaiMe Pro 数据恢复软件专注于恢复几乎所有文件系统及各种类型和复杂程度的 RAID 阵列。 在本文中,我们介绍 ReclaiMe Pro 对于采用 SSH 连接方式的网络服务器中数据的恢复方法。 ReclaiMe…

Orbit 使用指南 10|在机器人上安装传感器 | Isaac Sim | Omniverse

如是我闻: 资产类(asset classes)允许我们创建和模拟机器人,而传感器 (sensors) 则帮助我们获取关于环境的信息,获取不同的本体感知和外界感知信息。例如,摄像头传感器可用于获取环境的视觉信息&#xff0c…

RabbitMQ之Plugins插件----AMQP对接MQTT

1.启用插件 rabbitmq-plugins enable rabbitmq_mqtt 2.检查是否启动成功,打开rabbitmq后台 3.概念: AMQP是由交换器和queue队列组成的消息队列机制,MQTT是由订阅主题组成的消息机制 1.MQTT创建连接时会向rabbitmq创建一个自己的queue&…

kali安装docker(亲测有效)

第一步:添加Docker官方的GPG密钥 curl -fsSL https://download.docker.com/linux/debian/gpg | sudo apt-key add - 第二步: 第二步更新源 echo deb https://download.docker.com/linux/debian stretch stable> /etc/apt/sources.list.d/docker.list…

Hive SQL必刷练习题:排列组合问题【通过join不等式】

排列组合问题【通过join不等式】 这种问题,就是数学的排列不等式,一个队伍只能和其余队伍比一次,不能重复 方法1:可以直接通过join,最后on是一个不等式【排列组合问题的解决方式】 方法2:也可以是提前多加…

SpringBoot健康监控

文章目录 1-SpringBoot2-监控-健康监控服务2-SpringBoot2-监控-Admin可视化 在Spring Boot中,可以通过Actuator模块实现应用程序的健康监控。Actuator是Spring Boot提供的一个用于监控和管理应用程序的模块,可以轻松地查看应用程序的运行状况、性能指标和…

相交链表:寻找链表的公共节点

目录 一、公共节点 二、题目 三、思路 四、代码 五、代码解析 1.计算长度 2.等长处理 3.判断 六、注意点 1.leetcode的尿性 2.仔细观察样例 3.经验总结 一、公共节点 链表不会像两直线相交一样,相交之后再分开。 由于单链表只有一个next指针&#xff0…

Websocket + Vue使用

这里有一篇文档可以参考一下> 闪现 POM文件 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-websocket</artifactId><version>2.7.0</version> </dependency> WebSocketConf…