自然语言处理--基于HMM+维特比算法的词性标注

自然语言处理作业2--基于HMM+维特比算法的词性标注

一、理论描述

词性标注是一种自然语言处理技术,用于识别文本中每个词的词性,例如名词、动词、形容词等;

词性标注也被称为语法标注或词类消疑,是语料库语言学中将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理技术;

词性标注可以由人工或特定算法完成,使用机器学习方法实现词性标注是自然语言处理的研究内容。常见的词性标注算法包括隐马尔可夫模型条件随机场等;

词性标注是对文本进行语言学分析的重要工具,可以帮助计算机理解和处理自然语言文本。通过词性标注,计算机可以更准确地理解句子的结构和含义,从而实现诸如信息抽取、文本分类、句法分析等自然语言处理任务。它主要被应用于文本挖掘和NLP领域,是各类基于文本的机器学习任务(如语义分析、指代消解)的预处理步骤,是自然语言处理中一项非常重要的基础性工作。

二、算法描述

本文实现HMM+维特比算法,具体算法描述如下:

维特比算法是一种动态规划算法,通过计算每个观测节点的不同隐状态的最大概率,并记录路径,最终返回最大概率的路径

函数的输入参数包括观测序列的长度(observation_len)、隐含序列的长度(hidden_len)、初始概率(init_p)、转移概率矩阵(trans_p)和发射概率矩阵(emit_p)

函数首先创建两个二维数组max_probabilities和paths,用于存储每个观测节点的不同隐状态的最大概率和路径

然后,函数通过遍历第一个观测节点的每个隐状态,计算其最大概率,并记录路径。接着,函数遍历后续的每个观测节点,根据维特比算法的公式计算累计概率,得到每个隐状态的最大概率,并更新路径

最后,函数返回最大概率的路径

三、详细描述

以“Bear is move”为例,使用HMM+维特比算法进行词性标注的详细描述如下:

观测序列:['Bear', 'is', 'move']

隐序列:['AT', 'BEZ', 'IN', 'NN', 'VB', 'PERIOD']

输出:Bear/VB is/BEZ move/NN

初始概率:

AT

BEZ

IN

NN

VB

PERIOD

0.2

0.1

0.1

0.3

0.2

0.1

转移概率矩阵(已经进行数据平滑): 由当前词性转移到下一个词性的概率

AT

BEZ

IN

NN

VB

PERIOD

AT

2.05503381e-05

2.05503381e-05

2.05503381e-05

9.99506792e-01

2.05503381e-05

4.11006761e-04

BEZ

7.50570342e-01

3.80228137e-04

1.62357414e-01

7.14828897e-02

3.80228137e-04

1.48288973e-02

IN

6.97049170e-01

1.60895868e-05

2.13347921e-02

2.78591196e-01

1.60895868e-05

2.99266315e-03

NN

1.31783520e-02

4.59144641e-02

5.24061598e-01

1.45282693e-01

7.58865773e-03

2.63974236e-01

VB

4.33630846e-01

3.07033202e-03

3.39807212e-01

1.05462335e-01

9.28239914e-03

1.08746876e-01

PERIOD

5.33187018e-01

5.05453578e-03

3.09723331e-01

8.84543762e-02

6.35142325e-02

6.65070497e-05

发射概率矩阵(已进行数据平滑):由隐序列到观测序列的概率

Bear

is

move

AT

1.44877144e-05

1.44877144e-05

1.44877144e-05

BEZ

9.92752904e-05

9.99305073e-01

9.92752904e-05

IN

1.82083030e-04

1.82083030e-04

1.82083030e-04

NN

2.02205882e-02

1.83823529e-03

6.80147059e-02

VB

2.34042553e-01

5.31914894e-03

7.12765957e-01

PERIOD

2.04846672e-05

2.04846672e-05

2.04846672e-05

最大概率矩阵:

V0​(j)=init(jbj​(o0​) (init为初始概率,b发射概率矩阵)

Vt​(j)=max(Vt−1​(iaij​)×bj​(ot​) (a为转移概率矩阵,b为发射概率矩阵)

使用paths更新并保存j(观测状态)条路径取到最大概率时的i(隐状态),用于回溯

根据最大概率矩阵 max_probabilities,找到最后一个观测状态 "move" 对应的最大概率的隐状态,作为最终的词性标注结果

四、软件演示

五、问题和总结

  • 模型参数的选择会影响标注结果的准确性
  • 数据集较小,模型训练效果可能不够理想

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/427329.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

面试题之RocketMq

1. RocketMq的组成及各自的作用? 在RocketMq中有四个部分组成,分别是Producer,Consumer,Broker,以及NameServer,类比于生活中的邮局,分别是发信者,收信者,负责暂存&#…

和硕拿下AI Pin代工大单公司 | 百能云芯

和硕公司近日成功中标AI Pin代工大单,AI Pin被认为是继iPhone之后的下一个划时代产品,吸引了全球科技圈的广泛关注。和硕公司对此表示,他们不会只专注于单一客户,而是期望在下半年有更多新品上市,为公司带来丰硕的业绩…

creo草绘3个实例学习笔记

creo草绘3个实例 文章目录 creo草绘3个实例草绘01草绘02草绘03 草绘01 草绘02 草绘03

顺序表的增、删、改、查

小伙伴们好,学完C语言,就要开始学数据结构了,数据结构也是非常重要的,今天我们主要来学习在数据结构中最常用的增删改查操作。话不多说,一起来学习吧 1.数据结构相关概念 1.什么是数据结构? 数据结构是由…

Spring Boot 学习之——@SpringBootApplication注解(自动注解原理)

SpringBootApplication注解 springboot是基于spring的新型的轻量级框架,最厉害的地方当属**自动配置。**那我们就可以根据启动流程和相关原理来看看,如何实现传奇的自动配置 SpringBootApplication//标注在某个类上,表示这个类是SpringBoot…

Supplier 惰性调用和 Future#get 同步等待调用结合

📖一、背景介绍 关于任务异步执行,两个点不可避免:异步结果和异步回调。 而在我的工程中有这样一段代码:使用 CompletableFuture 进行封装,可以异步执行,异步回调,通过 get() 等待异步任务的结…

JUC-CAS

1. CAS概述 CAS(Compare ans swap/set) 比较并交换,实现并发的一种底层技术。它将预期的值和内存中的值比较,如果相同,就更新内存中的值。如果不匹配,一直重试(自旋)。Java.util.concurrent.atomic包下的原…

【GitHub项目推荐--一个简单的绘图应用程序(Rust + GTK4)】【转载】

一个用 Rust 和 GTK4 编写的简单的绘图应用程序来创建手写笔记。 Rnote 旨在成为一个简单但实用的笔记应用程序,用于手绘或注释图片或文档。它最终能够导入/导出各种媒体文件格式。而且输出的作品是基于矢量的,这使其在编辑和更改内容时非常灵活。 地址…

微信小程序之全局配置-window和tabBar

学习的最大理由是想摆脱平庸,早一天就多一份人生的精彩;迟一天就多一天平庸的困扰。各位小伙伴,如果您: 想系统/深入学习某技术知识点… 一个人摸索学习很难坚持,想组团高效学习… 想写博客但无从下手,急需…

解密POM:提升自动化脚本稳定性和开发效率的正确姿势!

Page Objects是selenium的一种测试设计模式,主要将每个页面看作是一个class。class的内容主要包括属性和方法,属性不难理解,就是这个页面中的元素对象,比如输入用户名的输入框,输入登陆密码的输入框、登陆按钮、这个页…

数据库设计问题

问题: 某学校要设计一个数据库,学校的业务规则概括如下: 学校内班级若干,每个班级内又有学生若干。学校开设课程若干,只有某些特定的班级能上指定的课程。学生选修某些课程,但是在自身班级下的课程是必修。学校定期组…

RK3399平台开发系列讲解(网络篇)什么是Linux路由

🚀返回专栏总目录 文章目录 一、什么是路由二、路由配置命令沉淀、分享、成长,让自己和他人都能有所收获!😄 一、什么是路由 一张路由表中会有多条路由规则。每一条规则至少包含这三项信息。 目的网络:这个包想去哪儿?出口设备:将包从哪个口扔出去?下一跳网关:下一个…