NLP——操作步骤讲义与实践链接

数据集与语料

  • 语料是NLP的生命之源,所有NLP问题都是从语料中学到数据分布的规律
  • 语料的分类:单语料,平行语料,复杂结构
    在这里插入图片描述
  • 语料的例子:Penn Treebank, Daily Dialog, WMT-1x翻译数据集,中文闲聊数据集,中国古诗数据集
  • 语料来源:公开数据集,爬虫,社交工具埋点,数据库,上述数据集如何获取?这里 (吐槽一下,B站的这个视频讲得很一般,浪费好几个小时时间,收获甚微,作为科普快速拉一下可以)

句子理解

用计算机处理一个句子,主要包含以下几个方面:分词词性识别命名实体识别依存句法分析

分词

分词与NLP的关系

  • 分词是中文语言特有的需求,是中文NLP的基础,没有中文分词,我们对于语言很难量化,进而很难运用数学的知识去解决问题。而对于拉丁语系是不需要分词的,因为它们有空格天然的隔开

  • 中分分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。分词操作的输入是句子,输出是词序列,如在这里插入图片描述

  • 关于分词,可参阅B站上一个视频动手学中文分词,(这个视频还不错,理论部分讲得不是很细,但代码部分很细,通过debug帮助理解算法)该系列课程讲解了三种分词算法及其实现、中文分词工具Jieba分词的用法,最后实现了一个简单的在线分词工具,内嵌了自研的三种算法以及调用Jieba分词工具,原视频给的百度链接无效,我跟做的Flask项目online_fenci资源:链接:百度网盘 提取码:ci07 。由于缺少原视频中css, js等样式文件,所有页面画风有点。。。丑,只能将就看。

词性识别

词性识别的输入是一个句子,输出是识别出的词性,例如,对于特朗普昨天在推特上攻击拜登这句话,在对其进行分词后,紧接着做词性识别,得出与词序列一一对应的词性序列,如:特朗普-名词人名(nh), 昨天-名词时间(nt),在-介词(p)
在这里插入图片描述
在这里插入图片描述

命名实体识别

依存句法分析

在这里插入图片描述

预处理

  • tokenize:把词向量化,例如,把一个词“apple”向量化成一个长度512的向量,以便用计算机能够处理的方式进行计算处理
  • 命名实体识别:把词中的实体找出来
    一些预处理工具:
    预处理的工具包括:
  • NLTK:官网地址,基本的英文操作都支持
  • SnowNLP:https://github.com/isnowfy/snowlp,中文NLP处理工具,可以进行一些基本操作,如情感分析(积极or消极),简繁转换,分词,标注,计算指标等
  • Pyrouge:测评文本摘要好坏
  • LTP: https://ltp.ai/, https://github.com/HIT-SCIR.ltp, 哈工大做的开源工具
  • Gensim: 实现Tf-ldf, LSA, LDA, Word2vec等技能
  • TF-IDF,统计词频,词的文档频率,制作词云

词向量模型——word2vec

词向量的通俗理解,如果用CBOWSkip-gram模型训练词向量,参阅这里
两种构建词向量的模式:CBOW模型与Skip-gram模型

Skip-gram模型

Skip-gram模型构建训练数据的方法如图,对于Thou shalt not make a machine in the likeness of a human mind这句话,用一个长度为5(一般为奇数)的滑窗在句中扫过,将input_word前2个词与后2个词作为output_word(或者叫target_word),构建出的数据集如下所示。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/70612.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网络通信TCP/IP协议逐层分析数据链路层(第四十课)

Ethernet Ⅱ帧,也称为Ethernet V2帧,是如今局域网里最常见的以太帧,是以太网事实标准。如今大多数的TCP/IP应用(如HTTP、FTP、SMTP、POP3等)都是采用Ethernet II帧承载。 1、MAC地址概述 -MAC地址,即以太网地址,用来标识一个以太网上的某个单独设备或一组设备 -长度…

用递归与迭代完成二叉树的三种遍历

目录 二叉树的前序遍历 题目 前序遍历题目链接 递归代码 1.利用方法返回值的代码 2.返回值为void的代码 非递归实现前序遍历(利用栈stack) 1.利用方法返回值的代码 2.返回值为void的代码 二叉树的中序遍历 题目 :给定一个二叉树的根节点 root ,返回 它…

windows pip安装出现 error: Microsoft Visual C++ 14.0 is required

可参考:如何解决 Microsoft Visual C 14.0 or greater is required. Get it with “Microsoft C Build Tools“_不吃香菜的小趴菜的博客-CSDN博客 一、安装Visual Studio2022 1、下载:下载 Visual Studio Tools - 免费安装 Windows、Mac、Linux 我这使…

Linux 终端命令之文件浏览(1) cat

Linux 文件浏览命令 cat, more, less, head, tail,此五个文件浏览类的命令皆为外部命令。 hannHannYang:~$ which cat /usr/bin/cat hannHannYang:~$ which more /usr/bin/more hannHannYang:~$ which less /usr/bin/less hannHannYang:~$ which head /usr/bin/he…

24近3年内蒙古大学自动化考研院校分析

今天给大家带来的是内蒙古大学控制考研分析 满满干货~还不快快点赞收藏 一、内蒙古大学 学校简介 内蒙古大学位于内蒙古自治区首府、历史文化名城呼和浩特市,距北京400余公里,是中华人民共和国成立后党和国家在民族地区创办的第一所综合大…

【【verilog典型电路设计之FIR滤波器的设计】】

verilog典型电路设计之FIR滤波器的设计 我们常用的FIR滤波器称为有限冲激响应 是一种常用的数字滤波器 ,采用对已输入样值的加权和来形成它的输出。 对于输入序列X[n] 的FIR滤波器可用下图所示的结构示意图来表示,其中X[n] 是输入数据流。各级的输入连…

java八股文面试[java基础]——String StringBuilder StringBuffer

String类型定义: final String 不可以继承 final char [] 不可以修改 String不可变的好处: hash值只需要算一次,当String作为map的key时, 不需要考虑hash改变 天然的线程安全 知识来源: 【基础】String、StringB…

【云原生】Docker 详解(二):Docker 架构及工作原理

Docker 详解(二):Docker 架构及工作原理 Docker 在运行时分为 Docker 引擎(服务端守护进程) 和 客户端工具,我们日常使用各种 docker 命令,其实就是在使用 客户端工具 与 Docker 引擎 进行交互。…

【Kafka】2.在SpringBoot中使用官方原生java版Kafka客户端

目 录 1. 新建一个消息生产者2. 新建一个消息消费者3. 测 试 在开始之前,需要先做点准备工作,用 IDEA 新建一个 Maven 项目,取名 kafka-study,然后删掉它的 src 目录,接着在 pom.xml 里面引入下面的依赖。这个项目的作…

[oneAPI] 手写数字识别-LSTM

[oneAPI] 手写数字识别-LSTM 手写数字识别参数与包加载数据模型训练过程结果 oneAPI 比赛:https://marketing.csdn.net/p/f3e44fbfe46c465f4d9d6c23e38e0517 Intel DevCloud for oneAPI:https://devcloud.intel.com/oneapi/get_started/aiAnalyticsToolk…

在本地搭建WAMP服务器并通过端口实现局域网访问(无需公网IP)

文章目录 前言1.Wamp服务器搭建1.1 Wamp下载和安装1.2 Wamp网页测试 2. Cpolar内网穿透的安装和注册2.1 本地网页发布2.2 Cpolar云端设置2.3 Cpolar本地设置 3. 公网访问测试4. 结语 前言 软件技术的发展日新月异,各种能方便我们生活、工作和娱乐的新软件层出不穷&a…

第57步 深度学习图像识别:CNN可视化(Pytorch)

基于WIN10的64位系统演示 一、写在前面 由于不少模型使用的是Pytorch,因此这一期补上基于Pytorch实现CNN可视化的教程和代码,以SqueezeNet模型为例。 二、CNN可视化实战 继续使用胸片的数据集:肺结核病人和健康人的胸片的识别。其中&…