第四课 句法结构与依存分析

news/2025/3/9 10:10:02/文章来源:https://www.cnblogs.com/dingxingdi/p/18760316

人类理解自然语言的方式有很多,但是绝大多数用的还是通过上下文来推断某些词的含义。现代自然语言处理也是基于这个方式来进行建模的
我们来看一个例子,如下
image
可以知道,in,large是修饰crate的,look是修饰in the crate的,in the kitchen是修饰crate的,by the door也是修饰crate的
语言中存在歧义现象,如下
image
这个句子可以理解为警察用刀杀了人,也可以理解为警察杀了持刀的人
还比如
image
这个句子人类一般都不会发生歧义了,但是其实是有两种解读方法的,除了一眼看上去的那种,还有一种是Students get first / hand job / experience.
那么我们人类的大脑是有非常好的辨识歧义的能力的,比如这里肯定就是后一种意思。对于模型来说,他也需要具备我们人类这种能力,而他则是通过概率来选择/理解最有可能的情况的

接下来介绍树库的概念。首先是一棵树,只有一个根节点,表示句子的中心词,如下
image
树库就是由这些树组成的库,有许多好处,如下
树库(Treebank)是一种带有句法结构标注的语料库,为自然语言处理(NLP)和语言学研究提供了重要支持。以下是其核心优势的具体解释及示例:


1. 复用劳动成果(Reusability of the labor)

树库的标注需要大量人工劳动,但一旦完成,即可被多次重复利用。研究者无需重复标注,可直接在不同项目中共享资源。
示例:英语的 Penn Treebank 是早期经典树库,被广泛用于句法分析、词性标注等任务,节省了后续研究的时间和成本。


2. 支持构建多种工具(Parsers, taggers, etc.)

基于树库的标注数据,可以训练或优化多种自然语言处理工具。
示例

  • 句法分析器:如 Stanford Parser 使用 Penn Treebank 训练,能够自动分析句子结构。
  • 词性标注器:如 SpaCy 的部分模型依赖树库数据提升标注准确性。

3. 语言学研究的资源(Valuable resource for linguistics)

树库为语言学家提供了真实的语法结构数据,支持对语言现象的定量分析。
示例:通过分析树库中的疑问句标注,语言学家可以研究英语倒装结构的分布规律(如 "What did you see?" vs. "You saw what?")。


4. 广泛的覆盖范围(Broad coverage)

树库通常包含多样化的语料(如新闻、对话、学术文本),而非局限于少量人工构造的例句。
示例Universal Dependencies (UD) Treebanks 涵盖 100+ 种语言的多样化语料,包括社交媒体文本和正式文献。


5. 频率与分布信息(Frequencies and distribution)

树库能统计语法结构在实际使用中的频率,揭示语言规律。
示例:通过分析树库数据,可发现英语中被动语态在学术文本中的使用频率显著高于口语(如 "The experiment was conducted" vs. "Someone did the experiment")。


6. 评估 NLP 系统(Evaluation of NLP systems)

树库作为“黄金标准”,可量化评估 NLP 工具的性能。判断模型是否能够像人类一样解析句子结构。
示例:句法分析器的准确率常通过在 Penn Treebank 上的测试结果衡量(如标注匹配率或依存关系准确率)。


树库的上述优势使其成为 NLP 和语言学研究的基石,既推动了技术发展,也深化了人类对语言本质的理解。

那么模型如何从树库中获取信息呢?有四种方法
image

  • 第一种方法就是在树上一条边的两个端点是很相似的
  • 第二种方法就是树上距离不远的点是很相似的
  • 第三种方法就是依存(相似)关系基本上不会跨过动词
  • 第四种方法就是,举个例子,the只会出现在名词前面,不会出现在名词后面

视频01:04:00的时候讲了如何构建解析器,但是看不懂,之后去看一下

不知道是不是翻译的问题,没怎么看懂。可以在B站搜索一下其他的课程看一下

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/895802.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

3.9 android真机测试通过了

deepseek简直太厉害了,我昨天写的代码一直报错访问不了网络,然后我就跟deepseek描述我的错误 跟着它给的解决办法开放了防火墙端口,之后就可以通过了,成功的在真机上将信息提交到了数据库

值班员空岗状态监测防睡觉系统

值班员空岗状态监测防睡觉系统是完善监管部门动态监控及预警预报体系的信息化手段,是实现智慧消防平台远程监控由“人为监控”向“智能监控”转变的必要手段。产品致力于服务智慧值班室平台智能化建设,有效实现对值班室人员离岗智能检测的实时预警,包括视频监管、事件预警、…

130道基础OJ编程题之: 78\~88

130道基础OJ编程题之: 78~88 @目录130道基础OJ编程题之: 78~8878: BC87 统计成绩79: BC89 密码验证80: BC90 矩阵计算81: BC92 逆序输出82: BC93 统计数据正负个数83: BC94 N个数之和84: BC95 最高分与最低分之差85: BC96 有序序列判断86: BC98 序列中删除指定数字87: BC99 序列…

智慧消防监控预警系统解决方案

智慧消防监控预警系统是智慧消防物联网平台智能采集终端,是创新消防行业监督管理方式、完善消防监管部门动态监控及预警预报体系的信息化手段,是实现智慧消防平台远程监控由“人为监控”向“智能监控”转变的必要手段。产品致力于服务智慧消防平台智能化建设,有效实现对消防…

行人车辆过街智能红绿灯自动控制系统

智能红绿灯自动控制系统采用智能人员监测分析摄像机,可以实时监测行人数量来智能转换红绿灯,为等候过街的行人提供便利,减少行人和机动车等候的时间。用于设置触发交通灯由红灯切换为绿灯的等候人数,达到该阈值则相机输出开关量触发交通灯切换。系统默认值为8人,考虑到等候…

代码照进现实:对公司管理策略的技术性解构

春节期间拍摄于南京上学的时候觉得计算机专业的一些理论晦涩难懂,跟现实世界的关联太少,每当遇到一些精妙的设计时都会发出一种感叹:究竟是什么脑袋才能想出这么有意思的东西。一晃工作十年,阅历渐丰,隐约发现其实社会中的一些现象其实和软件工程的一些理念有异曲同工之妙…

胆儿真大这也敢搞!

分享一款大佬基于官方版本修改的便捷版微信,不但能即开即用,还能多开、防撤回:微信PC多开防撤回便捷版;用电脑版微信的小伙伴都遇到过两个很头疼的问题,一是不支持多开,想要同时登录多个微信账号,还得使用bat脚本,对于那些不懂编程并且需要在电脑上管理多个账号的人来说…

又一国产AI爆火!Manus强势炸场,邀请码申请方法,看这一篇就够了!

3月6日凌晨,一款名为Manus的国产AI产品横空出世,迅速霸榜社交平台热搜。其内测邀请码在二手交易平台被炒至5万元天价,甚至出现标价10万元的卖家,我的个乖乖啊。 究竟是什么让Manus如此火爆?今天我们来聊一聊。 Manus是个啥? 与ChatGPT、DeepSeek等传统对话式AI不同,Manu…

VMware ESXi 6.7U3v macOS Unlocker OEM BIOS 2.7 集成 Realtek 网卡驱动和 NVMe 驱动 (集成驱动版)

VMware ESXi 6.7U3v macOS Unlocker & OEM BIOS 2.7 集成 Realtek 网卡驱动和 NVMe 驱动 (集成驱动版)VMware ESXi 6.7U3v macOS Unlocker & OEM BIOS 2.7 集成 Realtek 网卡驱动和 NVMe 驱动 (集成驱动版) 此版本解决的问题:VMware Host Client 无法将现有虚拟磁盘 (…

读DAMA数据管理知识体系指南14数据库环境

读DAMA数据管理知识体系指南14数据库环境1. ACID 1.1. 缩写词ACID是在20世纪80年代末期出现的一个合成词,含义是保证数据库事务可靠性不可或缺的约束 1.2. 原子性(Atomicity)1.2.1. 所有操作要么都完成,要么一个也不完成1.2.2. 如果事务中的某部分失败,那么整个事务就都会失…

opera在搜索引擎页面,无法使用用户脚本

如图只要是搜索结果页面都不能激活扩展。 我使用了链接助手这个在任何页面都能使用的脚本只有暴力猴提了一嘴,搜索引擎上完全搜索不到类似的问题。我在设置中找了半天,并没有找到类似权限的字样。于是去找了github的issue。 最终误打误撞的 https://github.com/dhowe/AdNause…

python第一天

内容目录 1.python语法注释标注就是对代码进行解释 -方式一:加井号例如#巴拉巴拉即可 -方式二:英文输入法连按三下单引号即可 -方式三:英文输入法连按三下shift+引号""""""即可 例如:2.变量与常量python中没有固定的常量,常量即时变量只不过…