ElasticSearch-集成ik分词器

本文已收录于专栏
《中间件合集》

目录

  • 背景介绍
  • 版本选择
  • 优势说明
  • 集成过程
    • 1.下载安装包
    • 2.解压安装包
    • 3.重启ElasticSearch服务
      • 3.1通过ps -ef | grep elastic查看正在启动的es进程号
      • 3.2使用kill -9 xxx 杀死进程
      • 3.3使用 ./elasticsearch 启动es服务
  • 分词测试
    • 细粒度分词方式
      • 分词请求
      • 分词结果
    • 粗粒度分词方式
      • 分词请求
      • 分词结果
    • 项目中
      • 代码
      • 结果
  • 总结提升

背景介绍

  我们在项目中集成了ElasticSearch服务之后,需要对内容进行分词处理。这时候就需要用到分词器。其实ElasticSearch服务自身也会带有分词器。ElasticSearch服务自带的分词器是单个字进行分的。在我们的业务当中要求对整个词进行拆分。这时候就用到了ik分词器。ik分词器是词库分词的分词方式。当然根据我们的业务不同还可以选择其他的分词器。

版本选择

优势说明

Elasticsearch的IK分词器是一种流行的中文分词器,它有以下几个优势:

  • 「 中文分词 」:IK分词器专门用于处理中文文本,能够将连续的中文字符序列切分成有意义的词语。它支持细粒度和智能切分两种分词模式,可以根据需求选择合适的模式。
  • 「 高效性能 」:IK分词器在分词速度和内存占用方面具有较高的性能。它采用了基于词典的分词算法和N-gram模型,能够快速准确地进行分词处理。
  • 「支持扩展词典 」:IK分词器允许用户自定义扩展词典,可以添加特定的词汇,如专业术语、品牌名等,以提高分词的准确性和覆盖范围。
  • 「支持拼音分词」:IK分词器还提供了拼音分词功能,可以将中文文本转换成拼音,并进行分词处理。这对于拼音搜索和拼音排序等场景非常有用。
  • 「多语言支持」:除了中文,IK分词器还支持其他语言的分词处理,如英文、日文等。它可以根据不同的语言特点进行相应的分词处理,提高搜索的准确性和效果。

集成过程

1.下载安装包

ik地址:https://github.com/medcl/elasticsearch-analysis-ik/releases
在这里插入图片描述

2.解压安装包

解压并重命名为IK 将整个文件夹上传到es 中的 plugins 目录中

unzip elasticsearch-analysis-ik-7.6.1.zip

在这里插入图片描述

3.重启ElasticSearch服务

3.1通过ps -ef | grep elastic查看正在启动的es进程号

3.2使用kill -9 xxx 杀死进程

3.3使用 ./elasticsearch 启动es服务

在这里插入图片描述

分词测试

细粒度分词方式

分词请求

POST test002/_analyze?pretty=true{
"text":"我们是软件工程师",
"tokenizer":"ik_max_word"
}

分词结果

{"tokens": [{"token": "我们","start_offset": 0,"end_offset": 2,"type": "CN_WORD","position": 0},{"token": "是","start_offset": 2,"end_offset": 3,"type": "CN_CHAR","position": 1},{"token": "软件工程","start_offset": 3,"end_offset": 7,"type": "CN_WORD","position": 2},{"token": "软件","start_offset": 3,"end_offset": 5,"type": "CN_WORD","position": 3},{"token": "工程师","start_offset": 5,"end_offset": 8,"type": "CN_WORD","position": 4},{"token": "工程","start_offset": 5,"end_offset": 7,"type": "CN_WORD","position": 5},{"token": "师","start_offset": 7,"end_offset": 8,"type": "CN_CHAR","position": 6}]
}

粗粒度分词方式

分词请求

POST test002/_analyze?pretty=true{
"text":"我们是软件工程师",
"tokenizer":"ik_max_word"
}

分词结果

这一次得到了分词的效果:
```json
{"tokens": [{"token": "我们","start_offset": 0,"end_offset": 2,"type": "CN_WORD","position": 0},{"token": "是","start_offset": 2,"end_offset": 3,"type": "CN_CHAR","position": 1},{"token": "软件","start_offset": 3,"end_offset": 5,"type": "CN_WORD","position": 2},{"token": "工程师","start_offset": 5,"end_offset": 8,"type": "CN_WORD","position": 3}]
}

项目中

代码

@Autowiredprivate RestHighLevelClient client;public void test() throws IOException {AnalyzeRequest analyzeRequest = AnalyzeRequest.withGlobalAnalyzer("ik_smart", "武梓龙来写CSDN博客来了");AnalyzeResponse analyze = client.indices().analyze(analyzeRequest, RequestOptions.DEFAULT);for (AnalyzeResponse.AnalyzeToken token : analyze.getTokens()) {System.out.println(token.getTerm());}}

  示例是将一段话进行分词操作,其中withGlobalAnalyzer方法的第一个参数是指定分词器ik_smart分词器(当然也可以使用其他分词器,根据业务的需求进行调整) 是es服务中安装了IK的插件实现的,如果不安装IK分词器的插件ik_smart分词器是无法使用的。第二个参数就是我们分词的内容了。

结果

在这里插入图片描述

总结提升

  IK分词器在中文分词方面具有较好的准确性和性能,支持自定义词典和拼音分词,适用于各种中文搜索和分析场景。它是Elasticsearch中常用的中文分词器之一。

🎯 此文章对你有用的话记得留言+点赞+收藏哦🎯

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/91422.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【面试题】UDP和TCP有啥区别?

UDP UDP协议全称是用户数据报协议,在网络中它与TCP协议一样用于处理数据包,是一种无连接的协议。在OSI模型中,在第四层——传输层,处于IP协议的上一层。UDP有不提供数据包分组、组装和不能对数据包进行排序的缺点,也就…

基于stm32的烟雾浓度检测报警proteus仿真设计(仿真+程序+讲解)

基于STM32的烟雾浓度检测报警仿真设计(仿真程序讲解) 1.主要功能2.仿真3. 程序4. 资料清单&下载链接 基于STM32的烟雾浓度检测报警仿真设计(仿真程序讲解) 仿真图proteus 8.9 程序编译器:keil 5 编程语言:C语言 设计编号&a…

使用TPDSS连接GaussDB数据库

TPDSS是GaussDB官方提供的数据库连接工具,可以在TPDSS查看GaussDB的建库建表语句,于GaussDB使用兼容性比较好,由于TPDSS查找比较麻烦,下面给出了下载链接地址: 链接:https://pan.baidu.com/s/1Lqcu3KriE47…

打破数据孤岛,实现文档数据互通

随着数字经济加速发展,企业数字化转型正向更深层次推进。非结构化数据量也正在飞速增长,这些数据以文档、图片、音频等形式散落在组织内部,这给数据的整理和统一利用增加了难度。由于部门、应用、框架、多云环境等原因形成非结构化数据孤岛。…

JavaWeb 速通Ajax

目录 一、Ajax快速入门 1.基本介绍 : 2.使用原理 : 二、Ajax经典入门案例 1.需求 : 2.前端页面实现 : 3. 处理HTTP请求的servlet实现 4.引入jar包及druid配置文件、工具类 : 5.Domain层实现 : 6.DAO层实现 : 7.Service层实现 : 8.运行测试 : 三、JQuery操作Ajax 1 …

CI/CD 持续集成 持续交付

CI(Continuous integration)持续集成 参考:https://www.jianshu.com/p/2132949ff84a 持续集成是指多名开发者在开发不同功能代码的过程当中,可以频繁的将代码行合并到一起并切相互不影响工作。 持续集成的目的,是让…

网络流量监控-sniffnet

{alert type“info”} 今天来分享一个监控流量的应用sniffnet。 github项目地址:https://github.com/GyulyVGC/sniffnet {/alert} 可以在github的readme上看到这个程序有的特性: 为什么要介绍它呢:主要是多线程、跨平台、可靠、操作简单 我…

进程Start

Linux中的命令解释器和Windows的程序管理器explorer.exe一样地位,都是在用户态下运行的进程 共享变量发生不同进程间的指令交错,就可能会数据出错 进程只作为除CPU之外系统资源的分配单位 CPU的分配单位是线程 每个进程都有自己的独立用户空间 内核空间是OS内核的…

【python爬虫案例】用python爬豆瓣读书TOP250排行榜!

文章目录 一、爬虫对象-豆瓣读书TOP250二、python爬虫代码讲解三、讲解视频四、完整源码 一、爬虫对象-豆瓣读书TOP250 您好,我是 马哥python说 ,一名10年程序猿。 今天我们分享一期python爬虫案例讲解。爬取对象是,豆瓣读书TOP250排行榜数…

SSH远程连接macOS服务器:通过cpolar内网穿透技术实现远程访问的设置方法

文章目录 前言1. macOS打开远程登录2. 局域网内测试ssh远程3. 公网ssh远程连接macOS3.1 macOS安装配置cpolar3.2 获取ssh隧道公网地址3.3 测试公网ssh远程连接macOS 4. 配置公网固定TCP地址4.1 保留一个固定TCP端口地址4.2 配置固定TCP端口地址 5. 使用固定TCP端口地址ssh远程 …

四信重磅推出5G RedCap AIoT摄像机 RedCap轻量级5G终端新品首发!

6月6日,四信受邀出席移动物联网高质量发展论坛,并在移动物联网新产品发布环节隆重推出5G RedCap AIoT摄像机,再次抓紧需求先机,为行业用户创造无限可能! 两大应用场景 助推RedCap走深向实 火遍全网络的RedCap应用场景可…

SpringBoot的四种handler类型

Controller ReuestMapping 实现Controller接口 使用Component将该类封装成一个Bean 实现HttpRequestHandler 实现RouterFunction