Elasticsearch实现词云效果Demo

文章目录

  • 前言
  • 前期准备
    • springboot+Elasticsearch依赖
  • 思路
    • 准备数据
    • 查询数据
    • 处理文本
    • 样式处理
  • 具体实施
    • 数据准备
    • 创建索引
    • 数据存储
    • 进行查询
  • 踩坑记录
    • 聚合查询不生效问题
  • demo地址
  • 总结

前言

最近项目中使用Elasticsearch在做快速查询的功能,然后就想到了之前的一个项目中有一个词云的功能,就想用Elasticsearch实现一下词云的效果,实现思路很简单,目前这个demo已经写完了,透露一下很简陋,如何想要在项目中实际应用还需要改进。

前期准备

springboot+Elasticsearch依赖

版本我用的springboot 2.3.12.RELEASE对应的Elasticsearch是7.6.2

<!--        elasticsearch相关依赖--><dependency><groupId>org.elasticsearch</groupId><artifactId>elasticsearch</artifactId></dependency><dependency><groupId>org.elasticsearch.client</groupId><artifactId>elasticsearch-rest-high-level-client</artifactId></dependency><!-- ikanalyzer 中文分词器  --><dependency><groupId>com.janeluo</groupId><artifactId>ikanalyzer</artifactId><version>2012_u6</version></dependency>

在这里插入图片描述

思路

准备数据

将需要生成词云的文本数据存储到ES中。可以将文本拆分为单个词语,并将其作为文档的字段保存到ES中。

查询数据

使用ES的查询功能检索文档数据。可以根据业务需求编写查询语句,以获取需要的文本数据。

处理文本

将查询到的文本数据进行处理,例如去除停用词、统计词频等。

样式处理

这个不在本文章的范畴内,在上面的步骤就已经简单的实现一部分高频词的内容了,所以下面的这些是属于具体业务了,本文只提供一个思路和demo

  • 选择关键词:根据需求,可以根据词频进行排序,选择一定数量的高频词作为关键词。

  • 生成词云:使用词云生成工具库(如WordCloud)来生成词云图像。根据关键词的频率和重要性,在画布上布局词语,并设置相应的颜色、字体等样式。

  • 展示词云:将生成的词云图像展示在前端页面或保存为图片文件。如果在网页中展示,可以使用HTML和CSS来控制布局和样式。

具体实施

数据准备

就是单纯的准备数据阶段,使用下面这个数据中的数据随机生成一些句子,然后再使用Ik的工具包进行分词,分词以后存储到ES中

    static  final String[] CHINESE_WORDS = {"我", "你", "他", "她", "它","是", "的", "在", "这", "那","很", "真", "爱", "喜欢","美丽", "快乐", "拥抱", "友情", "理解","幸福", "梦想", "努力", "成功", "明天","希望", "勇气", "坚定", "自信", "感恩","热爱", "青春", "成长", "智慧", "创新","开心", "失落", "放弃", "挑战", "困难","奋斗", "拼搏", "汗水", "收获", "感动","祝福", "寂寞", "无聊", "闲暇", "旅游","信任", "包容", "尊重", "宽容", "耐心"};/*** @description: 使用IK对这些句子进行分词* @author: gepengjun* @date: 2023/9/8 10:09* @param: []* @return: java.util.List<java.lang.String>**/List<String> fenci() throws IOException {String text = "我喜欢使用IK分词器进行中文分词。";List<String> strings = generateRandomChineseSentences(20);String context="";for (String string : strings) {context+=string;}List<String> lists=new ArrayList<>();try (StringReader reader = new StringReader(context)) {IKSegmenter segmenter = new IKSegmenter(reader, true);Lexeme lexeme;while ((lexeme = segmenter.next()) != null) {System.out.println(lexeme.getLexemeText());lists.add(lexeme.getLexemeText());}} catch (IOException e) {e.printStackTrace();}return lists;}/*** @description: 生成句子的* @author: gepengjun* @date: 2023/9/8 10:09* @param: [numSentences]生成多少条* @return: java.util.List<java.lang.String>**/private static List<String> generateRandomChineseSentences(int numSentences) {List<String> sentences = new ArrayList<>();Random random = new Random();for (int i = 0; i < numSentences; i++) {int numWords = random.nextInt(10) + 5; // 每个句子包含的词语数量范围为 5-14StringBuilder sb = new StringBuilder();for (int j = 0; j < numWords; j++) {int index = random.nextInt(CHINESE_WORDS.length);sb.append(CHINESE_WORDS[index]);}String sentence = sb.toString();sentences.add(sentence);}return sentences;}

创建索引

存储数据前要先创建索引,在ES中索引你可以理解为数据库中的表

    @Testvoid createIndex(){// 创建ES连接RestHighLevelClient client = new RestHighLevelClient(RestClient.builder(new HttpHost("116.204.118.226", 9200, "http")));try {// 创建索引请求CreateIndexRequest request = new CreateIndexRequest("wordcloud");//简单理解就是建表// 设置索引的设置request.settings(Settings.builder().put("index.number_of_shards", 1).put("index.number_of_replicas", 1));// 设置索引的映射XContentBuilder mapping = XContentFactory.jsonBuilder().startObject().startObject("properties").startObject("context") //建表字段的过程.field("type", "text").startObject("keyword") // 添加一个名为 "keyword" 的子字段.field("type", "keyword") // 子字段类型为 keyword.endObject().endObject().endObject().endObject();request.mapping("_doc",mapping);// 发送创建索引请求client.indices().create(request, RequestOptions.DEFAULT);System.out.println("索引创建成功!");} catch (IOException e) {e.printStackTrace();} finally {// 关闭ES连接try {client.close();} catch (IOException e) {e.printStackTrace();}}}

注意这里,后面会用到
在这里插入图片描述

数据存储

注意我这些操作都是在单元测试中进行的

    @Testvoid insertData() throws IOException {// 创建一个 RestHighLevelClient 对象,用于与 Elasticsearch 进行通信RestHighLevelClient client = new RestHighLevelClient(RestClient.builder(new HttpHost("localhost", 9200, "http")));// 创建一个 BulkRequest 对象,用于批量操作请求BulkRequest request = new BulkRequest();// 调用 fenci() 方法获取分词结果列表List<String> strings = fenci();// 遍历分词结果列表,将每个分词作为一个文档添加到 BulkRequest 中for (String word: strings) {// 创建一个 IndexRequest 对象,并指定要添加到的索引名称和文档内容request.add(new IndexRequest("wordcloud").source("context", word));}// 执行批量操作请求,并获取响应BulkResponse response = client.bulk(request, RequestOptions.DEFAULT);if (response.hasFailures()) {// 处理错误情况System.out.println("添加失败---------------------");} else {// 处理成功情况System.out.println("添加成功");}}

进行查询

这里使用了es的聚合查询,查询该索引下出现频率最高的前20个单词

    @Testvoid wrodCloud(){// 创建ES连接RestHighLevelClient client = new RestHighLevelClient(RestClient.builder(new HttpHost("localhost", 9200, "http")));try {// 构建搜索请求SearchRequest request = new SearchRequest("wordcloud");SearchSourceBuilder sourceBuilder = new SearchSourceBuilder();sourceBuilder.query(QueryBuilders.matchAllQuery());sourceBuilder.size(0); // 设置为0以仅返回聚合结果sourceBuilder.timeout(TimeValue.timeValueMinutes(1));// 添加词频统计的聚合sourceBuilder.aggregation(AggregationBuilders.terms("word_count").field("context.keyword").size(20)); // 返回频率最高的 20 个词语request.source(sourceBuilder);// 执行搜索请求SearchResponse response = client.search(request, RequestOptions.DEFAULT);ParsedStringTerms wordCount = response.getAggregations().get("word_count");for (Terms.Bucket bucket : wordCount.getBuckets()) {String word = bucket.getKeyAsString();long frequency = bucket.getDocCount();System.out.println("热门单词:"+word);System.out.println("出现次数:"+frequency);System.out.println("——————————————————————————————");}} catch (IOException e) {e.printStackTrace();} finally {// 关闭ES连接try {client.close();} catch (IOException e) {e.printStackTrace();}}}

可以看到查询出来了20个单词,以及出现的频率,这样我们将这些单词以及频率进行一些简单的处理就能获得它们的占比,然后返回到前端展示,至于前端要使用什么用的控件或者框架是另一回事了,因为这些数据是准备好的。
在这里插入图片描述

踩坑记录

聚合查询不生效问题

这个问题就是上面创建索引中截图圈出来的部分,就是当我们对文本类型的数据进行聚合查询是需要设置它的子字段有一个keywrod类型的,然后在查询的时候指定这个(字段名.子字段名),这种方式就能正常的使用es的聚合查询了。
在 Elasticsearch 中,当需要对文本类型的字段进行聚合查询时,需要使用额外的 “keyword” 类型的子字段。这样做的目的是为了将文本数据转换为可进行聚合操作的结构。

设置 “keyword” 子字段的步骤如下:

  1. 创建索引时,在字段的映射中为文本字段添加一个子字段。
  2. 子字段的类型设置为 “keyword”,表示它是一个非分词的字符串类型。
  3. 可以为子字段指定任意的名称,不一定非得叫 “keyword”。

通过将字段的类型设置为 “keyword”,Elasticsearch 将保存原始文本数据,并允许对该子字段进行精确的分组统计操作,实现对文本字段的聚合查询。

demo地址

Demo地址

总结

关于使用这个es实现的这个效果,个人认为这只是一种方案,还有其它的,这里是直接使用的分词工具包,es上还可以安装分词插件,所以我的这种不一定是最好的,这是一种简单的方案希望大家不要被我的这种给迷惑了

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/103216.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2023-9-8 求组合数(二)

题目链接&#xff1a;求组合数 II #include <iostream> #include <algorithm>using namespace std;typedef long long LL; const int mod 1e9 7; const int N 100010;// 阶乘&#xff0c;阶乘的逆 int fact[N], infact[N];LL qmi(int a, int k, int p) {int res…

springboot web 增加不存在的url返回200状态码 vue 打包设置

spring boot项目增加 html web页面访问 1. 首先 application.properties 文件中增加配置&#xff0c;指定静态资源目录&#xff08;包括html的存放&#xff09; spring.resources.static-locationsclasspath:/webapp/,classpath:/webapp/static/ 2. 项目目录 3. 如果有实现 …

layer is not a constructor缺少报错解决方案参考开发教程并在相关页面引入

问题场景&#xff1a; 1.在使用Mars3d热力图功能时&#xff0c;提示mars3d.layer.HeatLayer is not a constructor 问题原因: 1.mars3d的热力图插件mars3d-heatmap没有安装引用。 解决方案&#xff1a; 1.参考开发教程&#xff0c;找到相关的插件库&#xff1a;Mars3D 三维…

Kubectl 使用详解——k8s陈述式资源管理

目录 一、kubectl 简介 二、kubectl 的使用 1.基础用法 &#xff08;1&#xff09;配置kubectl自动补全 &#xff08;2&#xff09;查看版本信息 &#xff08;3&#xff09;查看资源对象信息 &#xff08;4&#xff09;查看集群信息 &#xff08;5&#xff09;查看日志…

苹果macOS 13.5.2正式发布 修复ImageIO进程

9 月 8 日消息&#xff0c;苹果今日向 Mac 电脑用户推送了 macOS 13.5.2 更新&#xff08;内部版本号&#xff1a;22G91&#xff09;&#xff0c;本次更新距离上次发布隔了 21 天。 需要注意的是&#xff0c;因苹果各区域节点服务器配置缓存问题&#xff0c;可能有些地方探测到…

如何在Windows中使用C#填写和提取PDF表单

如何在Windows中使用C#填写和提取PDF表单 PDF表单不仅允许用户填写和提交数据&#xff0c;也允许用户创建各种表单域收集用户的数据&#xff0c;并通过提取表单字段值&#xff0c;将收集和合并提交的数据进一步分析或处理。PDF通过电子方式填写、保存和共享的形式&#xff0c;…

同步FIFO的verilog实现(2)——高位扩展法

一、前言 在之前的文章中&#xff0c;我们介绍了同步FIFO的verilog的一种实现方法&#xff1a;计数法。其核心在于&#xff1a;在同步FIFO中&#xff0c;我们可以很容易的使用计数来判断FIFO中还剩下多少可读的数据&#xff0c;从而可以判断空、满。 关于计数法实现同步FIFO的详…

『SpringBoot 源码分析』run() 方法执行流程:(3)刷新应用上下文-处理 @ComponentScan 注解

『SpringBoot 源码分析』run() 方法执行流程&#xff1a;&#xff08;3&#xff09;刷新应用上下文-处理 ComponentScan 注解 基于 2.2.9.RELEASE问题&#xff1a;当方法进行了注释标记之后&#xff0c;springboot 又是怎么注入到容器中并创建类呢&#xff1f; 首先创建测试主…

流程图用什么软件做比较好?这几个实用软件了解下

流程图用什么软件做比较好&#xff1f;流程图的制作对于企业管理、项目管理、产品设计等领域都非常重要。制作流程图可以帮助我们更好地理解事物之间的关系和流程&#xff0c;从而规划和组织工作。因此&#xff0c;选择一个合适的流程图软件是非常必要的。下面就给大家介绍几种…

Linux命令200例:free用来显示系统内存使用情况

&#x1f3c6;作者简介&#xff0c;黑夜开发者&#xff0c;CSDN领军人物&#xff0c;全栈领域优质创作者✌。CSDN专家博主&#xff0c;阿里云社区专家博主&#xff0c;2023年6月csdn上海赛道top4。 &#x1f3c6;数年电商行业从业经验&#xff0c;历任核心研发工程师&#xff0…

C++新特性:智能指针

一 、为什么需要智能指针 智能指针主要解决以下问题&#xff1a; 1&#xff09;内存泄漏&#xff1a;内存手动释放&#xff0c;使用智能指针可以自动释放 2&#xff09;共享所有权指针的传播和释放&#xff0c;比如多线程使用同一个对象时析构问题&#xff0c;例如同样的数据…

Matlab图像处理之Lee滤波器

目录 一、前言:二、LEE滤波器2.1 LEE滤波器原理2.2 LEE滤波器实现步骤三、MATLAB代码示例一、前言: LEE滤波器是一种常用于合成孔径雷达(SAR)图像去噪的滤波器。它能增强图像的局部对比度。今天我们将通过MATLAB来实现这种滤波器。 二、LEE滤波器 2.1 LEE滤波器原理 LEE滤…