Elasticsearch filter context 的使用原理

news/2025/3/11 6:49:52/文章来源:https://www.cnblogs.com/infinilabs/p/18631679

ES querycache 加速匹配的方法

前言

ES 进行信息检索的时候,boolean 查询组合条件有 must/must_not/should/filter 四个操作。其中 must 和 filter 的用途都是用于过滤必要符合的条件,但是 filter 在查询过程中不算分并且可以进行缓存,这样逻辑简单又可以加速的查询方式经常得到 Elastic 的提倡。

可是,只有 filter 的条件可以被缓存么?这里的缓存是属于哪一部分?缓存有什么样的进入和淘汰机制?怎么去监控缓存的使用情况?

这些问题也会伴随着对 ES 的深入使用自然而然的产生。本文中,我们结合 Elastic 的一些资料进行探索。

什么是 Filter Context

仔细去看 Elastic 的文档可以发现,在 filter 的使用介绍里是这么写的Filter clauses are executed in filter context, meaning that scoring is ignored and clauses are considered for caching.这里不仅措辞严谨的说 filter 条件以 filter context 的方式执行,并做了超链解释。

简而言之,filter context 主要用于查询的过滤条件,并且不用算分,与 bool 的 filter 条件没有严格关联,除了 bool 的 filter 外,bool 中的 must_not, constant_score 查询中的 filter,聚合中的 filter 也都属于。

如何进入 Query Cache

现在我们来看看是查询是怎么进入 Query Cache 的:

  1. 找到匹配文档

    在倒排索引中找到 filter 条件符合的词项,并在所有的文档中检索这个词项。

  2. 建立一个位图 bitset

    建立一个只包含 1 和 0 的位图 bitset,这个 bitset 用于描述所有文档的匹配情况,匹配的文档被设置为 1。ES 实际执行时,使用的是 RoaringBitMap

  3. 迭代 bitset

    一旦为某个查询生成了 bitset, Elasticsearch 就会遍历 bitset 以查找满足所有过滤条件的匹配文档集。执行顺序通常是首先迭代最稀疏的 bitset(因为它排除了最多数量的文档)。

  4. 增加使用计数

    把查询条件和其结果的 bitset 组合作为 key-value 进行缓存,这里利用对查询条件的使用记录来判断是否进缓存。简单来说,如果一个查询在最近的 256 个查询中被多次使用,它将被缓存在内存中。更为详细的保留机制见下一节。

Query Cache 的缓存机制

总体来说,Query Cache 是 Lucene 层面实现的,ES 层面会进行一些策略控制和信息统计。

Query Cache 会维护在相对较大的 segment 上,对于存储小于 1w 文档数 或者 size 大小小于整体索引 size 3%的 segment 不会维护 Query Cache(小 segment 本身的查询就比较快,不需要 cache 加速)。
docs_count(segment) < 10000 || segment.size < 3%*index.size

其管理策略类是 lucene 的 UsageTrackingQueryCachingPolicy,符合 LRU 的规则,也就是说 Query Cache 中的查询结果长时间不被访问会被优先淘汰。这里判断是否被缓存的方法是shouldCache(Query query)有兴趣的同学可以去研究下

判断是否可以缓存的主要规则如下:

  1. 判断是否为 filter 查询assert query instanceof BoostQuery == false;
  2. 命中永不缓存 shouldNeverCache 条件的淘汰,其中包括:TermQuery、MatchAllDocsQuery、MatchNoDocsQuery、以及子查询为空的 BooleanQuery、DisjunctionMaxQuery
  3. 某些大于特定阈值的查询可以被缓存:
    3.1 大于 2 次:MultiTermQuery、MultiTermQueryConstantScoreWrapper、TermInSetQuery、PointQuery(在 isCostly 方法中定义)
    3.2 大于 5 次:除了上面列出条件的所有 filter 查询

使用和观测 Query Cache

最后,我们来看下怎么去使用和观测 Query Cache。

默认情况下节点的 Query cache 最多缓存 10000 个子查询的结果,或者最多使用堆内存的 10%,都可以通过配置来调整:

indices.queries.cache.count  #默认 10000
indices.queries.cache.size   #默认 10%

对 Query Cache 也可以进行人工清理:POST /<index>/_cache/clear?query=true

而 Nodes stats API 和 Index stats API 都提供了 Query Cache 的监控

"query_cache": {"memory_size_in_bytes": 1110305640,//使用的size"total_count": 45109997,//历史查询总条数 total=hit+miss"hit_count": 1192144,//命中的"miss_count": 43917853,//未命中的"cache_size": 1309,//当前缓存的条数"cache_count": 51509,//历史缓存总条数"evictions": 50200//被驱逐的条数
}

使用小建议:

  1. 当 evictions 大量发生时,缓存被大量置换,对高敏感的业务可能会有一定的查询抖动。
  2. 在监控项上添加一个 hit/total 的百分比监控,更加直观。

小结

本文短暂总结了 Filter context 如何形成 Query Cache 并进行维护观测的整体流程。

其中对 Query Cache 和其他缓存有兴趣的同学可以研读张超老师的扒一扒缓存的裤子

Filter context 本身可以省去复杂的算分过程,再加上 Query Cache 的加速优势,建议大家在编写只需要匹配过滤查询语句中优先选择。

作者:金多安,极限科技搜索运维专家,Elastic 认证专家,搜索客社区日报责任编辑。一直从事与搜索运维相关的工作,日常会去挖掘 ES / Lucene 方向的搜索技术原理,保持搜索相关技术发展的关注。
原文:https://infinilabs.cn/blog/2024/elasticsearch-filter-context/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/858941.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[转]教大家如何选择正确的Google Play服务

前言全局说明来源:https://blog.csdn.net/luo2757227663/article/details/104514864一、说明 1.1 环境: android二、 想必不少刚入坑的小伙伴就经历了各种play服务的问题 而实际上,这些问题大部分来自于未能正确找到play服务的版本 好啦,我们通过这一贴来教大家如何快速找到…

hot100-一刷-12栈(共5道题)

20. 有效的括号 题目链接 题目描述代码实现 分析: 代码: class Solution {public boolean isValid(String s) {int n = s.length();if(n % 2 == 1) return false;Deque<Character> st = new LinkedList<>();for (char c : s.toCharArray()){if(c == () {st.push(…

模型训练中性能指标

在机器学习和深度学习的模型训练过程中,评估模型性能是至关重要的一环。不同的任务和应用场景可能会采用不同的评估指标,常见的包括 准确率(Accuracy)、精确率(Precision)、召回率(Recall)和 均值平均精度(mAP)。本文将介绍这些评估指标的定义、计算方法及其在实际中…

ThreeJs-083D动画系统详解

一.动画原理和应用 three的动画大概就是通过不同时间的关键帧来实现 加载一个手机模型在这个对象里面,注意后期都是直接通过可视化软件Blender编辑好关键帧就能实现动画,这也是个已经编辑好的动画模型,在这个对象里面有一个animations就是动画集,也就是这个物体可以有很多个…

day1——伙伴匹配学习笔记

了解了一些Java8特性lambda语法 (parameters) -> expression (parameters) -> { statements; }相当于是函数的另一种写法,更优雅。stream()用法以及和parallelStream()的一些对比 详见博客 java8新特性-流-stream()和parallelStream() 求求你们了,别再乱用 parallelStr…

如何获取局域网内所有IP

cmd命令: ipconfig/ALL 这时会在cmd命令窗口看见自己电脑的IP地址,记下来cmd命令窗口输入 for /L %i IN (1,1,254) DO ping -w 2 -n 1 192.168.0.%i (注意:我这里的192.168.0.*是根据自己电脑的ip网段来填写的) 待几分钟后 命令处理完成,然后在cmd命令窗口输入 arp -a第七步…

对话 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

Project Astra 愿景之一:「系统不仅能在你说话时做出回应,还能在持续的过程中帮助你。」近期,Google DeepMind 的 YouTube 频道采访了 Google DeepMind 研究主管格雷格韦恩 (Greg Wayne)。格雷格韦恩的研究工作为 DeepMind 的诸多突破性成果做出了重要贡献,涵盖强化学习、神…

3 三角翼

3 三角翼 概念 在很大程度上,基于二维流动和高展弦比无后掠三维翼型流动的证据,流动分离一直被视为应不惜一切代价避免的现象。 然而,人们发现,高速飞行所需的低展弦比、高度后掠的机翼,尽管其上表面已经发生了分离流动,但随着迎角的增加,升力也会增加。 剪切层由机翼跨…

基于遗传优化模糊控制器的水箱水位控制系统simulink建模与仿真

1.课题概述基于遗传优化模糊控制器的水箱水位控制系统simulink建模与仿真。对比模糊控制器和基于遗传优化的模糊控制器。2.系统仿真结果 遗传算法迭代过程:遗传优化模糊控制和模糊控制的控制器输出对比:3.核心程序与模型 版本:MATLAB2022amatlab部分:Areas = []; % FIS = a…

基于EO平衡优化器算法的目标函数最优值求解matlab仿真

1.程序功能描述 基于EO平衡优化器算法的目标函数最优值求解matlab仿真。提供九个测试函数,分别对九个测试函数仿真输出最优解以及对应的优化收敛曲线。 2.测试软件版本以及运行结果展示MATLAB2022A版本运行3.核心程序while j2<Niters% 主循环进行迭代% 时间衰减参数计…