Selectivity Estimation for Range Predicates using Lightweight Models-编程知识

Selectivity Estimation for Range Predicates using Lightweight Models

news/2025/4/1 23:11:42/文章来源:https://www.cnblogs.com/Slrslr/p/18801429

这次终于不用ai写总结了，总体来说这是一篇2018年的文章，用神经网络和树模型去拟合cost estimate，应该也是当时比较流行的算法

Introduction主要是喷了一波直方图在高维数据的表现不佳，因为数据库的feature之间可能存在相关性导致预估与实际的偏差较大，在这基础上提出的高维直方图在处理相关性上稍微好一些，但是需要更大的储存空间，也提出了一些直方图的优化思路比如说对于查询比较密集的区域建立更加频繁的桶，其余区域则建立比较稀疏的桶，但是总体来说直方图在高维的表现远不如一维

这时候就引出来树模型算法和神经网络算法，注意这里并不关注一维的ce，换句话说一维ce还是需要从直方图中得到。特种工程主要是将每个condition搞成(li,ri)的形式，如果这一维没有condition其实就是(min_i,max_i)，这样搞得话可以保证输入数据的都有相同形状。此外还引入了三个与相关性有关联的特征，这个可以直接从直方图计算得到。把这些作为输入也是希望模型可以学到不同条件之间的相关性的一些特征。至于label的话文章中采用了log运算，好处是可以将标签相对聚集在一起，避免因为一些太大的值而影响整个算法的关注点。

这是能想起来的一些内容，第一次仔细读ce方向的论文，还是很有收获的

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/908437.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！