这次终于不用ai写总结了,总体来说这是一篇2018年的文章,用神经网络和树模型去拟合cost estimate,应该也是当时比较流行的算法
Introduction主要是喷了一波直方图在高维数据的表现不佳,因为数据库的feature之间可能存在相关性导致预估与实际的偏差较大,在这基础上提出的高维直方图在处理相关性上稍微好一些,但是需要更大的储存空间,也提出了一些直方图的优化思路比如说对于查询比较密集的区域建立更加频繁的桶,其余区域则建立比较稀疏的桶,但是总体来说直方图在高维的表现远不如一维
这时候就引出来树模型算法和神经网络算法,注意这里并不关注一维的ce,换句话说一维ce还是需要从直方图中得到。特种工程主要是将每个condition搞成(li,ri)的形式,如果这一维没有condition其实就是(min_i,max_i),这样搞得话可以保证输入数据的都有相同形状。此外还引入了三个与相关性有关联的特征,这个可以直接从直方图计算得到。把这些作为输入也是希望模型可以学到不同条件之间的相关性的一些特征。至于label的话文章中采用了log运算,好处是可以将标签相对聚集在一起,避免因为一些太大的值而影响整个算法的关注点。
这是能想起来的一些内容,第一次仔细读ce方向的论文,还是很有收获的