基于高斯过程的贝叶斯优化

基于Bayes_opt实现GP优化

bayes-optimization是最早开源的贝叶斯优化库之一,也是为数不多至今依然保留着高斯过程优化的优化库。由于开源较早、代码简单,bayes-opt常常出现在论文、竞赛kernels或网络学习材料当中,因此理解Bayes_opt的代码是极其重要的课题。不过,bayes-opt对参数空间的处理方式较为原始,也缺乏相应的提效/监控功能,对算力的要求较高,因此它往往不是我们进行优化时的第一首选库。通常来说,当且仅当我们必须要实现基于高斯过程的贝叶斯优化,且算法的参数空间中带有大量连续型参数时,我们才会优先考虑Bayes_opt库。

pip install bayesian-optimization #安装Bayes_opt库
pip install hyperopt #安装Hyperopt库
import numpy as np
import pandas as pd
import time#算法/损失/评估指标等
import sklearn
from sklearn.ensemble import RandomForestRegressor as RFR
from sklearn.model_selection import KFold, cross_validate#优化器
from bayes_opt import BayesianOptimizationimport hyperopt
from hyperopt import hp, fmin, tpe, Trials, partial

生成数据集

import numpy as np
from sklearn.datasets import make_regression# Generate a regression dataset
X, y = make_regression(n_samples=1000, n_features=10, random_state=1412)

1 定义目标函数

目标函数的值即𝑓(𝑥)的值。贝叶斯优化会计算𝑓(𝑥)在不同𝑥上的观测值,因此𝑓(𝑥)的计算方式需要被明确。在HPO过程中,我们希望能够筛选出令模型泛化能力最大的参数组合,因此𝑓(𝑥)应该是损失函数的交叉验证值或者某种评估指标的交叉验证值。

Notes:

  1. 在定义目标函数时,我们需要确保超参数作为输入,而不是整个超参数空间或其他元素,例如数据或算法超参数。因此,目标函数的输入必须是具体的超参数值。

  2. 当需要对算法的实际参数进行调整时,需要注意超参数的输入值只能是浮点数,不支持整数或字符串。如果算法参数需要是字符串,则无法使用bayes_opt进行调整;如果参数需要是整数,则需要在目标函数中规定参数的类型。

  3. bayes_opt只能寻找𝑓(𝑥)的最大值,而不能寻找最小值。因此,当目标函数代表某种损失时,输出需要取负值。例如,如果使用RMSE作为目标函数,则应该让目标函数输出负的RMSE,以便最大化负的RMSE,从而实现最小化真正的RMSE。对于准确率、AUC等指标作为目标函数的情况,则可以保持输出值不变。

def bayesopt_objective(n_estimators,max_depth,max_features,min_impurity_decrease):#定义评估器#需要调整的超参数等于目标函数的输入,不需要调整的超参数则直接等于固定值#默认参数输入一定是浮点数,因此需要套上int函数处理成整数reg = RFR(n_estimators = int(n_estimators),max_depth = int(max_depth),max_features = int(max_features),min_impurity_decrease = min_impurity_decrease,random_state=1412,verbose=False #可自行决定是否开启森林建树的verbose,n_jobs=-1)#定义损失的输出,5折交叉验证下的结果,输出负根均方误差(-RMSE)#注意,交叉验证需要使用数据,但我们不能让数据X,y成为目标函数的输入cv = KFold(n_splits=5,shuffle=True,random_state=1412)validation_loss = cross_validate(reg,X,y,scoring="neg_root_mean_squared_error",cv=cv,verbose=False,n_jobs=-1,error_score='raise'#如果交叉验证中的算法执行报错,则告诉我们错误的理由)#交叉验证输出的评估指标是负根均方误差,因此本来就是负的损失#目标函数可直接输出该损失的均值return np.mean(validation_loss["test_score"])

2 定义参数空间

在bayes_opt中,我们使用字典方式来定义参数空间,其中参数的名称为键,参数的取值范围为值。且任意参数的取值范围为双向闭区间,以下方的空间为例,在n_estimators的取值中,80与100都可以被取到。

Notes:

  1. bayes_opt只支持填写参数空间的上界与下界,不支持填写步长等参数;
  2. bayes_opt会将所有参数都当作连续型超参进行处理,因此bayes_opt会直接取出闭区间中任意浮点数作为备选参数。例如,取92.28作为n_estimators的值;
  3. 输入bayes_opt的参数空间天生会比其他贝叶斯优化库更大/更密,因此需要的迭代次数也更多
param_grid_simple = {'n_estimators': (80,100), 'max_depth':(10,25), "max_features": (10,20), "min_impurity_decrease":(0,1)}

3 定义优化目标函数的具体流程

  1. 一旦我们确定了目标函数和参数空间,就可以按照bayes_opt的规则进行优化了。在任何贝叶斯优化算法的实践过程中,都会涉及到一定程度的随机性,比如随机抽取点作为观测点,随机抽样部分观测点进行采集函数的计算等。在大多数优化库中,这种随机性是无法被控制的,即使允许我们填写随机数种子,优化算法也无法被固定下来。因此,尽管我们可以尝试填写随机数种子,但需要记住每次运行优化算法时都会产生不同的结果。

  2. 尽管优化算法无法被精确复现,但是得出的最佳超参数结果却是可以被复现的。一旦优化完成,可以从优化算法的实例化对象中获取最佳参数组合和最佳分数,然后将最佳参数组合输入到交叉验证中,这样一定可以复现其最佳分数。如果未能复现最佳分数,那么可能是由于交叉验证过程中的随机数种子设置存在问题,或者优化算法的迭代流程存在问题。

def param_bayes_opt(init_points,n_iter):#定义优化器,先实例化优化器opt = BayesianOptimization(bayesopt_objective #需要优化的目标函数,param_grid_simple #备选参数空间,random_state=1412 #随机数种子,虽然无法控制住)#使用优化器,记住bayes_opt只支持最大化opt.maximize(init_points = init_points #抽取多少个初始观测值, n_iter=n_iter #一共观测/迭代多少次)#优化完成,取出最佳参数与最佳分数params_best = opt.max["params"]score_best = opt.max["target"]#打印最佳参数与最佳分数print("\n","\n","best params: ", params_best,"\n","\n","best cvscore: ", score_best)#返回最佳参数与最佳分数return params_best, score_best

5 执行实际优化流程

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/414064.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IMDB电影评论的情感分析——paddle

项目地址:IMDB电影评论的情感分析 - 飞桨AI Studio星河社区 (baidu.com) 1. 实验介绍 1.1 实验目的 理解并掌握循环神经网络的基础知识点,包括模型的时序结构、模型的前向传播、反向传播等掌握长短时记忆网络LSTM和门控循环单元网络GRU的设计原理熟悉如…

【02】mapbox js api加载arcgis切片服务

需求: 第三方的mapbox js api加载arcgis切片服务,同时叠加在mapbox自带底图上 效果图: 形如这种地址去加载: http://zjq2022.gis.com:8080/demo/loadmapbox.html arcgis切片服务参考链接思路:【01】mapbox js api加…

高光谱分类论文解读分享之Grid Network: 基于各向异性视角下特征提取的高光谱影像分类

IEEE GRSL 2023:Grid Network: 基于各向异性视角下特征提取的高光谱影像分类 题目 Grid Network: Feature Extraction in Anisotropic Perspective for Hyperspectral Image Classification 作者 Zhonghao Chen , Student Member, IEEE, Danfeng Hong , Senior …

非常好用的Mac清理工具CleanMyMac X 4.14.7 如何取消您对CleanMyMac X的年度订购

CleanMyMac X 4.14.7是Mac平台上的一款非常著名同时非常好用的Mac清理工具。全方位扫描您的Mac系统,让垃圾无处藏身,您只需要轻松单击2次鼠标左键即可清理数G的垃圾,就这么简单。瞬间提升您Mac速度。 CleanMyMac X 4.14.7下载地址&#xff1a…

2018年认证杯SPSSPRO杯数学建模D题(第二阶段)投篮的最佳出手点全过程文档及程序

2018年认证杯SPSSPRO杯数学建模 D题 投篮的最佳出手点 原题再现: 影响投篮命中率的因素不仅仅有出手角度、球感、出手速度,还有出手点的选择。规范的投篮动作包含两膝微屈、重心落在两脚掌上、下肢蹬地发力、身体随之向前上方伸展、同时抬肘向投篮方向…

低代码自动化测试的实践

何为低代码测试 传统上,功能、 UI、端到端等测试自动化的实现都涉及编写测试脚本,代替测试人员执行重复的手动测试任务。自动化脚本的开发工作通常由 QA 工程师或开发人员完成,这需要编写大量代码。 而低代码甚至无代码的理念也是在自动化测…

基于arcgis js api 4.x开发点聚合效果

一、代码 <html> <head><meta charset"utf-8" /><meta name"viewport"content"initial-scale1,maximum-scale1,user-scalableno" /><title>Build a custom layer view using deck.gl | Sample | ArcGIS API fo…

ElasticSearch扫盲概念篇[ES系列] - 第500篇

历史文章&#xff08;文章累计500&#xff09; 《国内最全的Spring Boot系列之一》 《国内最全的Spring Boot系列之二》 《国内最全的Spring Boot系列之三》 《国内最全的Spring Boot系列之四》 《国内最全的Spring Boot系列之五》 《国内最全的Spring Boot系列之六》 E…

零售的数字化转型,利用AWS云服务资源如何操作?

国内市场趋于饱满&#xff0c;各行各业的发展接近瓶颈&#xff0c;就连零售行业都竞争激烈&#xff0c;随处可见的零售小店也预示着需要投入大量的人力&#xff0c;而且由于消费者的行为和预期已经发生了根本性变化&#xff0c;这迫使零售商不得不加速整个价值链的数字化转型&a…

web开发学习笔记(9.Tomcat介绍)

1.简介 2.tomcat和nginx等web应用服务器的区别 http://t.csdnimg.cn/OL9Qt 3.tomcat基本使用 4.tomcat更改端口号 5. 部署

汽车ECU BootLoader升级

文章目录 什么是 BootLoaderBootloader刷写使用的协议Bootloader 的划分FBL、PBL、SBL1、SBL2、PBL ECU 升级/刷写1、OBD接口升级2、OTA 云升级 Bootloader中诊断升级流程1、预编程2、编程3、后编程 参考 什么是 BootLoader MCU正常运行时总是从固定地方取指令&#xff0c;顺序…

pytorch集智-5手写数字识别器-卷积神经网络

1 简介 简称&#xff1a;CNN&#xff0c;convolutional neural network 应用场景&#xff1a;图像识别与分类&#xff08;CNN&#xff09;&#xff0c;看图说话&#xff08;CNNRNN&#xff09;等 优越性&#xff1a;和多层感知机相比&#xff0c;cnn可以识别独特的模式&…