政安晨:【示例演绎机器学习】(四)—— 神经网络的标量回归问题示例 (价格预测)

政安晨的个人主页政安晨

欢迎 👍点赞✍评论⭐收藏

收录专栏政安晨的机器学习笔记

希望政安晨的博客能够对您有所裨益,如有不足之处,欢迎在评论区提出指正,让小伙伴们一起学习、交流进步,不论是学业还是工作都取得好成绩!

前言

咱们这个系列的前面几篇机器学习示例演绎的文章中,演绎的都是分类问题,其目标是预测输入数据点所对应的单一离散标签。

其实还有另一种常见的机器学习问题是回归(regression)问题它预测的是一个连续值,而不是离散标签,比如根据气象数据预测明日气温,或者根据软件说明书预测完成软件项目所需时间。

这个系列的前面三篇文章为:

政安晨:【示例演绎机器学习】(一)—— 剖析神经网络:学习核心的Keras APIicon-default.png?t=N7T8https://blog.csdn.net/snowdenkeke/article/details/136187781政安晨:【示例演绎机器学习】(二)—— 神经网络的二分类问题示例 (影评分类)icon-default.png?t=N7T8https://blog.csdn.net/snowdenkeke/article/details/136204994政安晨:【示例演绎机器学习】(三)—— 神经网络的多分类问题示例 (新闻分类)icon-default.png?t=N7T8https://blog.csdn.net/snowdenkeke/article/details/136218745咱们准备好环境后开始机器学习的演绎。


导入数据集

本节将尝试预测上世纪某个时期波士顿郊区房价的中位数,已知当时郊区的一些数据点,如犯罪率、地方房产税率等。本节用到的数据集与前两个例子有一个有趣的区别。

它包含的数据点相对较少,只有506个,划分为404个训练样本和102个测试样本

输入数据的每个特征(比如犯罪率)都有不同的取值范围。

有的特征是比例,取值在0和1之间;

有的取值在1和12之间;

还有的取值在0和100之间。

我们首先加载波士顿房价数据集,如代码如下所示:

加载波士顿房价数据集

from tensorflow.keras.datasets import boston_housing
(train_data, train_targets), (test_data, test_targets) = (boston_housing.load_data())

咱们来看一下数据:

可以看到,我们有404个训练样本和102个测试样本,每个样本都有13个数值特征,比如人均犯罪率、住宅的平均房间数、高速公路可达性等。

目标是房价中位数,单位是千美元。

房价大都介于10 000美元~50 000美元。如果你觉得这很便宜,请不要忘记当时是20世纪70年代中期,而且这些价格没有按通货膨胀进行调整。

准备数据

将取值范围差异很大的数据输入到神经网络中,这是有问题的。

模型可能会自动适应这种取值范围不同的数据,但这肯定会让学习变得更加困难。

对于这类数据,普遍采用的最佳处理方法是对每个特征进行标准化,即对于输入数据的每个特征(输入数据矩阵的每一列),减去特征平均值,再除以标准差,这样得到的特征平均值为0,标准差为1。

用NumPy可以很容易实现数据标准化,如下代码所示:

数据标准化

mean = train_data.mean(axis=0)
train_data -= mean
std = train_data.std(axis=0)
train_data /= std
test_data -= mean
test_data /= std

注意,对测试数据进行标准化的平均值和标准差都是在训练数据上计算得到的。

在深度学习工作流程中,你不能使用在测试数据上计算得到的任何结果,即使是像数据标准化这么简单的事情也不行

构建模型

由于样本数量很少,因此我们将使用一个非常小的模型。它包含两个中间层,每层有64个单元,如下代码所示(模型定义):

(一般来说,训练数据越少,过拟合就会越严重,而较小的模型可以降低过拟合。)

from tensorflow import keras
from tensorflow.keras import layersdef build_model():# 由于需要将同一个模型多次实例化,因此我们用一个函数来构建模型model = keras.Sequential([  layers.Dense(64, activation="relu"),layers.Dense(64, activation="relu"),layers.Dense(1)])model.compile(optimizer="rmsprop", loss="mse", metrics=["mae"])return model

模型的最后一层只有一个单元且没有激活,它是一个线性层。

这是标量回归(标量回归是预测单一连续值的回归)的典型设置。

添加激活函数将限制输出范围。

如果向最后一层添加sigmoid激活函数,那么模型只能学会预测0到1的值。这里最后一层是纯线性的,所以模型可以学会预测任意范围的值。

注意,我们编译模型用的是mse损失函数,即均方误差(mean squared error,MSE),预测值与目标值之差的平方。这是回归问题常用的损失函数。

在训练过程中还要监控一个新指标:平均绝对误差(mean absolute error,MAE)

它是预测值与目标值之差的绝对值。如果这个问题的MAE等于0.5,就表示预测房价与实际价格平均相差500美元。

利用K折交叉验证来验证你的方法

为了在调节参数(比如训练轮数)的同时对模型进行评估,我们可以将数据划分为训练集和验证集,正如前面的例子所做的那样。

但由于数据点很少,验证集会非常小(比如大约100个样本),因此验证分数可能会有很大波动,这取决于我们所选择的验证集和训练集。也就是说,验证分数对于验证集的划分方式可能会有很大的方差,这样我们就无法对模型进行可靠的评估。

在这种情况下,最佳做法是使用K折交叉验证,如下图所示:

这种方法将可用数据划分为K个分区(K通常取4或5),实例化K个相同的模型,然后将每个模型在K-1个分区上训练,并在剩下的一个分区上进行评估。模型的验证分数等于这K个验证分数的平均值。

这种方法的代码实现很简单,如下代码所示(K折交叉验证):

k = 4
num_val_samples = len(train_data) // k
num_epochs = 100
all_scores = []
for i in range(k):print(f"Processing fold #{i}")# 准备验证数据:第k个分区的数据val_data = train_data[i * num_val_samples: (i + 1) * num_val_samples]val_targets = train_targets[i * num_val_samples: (i + 1) * num_val_samples]# 准备训练数据:其余所有分区的数据partial_train_data = np.concatenate([train_data[:i * num_val_samples],train_data[(i + 1) * num_val_samples:]],axis=0)partial_train_targets = np.concatenate([train_targets[:i * num_val_samples],train_targets[(i + 1) * num_val_samples:]],axis=0)# 构建Keras模型(已编译)model = build_model()# 训练模型(静默模式,verbose=0)model.fit(partial_train_data, partial_train_targets, epochs=num_epochs, batch_size=16, verbose=0)# 验证数据上评估模型val_mse, val_mae = model.evaluate(val_data, val_targets, verbose=0)all_scores.append(val_mae)

演绎:

设置num_epochs = 100,运行结果如下:

每次运行模型得到的验证分数确实有很大差异,从2.1到3.1不等。

平均分数(2.6)是比单一分数更可靠的指标——这就是K折交叉验证的核心要点。

在这个例子中,预测房价与实际房价平均相差2600美元,考虑到实际房价范围是10 000美元~50000美元,这一差别还是很大的。

我们让模型训练时间更长一点:500轮。为了记录模型每轮的表现,我们需要修改训练循环,在每轮都保存每折的验证分数,如下代码所示(保存每折的验证分数):

num_epochs = 500
all_mae_histories = []for i in range(k):print(f"Processing fold #{i}")# 准备验证数据:第k个分区的数据val_data = train_data[i * num_val_samples: (i + 1) * num_val_samples]val_targets = train_targets[i * num_val_samples: (i + 1) * num_val_samples]# 准备训练数据:其余所有分区的数据partial_train_data = np.concatenate([train_data[:i * num_val_samples],train_data[(i + 1) * num_val_samples:]],axis=0)partial_train_targets = np.concatenate([train_targets[:i * num_val_samples],train_targets[(i + 1) * num_val_samples:]],axis=0)# 构建Keras模型(已编译)model = build_model()# 训练模型(静默模式,verbose=0)history = model.fit(partial_train_data, partial_train_targets,validation_data=(val_data, val_targets),epochs=num_epochs, batch_size=16, verbose=0)mae_history = history.history["val_mae"]all_mae_histories.append(mae_history)

演绎:

然后,计算每轮所有折MAE的平均值,如下代码所示:

(计算每轮的K折验证分数平均值)

average_mae_history = [np.mean([x[i] for x in all_mae_histories]) for i in range(num_epochs)]

我们来画图看看,如下代码所示:

(绘制验证MAE曲线)

import matplotlib.pyplot as pltplt.plot(range(1, len(average_mae_history) + 1), average_mae_history)
plt.xlabel("Epochs")
plt.ylabel("Validation MAE")
plt.show()

由于比例问题,前几轮的验证MAE远大于后面的轮次,很难看清这张图的规律。我们忽略前10个数据点,因为它们的取值范围与曲线上的其他点不同,如下代码所示:

绘制验证MAE曲线(剔除前10个数据点)

truncated_mae_history = average_mae_history[10:]
plt.plot(range(1, len(truncated_mae_history) + 1), truncated_mae_history)
plt.xlabel("Epochs")
plt.ylabel("Validation MAE")
plt.show()

从上图可以看出,验证MAE在120~140轮(包含剔除的那10轮)后不再显著降低,再之后就开始过拟合了。

完成模型调参之后(除了轮数,还可以调节中间层大小),你可以使用最佳参数在所有训练数据上训练最终的生产模型,然后查看模型在测试数据上的表现,如下代码所示:

训练最终模型

# 一个全新的已编译模型
model = build_model()  # 在所有训练数据上训练模型
model.fit(train_data, train_targets,epochs=130, batch_size=16, verbose=0)test_mse_score, test_mae_score = model.evaluate(test_data, test_targets)

预测房价和实际房价还是相差不到2500美元。不过有进步!就像前两个任务一样,你可以尝试改变模型的层数或每层的单元个数,看是否能够降低测试误差。

对新数据进行预测

在调用二分类模型的predict()时,每个输入样本都得到一个介于0和1之间的标量值。

对于多分类模型,每个样本都得到一个在所有类别上的概率分布。对于这个标量回归模型,predict()返回的是模型对样本价格的猜测,单位是千美元。

predictions = model.predict(test_data)
predictions[0]

模型预测,测试集中的第一所房子的价格约为10 000美元。

结论

回归问题使用的损失函数与分类问题不同。回归常用的损失函数是均方误差(MSE)。

同样,回归问题使用的评估指标也与分类问题不同。显然,精度的概念不再适用于回归问题常用的回归指标是平均绝对误差(MAE)如果输入数据的特征具有不同的取值范围,那么应该先进行预处理,对每个特征单独进行缩放。如果可用的数据很少,那么K折交叉验证是评估模型的可靠方法。

如果可用的训练数据很少,那么最好使用中间层较少(通常只有一两个)的小模型,以避免严重的过拟合。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/487393.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

X-Rhodamine maleimide ,ROX 马来酰亚胺,实验室常用的荧光染料

您好,欢迎来到新研之家 文章关键词:X-Rhodamine maleimide ,X-Rhodamine mal,ROX-maleimide,ROX 马来酰亚胺 一、基本信息 【产品简介】:ROX, also known as Rhodamine 101, is a product whose active …

个人博客系统测试

文章目录 一、项目介绍二、测试1. 功能测试2. 自动化测试(1)添加相关依赖(2)新建包并在报下创建测试类(3)亮点及难点 一、项目介绍 个人博客系统采用前后端分离的方法来实现,同时使用了数据库来…

数据结构二叉树顺序结构——堆的实现

二叉树顺序结构——堆的实现 结构体的创建以及接口函数结构体的创建堆的初始化交换函数堆的插入向上调整删除向下调整返回堆的个数返回堆顶数据判断堆是否为空 该文章以大堆作为研究对象 结构体的创建以及接口函数 typedef int HPDateType;//定义动态数组的数据类型 typedef s…

关于uniapp H5应用无法在触摸屏正常显示的处理办法

关于uniapp H5应用无法在触摸屏正常显示的处理办法 1、问题2、处理3、建议 1、问题 前几天, 客户反馈在安卓触摸大屏上无法正确打开web系统(uni-app vue3开发的h5 应用),有些页面显示不出内容。该应用在 pc 端和手机端都可以正常…

UnityWebGL 设置全屏

这是Unity导出Web默认打开的页面尺寸 修改后效果 修改 index.html 文件 1.div元素的id属性值为"unity-container",宽度和高度都设置为100%,意味着该div元素将占据整个父容器的空间。canvas元素的id属性值为"unity-canvas"&#xff…

Java 学习和实践笔记(19):this的使用方法

this用来指向当前对象的地址。 this的用法: 1)在普通方法中,this总是指向调用该方法的对象。在普通方法中,它是作为一种隐式参数一直就存在着(这句话的意思,就是其实在普通方法中,编译器一直就…

Atcoder ABC340 A-D题解

比赛链接:ABC340 话不多说&#xff0c;看题。 Problem A: 签到。 #include <bits/stdc.h> using namespace std; int main(){int a,b,d;cin>>a>>b>>d;for(int ia;i<b;id)cout<<i<<endl;return 0; } Problem B: 还是签到题。一个v…

python 层次分析(AHP)

文章目录 一、算法原理二、案例分析2.1 构建指标层判断矩阵2.2 求各指标权重2.2.1 算术平均法&#xff08;和积法&#xff09;2.2.2 几何平均法&#xff08;方根法&#xff09; 2.3 一致性检验2.3.1 求解最大特征根值2.3.2 求解CI、RI、CR值2.3.3 一致性判断 2.4 分别求解方案层…

如何连接ACL认证的Redis

点击上方蓝字关注我 应用程序连接开启了ACL认证的Redis时与原先的方式有差别&#xff0c;本文介绍几种连接开启ACL认证的Redis的Redis的方法。 对于RedisACL认证相关内容&#xff0c;可以参考历史文章&#xff1a; Redis权限管理体系(一&#xff09;&#xff1a;客户端名及用户…

论文阅读——SimpleClick

SimpleClick: Interactive Image Segmentation with Simple Vision Transformers 模型直接在VIT上增加交互是分割 用VIT MAE方法训练的预训练权重 用交互式分割方法微调&#xff0c;微调流程&#xff1a; 1、在当前分割自动模拟点击&#xff0c;没有人为提供的点击 受到RITM启发…

useRef有什么用?

看一下官网定义 useRef是一个React Hook&#xff0c;它能帮助引用一个不需要渲染的值 这句话透露出一个信息&#xff0c;不需要渲染的值可以用useRef引用&#xff0c;那需要渲染的值用什么引用呢&#xff1f;当然是useState了&#xff0c;需要渲染的值指的就是状态嘛&#xff0…