机器学习实践

1.波士顿房价预测

        波士顿房屋的数据于1978年开始统计,共506个数据点,涵盖了波士顿不同郊区房屋的14种特征信息。

        在这里,选取房屋价格(MEDV)、每个房屋的房间数量(RM)两个变量进行回归,其中房屋价格为目标变量,每个房屋的房间数量为特征变量。将数据导入进来,并进行初步分析。

1.1 数据集解析

数据集共506行,每行14列

前13列用来描述房屋的各种信息 ,最后一列为该类房屋价格中位数

1.2 流程

准备数据→配置网络→训练网络→模型评估→模型预测 

训练网络:

1.  网络正向传播计算网络输出和损失函数。

2.  根据损失函数进行反向误差传播,将网络误差从输出层依次向前传递, 并更新网络中的参数。

3.  重复1~2步骤,直至网络训练误差达到规定的程度或训练轮次达到设定值。

1.3 代码

🍄准备数据集

🍥导入数据并查看

# 导入数据并做相关转换
import matplotlib.pyplot as plt  #导入matplotlib库
import numpy as np      #导入numpy库
import pandas as pd     #导入pandas库
from sklearn.datasets import load_boston  #从sklearn数据集库导入boston数据boston=load_boston()    #将读取的房价数据存储在boston变量中
print(boston.keys())    #打印boston包含元素
print(boston.feature_names)   #打印boston变量名

在波士顿房屋价格数据集中,data即为特征变量,target为目标变量,选取data中的RM、target中的MEDV变量进行单变量线性回归。

【其中房屋价格为目标变量,每个房屋的房间数量为特征变量。】

🍥简单查看一下数据

# data特征变量的前五行数据
bos = pd.DataFrame(boston.data)    #将data转换为DataFrame格式以方便展示
print(bos.head())   #一共五行数据,该代码是输出每行数据
print(bos)   #输出全部数据,共有505行每一行有13列
print (bos[5].head())   #data的第6列数据为RM 这个代码是输出每一行的下标为5的数据

# 把target打印出来
bos_target = pd.DataFrame(boston.target)    #将target转换为DataFrame格式以方便展示  前5组的target
print(bos_target)
print(bos_target.head())  #head函数是取前5个

🍥绘制房屋价格(MEDV)、每个房屋的房间数量(RM)的散点图。

# 绘制房屋价格(MEDV)、每个房屋的房间数量(RM)的散点图
X = bos.iloc[:,5:6]  #选取data中的RM变量
print(X.head())  #每一组数据的第6列数据,也就是每组数据的RM值
y = bos_target       #设定target为y
print(y.head())  #每一组数据的target值plt.scatter(X, y)    #绘制散点图
plt.xlabel(u'RM')    #x轴标签
plt.ylabel(u'MEDV')  #y轴标签
plt.title(u'The relation of RM and PRICE') #标题
plt.show()

通过散点图可以看出,房屋价格(MEDV)、每个房屋的房间数量(RM)存在着一定的线性变化趋势,即每个房屋的房间数量越多,房屋价格越高。

下面就可以用单变量线性回归算法进一步进行拟合与预测。

🍄数据集划分

数据集的划分可以采用Scikit-learn库中的model-selection程序包来实现。

# 数据集划分
from sklearn.model_selection import train_test_split  #导入数据划分包 
# 把X、y转化为数组形式,以便于计算
X = np.array(X)
y = np.array(y) 
# 以25%的数据构建测试样本,剩余作为训练样本
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.25)
X_train.shape,X_test.shape,y_train.shape,y_test.shape

🍄模型训练

from sklearn.linear_model import LinearRegression  #使用LinearRegression库
lr=LinearRegression()   #设定回归算法
lr.fit(X_train,y_train) #使用训练数据进行参数求解
print ('求解截距项为:',lr.intercept_)  #打印截距的值
print ('求解系数为:',lr.coef_)         #打印权重向量的值

输出的是LinearRegreesion()中的相关参数的设置。

fit_intercept:表示是否对训练数据进行中心化,若为false,则表示输入的数据已经进行了中心化处理,下面的过程里将不需要在进行中心化处理。

normalize:默认为False,表示是否对数据进行标准化处理。

copy_X:默认为True,表示是否对X复制。如果选择False,则直接对原数据进行覆盖,即经过中心化、标准化后,是否把新数据覆盖到原数据上。

n_jobs:默认为1,表示计算时设置的任务个数。如果选择-1,则代表使用所有的CPU。

🍄模型预测 

基于对参数的求解结果,对测试集进行预测。

🍄模型评估 

对拟合与预测结果进行效果评价,以判断求解结果是否良好。

#y_test与y_hat的可视化
plt.figure(figsize=(5,4))  #设置图片尺寸
t = np.arange(len(X_test))  #创建t变量
plt.plot(t, y_test, 'r', linewidth=2, label='y_test') #绘制y_test曲线
plt.plot(t, y_hat, 'g', linewidth=2, label='y_hat')   #绘制y_hat曲线
plt.legend() #设置图例
plt.xlabel('test data')
plt.ylabel('price')
plt.show()
plt.plot(t, y_test, 'r', linewidth=2, label='y_test') #绘制y_test曲线
解析参数:
x轴的值、y轴的值、折线宽度、线的名称

 

🍥散点图 

plt.figure(figsize=(10,6))   #绘制图片尺寸
plt.plot(y_test,y_hat,'o')   #绘制散点
plt.plot([-10,60],[-10,60], color="red", linestyle="--", linewidth=1.5) 
#这条线为什么是[-10,60],[-10,60],衡量的是预测值和真实值,我们期望它是1:1的
plt.axis([-10,60,-20,70])
plt.xlabel('ground truth')   #设置X轴坐标轴标签
plt.ylabel('predicted')      #设置y轴坐标轴标签
plt.grid()  #绘制网格线

 这段代码的解释如下

🍥损失函数 

from sklearn import metrics
from sklearn.metrics import r2_score
# 拟合优度R2的输出方法一
print ("r2:",lr.score(X_test, y_test))  #基于Linear-Regression()的回归算法得分函数,来对预测集的拟合优度进行评价
# 拟合优度R2的输出方法二
print ("r2_score:",r2_score(y_test, y_hat)) #使用metrics的r2_score来对预测集的拟合优度进行评价
# 用scikit-learn计算MAE
print ("MAE:", metrics.mean_absolute_error(y_test, y_hat)) #计算平均绝对误差
# 用scikit-learn计算MSE
print ("MSE:", metrics.mean_squared_error(y_test, y_hat))  #计算均方误差
# # 用scikit-learn计算RMSE
print ("RMSE:", np.sqrt(metrics.mean_squared_error(y_test, y_hat))) #计算均方根误差

 


补充知识点:

列表切片 左闭右开,详细可参考 python-list、tuple_python list tuple-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/324787.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

23 导航栏

效果演示 实现了一个响应式的导航栏&#xff0c;当鼠标悬停在导航栏上的某个选项上时&#xff0c;对应的横条会从左到右地移动&#xff0c;从而实现了导航栏的动态效果。 Code <div class"flex"><ul><li>1</li><li>2</li><l…

Grafana告警发送至飞书配置指定at某人或所有人

1.问题描述 通过webhook向飞书机器人发送消息&#xff0c;根据飞书机器人官方文档&#xff0c;始终无法指定某个人或者所有人通知&#xff0c;后来发现是文档参数有问题。 文档地址&#xff1a;https://open.feishu.cn/document/client-docs/bot-v3/add-custom-bot 官方文档给…

【mysql】报错1349 - View‘s SELECT contains a subquery in the FROM clause

操作 创建视图的sql语句中有不支持子查询 mysql创建视图 select * from (select name,age from table_name where 11 and namea ) tb where 11 and type1问题 报错1349 - View’s SELECT contains a subquery in the FROM clause 原因 原因创建视图的sql语句中有不支持子查…

快递物流怎么寄最便宜?你一定要知道的5个方法 !

家人们&#xff0c;临近年关&#xff0c;大家的钱包是不是鼓鼓的了&#xff0c;难免的亲戚朋友之间会相互寄送一些东西&#xff0c;所以最近因为需要经常寄快递物流&#xff0c;小编所以特地整理了5个我们平时个人寄快递便宜的方法攻略&#xff0c;推荐第五个&#xff0c;实用干…

大数据平台数据治理与建设方案:PPT全文90页,附下载

关键词&#xff1a;数据治理&#xff0c;大数据&#xff0c;数据治理平台&#xff0c;数据治理顶层设计&#xff0c;大数据治理&#xff0c;数据治理建设 一、数据治理建设需求分析 1、业务需求和目标&#xff1a;首先&#xff0c;明确业务需求和目标是非常重要的。数据治理项…

悟的排列数

题目&#xff1a; 思路&#xff1a; 在主函数中&#xff0c;程序首先使用 scanf 输入两个整数 n 和 m&#xff0c;表示要计算的排列数。然后&#xff0c;调用递归函数 array 计算排列数&#xff0c;并将结果保存在变量 ret 中。最后&#xff0c;使用 printf 输出计算结果 re…

设计循环队列——oj题622

. 个人主页&#xff1a;晓风飞 专栏&#xff1a;LeetCode刷题|数据结构|Linux 路漫漫其修远兮&#xff0c;吾将上下而求索 文章目录 题目要求&#xff1a;应该支持如下操作&#xff1a;示例&#xff1a;提示&#xff1a; 结构体定义队列的创建基本操作判断队列是否为空&#xf…

Self-attention学习笔记(Self Attention、multi-head self attention)

李宏毅机器学习Transformer Self Attention学习笔记记录一下几个方面的内容 1、Self Attention解决了什么问题2、Self Attention 的实现方法以及网络结构Multi-head Self Attentionpositional encoding 3、Self Attention 方法的应用4、Self Attention 与CNN以及RNN对比 1、Se…

谷歌浏览器启用实时字幕功能

在 Chrome 中使用“实时字幕”功能 - Google Chrome帮助 在 Chrome 中使用“实时字幕”功能 从计算机上的 Chrome 浏览器中&#xff0c;您可以使用“实时字幕”功能自动为视频、播客、游戏、直播、视频通话或其他音频媒体生成字幕。音频和字幕均在本地处理&#xff0c;并会保…

H6911升压恒流 2.5V启动 锂电池无频闪调光顺滑100W大功率

H6911是一款外围电路简洁的宽调光比升压调光LED恒流驱动器&#xff0c;可适用于2.6-40V输入电压范围的LED恒流照明领域。 H6911可以实现高精度的恒流效果&#xff0c;输出电流恒流精度≤3&#xff05;&#xff0c;电压工作范围为2.6-40V,可以轻松满足锂电池及中低压的应用需求&…

自定义列表里面实现多选功能

需求 我们在开发过程中有时候会遇到列表里面会有多选&#xff0c;然后列表样式也要进行自定义。这里我们如果直接使用ElementUI组件el-table表格的时候这里实现起来可能比较复杂不方便&#xff0c;我们这里手写自定义一下列表里面多选的功能。 实现效果如下图所示&#xff1a…

企业级实践为“燃料”,大模型助推Kyligence产品力向上

回顾2023年&#xff0c;最火热的科技话题无疑是生成式AI。 从ChatGPT横空出世&#xff0c;到“千模大战”如火如荼&#xff0c;AIGC正式破圈&#xff0c;成为企业数字化转型的新关键词。 在红杉中国《2023企业数字化年度指南》中&#xff0c;通过调研235家企业可知&#xff0…