机器学习案例:加州房产价格(二)

参考链接:https://hands1ml.apachecn.org/2/

设计好系统后,要开始在工作区编写代码来解决问题了。

下载数据

首先我们需要先得到数据集。
一般情况下,数据是存储于关系型数据库(或其它常见数据库)中的多个表、文档、文件。

你可以使用浏览器下载,但是更好的办法是写一个小函数来做这件事。
因为如果数据变动频繁,这么做是非常好的,因此我们可以写一个函数来随时获取最新的数据。

import os
import tarfile
from six.moves import urllibDOWNLOAD_ROOT = "https://raw.githubusercontent.com/ageron/handson-ml/master/"
HOUSING_PATH = "datasets/housing"
HOUSING_URL = DOWNLOAD_ROOT + HOUSING_PATH + "/housing.tgz"def fetch_housing_data(housing_url=HOUSING_URL, housing_path=HOUSING_PATH):if not os.path.isdir(housing_path):os.makedirs(housing_path)tgz_path = os.path.join(housing_path, "housing.tgz")urllib.request.urlretrieve(housing_url, tgz_path)housing_tgz = tarfile.open(tgz_path)housing_tgz.extractall(path=housing_path)housing_tgz.close()

在jupyter上就是这样,运行
在这里插入图片描述
然后使用 Pandas 加载数据。同样还是用一个小函数来加载数据:这个函数会返回一个包含所有数据的 Pandas DataFrame 对象。

import pandas as pddef load_housing_data(housing_path=HOUSING_PATH):csv_path = os.path.join(housing_path, "housing.csv")return pd.read_csv(csv_path)
housing = load_housing_data(HOUSING_PATH)

快速查看数据结构

使用DataFrame的head()方法查看该数据集的前 5 行。
在这里插入图片描述
info()方法可以快速查看数据的描述,特别是总行数、每个属性的类型和非空值的数量。
在这里插入图片描述
数据集中共有 20640 个实例,按照机器学习的标准这个数据量很小,但是非常适合入门。
我们注意到总卧室数只有 20433 个非空值,这意味着有 207 个街区缺少这个值。我们将在后面对它进行处理。

查看数据可以知道,所有的属性都是数值的,除了离大海距离这项。
它的类型是对象,因此可以包含任意 Python 对象,但是因为该项是从 CSV 文件加载的,所以必然是文本类型。
在刚才查看数据前五项时,你可能注意到那一列的值是重复的,意味着它可能是一项表示类别的属性。
可以使用value_counts()方法查看该项中都有哪些类别,每个类别中都包含有多少个街区:
在这里插入图片描述
再来看其它字段。describe()方法展示了数值属性的概括
在这里插入图片描述
count、mean、min和max几行的意思很明显了。
!注意,空值被忽略了(所以,卧室总数是 20433 而不是 20640)。
std是标准差(揭示数值的分散度)。25%、50%、75% 展示了对应的分位数:每个分位数指明小于这个值,且指定分组的百分比。例如,25% 的街区的房屋年龄中位数小于 18,而 50% 的小于 29,75% 的小于 37。这些值通常称为第 25 个百分位数(或第一个四分位数),中位数,第 75 个百分位数(第三个四分位数)。

另一种快速了解数据类型的方法是画出每个数值属性的柱状图。
柱状图(的纵轴)展示了特定范围的实例的个数。你还可以一次给一个属性画图,或对完整数据集调用hist()方法,后者会画出每个数值属性的柱状图。例如,你可以看到略微超过 800 个街区的median_house_value值差不多等于 500000 美元。

import matplotlib.pyplot as plt
housing.hist(bins=50, figsize=(20,15))
plt.show()

在这里插入图片描述
注意柱状图中的一些点:

1.首先,收入中位数貌似不是美元(USD)。
与数据采集团队交流之后,你被告知数据是经过缩放调整的,过高收入中位数的会变为 15(实际为 15.0001),过低的会变为 5(实际为 0.4999)。在机器学习中对数据进行预处理很正常,这不一定是个问题,但你要明白数据是如何计算出来的。

2.房屋年龄中位数和房屋价值中位数也被设了上限。
后者可能是个严重的问题,因为它是你的目标属性(你的标签)。你的机器学习算法可能学习到价格不会超出这个界限。你需要与下游团队核实,这是否会成为问题。如果他们告诉你他们需要明确的预测值,即使超过 500000 美元,你则有两个选项:

3.对于设了上限的标签,重新收集合适的标签;
将这些街区从训练集移除(也从测试集移除,因为若房价超出 500000 美元,你的系统就会被差评)。
这些属性值有不同的量度。我们会在本章后面讨论特征缩放。

4.最后,许多柱状图的尾巴很长:
相较于左边,它们在中位数的右边延伸过远。对于某些机器学习算法,这会使检测规律变得更难些。我们会在后面尝试变换处理这些属性,使其变为正态分布。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/692106.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring >> Spring AOP

AOP 与 Spring AOP AOP:面向切面编程。是一种思想,对某一类事情的集中处理。 例如现在大多数平台的用户登录都是有权限效验的,而对于平台页面的操作,除过登录,注册或者一些简单的,大多都是需要验证用户有没…

【linux软件基础知识】如何使用 run_list 字段将任务放入就绪队列中

在给定的代码片段中,struct task_struct 表示内核中任务或进程的进程控制块 (PCB)。 run_list 字段的类型为 struct list_head,这表明它是链表实现的一部分。 run_list字段在Linux内核中常用来表示任务在调度队列中的位置,例如就绪队列或各种优先级队列。 init_task是一个…

查询新加 字段不返回数据要看 有没有 AllInfoResultMap 有要再里面加字段

查询新加 字段不返回数据要看 有没有 AllInfoResultMap 有要再里面加字段

Linux安装配置CGAL,OpenCV和Gurobi记录

安装Qt,查看当前的Qt版本,需要至少满足v5.12 qmake -v安装CGAL,The Computational Geometry Algorithms Library (cgal.org) CGAL v5.6.1:https://github.com/CGAL/cgal/releases/download/v5.6.1/CGAL-5.6.1.tar.xz 确保C编译…

探索互联网医院系统源码:开发在线药房小程序实战教学

今天,笔者将与大家一同深入探讨互联网医院系统的源码结构,并通过开发在线药房小程序的实战教学,为读者提供一种学习和理解这一领域的途径。 一、互联网医院系统源码解析 1.技术选型 互联网医院系统的开发离不开合适的技术选型,…

AI + Web3 如何打造全新创作者经济模型?

可编程 IP 的兴起,借助人工智能极大提高创作效率和效能,让 Web3 用户体会到了自主创作和产品制作的乐趣。然而,你知道 AI 时代来临的背景下,创作者经济模型又该如何在 Web3 技术的加持下走向更成熟的运作轨道吗?第 43 …

【保姆级教程】VMware Workstation Pro的虚拟机导入vritualbox详细教程

解决方案 1、OVF格式2、VMX格式 1、OVF格式 选定需要导出的虚拟机(关闭或者挂起状态下)依次选择文件-导出为ovf 在Vritualbox导入刚刚导出的.ovf文件 更改路径,按实际需要修改 成功导入 2、VMX格式 如果在VMware Workstation Pro导出的…

【博士生必看】论文润色大揭秘!

📝 投稿拒稿?语言不过关?别怕,我来支招!👩‍🎓 🌟 我的论文润色经历,从拒稿到接收的逆袭之路!✨ 👉 【论文润色,我选了它】 我选择了…

基于SSM+Vue的物流管理系统

运行截图 获取方式 Gitee仓库

【第19章】spring-mvc之全局异常处理

文章目录 前言一、全局异常处理1. 前端2. 后端 二、常见错误页1.增加界面2.web.xml3.异常处理4.效果 总结 前言 例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基…

从零开始的软件测试学习之旅(七)接口测试流程及原则案例

接口测试三要素及案例 接口测试介绍接口预定义接口测试的主要作用测试接口流程如下接口测试三要素接口测试分类RESTful架构风格RESTful架构三要素要素一要素二要素三 RESTful架构风格实现restful架构案例接口测试流程接口测试原则功能测试自动化测性能测试 复习复盘 接口测试介…

Qt---事件

一、Qt中的事件 鼠标事件 鼠标进入事件enterEvent 鼠标离开事件leaveEvent 鼠标按下mousePressEvent ( QMouseEvent ev) 鼠标释放mouseReleaseEvent 鼠标移动mouseMoveEvent ev->x():坐标 ev->y():y坐标 ev->bu…