机器学习—数据集(二)

1可用数据集

公司内部 eg:百度
数据接口 花钱
数据集
学习阶段可用的数据集:

  1. sklearn:数据量小,方便学习
  2. kaggle:80万科学数据,真实数据,数据量大
  3. UCI:收录了360个数据集,覆盖科学、生活、经济等领域,数据量几十万

Kaggle网址:http://www.kaggle.com/datasets
UCI网址:http://archive.ics.uci.edu/ml/
scikit-learn网址:http://scikit-learn.org/stable/datasets/index.html

2scikit-learn工具介绍

在这里插入图片描述

  • Python语言的机器学习工具
  • Scikit-learn包括许多知名的机器学习算法的实现
  • Scikit-learn文档完善,容易上手,丰富的API
  • 目前稳定版本0.19.1

2.1安装

pip3 install Scikit-learn==0.19.1

安装好之后可以通过以下命令查看是否安装成功

import sklearn

注:安装scikit-learn需要Numpy,Scipy等库

2.2sklearn数据集

scikit-learn数据集API介绍:

  • sklearn.datasets
    • 加载获取流行数据集
    • datasets.load_*()
      - 获取小规模数据集,数据包含在datasets里
    • datasets.fetch_*(data_home=None)
      - 获取大规模数据集,需要从网络上下载,函数的第一个参数是data_home,表示数据集下载的目录,默认是~/scikit_learn_data/

sklearn小数据集:

  • sklearn.datasets.load_iris()
    -加载并返回鸢尾花数据集
名称数量
类别3
特征4
样本数量150
每个类别数量50
  • sklearn.datasets.load_boston()
    -加载并返回波士顿房价数据集
名称数量
目标类别5-50
特征13
样本数量506

sklearn大数据集:

  • sklearn.datasets.fetch_20newsgroups(data_home=None,subset=‘train’)
    • subset: "train’或者’test’,"all’,可选,选择要加载的数据集。
    • 训练集的“训练”,测试集的“测试”,两者的“全部”

sklearn数据集的使用:

  • 以鸢尾花数据集为例:
    在这里插入图片描述
    sklearn数据集返回值介绍:
  • load和fetch返回的数据类型datasets.base.Bunch(字典格式)
    • data:特征数据数组,是[n_samples * n_features]的二维numpy.ndarray数组
    • target:标签数组,是n_samples的一维numpy.ndarray数组
    • DESCR:数据描述
    • feature_names:特征名,新闻数据,手写数字、回归数据集没有
    • otarget_names:标签名
from sklearn.datasets import load_iris
#获取鸢尾花数据集
iris = load_iris()
print("鸢尾花数据集的返回值:\n", iris)
#返回值是一个继承自字典的Bench
print("鸢尾花的特征值:\n", iris ["data""])
print("鸢尾花的目标值:\n",iris.target)
print("鸢尾花特征的名字:\n", iris.feature_names)
print("鸢尾花目标值的名字: \n",iris.target_names)
print("鸢尾花的描述:\in", iris.DESCR)

在这里插入图片描述
在这里插入图片描述

2.3数据集的划分

机器学习一般的数据集会划分为两个部分:

  • 训练数据:用于训练,构建模型
  • 测试数据:在模型检验时使用,用于评估模型是否有效

划分比例:
训练集:70% 80% 75%
测试集:30% 20% 30%

数据集划分api:

  • sklearn.model_selection.train_test_split(arrays, "options)
    • ×数据集的特征值
    • y数据集的标签值
    • test_size测试集的大小,一般为float
      • random_state 随机数种子,不同的种子会造成不同的随机采样结果。相同的种子采样结果相同。
      • return 训练集特征值,测试集特征值,训练集目标值,测试集目标值
        x_train,x_test, y_train,y_test
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split#数据集划分
x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,test_size=0.2,random_state=22)
print("训练集的特征值:\n", x_train,x_train.shape)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/615449.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于springboot+vue的汽车租赁管理系统

背景介绍: 网络发展的越来越迅速,它深刻的影响着每一个人生活的各个方面。每一种新型事务的兴起都是为了使人们的生活更加方便。汽车租赁管理系统是一种低成本、更加高效的电子商务方式,它已慢慢的成为一种全新的管理模式。人们不再满足于在互联网上浏览…

不会搭建ERP帮助中心的看过来,这篇文教会你

企业资源规划(Enterprise Resource Planning, ERP)系统是支撑公司核心业务的大脑。但你知道吗,没有一个好用、易懂的帮助中心,就像给这个大脑裹上了层层蚕丝,难以发挥它的最大潜能。那么,怎样才能搭建一个优…

深度学习相关知识

目录 一.环境安装 1.cuda/cudnn安装: 2.Pytorch,torchvision安装 3. TensorRT安装C版本: 4.onnxRuntime安装: 二.基础知识 1.Onnx、onnxTime、wts和TensorRT 2. 模型部署 3. 深度学习简介 4. Loss函数 5. 激活函数 一.环…

杰发科技AC7840——CAN通信简介(4)_过滤器设置

0. 简介 注意:过滤器最高三位用不到,因此最高位随意设置不影响过滤器。 1. 代码分析 注意设置过滤器数量 解释的有点看不懂 详细解释...也看不大懂 Mask的第0位是0,其他位都是1(就是F?),那就指定了接收值就是这个数,…

【cmake安装】研发环境搭建之cmake安装

背景 因为项目需求,需要家里的Win10 PC安装Ubuntu 20.04虚拟机并搭建编译环境,需要安装cmake编译环境 直接命令安装即可 sudo apt install cmake安装成功后: 3.16版本暂时也够用了

SVM向量支持机

1.通俗理解 svm:support vector machine目标:利用超平面将两类数据分割开来,这个超平面就是我们要设计的对象 如何设计?我们设计之后会有间隔,间隔越大分类效果就越好;距离决策边界最近的点我们成为支持向…

【嵌入式基础知识学习】AD/DA—数模/模数转换

AD/DA—数模/模数转换概念 数字电路只能处理二进制数字信号,而声音、温度、速度和光线等都是模拟量,利用相应的传感器(如声音用话筒)可以将它们转换成模拟信号,然后由A/D转换器将它们转换成二进制数字信号&#xff0c…

【Java】第十五届蓝桥杯JavaB组第一道填空题

#【Java】第十五届蓝桥杯JavaB组第一道填空题 大家好 我是寸铁👊 总结了一篇【Java】第十五届蓝桥杯JavaB组第一道填空题文章 喜欢的小伙伴可以点点关注 💝 Java B组 第一道填空题题解如下:

Unity之Unity面试题(三)

内容将会持续更新,有错误的地方欢迎指正,谢谢! Unity之Unity面试题(三) TechX 坚持将创新的科技带给世界! 拥有更好的学习体验 —— 不断努力,不断进步,不断探索 TechX —— 心探索、心进取…

鸿蒙TypeScript学习第14天:【联合类型】

1、TypeScript 联合类型 联合类型(Union Types)可以通过管道(|)将变量设置多种类型,赋值时可以根据设置的类型来赋值。 注意:只能赋值指定的类型,如果赋值其它类型就会报错。 创建联合类型的语法格式如下&#xff1…

vue canvas绘制信令图,动态显示标题、宽度、高度

需求: 1、 根据后端返回的数据,动态绘制出信令图 2、根据 dataStatus 返回值: 0 和 1, 判断 文字内容的颜色,0:#000,1:red 3.、根据 lineType 返回值: 0 和 1, 判断 箭…

《分布式系统可用性保证方法和实践》

本文属于专栏《构建工业级QPS百万级服务》系列简介-CSDN博客 目录 1、什么是可用性 2、保障可用性的方法 2.1、可用性保障的前置手段 2.1.1、灰度验证 2.1.2、小流量验证 2.1.3、上线流程 2.1.4、前置手段总结 2.2、可用性保障的后置手段 2.2.1、问题发现 2.2.1…