[Python] scikit-learn中数据集模块介绍和使用案例

sklearn.datasets模块介绍

在scikit-learn中,可以使用sklearn.datasets模块中的函数来构建数据集。这个模块提供了用于加载和生成数据集的函数。

API Reference — scikit-learn 1.4.0 documentation

以下是一些常用的sklearn.datasets模块中的函数

load_iris()

sklearn.datasets.load_iris — scikit-learn 1.4.0 documentation

加载鸢尾花数据集,返回一个Bunch对象,包含特征数据和标签。

from sklearn import datasetsiris = datasets.load_iris()
X = iris.data  # 特征数据
y = iris.target  # 标签

load_digits()

sklearn.datasets.load_digits — scikit-learn 1.4.0 documentation

加载手写数字数据集,返回一个Bunch对象,包含特征数据和标签。

from sklearn import datasetsdigits = datasets.load_digits()
X = digits.data  # 特征数据
y = digits.target  # 标签

make_regression()

sklearn.datasets.make_regression — scikit-learn 1.4.0 documentation

生成一个回归问题的合成数据集,可以指定样本数、特征数、噪声等参数。

from sklearn.datasets import make_regression
X, y = make_regression(n_samples=5, n_features=2, noise=1, random_state=42)
X
y

make_classification()

sklearn.datasets.make_classification — scikit-learn 1.4.0 documentation

生成一个分类问题的合成数据集,可以指定样本数、特征数、类别数、噪声等参数。

from sklearn.datasets import make_classification
X, y = make_classification(random_state=42)
print(X.shape)
print(y.shape)
print(list(X[:5]))
print(list(y[:5]))

make_blobs()

sklearn.datasets.make_blobs — scikit-learn 1.4.0 documentation

可以用于生成一个多类别的合成数据集。它主要用于聚类算法的演示和测试。

from sklearn.datasets import make_blobs
X, y = make_blobs(n_samples=10, centers=3, n_features=2,random_state=0)
print(X.shape)
y
X, y = make_blobs(n_samples=[3, 3, 4], centers=None, n_features=2,random_state=0)
print(X.shape)
y

小结

这些函数都会返回一个包含特征数据和标签的Bunch对象,你可以通过访问Bunch对象的属性来获取特征数据和标签。

另外,sklearn.datasets模块还提供了其他一些函数,可以加载和生成其他类型的数据集,例如回归数据集、聚类数据集等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/450419.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数字巨轮航行大数据海洋:数据可视化引领时代潮流

在大数据时代的潮流中,数据可视化如同一艘畅行无阻的科技巨轮,引领我们穿越数字浩瀚的大海,使我们在信息的航程中游刃有余。下面我就从可视化从业者的角度,来简单说说数据可视化是如何帮助我们在大数据时代畅行无阻的。 数据可视化…

1、安全开发-Python爬虫EDUSRC目标FOFA资产Web爬虫解析库

用途:个人学习笔记,有所借鉴,欢迎指正 前言: 主要包含对requests库和Web爬虫解析库的使用,python爬虫自动化,批量信息收集 Python开发工具:PyCharm 2022.1 激活破解码_安装教程 (2022年8月25日…

CentOS 8 下载

https://mirrors.bfsu.edu.cn/centos/8-stream/isos/x86_64/ 下载地址: https://mirrors.bfsu.edu.cn/centos/8-stream/isos/x86_64/CentOS-Stream-8-x86_64-latest-dvd1.iso

【第二十二课】最短路:多源最短路floyd算法(acwing-852 spfa判断是否存在负环 / acwing-854 / c++代码)

目录 acwing-852 代码如下 一些解释 acwing-854 foyld算法思想 代码如下 一些解释 acwing-852 在spfa求最短路的算法基础上进行修改。 代码如下 #include<iostream> #include<cstring> #include<algorithm> #include<queue> using names…

适用于 Windows 7/8/10/11电脑的 12 款顶级数据恢复软件

很多时候&#xff0c;我们在 Windows 7 /8/10/11下不小心按了删除键&#xff0c;从而丢失了硬盘或 USB 驱动器中的重要文件和数据。在某些情况下&#xff0c;病毒或软件错误可能会损坏您的硬盘&#xff0c;从而影响您的文件。在这种情况下&#xff0c;您迫切需要一款适用于 Win…

坚持刷题|二叉树的前、中、后序遍历(递归迭代)

文章目录 题目思考递归实现迭代实现前序遍历后序遍历中序遍历 在前、中、后序的迭代遍历中&#xff0c;为什么都采用栈来模拟递归&#xff0c;而非队列&#xff1f; Hello&#xff0c;大家好&#xff0c;我是阿月。坚持刷题&#xff0c;老年痴呆追不上我&#xff0c;今天刷&…

030 可变参数

可变参数定义 public static void main(String[] args) {// 多参数方式传递System.out.println(max(1,3,5,3,6,1,2));// 数组方式传递System.out.println(max(new int[]{1,3,5,3,6,1,2})); }static int max(int... nums){int max Integer.MIN_VALUE;for (int num : nums) {if(…

redis布隆过滤器(Bloom)详细使用教程

文章目录 布隆过滤器1. 原理2. 结构和操作3. 特点和应用场景4. 缺点和注意事项 应用-redis插件布隆过滤器使用详细过程安装以及配置springboot项目使用redis布隆过滤器下面是布隆过滤器的一些基础命令 扩展 布隆过滤器 Bloom 过滤器是一种概率型数据结构&#xff0c;用于快速判…

echarts step line

https://ppchart.com/#/ <template><div class"c-box" ref"jsEchart"></div> </template><script> import * as $echarts from echarts // 事件处理函数 export default {props: {// 需要传递的数据data: {type: Array,defa…

SSL 证书如何工作?

SSL 的原理是确保用户和网站之间或两个系统之间传输的任何数据始终无法被读取。它使用加密算法对传输中的数据进行加密&#xff0c;从而防止黑客读取通过连接发送的数据。该数据包括潜在的敏感信息&#xff0c;例如姓名、地址、信用卡号或其他财务详细信息。 该过程如下所示&am…

ElementUI Data:Table 表格

ElementUI安装与使用指南 Table 表格 点击下载learnelementuispringboot项目源码 效果图 el-table.vue&#xff08;Table表格&#xff09;页面效果图 项目里el-table.vue代码 <script> export default {name: el_table,data() {return {tableData: [{dat…

向日葵案例解析:无外网接入,医疗设备如何进行远程售后运维

随着医学科学以及生物工程技术的高速发展&#xff0c;医院对于高端医疗设备如MR、CT、B超等高科技成像设备和放射治疗设备的需求激增。医学影像检查作为一种重要的手段&#xff0c;在许多疾病确诊过程中发挥着至关重要的作用。检查结果正确与否&#xff0c;直接影响临床医生对疾…