day9

news/2025/1/15 13:43:24/文章来源:https://www.cnblogs.com/dorakk/p/18416537

缺失值处理

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from matplotlib.font_manager import FontProperties
from sklearn import datasets

font = FontProperties(fname='/Library/Fonts/Heiti.ttf')

from io import StringIO

iris_data = """
4.7,,1.3,0.2
4.6,3.1,1.5,0.2
5.,3.6,1.4,0.2
5.4,3.9,1.7,0.4
4.6,3.4,,0.3
5.,3.4,1.5,0.2
4.4,2.9,1.4,0.2
4.9,3.1,1.5,0.1
5.4,3.7,1.5,
"""

iris = datasets.load_iris()
df = pd.read_csv(StringIO(iris_data),header=None)
df.columns=iris.feature_names
df=df.iloc[:,:4]
print(df)

from sklearn.impute import SimpleImputer
imputer=SimpleImputer(missing_values=np.nan,strategy='mean')
imputer=imputer.fit_transform(df.values)
df=pd.DataFrame(imputer,columns=iris.feature_names)
print(df)

标准化

最小最大标准化

from sklearn.preprocessing import MinMaxScaler
import numpy as np

test_data = np.array([1,2,3,4,5]).reshape(-1,1).astype(float)
min_max_scaler=MinMaxScaler()
min_max_scaler.fit(test_data)

波士顿房价训练回归

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from matplotlib.font_manager import FontProperties

字体

font = FontProperties(fname='/Library/Fonts/Heiti.ttf')

np小数点位数

np.set_printoptions(precision=3,suppress=True)

url = "https://raw.githubusercontent.com/scikit-learn/scikit-learn/main/sklearn/datasets/data/boston_house_prices.csv"
boston= pd.read_csv(url)
boston=boston.values
x=boston[1:,:-1]
y=boston[1:,-1]
print(x[:5])
print(y[:5])

切割和标准化

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler

x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.3,random_state=1,shuffle=True)
print('训练集长度:{}'.format(len(y_train)),'测试集长度:{}'.format(len(y_test)))

scaler = MinMaxScaler()
scaler = scaler.fit(x_train)
x_train,x_test=scaler.transform(x_train),scaler.transform(x_test)
print('标准化后训练数据:\n{}'.format(x_train[:5]))
print('标准化后测试数据:\n{}'.format(x_test[:5]))

lasso回归

from sklearn.linear_model import Lasso

reg = Lasso()
reg = reg.fit(x_train,y_train)
y_pred =reg.predict(x_test)

print('lasso回归R2分数:{}'.format(reg.score(x_test,y_test)))

弹性网络回归

from sklearn.linear_model import ElasticNet

reg = ElasticNet()
reg = reg.fit(x_train,y_train)
y_pred =reg.predict(x_test)
print('弹性网络回归R2分数:{}'.format(reg.score(x_test,y_test)))

岭回归

from sklearn.linear_model import Ridge

reg = Ridge()
reg = reg.fit(x_train,y_train)
y_pred =reg.predict(x_test)
print('岭回归R2分数:{}'.format(reg.score(x_test,y_test)))

线性支持向量回归

from sklearn.svm import LinearSVR

reg = LinearSVR(C=100,max_iter=10000)
reg = reg.fit(x_train,y_train)
y_pred =reg.predict(x_test)
print('线性支持向量回归R2分数:{}'.format(reg.score(x_test,y_test)))

核支持向量回归

from sklearn.svm import SVR

reg = SVR(C=100,gamma='auto',max_iter=10000,kernel='rbf')
reg = reg.fit(x_train,y_train)
y_pred =reg.predict(x_test)
print('核支持向量回归R2分数:{}'.format(reg.score(x_test,y_test)))

决策树回归

from sklearn.tree import DecisionTreeRegressor

reg = DecisionTreeRegressor()
reg = reg.fit(x_train,y_train)
y_pred =reg.predict(x_test)
print('决策树回归R2分数:{}'.format(reg.score(x_test,y_test)))

随机森林回归

from sklearn.ensemble import RandomForestRegressor

reg = RandomForestRegressor()
reg = reg.fit(x_train,y_train)
y_pred =reg.predict(x_test)
print('随机森林回归R2分数:{}'.format(reg.score(x_test,y_test)))

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/798189.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java的方法和数组

什么是方法呢? 就类似c语言的函数 返回类型 方法名 形式参数列表 方法名最好使用小驼峰的形式,在java中方法不可以嵌套使用, 方法的调用: 就是在main方法里面写上调用的方法名加上需要传输的值,创建一个和方…

mongo集群同步数据异常,手动同步节点副本数据

转载请注明出处: 数据同步方案当副本集节点的复制进程落后太多,以至于主节点覆盖了该节点尚未复制的 oplog 条目时,副本集节点就会变为“陈旧”。节点跟不上,就会变得“陈旧”。出现这种情况时,必须删除副本集节点的数据,然后执行初始同步,从而完全重新同步该节点。 Mon…

7、函数分文件编写

1、swap.h2、swap.cpp3、使用

三、redis之strings类型

strings是redis中使用最多的类型。 redis官网中是这么描述strings的: Redis strings store sequences of bytes, including text, serialized objects, and binary arrays. 可以看到Redis strings保存的是sequences of bytes,也就是字节序列。不仅可以保存字符串,而且还可以…

排队论——数学模型和绩效指标精解

排队论最早由丹麦工程师Agner Krarup Erlang于1910年提出,旨在解决自动电话系统的问题,成为话务理论的奠基石。Erlang通过研究电话呼叫的随机到达和服务时间,推导出著名的埃尔朗电话损失率公式,用于计算电话系统的呼叫阻塞率,揭示了排队现象的本质。Erlang之后,排队论得到…

本地文件包含漏洞详解与CTF实战

1. 本地文件包含简介 1.1 本地文件包含定义 本地文件包含是一种Web应用程序漏洞,攻击者通过操控文件路径参数,使得服务器端包含了非预期的文件,从而可能导致敏感信息泄露。 常见的攻击方式包括:包含配置文件、日志文件等敏感信息文件,导致信息泄露。 包含某些可执行文件或…

代码随想录算法 - 二叉树6

题目1235. 二叉搜索树的最近公共祖先 给定一个二叉搜索树, 找到该树中两个指定节点的最近公共祖先。 百度百科中最近公共祖先的定义为:“对于有根树 T 的两个结点 p、q,最近公共祖先表示为一个结点 x,满足 x 是 p、q 的祖先且 x 的深度尽可能大(一个节点也可以是它自己的祖…

6、函数的声明

程序是一行行执行,我们可以在前面进行函数声明,然后将函数的定义放在程序末尾。 声明可以写多次,但是定义只能写一次。

如何基于Java解析国密数字证书

一、说明 随着信息安全的重要性日益凸显,数字证书在各种安全通信场景中扮演着至关重要的角色。国密算法,一、说明 随着信息安全的重要性日益凸显,数字证书在各种安全通信场景中扮演着至关重要的角色。国密算法,作为我国自主研发的加密算法标准,其应用也愈发广泛。然而,在…

Windows应急响应-个人整理

个人总览-仍待完善Windows应急响应整理(一)参考 1.NOPTeam的手册链接 2.fox-yu的博客(思路很清晰,对我这个小白来说很友好)1.整体思路 1.1常见事件类型(不完整、待补充)网络协议攻击:拒绝服务攻击:DDos、CC攻击、泛洪攻击等。链接 DNS劫持 ARP欺骗web入侵:webshell 网页挂马…

视野修炼-技术周刊第101期 | 垂直居中

① align-content - 垂直居中普通元素 ② up mode - 一键隐藏 Chrome 插件 ③ Chrome 性能面板新功能 ④ k-colors.js - 图片主色提取 ⑤ 英:优化JS性能的一些技巧 ⑥ 英:Web 的剪贴板,如何存储不同类型的数据 ⑦ 英:不简单的 js 入门教程 ⑧ Peter Cat - GitHub 仓库智能答…

06: 抽象工厂模式

提供一个创建一系列相关或相互依赖对象的接口,而无需指定他们具体的类1. 案例 在Access和SQL server分别插入User表和Department表 2. 抽象工厂模式结构 - 抽象产品(AbstractProduct):所有产品的基类,提供产品类的公共方法struct User {std::string m_sName = "";…