数据分析 - 机器学习

1:线性回归

线性回归是一种统计技术用于对输出变量与一个或多个输入变量之间的关系进行建模
用外行人的话来说,将其视为通过某些数据点拟合一条线,如下所示
以便在未知数据上进行预测,假设变量之间存在线性关系

在这里插入图片描述

点和线之间存在微小的差异,被称为残差
他们是数据点和预测线之间的差异
取每个残差并对他们进行平方,得到平方误差,残差越大正方形的面积就越大
如果我们将给定线的所有这些正方形的面积相加,我们将得到平方误差的总和这就是我们的损失函数

我们将三分之一的数据并将其放入测试数据集中,剩余的三分之二将成为训练数据集,
然后使用训练数据集来拟合回归线,
然后,测试数据集将用于验证回归线,
这样做是为了确保回归在之前未见过的数据上表现良好。

决策树

决策树:为了达到目标根据一定条件进行选择的过程
常用语:房地产、银行,为了找到核心客户的学习方法
常被用于分类和回归
决策树由 根节点,子节点、叶子节点
决策树的分类标准:熵 (表示一个系统内在的混乱程度)熵代表是分支下样本种类的丰富性
样本种类越多越混乱,熵值越大,决策树的构造深度就是熵值的降低,熵值降低越快,代表决策树分类效率越高
决策树最大的优点是 天然的可解释性的,数据自动处理
缺点就是 不会存在完美的决策树,如果存在就是过拟合了
防止过拟合就是剪枝

剪枝有两种:预剪枝和后剪枝

预剪枝是在训练开始前规定条件,比如树达到某一深度就停止训练
后剪枝则是先找到树,再根据一定条件如限制叶子节点的个数,去掉一部分分支

随机森林

随机森林里面有很多决策树
随机森林是决策树的升级版
随机指的是树的生长过程
随机森林中的树也是各不相同
在构建决策树时,我们也不会使用数据的全部特征,而是随机选取部分特征进行训练,
每棵树使用的样本特征各不相同,训练的结果自然也各不相同
我们并不知道哪些是异常样本
也不知道哪些特征对分类结果影响更大,随机的过程降低了两者对分类结果的影响
随机森林的输出结果由投票决定,如果大部分决策认为测试数据是好苹果,那我们就认为它是好苹果,这很像人类的民主决策
推理过程和结论各不相同,但当每个人都拥有投票权时,往往能做出较优的决策,因为树与树之间的独立,它们可以同时训练,不需要花太多时间。
随机的过程让它不容易拟合,能处理特征较多的高维数据
也不需要做特征选择,合理训练后准确性很高,不知道使用什么分类方法时
先试一试随机森林准没错
在机器学习中随机森林属于集成学习,也就是将多个模型组合起来解决问题
这些模型会独立、预测、在投票出结果,准确性往往比单独的模型高很多

聚类

k-mean
k 表示样本数,把数据分为几类
将一群无标签数据,按特征属性,分为有标签属性

例如:有一个很多水果,但是很混乱,我不知道有哪几种水果,

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/478320.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

普中51单片机学习(十一)

独立按键 独立按键原理 按键在闭合和断开时触电存在抖动现象 硬件消抖电路如下 实验代码 #include "reg52.h" typedef unsigned char u8; typedef unsigned int u16;void delay(u16 i) {while(i--); } sbit ledP2^0; sbit k1P3^1;void keypro() {if(k10){delay(1…

五步解决 Ubuntu 18.04 出现GLIBC_2.28 not found的解决方法

Ubuntu 18.04 出现GLIBC_2.28 not found的解决方法 参考debian网址https://packages.debian.org/buster/并搜索想要的软件或者工具等,如libc6,有结果如下: 具体就不介绍了,请浏览官网了解。 第一步:添加软件源,在/et…

基于docker安装HDFS

1.docker一键安装见 docker一键安装 2.拉取镜像 sudo docker pull kiwenlau/hadoop:1.03.下载启动脚本 git clone https://github.com/kiwenlau/hadoop-cluster-docker4.创建网桥 由于 Hadoop 的 master 节点需要与 slave 节点通信,需要在各个主机节点配置节点…

【递归】:原理、应用与案例解析 ,助你深入理解递归核心思想

递归 1.基础简介 递归在计算机科学中,递归是一种解决计算问题的方法,其中解决方案取决于同一类问题的更小子集 例如 递归遍历环形链表 基本情况(Base Case):基本情况是递归函数中最简单的情况,它们通常是递…

Jetpack 之Glance+Compose实现一个小组件

Glance,官方对其解释是使用 Jetpack Compose 样式的 API 构建远程 Surface 的布局,通俗的讲就是使用Compose风格的API来搭建小插件布局,其最新版本是2022年2月23日更新的1.0.0-alpha03。众所周知,Compose样式的API与原生差别不小&…

Vue Suspense

<Suspense> 是一项实验性功能。它不一定会最终成为稳定功能&#xff0c;并且在稳定之前相关 API 也可能会发生变化。 <Suspense> 是一个内置组件&#xff0c;用来在组件树中协调对异步依赖的处理。它让我们可以在组件树上层等待下层的多个嵌套异步依赖项解析完成&a…

Shellcode免杀对抗(C/C++)

Shellcode C/C免杀&#xff0c;绕过360安全卫士、火绒安全、Defender C/C基于cs/msf的上线 首先是测试一下shellcode上线&#xff0c;主要是俩种方法 测试环境 攻击机&#xff1a;kali2023 靶机&#xff1a;win10 msf方法 首先是启动msf msfconsole 然后msf生成一个sh…

Hadoop-Yarn-调度器总结

一、Yarn有哪些调度器 在cdh中Yarn组件中查看配置如下&#xff1a; 可以看到Yarn有三种调度器&#xff0c;分别是FairScheduler、FifoScheduler、CapacityScheduler&#xff0c;它们都是Hadoop的一个可插入调度器。 cdh默认的调度器是FairScheduler&#xff0c;hadoop默认的调…

vue项目中下载静态资源里的pdf文件

1.把文件放在项目目录src/assets文件下 2.在项目是用a标签下载 <a:href"require(/assets/download.pdf)"download"使用说明.pdf"target"_blank"><img src"/assets/banner.png" class"bannerimg"/></a> 以…

函数模板与模板的特例化

函数模板 模板的意义&#xff1a;对类型进行参数化 模板类型参数 c使用class、typename关键字定义模板类型参数 函数模板&#xff1a;不进行编译&#xff0c;因为类型还不知道 template <typename T>//定义一个模板参数列表 bool compare(T a,T b)//compare是一个函…

electron桌面开发相关注意点

electron的部署以及配置 如果使用的是pnpm&#xff0c;请先配置一下镜像&#xff0c;否则会安装失败的&#xff1a; pnpm config set registryhttps://registry.npmmirror.com pnpm config set electron_mirrorhttps://cdn.npmmirror.com/binaries/electron/ pnpm config set …

如何构建企业专属GPT

大语言模型&#xff08;LLM&#xff09;具有令人印象深刻的自然语言理解和生成能力&#xff0c; 2022年11月底OpenAI发布了ChatGPT&#xff0c;一跃成为人工智能AI领域的现象级应用。但由于LLM的训练数据集主要来源于互联网数据&#xff0c;企业私域信息并未被LLM所训练&#x…