数据分析概述2(详细介绍机器学习

目录

  • 1.名词解释:
      • 1.1算法和模型
      • 1.2参数和超参数
  • 2.基础算法:
  • 3.高级算法:
  • 4.数据准备
  • 5.常用python包
  • 小结:

1.名词解释:

1.1算法和模型

算法:用于训练模型的方法,分为有监督学习、无监督学习、半监督学习。
模型:模型是使用机器学习算法利用数据集训练出的结果,是算法的输出;数据集的不同,训练出来的模型也不同,这些模型的区别就在于参数取值不同。

1.2参数和超参数

参数可以分为算法参数(超参数)和模型参数(参数)
超参数:控制机器学习过程并确定最终学习得到的模型参数值的参数;超参数需要自己手动指定;例如:训练集和测试集的分割比例、优化算法中的学习率、聚类算法中的聚类数、多数算法中损失函数的选择、神经网络学习中激活函数的选择、神经网络中隐藏层数及迭代次数(epoch)等。
参数:训练出的结果;通常,同一个算法所训练出的模型的参数个数和类型是一致的,区别在于参数取值。

2.基础算法:

根据属性值是否为连续属性,将机器学习算法分为以下四类:

有监督学习无监督学习
连续型聚类(k-means/GMM/LVQ/DBSCAN/AGNES)降维(SVD/PCA)回归(线性回归/多项式回归/决策树与随机森林)
分类型关联规则分析(Apriori/FP-Growth)分类(KNN/逻辑回归/朴素贝叶斯/SVM/决策树与随机森林

3.高级算法:

在这里插入图片描述

集成学习(Ensemble Learning,EL):由于上述基本算法在实际应用中容易导致过拟合或欠拟合,在数据分析中一般采用基于多个学习器来共同完成同一个数据分析任务。
深度学习(Deep Learing,DL):人工智能、机器学习和深度学习是数据分析中常用技术和方法,其区别和联系如上图所示。机器学习是人工智能的组成部分之一,而深度学习是机器学习的一种方法。
增强学习(Reinforcement Learning,RL):又称强化学习主要研究的是如何协助自治 Agent 的学习活动,进而达到选择最优动作的目的强化学习是通过反馈的结果信息不断调整之前的策略,从而算法能够学习到在什么样的状态下选择什么样的动作可以获得最好的结果。增强学习中讨论的Agent 需要具备与环境的交互能力和自治能力,当Agent 在其环境中做出每个动作时,施教者会提供奖赏或惩罚信息,以表示结果状态的正确与否。通常,强化学习任务用马尔可夫决策过程描述。常用的强化学习算法有蒙特卡洛强化学习和 Q-Learning 算法。

4.数据准备

数据准备包括数据整合数据清洗 (数据标准化、数据标注、缺失值和异常值的处理)、数据转换数据集划分等步骤。机器学习的数据集分为训练集测试集验证集 3 种。也就是说,基于机器学习的数据分析工作需要将数据随机地拆分为 3 个子集——训练集、测试集和验证集。3 个子集的占比没有规定的比例,但训练集的占比应最大经验分配比例为7:1.5:1.5或9.5:0.25:0.25。
训练集(Training Set):用于模型训练;训练出模型。
测试集(Testing Set):用于模型评估;生成混淆矩阵,并计算精度召回率。从而判断模型是否存在过拟合欠拟合
验证集(Validation Set):用于算法选择和超参调整。

5.常用python包

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

小结:

关注我给大家分享更多有趣的知识,以下是个人公众号,提供 ||代码兼职|| ||代码问题求解||
由于本号流量还不足以发表推广,搜我的公众号即可:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/346033.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

企业网盘:实现数据跨境传输,助力企业出海的必备工具

今年是“一带一路”十周年。在这十年间,中国和“一带一路”共建国家携手并行,贸易持续增长发展。在如今经济全球化的大方向下,跨国经济合作将会是各国共识。 目前,中外合作企业、跨境企业已成为国际贸易发展趋势。不过&#x…

Vant4在Vue3.3中如何按需导入组件和样式

前言 最近我在Vue 3.3的项目中对Vant4做按需导入时,尽管按照Vant4的官方指南进行操作,但样式仍然无法正确加载。经过深入研究和多篇文章的比较,我终于找到了在Vue3中如何正确的按需导入Vant 4组件和样式的方法。由于Vue3.3和Vant4相对较新&am…

一文解析低代码平台

一、低代码概念 低代码开发平台是一种无需编码或者只需要少量代码即可快速生成应用程序的开发平台,通过可视化进行应用程序开发的方法,让不同经验水平的开发人员可以通过图形化的用户界面,使用拖拽组件和模型驱动的逻辑来创建网页和移动应用程…

[C#]利用paddleocr进行表格识别

【官方框架地址】 https://github.com/PaddlePaddle/PaddleOCR.git 【算法介绍】 PaddleOCR表格识别是PaddlePaddle开源项目中的一个强大功能,它利用深度学习技术实现了对各类表格的高精度识别。PaddleOCR表格识别能够处理各种复杂的表格,包括但不限于…

C语言从入门到实战——数据在内存中的存储方式

数据在内存中的存储方式 前言1. 整数在内存中的存储2. 大小端字节序和字节序判断2.1 什么是大小端2.2 为什么有大小端2.3 练习2.3.1 练习12.3.2 练习22.3.3 练习32.3.4 练习42.3.5 练习52.3.6 练习6 3. 浮点数在内存中的存储3.1 练习3.2 浮点数的存储3.2.1 浮点数存的过程3.2.2…

最新靠谱可用的-Mac-环境下-FFmpeg-环境搭建

最近在尝试搭建 FFmpeg 开发环境时遇到一个蛋疼的事,Google 了 N 篇文章竟然没有一篇是可以跑起来的! 少部分教程是给出了自我矛盾的配置(是的,按照贴出来的代码和配置,他自己都跑不起来),大部…

Go语言认识

Go语言认识 1. Go语言的设计背景2. Go语言的历程3. Go语言对比分析4. Go语言未来的发展规划5. 要不要选择Go 关注 go博客 直接了解第一手资料。 go文档 了解go的全貌。 1. Go语言的设计背景 Go语言(也称为Golang)是由Google开发的一种编程语言。它的设计…

【Maven】006-Maven 依赖传递和依赖冲突

【Maven】006-Maven 依赖传递和依赖冲突 文章目录 【Maven】006-Maven 依赖传递和依赖冲突一、依赖传递1、概述2、案例:jackson 依赖引入依赖Maven 仓库详情页IDEA 中查看 Maven 依赖关系 二、依赖冲突1、概述2、冲突解决的两种方式 一、依赖传递 1、概述 概念&am…

重生奇迹mu敏弓加点攻略

1. 选择正确的属性点分配 在重生奇迹mu游戏中敏弓的属性点分配非常重要。建议将主要属性点分配在敏捷和力量上这样可以提高敏弓的攻击力和闪避能力。适当加点在体力和魔力上可以提高敏弓的生存能力和技能释放次数。不要忘记适当加点在智力上可以提高敏弓的技能威力和命中率。 …

七通道NPN 达林顿管GC2003,专为符合标准 TTL 而制造

GC2003 内部集成了 7 个 NPN 达林顿晶体管,连接的阵列,非常适合逻辑接口电平数字电路(例 如 TTL,CMOS 或PMOS 上/NMOS)和较高的电流/电压,如电灯电磁阀,继电器,打印机或其他类似的负…

代码随想录算法训练营第四天 |链表总结

1、每次先加判断: if (head null) {return head;} 2、ListNode dummy new ListNode(-1, head);和ListNode dummy new ListNode(-1);区别: 在Java中,ListNode dummy new ListNode(-1, head); 和 ListNode dummy new ListNode(-1); 的主…

Redis管道操作

文章目录 1. 问题提出2. 解决方案3. 案例演示4. 总结 1. 问题提出 如何优化频繁命令往返造成的性能瓶颈? Redis是一种基于C/S一级请求响应协议的TCP服务,一个请求会遵循一下步骤: 客户端向服务端发送命令分四步(发送命令-> …