机器学习入门

AI人工智能

ANI 弱人工智能,狭义人工智能,指的是一种针对特定任务或领域进行优化的人工智能,例如语音识别、图像识别、自然语言处理、推荐系统

AGI 通用人工智能,强人工智能,

ASI 超级人工智能,超人工智能

机器学习分类

1、数据集,一批具有特征和标签的数据的集合叫做数据集。又分为训练数据集、验证数据集、测试数据集。训练数据集作为训练的数据,通过训练数据集找到一个函数,同时会使用验证数据集验证和评估函数。测试数据就负责对训练和评估后的函数进行测试。

2、监督学习 ,训练数据集全部都有标签,根据标签特点,又分为回归问题和分类问题;回归问题:标签是连续的数值,是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析,说白了就是当自变量变化的时候,研究以下因变量是怎么跟着变化的,比如电商场景中的销量预测、客户生命周期价值预测。分类问题:标签是离散数值,就是将数据分为不同的类别标签,通常用于图像识别、文本分类等分类问题。

3、无监督学习,训练数据集全部没有标签

4、半监督学习,训练数据集有的有标签,有的没有标签

5、强化学习

6、深度学习

机器学习步骤

1、数据收集

2、数据预处理:

数据可视化(发现数据中的规律和问题)可视化工具 Matplotlib Seaborn、

数据清洗(让数据更干净)使用工具Pandas库下的DataFrame、

特征工程(让数据易于被机器理解,并发掘重要特征)特征工程简单讲就是发现对因变量y有明显影响作用的自变量x,特征工程的目的就是发现重要特征,基于业务特性,从众多的特征中发现对标签有明显作用的特征,而摒弃掉无用的特征,降低特征的维度,提升机器学习模型的性能。

创建特征集和标签集、数据集分特征集和标签集,把数据喂给模型,特征集就是自变量x的数据的集合,标签集就是因变量Y的数据的集合。举个例子猫狗分类,特征,像素值、颜色通道

拆分训练集验证集测试集(训练、验证、评估、测试模型),一些特征和标签组成了数据集,接下来就是拆分数据集,拆分原则一般20%或30%的数据集留做测试,剩余的70%和80%留作训练数据集和验证数据集。使用工具scikit-learn里的数据集拆分工具train-test-split。

3、选择算法,我们应该确定问题的类型,在四种机器学习类型中,确定问题属于哪种学习问题类型,然后确定数据集特征和标签的关系,是属于回归问题还是分类问题,然后就可以针对不同的问题类型,选择相应的算法建立模型。如果是简单的问题,一般使用线性回归算法可以取得较好的效果。
在这里插入图片描述
在这里插入图片描述
4、训练模型,确定好算法之后,就可以通过训练数据集中的特征和标签,根据样本数据的损失来拟合函数模型,来获取最优的模型参数来建立模型。拟合模型指通过训练数据集来找到一个能够最好描述数据之间关系的函数,通俗的说就是让,机器学习算法学习输入数据与输出数据之间的关系,并生成一个可以对新数据进行预测的模型。

机器学习每训练一次,就会计算损失,逐渐减小训练集上的损失的过程,就是寻找最优模型参数的过程。过拟合 和欠拟合,过拟合是机器学习模型在训练数据上表现良好,但在测试数据上表现较差的现象。过拟合是指模型在训练数据上过度拟合,导致不能很好泛化到测试数据和实际数据中。

5、评估、优化模型,训练模型是算法寻找最优的模型的内部参数,评估和优化模型是在验证集或测试集上进行模型效果评估的过程中,对模型的外部参数进行优化,超参数,是指在模型训练之前需要设置的参数,用户控制模型结构和训练过程中的一些超参数。常用的超参数:神经网络的层数、学习速率、优化器,这些超参数的选择会影响模型的复杂度和性能,因此需要进行调整和优化获取更好的模型性能。

评估模型优劣,使用scikit-learn 中常用的工具和指标,对验证集和测试集进行评估,进而计算当前的误差,比如r2 或者MSE指标,可以用于评估回归分析模型的优劣。

模型评估分数不理想,需要重新调整模型的超参数、来重新训练模型,如果还是不理想,就要更换算法。

6、部署模型

当模型经过评估和优化后满足业务诉求,之后就可以部署模型,部署模型就是将训练好的模型应用于生产环境中,需要考虑多个因素,包括模型的性能、可靠性、安全性、扩展性、可维护性。

广泛用于语音识别、计算机视觉、自然语言处理、智能机器人

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/8200.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数字化升级提效85%,箭牌不止家居智能

近年来,随着人们对生活品质的追求不断提升,家居行业也逐渐朝着更加智能化、个性化、环保可持续和互联网的方向发展。有数据显示,2023年中国家居市场规模将达到2万亿元人民币,年复合增长率为8.3%。激烈的市场竞争之下,可…

霍夫变换车道线识别-车牌字符识别代码(matlab仿真与图像处理系列第5期)

1.车道线识别 当使用霍夫变换进行车道线识别时,可以按照以下步骤来编写 MATLAB 代码: 读入图像:使用imread函数读取包含车道线的图像。image = imread(lane_image.jpg);图像预处理:为了减少噪音和突出车道线,可以对图像进行预处理。通常,可以采用以下步骤:将图像转换为…

视频编码压缩基础

视频编码压缩基础 文章目录 视频编码压缩基础视频图像的质量评价帧率、分辨率和码率三者之间的关系 环路滤波研究背景 视频图像的质量评价 采用有损压缩的技术能显著降低码率,但是也会降低视频图像的质量,因此对于有损压缩算法,需要建立一套…

最小二乘支持向量机”在学习偏微分方程 (PDE) 解方面的应用(Matlab代码实现)

💥 💥 💞 💞 欢迎来到本博客 ❤️ ❤️ 💥 💥 🏆 博主优势: 🌞 🌞 🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 …

mac电脑储存内存越来越小如何清理释放空间?

如果你是一位Mac系统的用户,可能会发现你的电脑储存空间越来越小。虽然Mac系统设计得非常优秀,但是系统数据和垃圾文件也会占据大量的储存空间。在这篇文章中,我们将探讨mac系统数据怎么这么大,以及mac清理系统数据怎么清理。 一…

Git学习笔记(二)

导航小助手 四、分支管理 4.1 管理分支 4.2 创建分支、切换分支、合并分支 4.3 删除分支 4.4 合并冲突 4.5 分支管理策略 4.5.1 分支策略 4.6 bug分支 4.7 删除临时分支 四、分支管理 4.1 管理分支 现在介绍一下Git的杀手级别功能之一:分支~ 理解分支&a…

缓冲流~~

1:概述 缓冲流也称高效流,或者高级流。之前学习的字节流可以称为原始流。作用:缓冲流自带缓冲区,可以提高原始字节流,字符流读写数据的性能。 可以提高读写数据的效率。它通过在内存中创建缓冲区来减少对底层数据源的…

HTML5网页设计小案例:逸仙园茶馆招聘启事网页的设计

前言: 今天分享的逸仙园茶馆招聘启事网页的设计是本专栏的第一篇博客,也是我学习了几个小时知识点后写的实战小案例。我有个想法,想以逸仙园茶馆为灵感不断优化改进代码与想法设计一套与茶叶有关的的精美网页 逸仙园茶馆招聘启事网页的设计案…

实现Linux 视频聊天、远程桌面(源码,支持信创环境,可与Windows版、安卓版互通)

有朋友在下载并了解了《C# 实现 Linux 视频会议(源码,支持信创环境,银河麒麟,统信UOS)》中提供的源码后,留言给我说,这个视频会议有点复杂了,代码比较多,看得有些费劲。问…

Spring Batch 批处理框架

一、SpringBatch 介绍 Spring Batch 是一个轻量级、全面的批处理框架,旨在支持开发对企业系统的日常操作至关重要的健壮的批处理应用程序。Spring Batch 建立在人们期望的 Spring Framework 特性(生产力、基于 POJO 的开发方法和一般易用性)…

通信相关知识(三) 接入网

接入网的定界 接入网的功能 用户口功能、业务口功能、核心功能、传送功能、接入网系统管理功能。 ADSL 非对称数字用户线路(ADSL,Asymmetric Digital Subscriber Line)是数字用户线路(xDSL,Digital Subscriber Lin…

结构光三维测量几种比较成熟的方法

1.飞行时间发 原理:通过直接测量光传播的时间,确定物体的面型。发射脉冲信号,接受发射回的光,计算距离。 精度:毫米级 优点:原理简单,可避免阴影和遮挡等问题,且仪器便携化。 缺点:精度相对较低 2.莫尔条纹法 原理:采用两组光栅,一个主光栅,一个基准光栅,通过…