第一课通用流程

news/2025/2/10 23:33:49/文章来源:https://www.cnblogs.com/dingxingdi/p/18708976

其中\(\text{KNN}\)使用已经很少了，\(\text{SVM}\)在中小型数据集上表现很好

了解场景和目标
了解评估准则
认识数据
数据预处理
- 数据清洗
- 数据采样
特征工程
- 特征处理
  - 数值型
  - 类别型
  - 时间类
  - 文本型
  - 统计型
  - 组合特征
- 特征选择
  - 过滤法
  - 包装法
  - 嵌入法
模型融合
- Bagging
- Stacking
- Boosting

了解场景和目标

这个主要是说可以看看有没有类似的问题，然后可以借鉴那个问题的参数

了解评估准则

比如\(\text{SVM}\)，可能以准确率，精确率，召回率等等作为评估准则

认识数据

一般指可视化数据，高维数据可以用\(\text{t-SNE}\)可视化

数据预处理

数据清洗

不可信的样本丢掉。比如一个牙刷花了二十万买，这显然就是假数据
缺省值非常多的字段考虑不用，缺省值很少的字段进行填充，缺省值不多不少的可以将其作为一个独立的类型使用独热编码

数据采样

上/下采样。以负样本更多为例，前者指将正样本重复很多次，后者指删除很多负样本
保证样本均衡。除了上下采样，还可以对正样本赋予更大的权重，甚至还可以使用\(\text{Bagging}\).比如正负样本比例为\(1:10\)，那么我们训练十个分类器，每个分类器的训练集是\(1:1\)的正负样本，最后再集成

特征工程

特征处理

数值型

类别型

时间类

可以以不同的时间长度作为单位时间。这里相当于将连续型变量离散化了

文本型

统计型

组合特征

特征选择

过滤法

包装法

嵌入法

模型融合

Bagging

sklearn中有Bagging的类，可以直接问AI.原理跟随机森林是一样的。分类做投票，回归取平均

Stacking

这个简单来说，就是最终的预测器以基预测器的输出结果作为特征去训练，如下

跟神经网络有点像

Boosting

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/881908.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

DeepSeek本地化部署超简单，比装个office还简单

一、背景最近DeepSeek太火了，以至于每位伙伴都想尝试，都想说上几句。作为一名程序员，不仅想使用这个DeeptSeek的AI工具，还是用其做更多的事情，比如本地化部署、构建自己的知识库，或者其他的应用。本以为DeepSeek本地化部署有多难，实际上验证后很简单，任何普通人只要会…

【CTF】内存取证分析

免责声明：此文转载自Tide安全团队原创文章，转载请声明出处！文中所涉及的技术、思路和工具仅供以安全为目的的学习交流使用，任何人不得将其用于非法用途给予盈利等目的，否则后果自行承担！一、基本概念内存取证是指从计算机内存（RAM）中提取和分析数据的过程。当计算机运…

如何轻松保存或导出 Windows 聚焦图片

转自：https://www.sysgeek.cn/save-windows-spotlight-images/ Windows 聚焦功能可以让桌面和锁屏界面每天都呈现新的风景。如果你看到某张特别喜欢的图片，想要长期使用，要怎么找到图片在哪儿呢？本指南将教你如何在 Windows 11 和 Windows 10 上，轻松找到并保存 Windows 聚…

2025/2/10课堂记录

树上依赖背包，分组背包，vector邻接表，选课，树上dp，叶子的染色，链式前向星邻接表，数字转换，树的直径目录选课叶子的染色数字转换选课分组背包题这次是自己写的代码了，也就瞟了标准答案几眼，真的就几眼用的也是vector邻接表#include<iostream> #include<ve…

3.4 什么是浮点数

很多编程语言中都提供了两种表示小数的数据类型，分别为双精度浮点数和单精度浮点数双精度浮点数类型用64位、单精度浮点数类型用32位来表示全体小数。在C语言中，双精度浮点数类型和单精度浮点数类型分别用double和float来表示浮点数是指用符号、尾数、基数和指数这四部分来…

响应

ResponseBody注解位置：controll类和方法作用：将方法返回值直接相应，如果是实体对象和集合转成Json形式再相应、统一响应格式 result里有静态方法

并行计算架构和编程 | 目录

from pixiv JW资源汇总前言开新坑了，尽量完成它吧. 此篇博客为目录章节，主要汇总学习过程中用到的资料，记录时间线。 SourceCS自学指南 CMU 15-418/Stanford CS149: Parallel Computing 了解此课程的主要起始地，下面的评论含有价值的信息 PKUFlyingPig/CS149-parallel-co…

使用Microsoft/Windows LAPS管理本地管理员密码

什么是LAPS Local Administrator Password Solution，简称LAPS，是微软提供的一种用于管理本地管理员密码的解决方案。用于在Active Directory（AD）环境中自动管理和轮换众多客户端Windows的本地管理员账户及密码。在没有这个工具之前，本地管理员密码管理会非常的复杂。比如…

Avalonia系列文章之布局简介

在UI设计中，页面布局非常重要，良好的布局不仅可以有效的利用空间，还能提升交互体验，以达到事半功倍的效果。所以对于Avalonia UI初学者来说，布局控件的了解与学习也非常的重要，今天以一些小例子，简述Avalonia UI框架中布局控件的使用，仅供学习分享使用，如有不足之处，…

字符串比较方法和循环

ACM寒假集训第四期

ACM寒假集训第四期有理数取余思路 bx=a mod m x=((a mod m) * ( b^(-1) ) mod m)) mod m; 问题就转化为如何求解 b 的逆元 b x = 1 mod m ,b对m的逆元，当 gcd(b,m)=1 时才存在。存在 bx+my=1 通过辗转相除法可以得到b,m的最大公约数然后根据最后得到的一系列等式合并为 bx+m…

昆明理工大学2025年硕士研究生调剂汇总表（2月10日更新）

这是今年昆明理工大学调剂信息，目前只更新了部分学院的部分专业，后续会持续更新。【腾讯文档】昆明理工大学2025年硕士研究生调剂汇总表 https://docs.qq.com/sheet/DZERIbnpPb3JjeHFO

第一课 通用流程

了解场景和目标

了解评估准则

认识数据

数据预处理

数据清洗

数据采样

特征工程

特征处理

数值型

类别型

时间类

文本型

统计型

组合特征

特征选择

过滤法

包装法

嵌入法

模型融合

Bagging

Stacking

Boosting

相关文章

第一课通用流程