第一课 通用流程

news/2025/2/10 23:33:49/文章来源:https://www.cnblogs.com/dingxingdi/p/18708976

image
其中\(\text{KNN}\)使用已经很少了,\(\text{SVM}\)在中小型数据集上表现很好
image

目录
  • 了解场景和目标
  • 了解评估准则
  • 认识数据
  • 数据预处理
    • 数据清洗
    • 数据采样
  • 特征工程
    • 特征处理
      • 数值型
      • 类别型
      • 时间类
      • 文本型
      • 统计型
      • 组合特征
    • 特征选择
      • 过滤法
      • 包装法
      • 嵌入法
  • 模型融合
    • Bagging
    • Stacking
    • Boosting

了解场景和目标

这个主要是说可以看看有没有类似的问题,然后可以借鉴那个问题的参数

了解评估准则

比如\(\text{SVM}\),可能以准确率,精确率,召回率等等作为评估准则

认识数据

一般指可视化数据,高维数据可以用\(\text{t-SNE}\)可视化

数据预处理

数据清洗

  • 不可信的样本丢掉。比如一个牙刷花了二十万买,这显然就是假数据
  • 缺省值非常多的字段考虑不用,缺省值很少的字段进行填充,缺省值不多不少的可以将其作为一个独立的类型使用独热编码

数据采样

  • 上/下采样。以负样本更多为例,前者指将正样本重复很多次,后者指删除很多负样本
  • 保证样本均衡。除了上下采样,还可以对正样本赋予更大的权重,甚至还可以使用\(\text{Bagging}\).比如正负样本比例为\(1:10\),那么我们训练十个分类器,每个分类器的训练集是\(1:1\)的正负样本,最后再集成

特征工程

特征处理

数值型

类别型

时间类

可以以不同的时间长度作为单位时间。这里相当于将连续型变量离散化了

文本型

统计型

组合特征

特征选择

过滤法

包装法

嵌入法

模型融合

Bagging

sklearn中有Bagging的类,可以直接问AI.原理跟随机森林是一样的。分类做投票,回归取平均

Stacking

这个简单来说,就是最终的预测器以基预测器的输出结果作为特征去训练,如下
image
image
跟神经网络有点像

Boosting

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/881908.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DeepSeek本地化部署超简单,比装个office还简单

一、背景 最近DeepSeek太火了,以至于每位伙伴都想尝试,都想说上几句。作为一名程序员,不仅想使用这个DeeptSeek的AI工具,还是用其做更多的事情,比如本地化部署、构建自己的知识库,或者其他的应用。 本以为DeepSeek本地化部署有多难,实际上验证后很简单,任何普通人只要会…

【CTF】内存取证分析

免责声明: 此文转载自Tide安全团队原创文章,转载请声明出处!文中所涉及的技术、思路和工具仅供以安全为目的的学习交流使用,任何人不得将其用于非法用途给予盈利等目的,否则后果自行承担!一、基本概念 内存取证是指从计算机内存(RAM)中提取和分析数据的过程。当计算机运…

如何轻松保存或导出 Windows 聚焦图片

转自:https://www.sysgeek.cn/save-windows-spotlight-images/ Windows 聚焦功能可以让桌面和锁屏界面每天都呈现新的风景。如果你看到某张特别喜欢的图片,想要长期使用,要怎么找到图片在哪儿呢?本指南将教你如何在 Windows 11 和 Windows 10 上,轻松找到并保存 Windows 聚…

2025/2/10课堂记录

树上依赖背包,分组背包,vector邻接表,选课,树上dp,叶子的染色,链式前向星邻接表,数字转换,树的直径目录选课 叶子的染色 数字转换选课分组背包题 这次是自己写的代码了,也就瞟了标准答案几眼,真的就几眼用的也是vector邻接表#include<iostream> #include<ve…

3.4 什么是浮点数

很多编程语言中都提供了两种表示小数的数据类型,分别为双精度浮点数和单精度浮点数 双精度浮点数类型用64位、单精度浮点数类型用32位来表示全体小数。 在C语言中,双精度浮点数类型和单精度浮点数类型分别用double和float来表示 浮点数是指用符号、尾数、基数和指数这四部分来…

响应

ResponseBody注解 位置:controll类和方法 作用:将方法返回值直接相应,如果是实体对象和集合转成Json形式再相应、 统一响应格式 result里有静态方法

并行计算架构和编程 | 目录

from pixiv JW资源汇总 前言 开新坑了,尽量完成它吧. 此篇博客为目录章节,主要汇总学习过程中用到的资料,记录时间线。 SourceCS自学指南 CMU 15-418/Stanford CS149: Parallel Computing 了解此课程的主要起始地,下面的评论含有价值的信息 PKUFlyingPig/CS149-parallel-co…

使用Microsoft/Windows LAPS管理本地管理员密码

什么是LAPS Local Administrator Password Solution,简称LAPS,是微软提供的一种用于管理本地管理员密码的解决方案。用于在Active Directory(AD)环境中自动管理和轮换众多客户端Windows的本地管理员账户及密码。 在没有这个工具之前, 本地管理员密码管理会非常的复杂。比如…

Avalonia系列文章之布局简介

在UI设计中,页面布局非常重要,良好的布局不仅可以有效的利用空间,还能提升交互体验,以达到事半功倍的效果。所以对于Avalonia UI初学者来说,布局控件的了解与学习也非常的重要,今天以一些小例子,简述Avalonia UI框架中布局控件的使用,仅供学习分享使用,如有不足之处,…

ACM寒假集训第四期

ACM寒假集训第四期 有理数取余 思路 bx=a mod m x=((a mod m) * ( b^(-1) ) mod m)) mod m; 问题就转化为如何求解 b 的逆元 b x = 1 mod m ,b对m的逆元,当 gcd(b,m)=1 时才存在。存在 bx+my=1 通过辗转相除法可以得到b,m的最大公约数然后根据最后得到的一系列等式合并为 bx+m…

昆明理工大学2025年硕士研究生调剂汇总表(2月10日更新)

这是今年昆明理工大学调剂信息,目前只更新了部分学院的部分专业,后续会持续更新。 【腾讯文档】昆明理工大学2025年硕士研究生调剂汇总表 https://docs.qq.com/sheet/DZERIbnpPb3JjeHFO