特征工程(二)

特征工程(二)

在这里插入图片描述

特征理解

理解手上的数据,就可以更好的明确下一步的方向。从繁杂的切入点中,主要着眼于一下几个方面:

  • 结构化数据与非结构化数据;
  • 数据的4个等级;
  • 识别数据中存在的缺失值;
  • 探索性数据分析;
  • 描述性统计;
  • 数据可视化;

我们从理解最基础的数据结构入手,然后研究不同的数据类型。在理解数据后,就可以开始修正有问题的数据了。例如,我们必须知道数据中有多少缺失值,以及如何处理。
可以查看这篇文章

特征增强

在理解数据后,可以对数据集进行清洗
主要包括一下内容:

  • 对非结构化数据进行结构化;
  • 数据填充——在原先没有数据的位置填充(缺失)数据
  • 数据归一化
    • 标准化(也称为z-score标准化)
    • 极差化(也称为min-max标准化)
    • L1和L2正则化

特征选择

对数据属性进行筛选,选择那些对我们的机器学习流水线有帮助的属性进行提取,得到特征。
这些方法主要包括:

  • 相关系数
  • 识别并移除多重共线性
  • 卡方检验;
  • 方差分析
  • 理解 p p p
  • 迭代特征选择;
  • 用机器学习测量熵和信息增益

特征构建

在进行数据集处理的时候,不仅可以进行特征筛选,选出可用的特征,也可以主动将数据进行构建,通过不同的构建思路,构建新的特征。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/337204.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

FS【1】:SSP

文章目录 前言1. Abstract2. Introduction2.1. Motivation2.1.1. Few-shot Segmentation (FSS) Task2.1.2. Few-shot Segmentation (FSS) Problem 2.2. Contribution 3. Methods3.1. Motivation3.2. Overview of the architecture4.3. Self-support Prototype4.4. Adaptive Sel…

RT-Thread基于AT32单片机的485应用开发(二)

在上篇RT-Thread基于AT32单片机的485应用开发(一)中实现了RS485收发,但总觉得效率不高,函数封装也不完善。考虑到RS485总线应用都是主从式结构,比如工业领域常用的Modbus协议,都是以帧为单位进行收发&#…

慕课热搜01

uniapp过滤器使用 创建一个过滤器: 在入口函数注册过滤器 // 注册过滤器 import * as filters from "./filters/index.js"Object.keys(filters).forEach(key>{Vue.filter(key,filters[key]) })使用过滤器: onPageScroll , uniapp监听滚动…

花为缘享奢APP震撼上线,2024奢侈品行业创业首选平台

中国是全球最大的奢侈品消费国,并且有着持续的消费增长潜力。普华永道在今年2月发布的《中国内地及香港地区奢侈品市场洞察》报告显示,随着旅游和社交活动逐渐步入正轨,全球奢侈品市场正稳步复苏,预计至2025年全球市场规模将以11%…

KVM系统虚拟化性能测试过程总结

buildroot编译 为啥要用buildroot 支持很多:交叉编译工具链、根文件系统生成、内核映像编译和引导加载程序编译。使用简单:使用类似内核的menuconfig、gconfig和xconfig配置界面,使用buildroot构建基本系统很容易。支持很多的包&#xff1a…

LightGBM原理和调参

背景知识 LightGBM(Light Gradient Boosting Machine)是一个实现GBDT算法的框架,具有支持高效率的并行训练、更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以处理海量数据等优点。 普通的GBDT算法不支持用mini-batch的方式训练,在每一次…

一键修复所有dll缺失的工具,dll修复工具下载使用教程

在计算机使用过程中,我们经常会遇到各种软件或系统错误提示,其中最常见的就是“找不到指定的模块”或“无法找到某某.dll文件”。Dll是动态链接库的缩写,它是Windows操作系统中的重要组成部分,负责提供各种功能和资源给应用程序使…

大模型PEFT技术原理(一):BitFit、Prefix Tuning、Prompt Tuning

随着预训练模型的参数越来越大,尤其是175B参数大小的GPT3发布以来,让很多中小公司和个人研究员对于大模型的全量微调望而却步,近年来研究者们提出了各种各样的参数高效迁移学习方法(Parameter-efficient Transfer Learning&#x…

【语义解析:连接自然语言与机器智能的桥梁】

语义解析:连接自然语言与机器智能的桥梁 语义解析技术可以提高人机交互的效率和准确性,在自然语言处理、数据分析、智能客服、智能家居等领域都有广泛的应用前景。特别是在大数据时代,语义解析能够帮助企业更快速地从大量的数据中获取有用的…

【开源商城推荐-LGPL-3.0】ts-mall 聚惠星商城

dts-shop: 聚惠星商城 DTS-SHOP,基于 微信小程序 springboot vue 技术构建 ,支持单店铺,多店铺入驻的商城平台。项目包含 微信小程序,管理后台。基于java后台语言,已功能闭环,且达到商用标准的一套项目体…

【EI会议征稿通知】第五届计算机信息和大数据应用国际学术会议(CIBDA 2024)

第五届计算机信息和大数据应用国际学术会议(CIBDA 2024) 2024 5th International Conference on Computer Information and Big Data Applications 第五届计算机信息和大数据应用国际学术会议(CIBDA 2024)将于2024年4月26-28日在…

Python pip 常用指令

前言 Python的pip是一个强大的包管理工具,它可以帮助我们安装、升级和管理Python的第三方库。以下是一些常用的pip指令。 1. 安装第三方库 使用pip安装Python库非常简单,只需要使用pip install命令,后面跟上库的名字即可。 # 安装virtuale…