数据挖掘(3)特征化

从数据分析角度,DM分为两类,描述式数据挖掘,预测式数据挖掘。描述式数据挖掘是以简介概要的方式描述数据,并提供数据的一般性质。预测式数据挖掘分析数据建立模型并试图预测新数据集的行为。

DM的分类:

  • 描述式DM:以简洁、概要的方式描述数据、提供数据的有趣的一般性质。
    • 用以产生数据的特征化和比较描述:
      • 特征化:提供给定数据集的简洁汇总(一个数据集)。
      • 比较(区分):提供两个或多个数据集的比较描述,其中一个为主数据集,其他数据集与其进行对比分析。
  • 预测式DM:分析数据,建立模型,试图预测新数据集的行为。

一、数据概化与基于汇总的特征化

1. 数据概化

  1. 更一般的(而不是较低的) 抽象层描述数据。
  2. 将大量的相关数据从一个较低的概念层次转化到一个比较高的层次。
    • 例如:把location维度上将地区概化为城市,甚至是省份
  3. 方法
    • 数据立方体(或OLAP)方法
    • 面向属性的归纳方法

 

2. 数据立方体(OLAP)方法

  1. 在数据立方体上进行计算和存储结果
  2. 优点:
    1. 数据概化的一种有效实现。
    2. 能计算多种不同的度量值。(count、ave、sum、min、max)
    3. 概化与特征分析通过一系列的数据立方体操作完成,上钻、下钻操作。
  3. 限制:
    * 只能为 非数值类型(离散的)维产生的概念分层。
    * 非数值类型:名义型、序数型(属于离散化的属性)。
    缺乏智能分析,不能自动确定分析中该使用哪些维,概化到哪个层次。

3. 面向属性归纳(AOI)(重点)

  1. 前提:有大量不同的取值
  2. 可处理连续性数据,比数据立方体更加智能
  3. 基本思想:
    1. 首先使用DB 收集任务相关的数据。
    2. 每个属性的不同值的个数进行概化(属性删除、属性概化)。
    3. 基本思想:
      1. 首先使用DB 收集任务相关的数据。
      2. 每个属性的不同值的个数进行概化(属性删除、属性概化)。
    4. 属性删除(重点)
      1. 一个属性有许多不同数值:且
        • 该属性没有定义概化操作符(没有概念分层)。
          • 一个属性拥有许多不同的数值,却没有定义对他的泛化操作。
        • 或较高层概念可以用其他属性表示。
          • eg:出生日期:birth_date:1995-1-1,出生日期是年龄的更高层次,可以将其表现,所以可以将birth_date删除。
    5. 属性概化(重点)
      1. 若一个属性有许多不同数值,且:在该属性上存在概化操作符(有概念分层),则应当选择该概化操作符,并逐层进行概化。
      2. 概化操作符:层次性,比如birth_day:年月日。

4.特征化(面向属性归纳)

两种方法:

  1. 属性概化阈值控制:(控制属性取值个数)
    • 取值范围:[2-8]
    • 属性的不同值个数大于属性概化阈值,则应当删除或概化。
    • 概化层次太高,可加大阈值(属性下钻);反之,减小阈值(属性上卷)。
  2. 概化关系阈值控制:(控制最后的广义元组数量)
    • 控制最后关系、规则的大小。(最后生成广义元组)
    • 设置阈值:[10-30]
    • 概化关系中不同元组的个数超过属性概化阈值,则概化。
    • 概化关系太少,可加大阈值(属性下钻);反之,减小阈值(属性上卷)。
    • 概化到最高层(最底层)也不满足,则需要将其删除。

 

5.例子分析

 

 二、属性相关分析(重点)

  1. 在处理数据中,包含很多与挖掘任务不相关或弱相关的属性,引入属性相关分析。
  2. 如果某个属性可以很好区分该类与其他类,则该属性是任务高度相关的。
  3. 在处理数据中,包含很多与挖掘任务不相关或弱相关的属性,引入属性相关分析。
  4. 如果某个属性可以很好区分该类与其他类,则该属性是任务高度相关的。

1. 属性相关分析法基本思想

  1. 基本思想:给定的数据集,计算某种度量,用于量化属性与给定的类或概念间的相关性。
  2. 常用的度量:信息增益、相关系数、GINI索引、不确定性

2.信息增益法(重点)

  1. 信息增益法:

    1. 决策树归纳学习算法(ID3,C4.5),删除信息量较少的属性,保留信息量较大的属性。
  2. ID3算法

    1. 概念为启发函数。
      •    
      • 熵越大、携带的信息量越大、越不容易被预测

    2. 选择具有最大信息增益的属性作为当前划分节点。
    3. 基本原理:
      • 根据类别已知的训练数据集构造一颗决策树;根据决策树再对类别未知的数据对象进行分类。
      • 每一步选择都是选择最大信息增益。
    4. 决策树:每个节点的选择:选择信息增益最大的属性为当前节点。
    5. 本步骤只是求出不确定性

 

3. 通过熵来进行选择

 

4.属性相关分析步骤

  1. 数据收集:建立目标数据集,以及对比数据集,目标数据集与对比数据集不相交。
  2. 利用保守的AOI方法进行属性相关分析。对初始的数据集进行删除、概化等操作形成候选数据集。
  3. 删除不相关、弱相关的属性。如信息增益度量
  4. 使用AOI产生概念描述:利用更严格的属性概化控制阈值进行属性的归纳。
    • 任务是:概念描述,使用初始目标数据集。
    • 任务是:比较概念描述,使用初始目标数据集,对比数据集。

三、挖掘类比较:区分不同的类

 

  1. 比较概念中,同一个属性要概化到同一个层次。
  2. d—权
    • qa所包含的Cj中数据行数与qa所涵盖的所有数据行数(包括目标数据集及所有对比数据集)之比

四、常见的统计度量指标

  1. 中心趋势:均值、中位数、模(众数)
    • 众数:如果每个数值仅出现1次则无众数
  2. 数据分布:四分位数、方差、标准差
    • 四分位数:
      • 数值下数据集合的第k个百分位数。
      • 中位数:第50个百分位数
      • 第一个四分位数Q_1第25个百分位数;第三个百分位数 Q_3:第75个百分位数
      • 中间四分位区间IQR=Q_3-Q_1
      • 识别孤立点: x \leq Q_1-1.5IQR || x \geq Q_3 + 1.5IQR

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/125259.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python安装指南:安装Python、配置Python环境(附安装包)

1. 选择正确的版本,下载安装包 根据你的实际需要选择Python发行版本。 值得注意的是,编程语言包并不是越新越好的,不同版本的Python之间可能会产生兼容性问题。 如果你不确定你的项目需要哪个版本,请查阅您可能需要使用到的插件的…

洛谷题目题解详细解答

洛谷是一个很不错的刷题软件,可是找不到合适的题解是个大麻烦,大家有啥可以私信问我,以下是我已经通过的题目。 你如果有哪一题不会(最好是我通过过的,我没过的也没关系),可以私信我&#xff0…

【java基础-实战1】字符串的驼峰与下划线互转

插: 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站。 坚持不懈,越努力越幸运,大家一起学习鸭~~~ 背景 在日常开发过程中,驼峰与下划线的互…

十二、同步互斥与通信

1、概述 (1)可以把多任务系统当做一个团队,里面的每一个任务就相当于团队中的一个人。团队成员之间要协调工作进度(同步)、争用会议室(互斥)、沟通(通信)。多任务系统中所涉及的概念,都可以在现实生活中找到例子。 (2)各类RTOS都会涉及这些概念&#x…

数据结构-优先级队列(堆)

文章目录 目录 文章目录 前言 一 . 堆 二 . 堆的创建(以大根堆为例) 堆的向下调整(重难点) 堆的创建 堆的删除 向上调整 堆的插入 三 . 优先级队列 总结 前言 大家好,今天给大家讲解一下堆这个数据结构和它的实现 - 优先级队列 一 . 堆 堆(Heap&#xff0…

1800_vim的宏录制功能尝试

全部学习信息汇总: GreyZhang/editors_skills: Summary for some common editor skills I used. (github.com) 最近5年多来,我emacs的编辑器用的还是比较多的。我的配置基本上是一个spacemacs,然后根据自己的需求增加了一丁点儿的其他配置。而…

1024 科学计数法

一.问题: 科学计数法是科学家用来表示很大或很小的数字的一种方便的方法,其满足正则表达式 [-][1-9].[0-9]E[-][0-9],即数字的整数部分只有 1 位,小数部分至少有 1 位,该数字及其指数部分的正负号即使对正数也必定明确…

华为云云耀云服务器L实例评测|Uniapp开发部署茶叶商城小程序、H5

1、华为云云耀云服务器L实例评测|Uniapp开发茶叶商城小程序、H5 华为云耀云服务器L实例是新一代开箱即用、面向中小企业和开发者打造的全新轻量应用云服务器。多种产品规格,满足您对成本、性能及技术创新的诉求。云耀云服务器L实例提供丰富严选的应用镜像…

lv7 嵌入式开发-网络编程开发 10 TCP协议是如何实现可靠传输的

目录 1 TCP 最主要的特点 1.1 特点 1.2 面向流的概念 1.3 Socket 有多种不同的意思 2 TCP是如何实现可靠传输的? 3 TCP报文段的首部格式 4 作业 1 TCP 最主要的特点 TCP 是面向连接的运输层协议,在无连接的、不可靠的 IP 网络服务基础之上提供可…

微信管理系统

在这个全民微信的时代,微信已成为生活和工作中不可缺少的工具,为了方便,大部分人都不会只有一个微信,很多企业老板和创业者都已经开始用微信管理系统来提升自身的业务效率和客户满意度。 微信管理系统适用哪些行业呢? …

MyBatisPlus(十一)判空查询:in

说明 判空查询&#xff0c;对应SQL语句中的 in 语句&#xff0c;查询参数包含在入参列表之内的数据。 in Testvoid inNonEmptyList() {// 非空列表&#xff0c;作为参数List<Integer> ages Stream.of(18, 20, 22).collect(Collectors.toList());in(ages);}Testvoid in…

python修改unittestreport中的用例条数

背景: 自动化框架中使用yaml文件作为数据配置&#xff0c;使用ddt作为数据驱动来运行测试用例&#xff0c;由于测试用例都是基于场景去编写&#xff0c;目前都是一个测试类算是一条测试用例&#xff0c;但基于测试报告里面一个类运行的测试方法有多个&#xff0c;因此统计的测试…