【COMP337 LEC1】

Data Preprocessing Phase 数据预处理

1. Feature extraction 特征提取

1. An object is described by a collection of attributes
一个对象可以由一组特征来描述
2. A feature is a property or a characteristic of an objects
物体的属性

2. Data cleaning 数据清洗

Extracted data may have erroneous or missing fields 
提取的数据可能有错误或者缺失字段

方法包括:

(估计一个缺失值 、消除不一致的值)

3. Feature selection & transformation

Many data mining algorithms do not work efficiently on high dimensional data
高纬度的数据不利于数据挖掘算法

1. 方法包括:

identify and remove irrelevant features
识别并且去除不相关的特征
transform the current set of features to a new data space
改变特征的形式,例如降维..

2. Data transformation

Transform attributes to new attributes 改变属性的形式
(e.g., numerical age -> { young , middleaged , elderly })
例子:数字年龄 -> 年轻, 中等年龄, 老年 

Types of Data 数据形式

1. Nondependency-oriented data:

objects do not have dependencies

Types of data:

1. Numerical or quantitative (values have natural ordering)  数值或数量
        integer values (number of petals in a flower)
         real values (length of a petal)
2.  Categorical or unordered discrete-valued                            离散的无序值/类别
         discrete unordered values/categories (colour of a flower petal)
3.  Binary data (two values: 0 and 1)                                             二进制数据
        Can be seen as a categorical data (two categories) or a numerical data (0<1)
        Can be used to represent Set Data via characteristic vectors
4.  Text data                                                                                    文本数据 
        Document as a string (dependency-oriented data type)
        Document as a set of words or terms (vector-space representation: frequencies of the words in the document)

2. Dependency-oriented data:

implicit or explicit dependencies between objects may exist 数据之间存在显示或隐式的依赖关系

网络:节点(对象)通过边缘(关系)连接
从传感器收集的连续测量值

1. Implicit dependencies 

没有显示的指定关系,但是是知道这个关系存在的

比如:温度值是一个传感器测量出来的,那么这个值和这个传感器就有隐性的依赖关系

Types of data with implicit dependencies

一些例子:

1. 时间和数据 2. 空间和数据

2. Explicit dependencies

会有edges来指定明确的关系

Graphs or network data (edges specify explicit relationships)
Types of data with explicit dependencies

Data Representation 数据表示

Data representation is one of the first things we must do in data  mining
What we can mine is largely determined by our data representation
There is no one best data representation method for all data mining tasks 没有一个最好的数据表示可以用于所有数据挖掘

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/467371.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue3快速上手(三)Composition组合式API及setup用法

一、Vue2的API风格 Vue2的API风格是Options API,也叫配置式API。一个功能的数据&#xff0c;交互&#xff0c;计算&#xff0c;监听等都是分别配置在data, methods&#xff0c;computed, watch等模块里的。如下&#xff1a; <template><div class"person"…

【数据存储+多任务爬虫】

数据存储 peewee模块 第三方模块&#xff0c;也需要在cmd中安装。 from peewee import *db MySQLDatabase("spider",host"127.0.0.1",port3306,userroot,password123456 )# 类》表 class Person(Model):name CharField(max_length20) # 类型/约束bi…

Stable Diffusion 模型下载:DreamShaper XL(梦想塑造者 XL)

本文收录于《AI绘画从入门到精通》专栏&#xff0c;专栏总目录&#xff1a;点这里。 文章目录 模型介绍生成案例案例一案例二案例三案例四案例五案例六案例七案例八案例九案例十 下载地址 模型介绍 DreamShaper 是一个分格多样的大模型&#xff0c;可以生成写实、原画、2.5D 等…

猫头虎分享已解决Bug || AttributeError: ‘Sequential‘ object has no attribute ‘session‘

博主猫头虎的技术世界 &#x1f31f; 欢迎来到猫头虎的博客 — 探索技术的无限可能&#xff01; 专栏链接&#xff1a; &#x1f517; 精选专栏&#xff1a; 《面试题大全》 — 面试准备的宝典&#xff01;《IDEA开发秘籍》 — 提升你的IDEA技能&#xff01;《100天精通鸿蒙》 …

(免费领源码)PHP+Lucky+Baby母婴用品网站的设计与实现75554-计算机毕业设计项目选题推荐

摘 要 近年来&#xff0c;随着移动互联网的快速发展&#xff0c;电子商务越来越受到网民们的欢迎&#xff0c;电子商务对国家经济的发展也起着越来越重要的作用。简单的流程、便捷可靠的支付方式、快捷畅通的物流快递、安全的信息保护都使得电子商务越来越赢得网民们的青睐。现…

【ES6】Promise

Promise 回调地狱 const fs require(fs);fs.readFile(./a.txt, utf-8, (err, data) > {if(err) throw err;console.log(data);fs.readFile(./b.txt, utf-8, (err, data) > {if(err) throw err;console.log(data);fs.readFile(./c.txt, utf-8, (err, data) > {if(er…

VueCLI核心知识2:插件、自定义事件

1 插件 功能&#xff1a;增强Vue 1. 定义插件 2. 使用插件 2 自定义事件 一种组件间的通信方式&#xff1a;适用于 子组件 > 父组件 方式1&#xff1a;使用 或者v-on: <template><div id"app"><!-- 1.通过父组件给子组件绑定一个自定义事件实现…

前端如何生成临时链接?

您好&#xff0c;如果喜欢我的文章&#xff0c;可以关注我的公众号「量子前端」&#xff0c;将不定期关注推送前端好文~ 前言 前端基于文件上传需要有生成临时可访问链接的能力&#xff0c;我们可以通过URL.createObjectURL和FileReader.readAsDataURAPI来实现。 URL.create…

Java基于微信小程序的电子竞技信息交流平台

博主介绍&#xff1a;✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精彩专栏推荐订阅&#x1f447;…

算法学习——LeetCode力扣二叉树篇4

算法学习——LeetCode力扣二叉树篇4 222. 完全二叉树的节点个数 222. 完全二叉树的节点个数 - 力扣&#xff08;LeetCode&#xff09; 描述 给你一棵 完全二叉树 的根节点 root &#xff0c;求出该树的节点个数。 完全二叉树 的定义如下&#xff1a;在完全二叉树中&#xf…

【Linux学习】线程互斥与同步

目录 二十.线程互斥 20.1 什么是线程互斥&#xff1f; 20.2 为什么需要线程互斥? 20.3 互斥锁mutex 20.4 互斥量的接口 20.4.1 互斥量初始 20.4.2 互斥量销毁 20.4.3 互斥量加锁 20.4.4 互斥量解锁 20.4.5 互斥量的基本原理 20.4.6 带上互斥锁后的抢票程序 20.5 死锁问题 死锁…

离散数学截图

二元运算及其性质 二元运算中的特殊元 半群和独异点 代数系统的同态与同构 下确界是最大的下界&#xff0c;而在4、5、6三个下界里面&#xff0c;4和5都比6大。可4和5之间没办法分出大小&#xff0c;所以这个哈斯图没有下确界