数据
如:
定性数据:
性别:男、女
颜色:红、绿、青、蓝、紫
教育程度:高中、本科、硕士、博士
评价:好评、中评、差评
定量数据:
年份:2019、2018、2017、2016
温度:10、15、20、25、30、35、40
身高:160、165、170、175、180
体重:40、45、50、55、60、65
数据和变量
- 数据(data)是由变量(variable)组成的
性别 颜色 教育程度 评价
年份 温度 身高 体重
- 一个变量(variable)应该包含至少2个不同的取值
定性 /分类变量
性别:男(1)、女(2)
颜色:红(1)、绿(2)、青(3)、蓝(4)、紫(5)
类别;性质上的差异,而非数量上的差异
只能进行是否相等的比较
无顺序(不能比较大小)或等级(不能比较优劣)
教育程度:高中(3)、本科(4)、硕士(5)、博士(6)
评价:好评(5)、中评(3)、差评(1)
类别;性质上的差异,而非数量上的差异
可以进行是否相等的比较
有顺序(可以比较大小)或等级(可以比较优劣)
好评不等于5倍的差评
定量/数值变量
年份:2019、2018、2017、2016
温度:10、15、20、25、30、35、40
数值
可以进行是否相等的比较
有顺序(可以比较大小)
等间距,可以进行加减运算
身高:160、165、170、175、180
体重:40、45、50、55、60、65
数值
可以进行是否相等的比较
有顺序(可以比较大小)
等间距,可以进行加减运算
可以进行乘除运算
观测、变量、与数据矩阵
性别 | 教育程度 | 出生年份 | 身高 |
---|---|---|---|
女 | 高中 | 1999 | 165 |
男 | 本科 | 2000 | 175 |
男 | 硕士 | 2001 | 170 |
女 | 博士 | 1995 | 166 |
一行叫作 一次观测(observation)
一列叫作 一个变量(variable)
这个表格叫作 数据矩阵(data matrix)
测量尺度
抽象数字系统的属性
四个属性
- 每一个数字有其独特的含义(identity) 性别 颜色
- 数字具有从小到大的固有顺序(magnitude)教育程序 评价
- 任意位置的单位间距是相同的(equal intervals)年份 温度
- 零(0)表示被测量的属性不存在(absolute/true zero)身高 体重
测量(measurement)
- 测量是指根据一定的规则,把数字(numbers)分配给观测(observations)
- 把数字分配给观测的方式,决定了测量尺度(scale of measurement)
- 每个测量尺度代表抽象数字系统的特定属性或属性集合
名目尺度(nominal scale)
- 名目尺度是根据事物的特征对其进行分类的一种尺度
只具备第一个属性,即每一个数字有其独特的含义
得到的变量称为: 名目变量(nominal variable) 性别 颜色
次序尺度(ordinal scale)
- 次序尺度是根据事物的特征对其进行等级排序的一种尺度
具备前两个属性 :
每一个数字有其独特的含义
数字具有从小到大的固有顺序
得到的变量称为: 次序变量(ordinal variable) 教育程度 评价
等距尺度(interval scale)
- 等距尺度是指数值之间的单位间隔是等距的一种尺度
具备前三个属性:
每一个数字有其独特的含义
数字具有从小到大的固有顺序
任意位置的单位间距是相同的
得到的变量称为: 等距变量(interval variable)年份 温度 时间
等比尺度(ratio scale)
- 等比尺度是具有等距尺度的所有特性并且零点有意义的尺度
具备所有四个属性:
每一个数字有其独特的含义
数字具有从小到大的固有顺序
任意位置的单位间距是相同的
零(0)表示被测量的属性不存在
得到的变量称为:等比变量(ratio variable) 身高 体重
因为有真零点,因此可以进行乘除运算
没有真零点,则乘除运算结果不唯一(无意义)
测量尺度的重要性
测量尺度决定了可以进行哪些逻辑与数学运算和使用哪种统计方法
尺度 | 举例 | 逻辑与数学运算 | 类别 |
---|---|---|---|
名目 | 性别、颜色 | 等于、不等于 | 定性/(无序)分类变量 |
次序 | 教育程度、评价 | 等于、不等于、大于、小于 | 定性/(有序)分类变量 |
等距 | 温度、年份、时间 | 等于、不等于、大于、小于、加、减 | 定量/数值变量 |
等比 | 身高、体重、年龄 | 等于、不等于、大于、小于、加、减、乘、除 | 定量/数值变量 |