目录
- 导入数据并观察
- 合并数据
- 提取出标签并对标签进行处理
- 合并训练集和测试集
- 变量转化
- 正确化变量属性
- 对分类型特征进行独热编码
- 填写数值型特征的缺失值
- 标准化数值型特征
- 建立模型
- 分出训练集和测试集
- 集成
- 提交结果
导入数据并观察
合并数据
这里可能有个问题。我们说不要让模型提前见到数据,那么这里将训练集和测试集合并起来处理是否违反了这个规则呢?实际上,现实中我们是拿不到测试集的,所以不存在这个问题,在竞赛中,我们拿到了测试集,为了让模型的效果更好,我们会故意让模型提前看到测试集的一部分
提取出标签并对标签进行处理
合并训练集和测试集
变量转化
正确化变量属性
对分类型特征进行独热编码
填写数值型特征的缺失值
标准化数值型特征
建立模型
分出训练集和测试集
集成
提交结果
看到了1:28:15