名称:混凝土承重等级预测
一、任务背景
在土木工程中,混凝土是构筑建筑物最基本的材料。混凝土可承受的强度与其寿命、制造所使用的材料、测试时的温度等因素息息相关。混凝土的制造过程十分复杂,涉及水泥、熔炉产出的煤渣和灰烬、水、强度塑化剂、粗聚合剂、细聚合剂等多种化工原料。我们用一个压力达2000kN的液压测试机采集混凝土承重能力的指标,对混凝土方块或圆柱体进行压力测试。这个测试是破坏性的,并且可能会持续很长时间,因此如果我们能够脱离实际测试,直接使用制作原料对其承重能力进行预测,则将具备非常高的商业价值。图1 显示了一次承重能力测试。在本次研究中,我们希望能够建立出一个以混凝土制作配方为输入数据,能够预测其承重能力的模型。图 1 承重能力测试
二、任务数据
为了通过混凝土配方预测其成品的承重强度,我们向数据集中采集了大量的样本数据。每个样本都包含8个特征值作为输入数据,其输出值就是指标承重强度。本数据集包含了如下指标(按照数据集中特征值的顺序进行排列),其中输入指标包括以下内容。(1)Cement 单位:kg /m3。(2)Blast Furnace Slag 单位:kg /m3。(3)Fly Ash 单位:kg /m3。(4)Water 单位:kg /m3。(5)Superplasticizer 单位:kg /m3。(6)Coarse Aggregate 单位:kg /m3。(7)Fine Aggregate 单位:kg /m3。(8)Age 单位:kg /m3。输出指标包括Concrete compressive strength 单位:MPa。每个样本有8个混凝土原料配方作为输入特征值(前8 列)及1个目标值(最后一列,承重强度)
三、任描述务
1.根据样本的承重强度对样本标签进行离散化处理,将连续承重强度转换为离散承重等级,然后实现分类任务。
输出指标离散化需要考虑两方面因素:
一是调研文献,分析各等级混凝土承重强度;
二是不同的承重等级数目情况下,模型的预测效果,对比选出预测结果最好的离散化方式。(20分)2.导入数据集,返回当前数据的统计信息并进行阐述说明,以前6行为例进行结果展示。(10分)3. 对混凝土数据集进行可视化处理,生成各特征之间关系的矩阵图。(10分)4. 数据预处理,并将原始数据集划分为训练集和测试集,选用合适的机器学习算法对混凝土数据集进行拟合。(20分)5. 采用交叉验证,估计超参数,分析超参数对预测结果的影响。(20分)6. 预测结果分析及可视化,绘制混淆矩阵,分析不同承重等级混凝土的查全率和查准率
四、结果及分析
简明结果精度0.85查准率0.85查全率0.93F1值0.89详细方案和结果分析解决方案【包括预测分析的设计思路的具体实现过程或实现步骤】
1.数据加载与描述:load_and_describe_data 函数:功能:从指定文件路径加载数据集(Excel 文件),并打印数据集的统计信息和前 6 行数据。实现:使用 pandas 的 read_excel 函数读取文件,使用 describe() 方法生成统计信息,使用 head(6) 显示前 6 行。2.数据可视化:visualize_data 函数:功能:生成特征关系矩阵图,以可视化数据集中各特征之间的相关性。实现:使用 seaborn 的 heatmap 函数,以 corr() 计算的相关性矩阵为输入,设置 annot=True 显示相关性数值,使用 cmap='viridis' 作为颜色映射。3.数据预处理:preprocess_data 函数:功能:将数据集划分为输入特征 X 和目标值 y,并将其划分为训练集和测试集,对训练集和测试集进行标准化处理。实现:使用 iloc 从 data 中提取输入特征 X和目标值 y使用 train_test_split 以 80:20 的比例划分训练集和测试集,设置 random_state=42 保证结果可重复。使用 StandardScaler 对 X_train 进行标准化处理,将其拟合(fit_transform),并将此缩放器应用于 X_test(transform)。4.标签离散化:discretize_labels 函数:功能:根据承重强度对样本标签进行离散化处理,将连续的目标变量转换为离散的类别。实现:计算 y 的最小值和最大值。使用 np.linspace 生成等间距的 bins。使用 np.digitize 将 y 中的每个元素分配到相应的 bins 中,得到离散化的标签。5.选择最佳离散化方式:select_best_discretization 函数:功能:对比不同离散化等级数量对逻辑回归模型性能的影响,选择最佳的离散化方式。实现:遍历 num_class_list 中的不同离散化等级数量。对于每个离散化等级,使用 discretize_labels 对 y 进行离散化。对离散化后的 y 和 X 进行训练集和测试集划分。用逻辑回归模型(LogisticRegression)拟合数据,使用 model.score 计算模型在测试集上的得分。选择得分最高的离散化等级作为最佳离散化等级。6.模型拟合与超参数调优:fit_model 函数:功能:使用 GridSearchCV 对逻辑回归模型进行超参数调优。实现:定义超参数搜索空间 param_grid,包含 solver、max_iter 和 C 等参数。使用 GridSearchCV 结合逻辑回归模型和 param_grid,设置 cv=5 进行 5 折交叉验证。调用 fit 方法进行训练,打印出最佳参数。7.交叉验证:cross_validate_model 函数:功能:使用交叉验证评估模型性能。实现:使用 cross_val_score 对模型进行 5 折交叉验证,打印交叉验证得分。8.预测结果分析与可视化:analyze_prediction 函数:功能:对测试集进行预测,计算混淆矩阵和分类报告,并将混淆矩阵可视化。实现:使用 model.predict 对 X_test 进行预测得到 y_pred。使用 confusion_matrix 计算混淆矩阵,classification_report 生成分类报告。使用 seaborn 的 heatmap 绘制混淆矩阵,设置 annot=True 显示矩阵元素,fmt='d' 以整数形式显示元素。9.样本不平衡处理:check_and_apply_smote 函数:功能:检查训练集中每个类别的样本数量,如果样本数过少,不使用 SMOTE 过采样;否则使用 SMOTE 进行过采样。实现:使用 np.bincount 统计每个类别的样本数量。若最小样本数大于 threshold,使用 SMOTE 进行过采样,否则不进行过采样。10.可视化标签分布:visualize_label_distribution 函数:功能:可视化标签的分布情况。实现:使用 sns.countplot 绘制标签的计数图。11.主函数 main 的执行流程:调用 load_and_describe_data 加载数据,若加载失败则终止程序。调用 visualize_data 可视化数据。调用 preprocess_data 进行数据预处理。调用 select_best_discretization 选择最佳离散化等级。对训练集和测试集的 y 进行离散化处理并可视化标签分布。使用 check_and_apply_smote 处理样本不平衡问题。依次训练逻辑回归、决策树和随机森林模型:调用 fit_model 进行模型拟合和超参数调优。调用 cross_validate_model 进行交叉验证。调用 analyze_prediction 进行预测结果分析和可视化。结果展示【包括每个任务点结果的展示】根据样本的承重强度对样本标签进行离散化处理,将连续承重强度转换为离散承重等级。至少给出3种输出指标离散化的方案,并阐述理由。在后续任务中分别进行模型训练,并在结果展示4、5和结果分析中,从精度,查准率,查全率,FI值等多个角度进行分析,最终选出预测结果最好的离散化方式。等距分箱优点在于简单直观,易于实现,适用于数据在取值范围上均匀分布的情况。它将整个数据范围均匀划分为 num_classes 个区间,对于一些具有较为均匀分布特征的数据,能够较好地将连续变量转换为离散类别,且不依赖于数据的具体分布模式,仅依据数据的取值范围进行划分。2.等频分箱适用于数据分布不均匀的情况,避免了某些区间内数据点过于稀疏或密集的问题,使得每个离散等级中的样本数量大致相同,能够更好地反映数据的分布特征。3.基于聚类的离散化优点在于它是一种基于数据内在结构的离散化方法,能够发现数据中的自然分组,对于具有复杂分布的数据,可以根据数据的相似性将其划分为不同的类别。返回前六条数据结果(结果截图,并标明图1. 数据展示),并对数据集中的概要信息进行描述。图 1数据可视化结果(标明图2. 数据可视化)图 2混淆矩阵展示(标明图3. 分类混淆矩阵)图 3-等距分箱图 3-等频分箱图 3-基于聚类的离散化精度,查准率,查全率,FI值的结果截图(标明图4. 分类结果)图 4-等距分箱图 4-等频分箱图 4-基于聚类的离散化结果分析【包括预测结果分析(包括对超参影响、精度、查准率、查全率、F1值的分析)、可能存在的问题、可提升的改进思路等】从整体来看,在三种离散化方法中,等距分箱离散化结合逻辑回归模型的表现相对最佳,其整体精度达到 0.72,对于类别 0 和类别 1 在查准率、查全率和 F1 值等指标上展现出较好性能,不过类别 3 的预测效果很差,仅一个样本可能是导致该情况的原因。等频分箱离散化的整体精度为 0.67,在类别 1 的性能有所下降但类别 2 有一定优势,而基于聚类离散化的整体精度低至 0.25,各项指标表现都不佳,可能是其未充分考虑数据原始分布特征所致。此外,三种离散化方法下逻辑回归的最佳超参数均为 {'C': 10, 'max_iter': 1000, 'solver': 'saga'},不过不排除有更好的超参数组合未被搜索到。可能存在的问题包括类别不平衡,如类别 3 样本过少影响整体性能,以及仅测试离散化等级为 3 可能未找到最优等级在 select_best_discretization 函数中,不同的离散化等级数量会影响模型性能。如果离散化等级数量过少,可能会丢失过多信息,导致模型无法学习到数据的细微特征;而离散化等级数量过多可能会导致过拟合,因为模型可能会过度学习噪声。尝试更多离散化等级,在模型方面,尝试不同分类器,如 DecisionTreeClassifier 和 RandomForestClassifier,对于逻辑回归则扩大超参数搜索范围,增加更多超参数及其取值,以优化性能。