12.12机器学习

名称:混凝土承重等级预测

一、任务背景

在土木工程中,混凝土是构筑建筑物最基本的材料。混凝土可承受的强度与其寿命、制造所使用的材料、测试时的温度等因素息息相关。混凝土的制造过程十分复杂,涉及水泥、熔炉产出的煤渣和灰烬、水、强度塑化剂、粗聚合剂、细聚合剂等多种化工原料。我们用一个压力达2000kN的液压测试机采集混凝土承重能力的指标,对混凝土方块或圆柱体进行压力测试。这个测试是破坏性的,并且可能会持续很长时间,因此如果我们能够脱离实际测试,直接使用制作原料对其承重能力进行预测,则将具备非常高的商业价值。图1 显示了一次承重能力测试。在本次研究中,我们希望能够建立出一个以混凝土制作配方为输入数据,能够预测其承重能力的模型。图 1 承重能力测试

二、任务数据

为了通过混凝土配方预测其成品的承重强度,我们向数据集中采集了大量的样本数据。每个样本都包含8个特征值作为输入数据,其输出值就是指标承重强度。本数据集包含了如下指标(按照数据集中特征值的顺序进行排列),其中输入指标包括以下内容。(1)Cement 单位:kg /m3。(2)Blast Furnace Slag 单位:kg /m3。(3)Fly Ash 单位:kg /m3。(4)Water 单位:kg /m3。(5)Superplasticizer 单位:kg /m3。(6)Coarse Aggregate 单位:kg /m3。(7)Fine Aggregate 单位:kg /m3。(8)Age 单位:kg /m3。输出指标包括Concrete compressive strength 单位:MPa。每个样本有8个混凝土原料配方作为输入特征值(前8 列)及1个目标值(最后一列,承重强度)

三、任描述务

1.根据样本的承重强度对样本标签进行离散化处理,将连续承重强度转换为离散承重等级,然后实现分类任务。

输出指标离散化需要考虑两方面因素:

一是调研文献,分析各等级混凝土承重强度;

二是不同的承重等级数目情况下,模型的预测效果,对比选出预测结果最好的离散化方式。(20分)2.导入数据集,返回当前数据的统计信息并进行阐述说明,以前6行为例进行结果展示。(10分)3. 对混凝土数据集进行可视化处理,生成各特征之间关系的矩阵图。(10分)4. 数据预处理,并将原始数据集划分为训练集和测试集,选用合适的机器学习算法对混凝土数据集进行拟合。(20分)5. 采用交叉验证,估计超参数,分析超参数对预测结果的影响。(20分)6. 预测结果分析及可视化,绘制混淆矩阵,分析不同承重等级混凝土的查全率和查准率

四、结果及分析

简明结果精度0.85查准率0.85查全率0.93F1值0.89详细方案和结果分析解决方案【包括预测分析的设计思路的具体实现过程或实现步骤】

1.数据加载与描述:load_and_describe_data 函数:功能:从指定文件路径加载数据集(Excel 文件),并打印数据集的统计信息和前 6 行数据。实现:使用 pandas 的 read_excel 函数读取文件,使用 describe() 方法生成统计信息,使用 head(6) 显示前 6 行。2.数据可视化:visualize_data 函数:功能:生成特征关系矩阵图,以可视化数据集中各特征之间的相关性。实现:使用 seaborn 的 heatmap 函数,以 corr() 计算的相关性矩阵为输入,设置 annot=True 显示相关性数值,使用 cmap='viridis' 作为颜色映射。3.数据预处理:preprocess_data 函数:功能:将数据集划分为输入特征 X 和目标值 y,并将其划分为训练集和测试集,对训练集和测试集进行标准化处理。实现:使用 iloc 从 data 中提取输入特征 X和目标值 y使用 train_test_split 以 80:20 的比例划分训练集和测试集,设置 random_state=42 保证结果可重复。使用 StandardScaler 对 X_train 进行标准化处理,将其拟合(fit_transform),并将此缩放器应用于 X_test(transform)。4.标签离散化:discretize_labels 函数:功能:根据承重强度对样本标签进行离散化处理,将连续的目标变量转换为离散的类别。实现:计算 y 的最小值和最大值。使用 np.linspace 生成等间距的 bins。使用 np.digitize 将 y 中的每个元素分配到相应的 bins 中,得到离散化的标签。5.选择最佳离散化方式:select_best_discretization 函数:功能:对比不同离散化等级数量对逻辑回归模型性能的影响,选择最佳的离散化方式。实现:遍历 num_class_list 中的不同离散化等级数量。对于每个离散化等级,使用 discretize_labels 对 y 进行离散化。对离散化后的 y 和 X 进行训练集和测试集划分。用逻辑回归模型(LogisticRegression)拟合数据,使用 model.score 计算模型在测试集上的得分。选择得分最高的离散化等级作为最佳离散化等级。6.模型拟合与超参数调优:fit_model 函数:功能:使用 GridSearchCV 对逻辑回归模型进行超参数调优。实现:定义超参数搜索空间 param_grid,包含 solver、max_iter 和 C 等参数。使用 GridSearchCV 结合逻辑回归模型和 param_grid,设置 cv=5 进行 5 折交叉验证。调用 fit 方法进行训练,打印出最佳参数。7.交叉验证:cross_validate_model 函数:功能:使用交叉验证评估模型性能。实现:使用 cross_val_score 对模型进行 5 折交叉验证,打印交叉验证得分。8.预测结果分析与可视化:analyze_prediction 函数:功能:对测试集进行预测,计算混淆矩阵和分类报告,并将混淆矩阵可视化。实现:使用 model.predict 对 X_test 进行预测得到 y_pred。使用 confusion_matrix 计算混淆矩阵,classification_report 生成分类报告。使用 seaborn 的 heatmap 绘制混淆矩阵,设置 annot=True 显示矩阵元素,fmt='d' 以整数形式显示元素。9.样本不平衡处理:check_and_apply_smote 函数:功能:检查训练集中每个类别的样本数量,如果样本数过少,不使用 SMOTE 过采样;否则使用 SMOTE 进行过采样。实现:使用 np.bincount 统计每个类别的样本数量。若最小样本数大于 threshold,使用 SMOTE 进行过采样,否则不进行过采样。10.可视化标签分布:visualize_label_distribution 函数:功能:可视化标签的分布情况。实现:使用 sns.countplot 绘制标签的计数图。11.主函数 main 的执行流程:调用 load_and_describe_data 加载数据,若加载失败则终止程序。调用 visualize_data 可视化数据。调用 preprocess_data 进行数据预处理。调用 select_best_discretization 选择最佳离散化等级。对训练集和测试集的 y 进行离散化处理并可视化标签分布。使用 check_and_apply_smote 处理样本不平衡问题。依次训练逻辑回归、决策树和随机森林模型:调用 fit_model 进行模型拟合和超参数调优。调用 cross_validate_model 进行交叉验证。调用 analyze_prediction 进行预测结果分析和可视化。结果展示【包括每个任务点结果的展示】根据样本的承重强度对样本标签进行离散化处理,将连续承重强度转换为离散承重等级。至少给出3种输出指标离散化的方案,并阐述理由。在后续任务中分别进行模型训练,并在结果展示4、5和结果分析中,从精度,查准率,查全率,FI值等多个角度进行分析,最终选出预测结果最好的离散化方式。等距分箱优点在于简单直观,易于实现,适用于数据在取值范围上均匀分布的情况。它将整个数据范围均匀划分为 num_classes 个区间,对于一些具有较为均匀分布特征的数据,能够较好地将连续变量转换为离散类别,且不依赖于数据的具体分布模式,仅依据数据的取值范围进行划分。2.等频分箱适用于数据分布不均匀的情况,避免了某些区间内数据点过于稀疏或密集的问题,使得每个离散等级中的样本数量大致相同,能够更好地反映数据的分布特征。3.基于聚类的离散化优点在于它是一种基于数据内在结构的离散化方法,能够发现数据中的自然分组,对于具有复杂分布的数据,可以根据数据的相似性将其划分为不同的类别。返回前六条数据结果(结果截图,并标明图1. 数据展示),并对数据集中的概要信息进行描述。图 1数据可视化结果(标明图2. 数据可视化)图 2混淆矩阵展示(标明图3. 分类混淆矩阵)图 3-等距分箱图 3-等频分箱图 3-基于聚类的离散化精度,查准率,查全率,FI值的结果截图(标明图4. 分类结果)图 4-等距分箱图 4-等频分箱图 4-基于聚类的离散化结果分析【包括预测结果分析(包括对超参影响、精度、查准率、查全率、F1值的分析)、可能存在的问题、可提升的改进思路等】从整体来看,在三种离散化方法中,等距分箱离散化结合逻辑回归模型的表现相对最佳,其整体精度达到 0.72,对于类别 0 和类别 1 在查准率、查全率和 F1 值等指标上展现出较好性能,不过类别 3 的预测效果很差,仅一个样本可能是导致该情况的原因。等频分箱离散化的整体精度为 0.67,在类别 1 的性能有所下降但类别 2 有一定优势,而基于聚类离散化的整体精度低至 0.25,各项指标表现都不佳,可能是其未充分考虑数据原始分布特征所致。此外,三种离散化方法下逻辑回归的最佳超参数均为 {'C': 10, 'max_iter': 1000, 'solver': 'saga'},不过不排除有更好的超参数组合未被搜索到。可能存在的问题包括类别不平衡,如类别 3 样本过少影响整体性能,以及仅测试离散化等级为 3 可能未找到最优等级在 select_best_discretization 函数中,不同的离散化等级数量会影响模型性能。如果离散化等级数量过少,可能会丢失过多信息,导致模型无法学习到数据的细微特征;而离散化等级数量过多可能会导致过拟合,因为模型可能会过度学习噪声。尝试更多离散化等级,在模型方面,尝试不同分类器,如 DecisionTreeClassifier 和 RandomForestClassifier,对于逻辑回归则扩大超参数搜索范围,增加更多超参数及其取值,以优化性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/865642.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

.NET 响应式编程 System.Reactive 系列文章(二):深入理解 IObservableT 和 IObserverT

在 Rx 中,数据流的生产和消费是通过 观察者模式(Observer Pattern) 实现的。这种模式定义了两种角色: - IObservable.NET 响应式编程 System.Reactive 系列文章(二):深入理解 IObservable<T> 和 IObserver<T>引言:为什么我们调整了学习顺序? 在上一篇文章…

WebPack站点实战(一)

以下文章来源于一位不愿透露姓名的热心网友 ,作者不愿透露姓名的热心网友 文章配套B站视频,很多话语简略了,建议配着视频看。 地址:https://www.bilibili.com/video/BV13F411P7XB/ 开始之前了,简单过一下下面几个方法加深印象,便于更好理解加载器。也可以直接从webpack标…

CUDA概念

1.1.0f加个f,成单精度计算,不加会默认成double 2.快速指令:__add()加两个下划线 3.CUDA计算能力1.3以上才支持双精度,4.0往后支持双精度浮点计算 单精度浮点型(float )专指占用32位存储空间的单精度(single-precision )值。单精度在一些处理器上比双精度更快而且只占用…

12.09百度机器翻译SDK实验

一、实验要求百度机器翻译SDK实验(2024.11.15日完成) 任务一:下载配置百度翻译Java相关库及环境(占10%)。 任务二:了解百度翻译相关功能并进行总结,包括文本翻译-通用版和文本翻译-词典版(占20%)。 任务三:完成百度翻译相关功能代码并测试调用,要求可以实现…

弹性波动力学笔记(十)罗格里德斯公式推导

在应力计算中大量需要轴旋转公式计算,因此本笔记给出了罗格里德斯轴旋转公式Note: Derivation of the Rodriguez Formula In this Note, we will derive a formula for \(\mathbf{R}(\widehat{\mathbf{n}},\theta)\) . Consider the three dimensional rotation of a vecto…

【Java编程】JDK 源码好用的类方法

Java JDK 提供了丰富的工具类和方法,涵盖了字符串处理、集合操作、日期时间处理、文件操作等多个方面。熟练掌握这些工具类和方法,可以显著提高开发效率和代码质量。如果你有特定的需求或问题,欢迎随时提问

C++中调用C语言代码(extern “C”)

extern "C" 可以使我们在C++程序中调用C语言代码.extern "C"向程序编译器表明这段代码需要用C语言的方式编译。extern "C" { #include <stdio.h> void sayHello() { printf("Hello C\n"); }}int main() { sa…

Tita项目管理软件:管过程,管合同,两手抓

在这个日新月异的商业世界里,项目经理们时常面临重重挑战,而高效的协同作业、严谨的项目合同管理以及精准的回款把控,无疑是决定项目成败的关键要素。正是洞察到了这些需求,Tita项目管理软件应运而生,它以一站式的解决方案,助力项目经理们轻松驾驭项目的每一个环节。 一、…

快消零售的智胜之道:智能AI加速构建员工培训SOP策略

引言 在快节奏的快消零售行业中,员工的高效培训与标准化操作是提升服务质量、增强顾客满意度的关键。然而,传统培训方式往往耗时费力,效果难以保证。随着人工智能技术的不断发展,利用智能AI快速建立员工培训SOP(标准操作程序)已成为众多零售企业的新选择。本文将分享如何…

教育机构的智能跃迁:知识中台如何驱动转型与升级

引言 在数字化转型的浪潮中,教育机构正面临着前所未有的挑战与机遇。传统的教育模式已难以满足当前多元化、个性化的学习需求,而知识中台作为连接数据与业务的关键桥梁,正逐步成为教育机构实现智能转型的重要抓手。本文将探讨教育机构如何借助知识中台,通过智能化手段优化教…

关于RAG你不得不了解的17个技巧

最近在写文章,想补上去年RAG(Retrieval-Augmented Generation)遗留的一些坑,希望能分享一些RAG的技巧帮到大家。还是那句老话:构建一个大模型的原型很容易,但把它变成一个能真正投入生产的产品却很难。这篇文章适合那些在过去一个月里刚刚构建了第一个LLM(大语言模型)应…

10.28软件设计——抽象工厂模式之人与肤色 c++

1、类图 2、源代码test4.cpp#include<iostream> #include<string> using namespace std;//抽象产品类 男人 class Man { public:virtual void makeM() = 0; }; //具体产品类 白色男人 class WhiteMan : public Man { public:void makeM(){cout << "我是…