2024年数学建模美赛C题(预测 Wordle)——思路、程序总结分享

1: 问题描述与要求

《纽约时报》要求您对本文件中的结果进行分析,以回答几个问题。

问题1:报告结果的数量每天都在变化。开发一个模型来解释这种变化,并使用您的模型为2023年3月1日报告的结果数量创建一个预测区间。这个词的任何属性是否会影响报告的在困难模式下播放的分数的百分比?如果是这样,如何?如果不是,为什么不呢?

问题2:对于未来日期的给定未来解决方案词,开发一个模型,使您能够预测报告结果的分布。换句话说,预测未来日期 (1, 2, 3, 4, 5, 6, X) 的相关百分比。哪些不确定性与您的模型和预测相关?举一个你对2023年3月1日EERIE这个词的预测的具体例子。你对你的模型的预测有多自信?

问题3:开发并总结一个模型来按难度对解决方案单词进行分类。识别与每个分类关联的给定词的属性。使用您的模型,EERIE这个词有多难?讨论分类模型的准确性。

问题4:列出并描述这个数据集的其他一些有趣的特征。

2: 解题思路和分析结果(详解版)

针对问题1

思路:该问题主要是预测一个序列的变化趋势,而且该数据的变化趋势是统计的每天的数据,所以可认为是一个时间序列。数据的波动如下:

待预测数据的波动情况

分析该数据的随时间的变化趋势,可以发现是先上升、然后在下降的趋势,比较符合一个热点产生后,迅速得到关注,然后在逐渐降低热度,最后关注度保持稳定的情况。

针对该数据中末尾的最低点如何处理:该点可能是正确的数据(也可能是错误的,比如:录入错误)。所以可以做处理,也可以不错处理。处理方法,最简单的方法是使用最低点前后N(n=1,2,...)个数值的均值进性改进。

针对序列的预测方法:

(1)时间序列累预测方法:建议忽略到前半段,对下降的趋势进行时间序列建模与分析(也可用群不数据),可能效果较好。模型可以是:ARIMA、prophet等预测算法,prophet效果会好于ARIMA。

prophet算法预测

(2)考虑非线性回归方程:可以使用全部的数据建立,也可以使用数据下降趋势的后半段。

非线性回归方程

对于分析词的任何属性是否会影响报告的在困难模式下播放的分数的百分比的情况。主要的检验方法就是单因素方差分析,而且也要对词语一行清洗与与处理的改正操作。

针对问题2

目的1: 预测未来日期 (1, 2, 3, 4, 5, 6, X) 的相关百分比。

目的2: 对2023年3月1日EERIE这个词进行预测。

该问题是一个典型的有监督的数据回归问题,可以使用的方法有很多,而且针对数据的情况,可以先对数据进行特征工程,可以使用的特征例如:时间信息、每个位置的字母信息、词的属性信息等。可使用的预测算法也很多,例如:决策树、随机森林、GBDT、SVM、神经网络等。经过我的验证,使用随机森林或者GBDT的预测效果较好。

在数据与处理操作阶段,可以剔除一个累计正确率较离谱的样本,入下面的图所示:

累计正确率

对2023年3月1日EERIE这个词,一个可以参考的预测结果为:

(1, 2, 3,  4, 5,  6, X) 的相关百分比预测值分别为 (1, 5, 17, 32, 27, 12, 3)

针对问题3

目的1: 按难度对解决方案单词进行分类,并且根据单词的相关特征,为分类结果进行定级。

目的2: 对2023年3月1日EERIE这个词进行预测。

该问题属于一个无监督的聚类问题。而且针对该问题进行聚类是,使用的特征很关键。可以使用(1, 2, 3,  4, 5,  6, X) 的相关百分比作为特征建立聚类模型,而且聚类的算法有很多,例如:K均值、K中值、模糊聚类、系统聚类等。而且聚类的数量也有讲究。经过我的详细研究,聚类为3类,可能效果跟好一些。

聚了i结果可视化

聚类模型确定好后,对EERIE这个词进行预测即可。

针对问题4

该问题是一个开放性的问题,可以进行一些数据可视化分析等,便于发现数据的关系。并且可以结合前面三问的到的结果进行分析。例如:使用关联规则,可以发现单词中有哪些字母的情况下,属于哪个难度类别等。

发现的一些规则

总结

前面的一些分析,都是本人使用Python,对数据一步步分析得出的一些经验,供大家参考,并不能完全保证是正确的。数学建模本身就是开放性问题,这里知识抛砖引玉。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/438446.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

鸿蒙原生应用开发已全面启动,你还在等什么?

2019年,鸿蒙系统首次公开亮相,你们说,等等看,还不成熟; 2021年,鸿蒙系统首次在手机端升级,你们说,等等看,还不完善; 2024年,鸿飞计划发布&#…

【JAVA语言-第16话】集合框架(三)——Set、HashSet、LinkedHashSet、TreeSet集合的详细解析

目录 Set集合 1.1 概述 1.2 特点 1.3 HashSet集合 1.3.1 概述 1.3.2 哈希表 1.3.3 哈希值 1.3.4 练习 1.3.5 HashSet存储自定义类型元素 1.4 LinkedHashSet集合 1.4.1 概述 1.4.2 特点 1.4.3 练习 1.5 TreeSet集合 1.5.1 概述 1.5.2 练习 1.6 HashSet、Lin…

排序【数据结构】

文章目录 一、 稳定性二、排序1. 插入排序(1) 直接插入排序(2) 希尔排序 2. 选择排序(1) 直接选择排序(2) 堆排序 3. 交换排序(1) 冒泡排序(2) 快速排序① 普通版快排② 关于优化快排③ 快速排序的非递归方式 4. 归并排序5. 计数排序 三、 总结 一、 稳定性 在计算机科学中&am…

81.网游逆向分析与插件开发-背包的获取-装备栏数据结构的逆向分析

内容参考于:易道云信息技术研究院VIP课 上一个内容:自动化助手显示物品数据-CSDN博客 然后游戏中有弓箭,弓箭有数量,可以作为突破口,也可以使用物品id 获取弓的方式 获取弓箭的方式 然后搜索250 然后搜索出一个 然后…

大数据 - Spark系列《一》- 分区 partition数目设置详解

目录 🐶3.2.1 分区过程 🐶3.2.2 SplitSize计算和分区个数计算 🐶3.2.3 Partition的数目设置 1. 🥙对于数据读入阶段,输入文件被划分为多少个InputSplit就会需要多少初始task. 2. 🥙对于转换算子产生的…

千帆杯AI原生应用开发挑战赛,每期10万,等你而战!

大赛介绍 随着大模型技术的飞速发展,2024年将会成为AI原生应用爆发的元年,引领千行百业的创新变革。在这一时代背景下,百度智能云重磅推出千帆杯AI原生应用开发挑战赛,旨在激发广大开发者的创意潜能,推动AI原生应用在…

vit细粒度图像分类(五)TransFC学习笔记

1.摘要 细粒度图像具有不同子类间差异小、相同子类内差异大的特点。现有网络模型在处理过程中存在特征提取能力不足、特征表示冗余和归纳偏置能力弱等问题,因此提出一种改进的 Transformer图像分类模型。 首先,利用外部注意力取代原 Transformer模型中的…

数据分析入门指南:用 Python 开启数据之旅

文章目录 前言发现宝藏为什么选择 Python 进行数据分析?准备工作数据分析基础1. 数据加载2. 数据探索3. 数据清洗4. 数据可视化 探索更多可能性好书推荐总结 前言 为了巩固所学的知识,作者尝试着开始发布一些学习笔记类的博客,方便日后回顾。…

C语言王道第八周一题

Description 初始化顺序表(顺序表中元素为整型),里边的元素是 1,2,3,然后通过 scanf 读取一个元素(假如插入的是 6),插入到第 2 个位置,打印输出顺序表,每个 元素占 3 个…

vuepress搭建个人博客以及部署

vuepress,Vue 驱动的静态网站生成器,以 Markdown 为中心的项目结构,以最少的配置帮助你专注于写作。 vuepress官网 vuepress存在很多主题,也可以自定义设计主题,上传npm使用 这里采用vuepress-theme-hope主题模板进行制…

AIGC专题:2024年金融业生成式AI应用报告

今天分享的是AIGC系列深度研究报告:《AIGC专题:2024年金融业生成式AI应用报告》。 (报告出品方:度小满) 前言 毫无疑问,生成式人工智能是2023年全球最具影响力的创新科技,它代表着一种范式转…

赛氪荣获“2023天津高新技术企业大会支持单位”

1月23日上午,2023天津市高新技术企业大会新闻发布会在天开高教科技园核心区综合服务中心召开,市高企协以及来自高校、企业、社会组织等80余人现场参会。 大会组委会秘书长张博航介绍到:“本次大会将实现自开办以来的多个首次,首次…