计算机毕业设计Python+Spark知识图谱高考志愿推荐系统高考数据分析高考可视化高考大数据大数据毕业设计机器学习深度学习人工智能-编程知识

学院（全称）：专业（全称）：

姓名		学号	年级	班级
设计（论文）题目	基于Spark的高考志愿推荐系统设计与实现
指导教师姓名			职称
拟完成时间	2023年10　月　15 日
设计（论文）类别	þ项目设计制作类　　 ¨项目设计策划类 ¨实践操作类 ¨课堂教学与设计类　　¨学位论文类
命题来源	þ教师命题 ¨学生自拟 ¨教师科研课题
是否在实验实训、实习、工程实践和社会调查等社会实践中完成					þ是 ¨否
一、选题依据及意义 1.选题依据：高考是中国的大学招生的学术资格考试，在目前看来，高考的考试类型有两种，一种是文理分科，另一种是新高考模式[1]。传统的文理分科是将学生分成两个类型，一种是文科，除了语数外三门课以外需要学习政史地，理科相对应的就需要学习物化生。根据学生的高考成绩和每个大学在所对应省份的总体招生计划来分梯度划线，也就是我们常说的重本线，二本线和专科线。高考填报志愿对每个考生都非常重要，每年全国有数百万家庭使用网络了解高考支援志愿信息并推荐填报志愿。对于很大一部分考生和家长来说，短时间了解全国数千所高等院校的招生标准、历史录取分数、专业要求等信息非常困难。往往由于信息的缺失或错误造成高考志愿与考生成绩之间的较大差异，对考生造成不可挽回的损失。意义：目前高考志愿填报，涌现很多没有结合自身实际、盲目跟风的不良现象，最常见的跟风是过度依赖智能系统，很多家长、考生缺乏高考志愿相关专业知识，又没有太多时间去研究，面对浩如烟海的数据产生焦虑情绪，希望找到一种性价比高的方式，解决填报志愿时遇到的各种难题，最好能省心省事直接生成填报方案[2]。在庞大用户需求量和高额利润诱惑下，高考志愿智能辅助系统软件的市场近年来变得非常火爆，有些商家抓住客户着急心理和对行情信息不了解的情况，做出虚假、过分夸大宣传。大部分家长不能从专业角度去甄别智能系统，盲目跟风缴费升级会员，过分迷信权威金牌专家、内部来源数据、人工智能一键生成方案等，很多考生三年备考、三分钟报考，录取去向满意度不高。在当今时代,互联网的高度普及以及信息技术的飞速发展都使得数据呈现爆炸式增长,海量的数据然已成为一种“藏”。与此同时,社会出现了大量的“据金者”在数据的海洋里挖掘、采集、提炼、分析,想要发掘有价值的信息。据了解,大数据目前主要应用于互联网、电商、视频门户网站等企业领域,对于教育领域则运用的较少高考是教育领域中最引人注目的大事件,中国作为高考大国,在高考招生的信息化建设中,积累了非常丰富的高考信息数据资源,包括历年的报名库、志愿库、录取库、成绩库等等,且数据大多为原始数据未经过处理。面对这些数据,考生在填报志愿时往往无所适从,导致高考数据没能充分体现其价值,面对大数据时代所带来的数据过载等问题,推荐系统列和搜索引应运而生,相比于后者的信息被动选择模式,推荐系统是基于用户的相关行为数据自动的帮助用户过滤掉一些无用或不喜欢的内容,直接替用户完成了自我筛选的过程。其极大的缩短了用户在信息选择上的时间,同时也提高了用户相关行为数据的利用率[3]。
二、研究目的与主要内容 1.研究目的：高考志愿填报，是人生中的一大抉择，直接关系考生的终身发展每年都会有这样一个现象，有的考生分数很高，本可以录取到 985、211 高校的，但是因为志愿填报的误差，被激烈的竞争挤出来，或者由于不合适的专业选择直接导致了不理想的录取结果，更有甚者导致不得不复读[4]。为了让广大考生报考到一个相对适合自己的专业，我打算利用历年高考志愿填报数据，结合学生个人信息，采用大数据技术，设计一个基于Spark的高考志愿填报推荐系统，在学生填报高考志愿时给学生推荐适合自己的学校和专业，帮助广大考生报考理想学校,提高录取的机率。 2.主要内容： 1、SparkML推荐系统：包含协同过滤算法的两种实现（基于用户、基于物品）、基础业务功能； 2、后台管理系统：数据管理； 3、爬虫：爬取历年省控线、专业线、高考院校信息等作为数据集，并可以实时更新； 4、数据大屏驾驶舱：使用SparkSQL计算框架完成数据统计，以echarts形式进行可视化显示；提纲：摘要英文摘要 1 引言研究背景 1.2 研究的目的和意义 1.3 国内外研究现状 1.4 研究主要内容与技术 1.4.1研究内容 1.4.2研究技术 2 基于python爬虫的数据爬取和数据库的建立 2.1 高考信息表 2.5 数据库的建立 3 数据进行展示、科学分析和预测 3.1 基于spark+echarts进行可视化展示 3.2 推荐算法 3.4 情感分析 4 系统的建立和展示 4.1 基于springboot+mybatis后端开发 4.2 基于html、echarts、vue前端开发 4.3 系统的最终调试 5 结束语参考文献致谢附录
三、研究方法和手段研究方法：参阅相关资料、书籍，在网上调阅资料、学习相关教程、咨询指导老师。在网上收集相关的数据、查阅相关内容掌握数据含义，通过清洗、分析、建模、可视等步骤完成本项目。手段： 1、按照设计题目要求设计毕业设计方案，配合指导教师进行设计； 2、明确数据的来源，查找数据的途径，确保数据的稳定性； 3、接受指导教师指导，定时汇报工作内容，并就相关问题进行讨论； 4、理论联系实际，培养正确的工作方法和严谨的科学态度； 5、按照进度计划完成毕业设计并书写毕业论文。
四、文献综述 1、传统填报方法效率低、效果差。目前，全国大部分省（自治区、直辖市）都是高考成绩公布后开始填报志愿，大部分家长和考生仅仅利用招生考试机构公布志愿填报日程几天时间，从近2700所高校和500多个专业中做出选择，对很多毫无经验的家长和考生来说“难于上青天”[5]。因为影响高考志愿因素太多，如考生职业生涯规划、个人和家庭情况、分数、院校、专业、城市、高考志愿政策规则、填报策略技巧、近3到5年录取数据、录取概率测算、就业情况等，如果仅在几天内通过传统手段，以手工查阅书籍材料，往往会因为资料难找、耗时长、易疲劳出错等原因，填报志愿和最终录取去向往往不尽如人意[6]。 2、填报方案不科学，录取不满意案例多。《中国青年报》社会调查中心发起的一项10万人参加的抽样调查，超过71.2%的人后悔当年的高考志愿。我们可以在新闻媒体或网络上看到很多志愿填报不科学的典型案例，其中很多是高材生。 2008年周某以青海省第三名的成绩被北京大学生命科学学院录取，两年后周某选择转学到了北京工业技师学院。2017年李某从中国科学技术大学退学补习，2018年高考以云南省理科第8名的好成绩拒绝清华大学和北京大学发出的邀请，选择了四川大学口腔专业。2017年广西理科高考第3名考生，填错高考志愿批次，最后通过征集获得录取。2017年浙江省646高分考生竟报考独立学院，全省被独立学院录取的600分以上考生多达9人[7]。现实中，还有很多高考过来人默默承受着高考志愿填报失误带来的痛，比如对专业不满意、对院校不满意、填错批次、错过填报时间、被退档、毕业后从事与自己所学专业毫无关联的工作等。在本项目中主要研究的是传统文理分科的高考模式，因为这种模式有着大量的数据支撑，提供训练，能够高精度地做出预测[8]。而新考高模式刚刚施行，其数据是不足以支撑训练，从而做出预测。高考录取填报推荐志愿方式，梯度志愿和混合录取，经过不断优化，平行志愿已成为了高考录取的主流，大部分省份都采取平行志愿，所以本次项目也就平行志愿的录取方式来进行研究。即分数优先，满足偏好的方式，所以本项目着重对学生位次进行研究。针对高考这一热门话题，国内外都有着不少的专家学者对其进行研究，在过去的实践中，人们往往选用经典的时间序列方法来解决预测高校录取问题，即利用近5年高校录取的分数线，名次求平均值来预测当年的分数线，但是利用时间序列预测，就必须保证时间序列的过去值、当前值、和未来值之间存在着某种确定的函数关系[9]。所以这养的预测是不够精确，不够完善的。除了基于时间序列的预测以外，还有人通过录取线差法来对高考录取进行研究，所谓录取线差是指考生意向院校当年平均录取分数与其所在招生批次录取控制分数线的差值。但是，每年高考试卷难度有别，造成了各个院校各年度的录取分数可能发生较大的变化。
五、参考文献 [1]孙浩然,武雪明,吉雪芸.高考志愿智能推荐系统的设计与实现[J].电脑知识与技术,2023,19(09):41-45.DOI:10.14004/j.cnki.ckt.2023.0427. [2]白俊杰. 基于混合推荐的高考志愿推荐系统的设计与实现[D].内蒙古大学,2022.DOI:10.27224/XXXXX.2022.001490. [3]孟真. 基于Spark的高考推荐系统设计与实现[D].山东师范大学,2017. [4]银虹宇. 基于大数据的高考志愿推荐系统的设计与实现[D].电子科技大学,2018. [5]谢雷，唐旭，钟立国. 基于Spark的高考志愿填报系统设计与实现[J]. 计算机工程与设计, 2017, 38(9): 2461-2465. [6]唐旭，钟立国，谢雷. 基于Spark的高考志愿填报系统设计与实现[J]. 现代计算机, 2019, 40(8): 129-132. [7]李坤，田田. 基于Spark的高考志愿填报系统设计与实现[J]. 电脑知识与技术, 2019, 15(3): 80-81. [8]陈娟，黄林伟. 基于Spark的高考志愿填报系统设计与实现[J]. 现代电子技术, 2020, 43(4): 181-184. [9]基于Spark的高考志愿填报系统设计与实现作者：谢雷，唐旭，钟立国出处：《计算机工程与设计》，2017年，第38卷，第9期 [10]Guo, M., Zhang, J., Zhang, J., & Li, J. (2020). Research on Design and Implementation of College Entrance Examination Volunteer Recommendation System Based on Spark. In 2020 International Conference on Artificial Intelligence and Big Data (ICAIBD) (pp. 104-107). [11]Wang, Y., Liu, W., Zhu, M., Li, H., & Li, J. (2019). Design and Implementation of College Entrance Examination Volunteer Recommendation System Based on Big Data Analysis. In 2019 2nd International Conference on Mathematics, Modeling, Simulation and Education Application (MMSEA) (pp. 1-4). [12]Wang, Z., & Guo, C. (2018). Design and Implementation of College Entrance Examination Volunteer Recommendation System Based on Big Data Analysis. In 2018 IEEE International Conference on Big Data (Big Data) (pp. 4494-4496). [13]Zhang, Y., & Li, S. (2018). Design and Implementation of College Entrance Examination Volunteer Recommendation System Based on Spark. In 2018 International Conference on Data Science and Advanced Analytics (DSAA) (pp. 535-539).
六、工作进度安排 2023.7.10－2023.8.1选题，查阅资料，拟定大纲，填写开题报告 2023.8.2－2023.8.20撰写论文初稿并以班级为单位上交学院 2023.8.21－2023.9.20在指导老师指导下修改论文 2023.9.21－2023.10.15继续修改论文，并定稿打印，送交论文，等待答辩
七、预期成果顺利完成毕业论文和毕业设计，设计出一个基于Spark的高考志愿推荐系统，可以实现根据考生的个人情况提供个性化志愿服务的推荐系统，帮助考生最大化挑选自己喜欢的院校及专业，提高高考志愿填报的成功率。
（以上内容在教师指导下由学生填写）　学生签名：年　　月　　日
八、指导教师审核意见：指导教师签名：年　　月　　日
九、学院毕业设计（论文）领导小组审核意见：领导小组签名：年　　月　　日

说明：本表由学生填写，指导教师和学院签署意见，一式三份，分别存于教务处、学院、学生个人档案。

核心代码分享如下：

大数据项目专用脚本
## 启动hadoop
cd /data/hadoop/sbin
start-all.sh## 启动hive cd /data/hivenohup hive --service metastore &nohup hive --service hiveserver2 &--先将mysql中的高考数据集导出csv文件
原因：1.如果Python爬取直接生成csv的话需要电脑开机连续爬取5-7天，不现实2.Python爬取存mysql然后转csv可以保证我们可以在任意时间开机爬取(数据库滤重)
--测试mysqldump -h localhost -u root -p gaokao school > D:\hadoop_spark_hive_gaokao_fenxi_vmvare2024\export_csv\school.csv----需要导入hive的表列举	  
school  √
school_province_score √ 省控线
special √
school_special_score √
ruanke_rank 软科中国大学排名 √
qs_world √
province  √