第二次作业-个人项目

news/2025/3/13 14:56:06/文章来源:https://www.cnblogs.com/ysc2733323331/p/18756796

第二次作业

这个作业属于哪个课程 第二次作业
这个作业要求在哪里 作业要求
这个作业的目标 完成论文查重程序

Github仓库地址

https://github.com/Simonysc-123/3123004761

PSP2.1 Personal Software Process Stages 预估耗时(分钟 实际耗时(分钟)
·Planning 计划 10 15
Estimate 估计这个任务需要多少时间 90 120
Development 开发 30 30
Analysis 需求分析 (包括学习新技术) 30 40
Design Spec 生成设计文档 10 15
Design Review 设计复审 10 10
Coding Standard 代码规范 (为目前的开发制定合适的规范) 10 10
Design 具体设计 20 25
Coding 具体编码 30 45
Code Review 代码复审 5 5
Test 测试(自我测试,修改代码,提交修改) 10 10
Reporting 报告 20 10
Test Repor 测试报告 10 10
Size Measurement 计算工作量 15 15
Postmortem & Process Improvement Plan 事后总结, 并提出过程改进计划 10 10
合计 310 380

使用说明

从命令行参数给出:python main.py [原文文件绝对路径] [抄袭版论文的文件绝对路径] [答案文件绝对路径]

重点模块

1. 读取文件:用UTF-8格式读取文件内容;异常处理:读取失败则报错退出
2. 错误排除:读取失败,读取文本为空,路径错误时均有退出报错功能
3.文件预处理:去除常用,无需计入查重的惯用词
4.计算查重度:

  • 特征转换:将两文本合并拟合生成TF-IDF矩阵
  • 相似度计算:使用余弦相似度比较两个向量

5.主函数:
1.参数校验:必须传入3个参数(原文路径、抄袭文件模式、输出路径)
2.原文处理:读取原文并预处理为标准格式
3.文件匹配:
•直接路径:检查是否为有效文件
4.遍历处理:
•读取抄袭文件 → 预处理 → 计算相似度 → 记录结果
5.结果写入:按文件名:评分格式输出到文件

性能分析

性能分析图

单元测试覆盖率

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/895207.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

项目里如何引入阿里巴巴矢量图标库-iconfont

项目里如何引入阿里巴巴矢量图标库-iconfont 一、搜索或者直接选择自己想要的图标类型 二、选中想要的图标,加入购物车,可以选择多个 三、点击购物车可以将选择的图标加入原有项目,也可以新建项目 四、确定之后,选择下载至本地(下载后的图标是灰色的,没有颜色,若想有…

Qt个人项目总结 —— MySQL数据库查询与断言

3.Qt项目总结——数据库查询断言问题问题:当我使用MySQL数据库的查询操作时, 如果查询的数据在数据库中不存在,那么Qt会直接被干崩溃 但是?为什么呢?不应该是返回if语句中的结果吗,为什么会崩溃呢?bug代码示例 =======================================================…

Effective log parsing in log streams using fixed depth forest 论文笔记

挑战 主要讲的是 Drain 的一些问题: ① 对于变量开头的日志会存在解析错误 ② 常量在变量之前发生变化的日志也会导致解析错误 框架预处理 对于源日志,采用随机修改 token 的下标(即顺序)分成几个子日志,相当于数据增强 候选模版生成 这里采用的就是 Drain 的解析过程,为…

P2241 统计方形(数据加强版)

题目背景 1997年普及组第一题 题目描述 有一个 $n \times m$ 方格的棋盘,求其方格包含多少正方形、长方形(不包含正方形)。 输入格式 一行,两个正整数 $n,m$($n \leq 5000,m \leq 5000$)。 输出格式 一行,两个正整数,分别表示方格包含多少正方形、长方形(不包含正方形…

2025扩展可能性采购和供应链管理使用AI报告100+份汇总解读|附PDF下载

原文链接:https://tecdat.cn/?p=40348 在当今快速发展的商业环境中,采购和供应链管理领域正经历着深刻变革,人工智能(AI)技术的融入成为推动这一变革的关键力量。 本报告汇总解读聚焦于AI在采购和供应链管理中的应用,深入剖析其发展现状、面临挑战与潜在机遇。通过对大量…

通义灵码AI程序员深度测评:这些能力体验感拉满!满血版 DeepSeek 玩法大揭秘

随着科技的发展,AI编程,或者说是AI辅助编程,已经成为了每一位程序员的福利。今天我们要说的AI程序员,相对于传统的AI辅助编程工具, AI 程序员具备多文件代码修改(Multi-file Edit)和工具使用(Tool-use)的能力,可以与开发者协同完成编码任务,如需求实现、问题解决、单…

从星链到数字样机:直升机智能化升级的双引擎

​直升机作为一种多功能航空器,凭借其垂直起降、空中悬停的独特优势,在军事、民用、救援等多个领域发挥着重要作用。然而,受制于传统通信导航性能瓶颈与机械系统脆弱性叠加效应,直升机在复杂环境下仍面临通信中断、导航精度不足、数据传输受限等问题,其物理特性与技术架构…

manim边学边做--局部缩放的场景类

在动画制作中,尤其是数学和科学可视化领域,有时我们需要将观众的注意力集中在场景的某个特定部分。 Manim提供了一个强大的工具 ZoomedScene,它允许我们在场景中创建一个独立的缩放视图,从而实现对局部细节的深入展示。 本文将详细介绍ZoomedScene的作用、参数、方法,并通…

docker-compose文件目录

/usr/local/binEND作者:超级鲨鱼辣椒 转载请注明原文链接:https://www.cnblogs.com/jinzlblog/p/18758160

Linux重启nginx命令

cd /usr/sbin ./nginx -s reloadEND作者:超级鲨鱼辣椒 转载请注明原文链接:https://www.cnblogs.com/jinzlblog/p/18758164

使用Nginx实现域名解析到同一台服务器不同服务端口

作为个人网站的服务器,一般都是一台。上面部署了各种应用,都是不同的端口。但是域名只能解析到 80 端口,而且如果你使用 隐性URL、显性URL 转发的话,又会直接 301 跳转,体验非常不好。这可如何是好呢?这就需要用到 Nginx 做反向代理了。什么是反向代理?我们先来看一下解…

Inventor pro 2025下载与安装教

1、安装包 扫描下方二维码关注「软知社」,后台回复【054】三位数字即可免费获取分享链接,无广告拒绝套路;2、安装教程(建议关闭杀毒软件)双击Setup.exe安装,弹窗安装对话框勾选‘我同意,点击下一步选择软件安装路径,建议C盘之外进行安装,点击下一步默认所有组件,点击安…