使用Python递归比较两个文件夹下所有文件内容不同的文件

news/2025/1/15 15:07:29/文章来源:https://www.cnblogs.com/autopwn/p/18409759

比较两份源代码文件异同

  • 使用Python递归比较两个文件夹下所有同名文件内容中存在不同的文件。
  • 这么做的应用场景是做代码审计的时候,通过比对两份相同项目的源代码,一份是破解的版本一份是正版的版本,比对破解的版本更改了哪些代码,从而挖掘后门代码。

具体代码如下:


import os
import filecmp
import difflib# 定义目录路径
base_dir = "/home/viadmin/finddiffiles"
wordfencedaoban_dir = os.path.join(base_dir, "wordfencedaoban")
wordfencezhengban_dir = os.path.join(base_dir, "wordfencezhengban")# 获取两个文件夹中的所有文件(排除图片文件)
def get_files(directory):files = []for root, _, filenames in os.walk(directory):for filename in filenames:if not filename.lower().endswith(('.png', '.jpg', '.jpeg', '.gif', '.bmp')):files.append(os.path.join(root, filename))return files# 获取文件列表
daoban_files = get_files(wordfencedaoban_dir)
zhengban_files = get_files(wordfencezhengban_dir)# 打印获取的文件名称
print("Files in wordfencedaoban:")
for file in daoban_files:print(file)print("\nFiles in wordfencezhengban:")
for file in zhengban_files:print(file)# 比较文件内容
def compare_files(file1, file2):with open(file1, 'r') as f1, open(file2, 'r') as f2:lines1 = f1.readlines()lines2 = f2.readlines()diff = difflib.unified_diff(lines1, lines2, fromfile=file1, tofile=file2)return ''.join(diff)# 记录差异文件
diff_files = []
for daoban_file in daoban_files:relative_path = os.path.relpath(daoban_file, wordfencedaoban_dir)zhengban_file = os.path.join(wordfencezhengban_dir, relative_path)if not os.path.exists(zhengban_file):diff_files.append((daoban_file, "Not found in zhengban"))elif not filecmp.cmp(daoban_file, zhengban_file, shallow=False):diff_content = compare_files(daoban_file, zhengban_file)diff_files.append((daoban_file, zhengban_file, diff_content))# 输出结果到屏幕
for diff in diff_files:print(f"Difference found: {diff[0]} vs {diff[1]}")if len(diff) > 2:print(diff[2])print("-" * 80)# 输出结果到文本文件
output_file = os.path.join(base_dir, "diff_results.txt")
with open(output_file, 'w') as f:for diff in diff_files:f.write(f"Difference found: {diff[0]} vs {diff[1]}\n")if len(diff) > 2:f.write(diff[2])f.write("-" * 80 + "\n")print(f"Comparison completed. Results saved to {output_file}")

执行结果和方式

  • 执行过程就是将上述代码保存到类似compare.py文件,然后使用python3版本执行
  • 只要必要的库都安装了,执行是没有什么问题,这里为了测试,将遍历的文件名称打印出来了,可以根据实际情况注释掉!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/795915.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

怎么修改PbootCms的邮件提醒标题

解决这个问题简单又复杂,首先你需要有网站源码的管理权限。 再去检索 PbootCMS,对搜索结果中的文件进行处理下就可以了。扫码添加技术【解决问题】专注中小企业网站建设、网站安全12年。熟悉各种CMS,精通PHP+MYSQL、HTML5、CSS3、Javascript等。承接:企业仿站、网站修改、…

Redis集群slot迁移改造实践

Redis集群经常需要进行在线水平扩缩容,实际操作过程中发现迁移期间服务时延剧烈抖动,业务侧感知明显,为了应对以上问题对原生Redis集群slot迁移功能进行优化改造。作者:来自 vivo 互联网存储团队- Xu XingbaoRedis 集群经常需要进行在线水平扩缩容,实际操作过程中发现迁移…

pbootcms如何设置发布内容不自动提取缩略图

如果你想在PBootCMS后台发布内容时不自动提取缩略图,可以通过注释或删除相关代码来实现这一功能。以下是具体的步骤和代码示例: 步骤找到相关代码:在PBootCMS的代码中找到自动提取缩略图的逻辑。 通常这部分代码位于content.php或相关的内容处理文件中。注释或删除代码:注释…

pbootcms模板报错提示PHP Warning: Unknown: open_basedir restriction

当PBootCMS模板出现类似“PHP Warning: Unknown: open_basedir restriction ineffect. File”的错误提示时,通常是因为PHP的open_basedir限制设置不当或版本不兼容导致的。以下是如何解决这个问题的具体步骤: 问题分析open_basedir限制:open_basedir是一个PHP的安全设置,用…

分库分表零基础

一、前言 中大型项目中,一旦遇到数据量比较大,就应该对数据进行拆分。有垂直和水平两种 。 垂直拆分也就是本来一个数据库,数据量大之后,从业务角度进行拆分多个库。 水平拆分,是同一个业务数据量大之后,进行水平拆分。 mysql单表存储量推荐是百万级,如果不进行处理,…

PbootCms内页打不开的常见情况汇总

当遇到PBootCMS内页无法正常访问的情况时,特别是当点击任何链接都跳转到首页或内页访问报错时,通常与伪静态配置有关。以下是最简单粗暴的方案——关闭伪静态,使用兼容模式的操作步骤: 1. 关闭伪静态 步骤 1: 修改全局设置登录PBootCMS后台。 导航到“全局设置”。 找到“U…

nohup后台运行,关闭Xshell后,进程会被关闭

1.在使用nohup后台运行进程时,直接关闭远程Xshell终端窗口,发现进程就被停掉了,可以看到nohup.out日志显示停掉了2.解决方法,执行了nohup指令后,退回到shell输入命令窗口,然后通过在shell中输入exit来退出终端 3.然后再关闭Xshell进程就不会受影响了

pbootcms模板如何实现产品置顶

要在PBootCMS中实现产品的置顶功能,你可以按照以下步骤操作:定位到模板文件:打开你的网站后台。 导航到模板管理部分,找到templates default目录下的index.html文件。修改产品列表查询参数:在index.html文件中找到展示产品列表的部分。 修改产品列表的查询参数,将order=s…

算法与数据结构——二分查找

二分查找 二分查找(binary search)是一种基于分治策略的高效搜索算法。它利用数据的有序性,每轮缩小一半搜索范围,直至找到目标元素或搜索区间为空为止。Qustion: 给定一个长度为n的数组nums,元素按从小到大的顺序排列且不重复。请查找并返回元素target在该数组中的索引。…

栈Stack——递归替身?

对于Stack这个集合类,由类继承关系可知是Vector的子类,根据push入栈方法跟踪代码,可知Vector是一个线程安全的类(如果你用来储存大量数据,那可能不是一个好的选择)看到这里,显然可以得知Stack入栈出栈的大致原理,就是Vector的elementData对象数组,用来储存数据,入栈时…

煤矿反光衣穿戴识别系统

煤矿反光衣穿戴识别系统对视频监控画面开展实时识别分析,可以及时预警施工工地工作员是不是按照规定穿反光衣。当煤矿反光衣穿戴识别系统发现视频监控界面中有工作人员不穿反光衣时,系统会积极主动开启警报提示。工程师依据煤矿情景开展有目的的算法优化。本优化计算方法具有…