Python 将html格式书签转为excel

news/2025/1/7 6:56:58/文章来源:https://www.cnblogs.com/lhxBlogs/p/18653118

1.导出html格式书签

2.对数据做处理

提取 <a></a> 标签

可以用vscode正则替换 <a></a> 标签的ICON属性ICON=".*"

3.安装python

pip替换成清华镜像

4.描述问题生成代码

import pandas as pd  
from bs4 import BeautifulSoup  
from datetime import datetime  
import redef parse_html_for_links(html_file, excel_file):  # 使用BeautifulSoup解析HTML文件  with open(html_file, 'r', encoding='utf-8') as file:  html_content = file.read()  soup = BeautifulSoup(html_content, 'lxml')  # 或者使用'html.parser'  # 准备存储结果的DataFrame  data = []  # 查找所有的<a>标签  for link in soup.find_all('a'):  # 提取文本内容和href属性  text = link.get_text(strip=True)  href = link.get('href')  if re.search("csdn",href):linkType = "CSDN"elif re.search("jianshu",href):linkType = "简书"elif re.search("cnblogs",href):linkType = "博客园"elif re.search("zhihu",href):linkType = "知乎"elif re.search("gitee",href):linkType = "gitee"elif re.search("ruanyifeng",href):linkType = "阮一峰"elif re.search("v2ex",href):linkType = "v2ex"elif re.search("juejin",href):linkType = "掘金"elif re.search("oschina",href):linkType = "开源中国"elif re.search("douban",href):linkType = "豆瓣"elif re.search("doc88",href):linkType = "道客巴巴"elif re.search("pmcaff",href):linkType = "pmcaff"elif re.search("github",href):linkType = "github"elif re.search("bilibili",href):linkType = "bilibili"elif re.search("weixin",href):linkType = "微信公众号"else:linkType = "其他"# 尝试提取额外的自定义属性，比如add_date（如果不存在则为None）  add_date = link.get('add_date') dt_object = datetime.fromtimestamp(int(add_date))  # 将时间戳格式转为年月日时分秒formatted_date = dt_object.strftime('%Y-%m-%d %H:%M:%S')  year = formatted_date[:4]month = formatted_date[5:7]monthStatistic = f"{year}.{month}"# 将结果添加到DataFrame的数据中  data.append({  '标题': text,  '链接': href,  '添加日期': formatted_date,"链接类型" : linkType,  "月份" : monthStatistic})  # 创建DataFrame  df = pd.DataFrame(data)  # 将DataFrame写入Excel文件  df.to_excel(excel_file, index=False, engine='openpyxl')  # 替换为你的HTML和Excel文件路径  
html_file_path = 'd:\\favorites_2024_7_20.html'  
excel_file_path = 'd:\\favorites_202407201254.xlsx'  
parse_html_for_links(html_file_path, excel_file_path)  print(f"数据已成功写入 {excel_file_path}")

5.结果展示

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/864300.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

UML之发现用例

用例是最简单的UML元素，用例图是最简单的UML图，但它也可能是UML中最有用的元素之一。尽管我们用包将工作分解为工作包、团队任务或单项任务，也就是说包是组织UML中的各种图及元素的工具。但是用例图可以帮助我们确定任务，以及应当如何将它们分组并确定工作范围。每个用例都…

遗留了很久的功能终于搞定/QTreeWidget自定义节点/添加删除修改分组

一、前言说明这个功能看起来简单，实际上也确实简单，以前没搞的时候还以为很难，难点就是如何存储这个任意层级的树状列表信息，近期大环境经济很差，刚好有空把这个功能搞定，其实二维表格的方式存储这种任意层级树结构就可以，就是子节点需要指定父节点，父节点为空表示顶层…

2025年正在重塑行业的10款AI代理工具

序言：本文的作者列出来的这10款AI代理工具是您认可的吗？作为一名深入AI开发领域超过十年的开发者，我见过无数工具声称要颠覆我们构建AI代理的方式。有些工具确实实现了夸下的海口——但更多的则没有。经过几个月的亲身测试以及与同行开发者的讨论，我整理出了一份2025年真…

[cause]: TypeError: e_.createContext is not a function (Next.js 15)

开发 Next.js 项目遇到报错： [cause]: TypeError: e_.createContext is not a function 出现这个报错的原因是在 Next.js 项目中，在 Server Component 中使用了MUI组件，但是MUI组件没有做 SSR 适配就会导致这个报错。解决办法解决办法就是在文件顶部添加 use client 声明…

golang自带的死锁检测并非银弹

网上总是能看到有人说go自带了死锁检测，只要有死锁发生runtime就能检测到并及时报错退出，因此go不会被死锁问题困扰。这说明了口口相传知识的有效性是日常值得怀疑的，同时也再一次证明了没有银弹这句话的含金量。这个说法的杀伤力在于它虽然不对，但也不是全错，真真假假很…

2025多校冲刺省选模拟赛2\(T1\) A. aw \(10pts/20pts\)部分分\(10 \sim 20pts\) ：枚举每一种定向方案，略带卡常。点击查看代码 const int p=998244353; struct node {int nxt,to; }e[200010]; int head[100010],dis[1010][1010],a[100010],b[100010],g[2][100010],cnt=0; b…

jamovi 2.6 (Linux, macOS, Windows) - 统计软件

jamovi 2.6 (Linux, macOS, Windows) - 统计软件jamovi 2.6 (Linux, macOS, Windows) - 统计软件 open statistical software 请访问原文直链：https://sysin.org/blog/jamovi/ 查看最新版。原创作品，转载请保留出处。作者主页：sysin.orgjamovi适用于桌面和云的开放式统计软…

读数据保护：工作负载的可恢复性26商用数据备份方案

商用数据备份方案1. 备份简史 1.1. 20世纪80年代中期大家都还没有意识到，运行着商用UNIX操作系统的大型工作环境里，应该配备一款商用的备份软件或某种自动的磁带系统 1.2. 1993年备份工作全都是通过shell脚本与cron job形式的计划任务来实现的1.2.1. 脚本总是假定服务器中需要…

OpenCV和OpenVX有什么联系和区别

OpenCV和OpenVX有什么联系和区别联系和区别是：OpenCV是一个基于Apache2.0许可（开源）发行的跨平台计算机视觉和机器学习软件库。OpenVX 实现了跨平台加速处理，OpenVX在嵌入式和实时性系统中，可以更好地发挥它的优势，在某些场合配合OpenCV的强大功能，可以实现更好的效果。…

SPIR-V生态系统概述

SPIR-V生态系统SPIR-V生态系统，如图1-42所示。图1-42 SPIR-V生态系统 1.4.2 OpenVX路线图OpenVX路线图，如图1-43所示。图1-43 OpenVX路线图 OpenVX跨供应商视觉与推理基于图形的高级抽象实现可移植、高效的视觉处理。 1）处理器供应商创建、优化和发布优化OpenVX的驱动程序。…

4本书推荐《智能汽车传感器：原理设计应用》、《AI芯片开发核心技术详解》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》

4本书推荐《AI芯片开发核心技术详解》、《智能汽车传感器：原理设计应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《AI芯片开发核心技术详解》已经出版，京东、淘宝天猫、当当等网上，相应陆陆续续可以购买。该…

Easysearch 可搜索快照功能，看这篇就够了

可搜索快照功能改变了我们对备份数据的查询方式。以往要查询备份数据时，要先找到备份数据所在的快照，然后在一个合适的环境中恢复快照，最后再发起请求查询数据。这个处理路径很长，而且很消耗时间。可搜索快照功能将大大简化该处理路径，节约时间。角色设置相信你对节点角…

Python 将html格式书签转为excel

1.导出html格式书签

2.对数据做处理

3.安装python

4.描述问题生成代码

5.结果展示

相关文章