使用js写一个正则获取页面中所有的url地址

news/2025/1/4 20:38:40/文章来源:https://www.cnblogs.com/ai888/p/18646658

在前端开发中,你可以使用JavaScript和正则表达式来从页面中提取所有的URL地址。以下是一个简单的示例,它使用正则表达式来匹配常见的URL模式,并通过遍历DOM来查找包含这些URL的文本节点:

function extractURLsFromPage() {const urls = [];const urlRegex = /(https?:\/\/(?:www\.)?[-a-zA-Z0-9@:%._\+~#=]{1,256}\.[a-zA-Z0-9()]{1,6}\b([-a-zA-Z0-9()@:%_\+.~#?&//=]*))/g;function traverse(node) {if (node.nodeType === Node.TEXT_NODE) {const text = node.nodeValue;let match;while ((match = urlRegex.exec(text)) !== null) {const url = match[0];if (!urls.includes(url)) {urls.push(url);}}} else {for (let i = 0; i < node.childNodes.length; i++) {traverse(node.childNodes[i]);}}}traverse(document.body);return urls;
}// 使用示例:
const allURLs = extractURLsFromPage();
console.log(allURLs); // 输出页面中找到的所有URL地址

这个extractURLsFromPage函数首先定义了一个空数组urls来存储找到的URL地址,以及一个正则表达式urlRegex来匹配URL。然后,它定义了一个名为traverse的递归函数,该函数遍历DOM树并检查每个文本节点是否包含URL。如果找到一个匹配项,就将其添加到urls数组中(如果它尚未存在)。最后,函数从document.body开始遍历DOM,并返回包含所有找到URL的数组。

请注意,这个正则表达式可能无法匹配所有可能的URL格式,特别是那些具有非标准端口、查询参数或特殊字符的URL。你可以根据需要调整正则表达式以更精确地匹配你感兴趣的URL类型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/862737.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Khronos合作开发

Khronos和EMVA合作 Khronos和EMVA合作,如图1-12所示。图1-12 Khronos和EMVA合作 Intel oneAPI DPC++和UXL基础 1)Intel oneAPI DPC++符合SYCL 2020规范 ①统一共享内存、并行约简、工作组算法、类模板。 ②论证推理、访问优化、扩展互操作性等。 2)UXL统一加速基础 ①加速计…

嵌入式摄像机系统与软件堆栈

嵌入式摄像机系统API-正在开发中 1)开放、跨供应商、免费的摄像头、传感器和ISP控制开放标准。 2)嵌入式、移动、工业、XR、汽车和科学市场。 好处 1)摄像头/传感器代码的可移植性,使新传感器的系统集成更加容易。 2)跨多代相机和传感器保存应用程序代码。 3)对传感器流生…

推荐《AI芯片开发核心技术详解》、《智能汽车传感器:原理设计应用》两本书

两本书推荐《AI芯片开发核心技术详解》、《智能汽车传感器:原理设计应用》由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《AI芯片开发核心技术详解》已经出版,京东、淘宝天猫、当当等网上,相应陆陆续续可以购买。该书强力解析AI芯片的核心技术开发,内容翔实、知识点新…

[2025.1.1 JavaSE学习]内部类 异常

内部类 package mypkg.demo01public class Outer{private int id;public void out(){System.out.println("外部类方法");}public class Inner{public void in(){System.out.println("内部类方法");}} }实例化内部类之前,需要先将外部类进行实例化:import…

【Linux内核】字节序和位域(1)

Linux内核定义的TCP首部的结构体tcphdr如下图所示。你会发现一个奇怪的问题:处理器使用大端字节序时字节内部的位域定义顺序和处理器使用小端字节序时相反,但是位域的字节顺序相同。如果你能把这个问题解释清楚,那么说明你已经完全掌握字节序和比特序,不需要阅读这篇文章。…

多尺度计算3

分成四个阶段第一个阶段,是pretrain。先学习mean和variance的生成,一条轨迹会生成两个平均值和方差(分别表示时间和空间的)。然后输入到解码器中解码,两个lstm.一个用于重构时间,一个是用于重构路段 第二个阶段,是生成Gaussian model。计算sample轨迹的mean和variance,…

[Windows/虚拟化/OS] WSL(Windows Subsystem for Linux)技术

概述:WSL 什么是WSL?WSL代表“Windows Subsystem for Linux”,是一种由Microsoft开发的技术,允许在Windows操作系统上运行Linux发行版(如Ubuntu、Debian、Fedora等)。WSL的目标是在Windows环境中提供原生的Linux兼容性,让开发者能够在Windows系统上进行Linux开发,无需创…

NGINX完全指南:实现高性能负载均衡的进阶实操指南(第三版)PDF、EPUB免费下载

NGINX 是当今使用最广泛的 Web 服务器之一,部分原因在于它可以用作 HTTP 和其他网络协议的负载均衡器和反向代理服务器。本修订版完全指南通过一些简单易懂的例子解析了应用交付中真实存在的问题。实用的实操指南可帮助您设置开源或商业产品,并利用它们解决各种用例中的问题。…

架构师启示录:知识模型、落地方法与思维模式PDF、EPUB免费下载

本书由资深架构师撰写,从架构知识模型、架构落地方法和架构思维模式三大维度剖析架构师的能力模型。具体而言,本书融合TOGAF、DDD、RUP等主流架构方法论,抽象出一个具有高度普适性的架构认知框架,帮助读者轻松入门,成为合格架构师。适读人群 :资深程序员、初级架构师 从架…

Chrome Updater(Chrome更新器) v2.1

Chrome Updater 是一个便携Chrome、Chrome++版本检查和更新的工具。将程序放置于App目录内或手动指定App文件夹,未检测到Chrome将初始化安装。部分API依赖于GitHub服务,如果遇到网络问题可以设置GitHub代理。Chrome及Chrome++均可单独更新,互不影响。 配置存储路径:C:Users…

PowerISO(映像文件处理) v8.9 中文版

PowerISO作为一款专业的映像文件处理软件,凭借其出色的功能收到了众多用户的喜爱。PowerISO软件小巧,下载包仅为3.6M,支持大部分的CD/DVD–ROM映像文件格式,而且PowerISO同时支持Windows的32位与64位操作系统,功能实用,操作简便。获取地址:https://www.dmjf.top/2273.htm…

Android 万能格式转换器 v1.2.1 专业版

万能格式转换器 是一个一键操作的格式转换工具,可以轻松实现多种视频格式、音频格式、文档格式、图片格式转换。同时支持日常生活中的各种文件转换,比如视频转换音频、视频压缩、视频音频提取、图片转pdf、视频md5转码等。获取地址:https://www.dmjf.top/2592.html