第6章:6.4.2 案例二:爬取成语网站数据 (MATLAB入门课程)

  讲解视频:可以在bilibili搜索《MATLAB教程新手入门篇——数学建模清风主讲》。​

MATLAB教程新手入门篇(数学建模清风主讲,适合零基础同学观看)_哔哩哔哩_bilibili


本案例用到的网址为:成语大全列表成语大全列表icon-default.png?t=N7T8https://chengyu.bmcx.com/e1zdh_1__chengyulist/

请大家在电脑浏览器中打开上方的网址:

请使用鼠标滚轮将网站下滑滚动到页面底部,可以看到该网站设置了分页功能:

我们可以分别点击第2页和第3页,可以看到新打开的网页地址变为了

https://chengyu.bmcx.com/e1zdh_2__chengyulist/

https://chengyu.bmcx.com/e1zdh_3__chengyulist/.

因此,我们发现了这个网址的规律:https://chengyu.bmcx.com/e1zdh_k__chengyulist/,这里的k就表示第k页。通过循环语句,我们能够获取每一个网页的源码,并将每一页的成语提取出来保存到同一个字符串数组中。

现在我们先以第一页的网址为例,获取相应的源码并提取对应的成语。

接下来,我们需要在网页的源码中定位成语的位置。这一步需要仔细分析网页的结构,并设计出合适的正则表达式来匹配成语。

通过观察成语在源码中的位置,我们可以设计下面的正则表达式来提取出所有的成语:

以上是获取第一个网页的成语数据的代码。接下来,我们使用循环语句获取前5个网页的成语数据。

小技巧:对于批量爬取多个网页,建议使用try-catch语句来捕获潜在的错误以确保程序的稳健性。我们只需要将其添加到循环体内,当某次循环出现错误时,会产生警告信息。


  点击下方的CSDN专栏阅读下一篇文章:

MATLAB入门课程专栏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/619530.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

NumPy基础及取值操作

文章目录 第1关:ndarray对象第2关:形状操作第3关:基础操作第4关:随机数生成第5关:索引与切片 第1关:ndarray对象 编程要求 根据提示,在右侧编辑器Begin-End中填充代码,根据测试用例…

Servlet测试1

通过按钮提交get,post请求,并且后端响应数据,显示到前端 当点击get按钮时 是发起Get请求 后端接收到Get请求后,把数据写入到body内 当点击pst按钮时 是发起Post请求 后端接收到Post请求后,把数据写入到body内 之后前端就从bod…

Pyjion,一个神奇的 Python 库!

大家好,今天为大家分享一个神奇的 Python 库 - Pyjion。 Github地址:https://github.com/Microsoft/Pyjion Pyjion 是一个针对 Python 解释器的 JIT 编译器,旨在提高 Python 代码的性能。本文将深入探讨 Pyjion 库的特性、用法,并…

ELK——日志处理界的瑞士军刀

目录 引言 一、ELK简介 (一)基本概述 1.Elasticsearch服务 2.Logstash服务 2.2 logstash关键组件 2.2 logstash数据流向 3.Kibana服务 (二)ELK工作流程 (三)ELK的应用价值 二、部署搭建ELK &…

第十五届蓝桥杯省赛C/C++大学B组真题及赛后总结

目录 个人总结 C/C 组真题 握手问题 小球反弹 好数 R 格式 宝石组合 数字接龙 爬山 拔河 ​编辑 再总结及后续规划 个人总结 第一次参加蓝桥杯,大二,以前都在在学技术,没有系统的学过算法。所以,还是花了挺多时间去备…

win10录屏快捷键揭秘,教你轻松录制屏幕

“大家有没有注意过,在使用Windows 10操作系统时,如何能够快速而简便地录制屏幕上的内容呢?每次都要打开录屏软件再开始录制,实在是有些繁琐,如果有一个简单的快捷键,那该多好啊。大家如果有好的建议&#…

计算机本科毕业,「就业」还是「读研」?

如果本科不错能找到较好的工作,建议直接工作,否则可以选择读研。 如果你本科毕业于一所顶尖学府,且技术实力雄厚,那么直接就业可能更为明智;对比而言读研可以为你提供更多的时间和机会去提升自己,尤其是在…

精通技术写作:如何写出高质量技术文章?

CSDN 的朋友你们好,我是未来,今天给大家带来专栏【程序员博主教程(完全指南)】的第 7 篇文章“如何撰写高质量技术文章”。本文深入探讨了如何写好一篇技术文章。文章给出了好的技术文章的定义和分析,并提供了从选题、…

【入门】时钟旋转

时间限制 : 1 秒 内存限制 : 128 MB 时钟上面的时针从m时走到n时旋转了多少度&#xff1f;&#xff08;m<n&#xff0c;且m和n都是1~12之间的整数&#xff09; 输入 2个整数m和n 输出 一个整数代表时针旋转的度数 样例 输入 1 4 输出 90 提示 基础问题 #includ…

【树哈希】CF1182D Complete Mirror

CF1182D - Complete Mirror Description 给定一个 n n n 个点的无根树&#xff0c;求一个树根 r o o t root root,使得对于任意两个节点 v 1 , v 2 v_1,v_2 v1​,v2​&#xff0c;若满足 d i s t ( v 1 , r o o t ) d i s t ( v 2 , r o o t ) dist(v_1,root)dist(v_2,ro…

大家都在用的一款高颜值免费在线SCI绘图工具~~~

ImageGP从2017年推出后&#xff0c;稳定运行7年&#xff0c;因其使用简单方便&#xff0c;深受广大朋友们喜欢。 独立IP访问60万次&#xff0c;日均使用1000次。 如果您对编程不熟悉&#xff0c;使用ImageGP可以快速出图。 只需轻轻点2两下&#xff0c;下面的美图就出来了 如果…

Java开发从入门到精通(二十):Java的面向对象编程OOP:IO流文件操作的读取和写入

Java大数据开发和安全开发 &#xff08;一&#xff09;Java的IO流文件读写1.1 IO流前置知识1.1.1 ASCII字符集1.1.2 GBK字符集1.1.3 Unicode字符集1.1.4 UTF-8字符集1.1.4 Java的编码解码 1.2 IO流的基础知识1.2.1 认识I0流1.2.2 应用场景1.2.3 如何学I0流1.2.3.1 先搞清楚I0流…