使用selenium爬取猫眼电影榜单数据

文章目录

  • 前言
  • 导入所需的库:
  • 设置ChromeDriver的路径,并创建一个Chrome浏览器实例:
  • 打开目标网页,这里以猫眼电影榜单页面为例:
  • 使用XPath定位电影信息。通过查看网页源代码,发现电影信息所在的`<dd>`标签具有唯一的class属性名:
  • 遍历所有的`<dd>`标签,获取电影名称、导演和评分,并将数据保存到DataFrame中:
  • 将DataFrame导出为Excel文件:
  • 关闭浏览器:
  • 完整代码
    • 分点说明
  • 完结

前言

在这里插入图片描述

近年来,随着互联网的快速发展和人们对电影需求的增加,电影市场也变得日趋繁荣。作为观众或者投资者,我们时常需要了解最新的电影排行榜和票房情况。本文将介绍如何使用Python编写一个爬虫脚本,通过Selenium库自动化操作浏览器,爬取猫眼电影榜单数据,并保存为Excel文件。

导入所需的库:

在这里插入图片描述

  • import time:导入时间模块,用于添加延时等待。
  • from selenium import webdriver:导入Selenium库中的webdriver模块,用于创建浏览器实例和自动化操作。
  • from selenium.webdriver.common.by import By:导入Selenium库中的By模块,用于XPath定位元素。
  • import pandas as pd:导入pandas库,用于处理和分析数据。

设置ChromeDriver的路径,并创建一个Chrome浏览器实例:

在这里插入图片描述

driver_path = 'ChromeDriver的路径'
driver = webdriver.Chrome(driver_path)

打开目标网页,这里以猫眼电影榜单页面为例:

在这里插入图片描述

url = 'https://www.maoyan.com/board?timeStamp=1688716544141&sVersion=1&webdriver=false&index=3&signKey=44a722f975ab0b6750812bd0bf340b88&channelId=40011&requestCode=49793531118b4af79a95958d845ab0a7lgmud'
driver.get(url)
time.sleep(5)

使用XPath定位电影信息。通过查看网页源代码,发现电影信息所在的<dd>标签具有唯一的class属性名:

在这里插入图片描述

info = driver.find_element(By.CLASS_NAME, "board-wrapper")
ddlist = info.find_elements(By.TAG_NAME, "dd")

遍历所有的<dd>标签,获取电影名称、导演和评分,并将数据保存到DataFrame中:

data = pd.DataFrame(columns=['电影名称', '导演', '评分'])
i = 0
for item in ddlist:titles = item.find_element(By.CLASS_NAME, "board-item-main").find_element(By.CLASS_NAME, "name").textdirectors = item.find_element(By.CLASS_NAME, "star").textscores = item.find_element(By.CLASS_NAME, "releasetime").textdata.loc[i] = [titles, directors, scores]i += 1print(f"电影名称:{titles},导演:{directors},评分:{scores}")

将DataFrame导出为Excel文件:

output_path = '猫眼.xlsx'
data.to_excel(output_path, index=False)

关闭浏览器:

driver.quit()

通过以上代码,我们成功实现了使用Python爬取猫眼电影榜单数据的功能。

完整代码

在这里插入图片描述

import timefrom selenium import webdriver
from selenium.webdriver.common.by import By
import pandas as pd# 设置ChromeDriver的路径
driver_path = ''# 创建Chrome浏览器实例
driver = webdriver.Chrome(driver_path)# 打开目标网页
url = 'https://www.maoyan.com/board?timeStamp=1688716544141&sVersion=1&webdriver=false&index=3&signKey=44a722f975ab0b6750812bd0bf340b88&channelId=40011&requestCode=49793531118b4af79a95958d845ab0a7lgmud'
driver.get(url)
time.sleep(5)
# 使用XPath定位电影信息
info = driver.find_element(By.CLASS_NAME, "board-wrapper")
ddlist = info.find_elements(By.TAG_NAME, "dd")
# print(ddlist)
data = pd.DataFrame(columns=['电影名称', '导演', '评分'])
i = 0
for item in ddlist:# print(item)# 获取所有电影信息titles = item.find_element(By.CLASS_NAME, "board-item-main").find_element(By.CLASS_NAME, "name").textdirectors = item.find_element(By.CLASS_NAME, "star").textscores = item.find_element(By.CLASS_NAME, "releasetime").textdata.loc[i] = [titles, directors, scores]i += 1print(f"titles{titles}, directors{directors} , scores{scores}")# # 将DataFrame导出为Excel文件
output_path = '猫眼.xlsx'
data.to_excel(output_path, index=False)
#
# # 关闭浏览器
driver.quit()

分点说明

  1. import time:导入时间模块,用于添加延时等待。

  2. from selenium import webdriver:导入Selenium库中的webdriver模块,用于创建浏览器实例和自动化操作。

  3. from selenium.webdriver.common.by import By:导入Selenium库中的By模块,用于XPath定位元素。

  4. import pandas as pd:导入pandas库,用于处理和分析数据。

  5. driver_path = '':设置ChromeDriver的路径,填写你的ChromeDriver路径。

  6. driver = webdriver.Chrome(driver_path):创建一个Chrome浏览器实例。

  7. url = 'https://www.maoyan.com/board?timeStamp=1688716544141&sVersion=1&webdriver=false&index=3&signKey=44a722f975ab0b6750812bd0bf340b88&channelId=40011&requestCode=49793531118b4af79a95958d845ab0a7lgmud':目标网页的URL。

  8. driver.get(url):打开目标网页。

  9. time.sleep(5):等待5秒,确保页面加载完成。

  10. info = driver.find_element(By.CLASS_NAME, "board-wrapper"):使用By.CLASS_NAME通过class名称定位电影信息所在的元素。

  11. ddlist = info.find_elements(By.TAG_NAME, "dd"):使用By.TAG_NAME通过标签名称定位所有电影信息所在的元素。

  12. data = pd.DataFrame(columns=['电影名称', '导演', '评分']):创建一个空的DataFrame,用于存储电影数据,并指定列名。

  13. i = 0:设置索引变量i。

  14. for item in ddlist::遍历所有电影信息。

  15. titles = item.find_element(By.CLASS_NAME, "board-item-main").find_element(By.CLASS_NAME, "name").text:通过XPath定位电影名称,并使用.text获取文本内容。

  16. directors = item.find_element(By.CLASS_NAME, "star").text:通过XPath定位导演信息,并使用.text获取文本内容。

  17. scores = item.find_element(By.CLASS_NAME, "releasetime").text:通过XPath定位评分信息,并使用.text获取文本内容。

  18. data.loc[i] = [titles, directors, scores]:将电影名称、导演和评分添加到DataFrame中的一行。

  19. i += 1:索引自增1。

  20. print(f"titles{titles}, directors{directors} , scores{scores}"):打印每部电影的名称、导演和评分。

  21. output_path = '猫眼.xlsx':指定输出Excel文件的路径。

  22. data.to_excel(output_path, index=False):将DataFrame保存为Excel文件,不包含索引列。

  23. driver.quit():关闭浏览器。

完结

点赞加关注下个代码有帮助
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/18011.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Appium+python自动化(二)- 环境搭建—下(超详解)

简介 上一篇android测试开发环境已经准备好&#xff0c; 那么接下来就是appium的环境安装和搭建了。 环境装好后&#xff0c;可以用真机连电脑&#xff0c;也可以用android-sdk里面的模拟器&#xff08;当然这个模拟器不是很好用&#xff09;&#xff0c;我一般喜欢真机&#…

Git 学习笔记

1、创建本地库&#xff0c;添加文件 1.1 创建本地库 先用git跳转到对应的文件夹下&#xff0c;可以手动创建仓库文件夹&#xff0c;也可以在git中使用如下指令创建并跳转&#xff1a; mkdir filename cd filename 注&#xff1a;这里的filename为文件夹名 随后输入指令&#x…

Centos7编译安装ffmpeg

1、准备工作&#xff0c;安装必要的环境 yum install autoconf automake bzip2 cmake freetype-devel gcc gcc-c git libtool make mercurial pkgconfig zlib-devel 2、创建目录 ffmpeg_sources 目录是下载软件包的目录 ffmpeg 目录是安装目录 mkdir /usr/local/ffmpeg_sour…

Git 上传Github 超时问题

提交代码到GitHub总是超时&#xff0c;偶尔会直接上传成功。 提供一下解决方案 1.首先找到网络 2. 找到代理 3. 把自动检查设置全部关闭&#xff0c;然后打开手动设置代理&#xff0c;然后输入ip地址和你代理的端口号&#xff0c;保存即可。 4. 最后使用git push origin mast…

2023-07-10:Kafka如何做到消息不丢失?

2023-07-10&#xff1a;Kafka如何做到消息不丢失&#xff1f; 答案2023-07-10&#xff1a; Kafka采用多种机制来确保消息的不丢失&#xff0c;其中包括副本机制、ISR&#xff08;In-Sync Replicas&#xff09;机制以及ACK机制等。 1.副本机制 Kafka通过副本机制来确保消息不…

Jtti:linux如何查看磁盘驱动器列表?

在Linux系统中&#xff0c;你可以使用以下命令之一来查看磁盘驱动器列表&#xff1a; 1.使用 fdisk 命令&#xff1a;运行以下命令来查看磁盘驱动器列表&#xff1a; 这会列出系统中所有的磁盘驱动器及其分区。 2.使用 lsblk 命令&#xff1a;运行以下命令来查看磁盘驱动器列表…

【WebSocket】SpringBoot整合WebSocket实现聊天室(一)

目录 一、准备 1、引入依赖 2、创建配置类 二、相关注解 一、准备 1、引入依赖 首先我们需要在项目中引入依赖&#xff0c;有两种方式。第一种我们可以在创建Spring Boot项目时搜索WebSocket然后勾选依赖 第二种是我们可以直接在项目的pom.xml文件中插入以下依赖 <dep…

springboot整合websocket遇到的小问题

今天尝试了通过springboot整合websocket来初步学习使用websocket&#xff0c;然后发现启动的时候报错了&#xff0c;发这篇文章分享一下。 springboot整合websocket的步骤很简单&#xff1a; 第一步&#xff1a;创建一个springboot项目&#xff0c;在这里命名为websocket 在I…

div绑定键盘点击事件

为箭头绑定绑定键盘方向键 <div class"toggle-nav"><spanv-if"leftToggleSt"click"toggleGoods(1)"keyup.left"toggleGoods(1)"class"toggle-left"><a-icon type"left" class"icon" /&…

CHI read trans flow

Read transactions with DMT and without snoops 对于不产生snoop的read trans&#xff0c;建议使用DMT功能&#xff0c;如下图所示&#xff1a; 注意点&#xff1a; a. SNF并不需要给HNF回响应&#xff0c;因为RN发送的compack可以释放HNF处记录的请求; Read transaction wi…

MATLAB|考虑自动重合闸与分布式能源的配电网可靠性评估研究

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…

【Leetcode】36. 有效的数独

一、题目 1、题目描述 请你判断一个 9 x 9 的数独是否有效。只需要 根据以下规则 ,验证已经填入的数字是否有效即可。 数字 1-9 在每一行只能出现一次。 数字 1-9 在每一列只能出现一次。 数字 1-9 在每一个以粗实线分隔的 3x3 宫内只能出现一次。(请参考示例图) 注意:…