豆瓣影评数据抓取

news/2024/11/13 9:00:09/文章来源:https://www.cnblogs.com/suifeng2000/p/18355894

豆瓣影评数据抓取

创建时间：2024-08-12

抓取豆瓣影评相关数据的代码，包括封面、标题、评论内容以及影评详情页的数据。

一、完整代码

'''
https://movie.douban.com/review/best/
抓取封面 标题 评论內容
抓取完整的评论内容 也就是点击展开后的完整的
抓取当前影评的详情页的数据
抓取影评多页 封面 标题 完整评论内容 以及影评的详情页的数据
'''
import json
import re
import requests
from lxml import etreeurl = 'https://movie.douban.com/review/best/'
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36 Edg/125.0.0.0'
}
response = requests.get(url, headers=header)
response.encoding = 'utf-8'
html = response.text
tree = etree.HTML(html)
fm_urls = tree.xpath('//div[@class="review-list chart "]//a[@class="subject-img"]/img/@src')
bt_list = tree.xpath('//div[@class="main-bd"]/h2/a/text()')# for fm, bt in zip(fm_urls, bt_list):
#     res = requests.get(fm, headers=header)
#     with open('./imgs/' + bt + '.jpg', 'wb') as f:
#         f.write(res.content)
#         print(bt + ' 已保存')
details_list = tree.xpath('//div[@class="main-bd"]/h2/a/@href')
details_urls = []
for i in details_list:num = re.findall(r'\d+', i)[0]details_url = f'https://movie.douban.com/j/review/{num}/full'details_urls.append(details_url)
# https://movie.douban.com/j/review/15980218/full
for bt, details_url in zip(bt_list, details_urls):response = requests.get(details_url, headers=header)response.encoding = response.apparent_encodingdata = json.loads(response.text)# print(data['body'])datatree = etree.HTML(data['body'])details = datatree.xpath('//text()')# print(details)detailedInfo = '\n' + bt + '\n' + ''.join(details)with open('detail.txt', 'a+', encoding='utf-8') as f:f.write(detailedInfo)print(f'{bt}详情的内容全部下载完毕！！！')# exit()

二、代码详解

2.1 基本设置

导入了所需的库，并设置了要访问的豆瓣影评页面的 URL 和请求头，以模拟真实的浏览器访问。

import json
import re
import requests
from lxml import etreeurl = 'https://movie.douban.com/review/best/'
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36 Edg/125.0.0.0'
}

2.2 发送请求并获取页面的 HTML 内容

response = requests.get(url, headers=header)
response.encoding = 'utf-8'
html = response.text
tree = etree.HTML(html)

2.3 使用 `xpath` 方法提取出封面图片的 URL 和标题

fm_urls = tree.xpath('//div[@class="review-list chart "]//a[@class="subject-img"]/img/@src')
bt_list = tree.xpath('//div[@class="main-bd"]/h2/a/text()')

2.4 保存封面图片

for fm, bt in zip(fm_urls, bt_list):res = requests.get(fm, headers=header)with open('./imgs/' + bt + '.jpg', 'wb') as f:f.write(res.content)print(bt + ' 已保存')

2.5 获取影评详情页的 URL 并构建完整的请求链接

details_list = tree.xpath('//div[@class="main-bd"]/h2/a/@href')
details_urls = []
for i in details_list:num = re.findall(r'\d+', i)[0]details_url = f'https://movie.douban.com/j/review/{num}/full'details_urls.append(details_url)

2.6 获取影评详情页的完整内容并保存

for bt, details_url in zip(bt_list, details_urls):response = requests.get(details_url, headers=header)response.encoding = response.apparent_encodingdata = json.loads(response.text)# print(data['body'])datatree = etree.HTML(data['body'])details = datatree.xpath('//text()')# print(details)detailedInfo = '\n' + bt + '\n' + ''.join(details)with open('detail.txt', 'a+', encoding='utf-8') as f:f.write(detailedInfo)print(f'{bt}详情的内容全部下载完毕！！！')

三、效果

3.1 封面

3.2 信息

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/782987.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

设计规划专业 All In One

设计规划专业 All In One 设计规划城市规划与设计设计规划专业 All In One 设计规划城市规划与设计demos西交利物浦大学当今我们生活在一个不断变化的全球环境中，中国以及世界城市发展面临着诸多挑战。城市规划（城市设计方向）硕士课程将培养学生将设计原理和技术运用到解决…

基于java实现MYDB数据库

整体结构 --MYDB分为后端和前端，前后端通过socket进行交互前端(客户端)用于读取用户输入，并发送到后端执行，输出返回结果 MYDB后端需要解析SQL --MYDB的后端分为5个模块分别是： 1、Transaction Manager事务管理器 2、Data Manager数据管理器 3、Version Manager版本管理器…

颜色空间的互相转换

前言在上一篇中，我们介绍了常见颜色空间的一些定义及表示，在这一章中，我们将大致了解各个颜色空间的互相转换颜色转换算法由于有些颜色空间可能并不能直接转换，或着过于繁杂，本文主要介绍由RGB向其它空间的转换，涉及到的代码也采用Ts进行演示讲解在文章的最后面，会给…

TGI 多-LoRA: 部署一次，搞定 30 个模型的推理服务

你是否已厌倦管理多个 AI 模型所带来的复杂性和高成本？那么，如果你可以部署一次就搞定 30 个模型推理服务会如何？在当今的 ML 世界中，哪些希望充分发挥其数据的价值的组织可能最终会进入一个“微调的世界”。在这个世界，各个组织会构建大量模型，其中每个模型都针对特定…

计算机常用软件和语言

关于CSP-J初赛的学习笔记3.计算机常用软件和语言 3.1 计算机软件系统计算机软件通常分为系统软件和应用软件两大类；系统软件即支持应用软件开发和运行的一类计算机软件。一般包括操作系统，语言处理程序，数据库系统，网络管理系统等应用软件即为特定领域开发，并为特定目的…

「Day 7—离散化树状数组线段树」

离散化定义离散化本质是一种哈希，是一种用来处理数据的方法。 1.创建原数组的副本。 2.将副本中的值从小到大排序。 3.将排序好的副本去重。 4.查找原数组的每一个元素在副本中的位置，位置即为排名，将其作为离散化后的值。 B3694 数列离散化代码 #include<iostream>…

chrome无法下载文件

用的电脑是Mac Air M1，安装了127版本的chrome，总有几次在浏览器上下载文件的时候明明点击了下载按钮，chrome图标显示已经有下载的内容了，但是打开下载文件夹却不显示显示下载的文件，扒拉看了一下说是迅雷插件要关闭，后面发现自己也没安装迅雷插件。解决方案：把这两个关…

万兆以太网协议栈的FPGA实现（一）：常识+PCSPMA+结构

参考： https://docs.amd.com/r/zh-CN/pg210-25g-ethernet/%E7%AE%80%E4%BB%8B?tocId=59kIPN67Q57xorWh9w6GTA 10GbE以太网MAC和PHY - 者旨於陽 - 博客园 (cnblogs.com) 什么是CML电平-CSDN博客 10G Ethernet PCS/PMA v6.0 Product Guide (PG068) • 查看器 • AMD 技术信息门…

Two-Processor Scheduling 学习笔记

再高没有高爸高。为什么有人联考放论文题啊？不过好有趣。参考的 glx 博客。考虑这么一个问题，给定一张偏序图，即一个满足传递性和非自反性的偏序关系 \(\succ\) 连成的 DAG。你需要对这张图进行拓扑排序，每次可以同时删去一个或者两个零入度点，问最少删多少次可以把图删空…

【原创软件】第8期：pdf转图片软件FAST_PDF2PNG，可选分辨率快速pdf转图片

一、背景因为经常处理扫描件，需要将扫描件或者电子书先转为图片进行优化处理。为了省去人工时间，制作了一个软件FAST_PDF2PNG。尽管已经有不少软件可以完成该功能，但是杀鸡焉用牛刀。本工具仅约4M，小巧方便。（优点：速度快，比pdf补丁丁更快，可选分辨率72-1200dpi，含有…

2024暑假集训测试23

前言比赛链接。T2 部分分给得特别足，\(60pts\)，而且他不可能剩下的数据全放菊花，所以得到了 \(76pts\)，但赛时想了很长时间正解，没有想出来，给后面题剩的时间不多，就都胡暴力了，\(T4\) 甚至忘了剪枝，剪完之后 \(20pts\to 60pts\) 没绷住。说到这儿要吐槽一下 T4 数据…

了解LSTM网络（英文博客汉化）

Understanding LSTM Networks-了解LSTM网络原文来自于大神Cristopher Colah于2015年在Github上发布的一篇博客, 窃以为此文不失为一篇入门神经网络的经典文章, 遂产生了汉化的想法, 附原文链接Understanding LSTM Networks什么是RNN 人类不会时时刻刻都从头开始思考。譬如当你读…