豆瓣短评榜单短评下载

news/2024/11/15 11:35:00/文章来源:https://www.cnblogs.com/suifeng2000/p/18353274

豆瓣短评榜单短评下载

创建时间：2024-08-07

一、完整代码

import requests
from lxml import etreedef get_html(main_url):header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36 Edg/125.0.0.0'}# 拿链接res = requests.get(url, headers=header)res.encoding = res.apparent_encodinghtml = res.textreturn htmldef get_url_lists(html):tree = etree.HTML(html)url_lists = tree.xpath('//div[@class="hd"]/a/@href')return url_listsdef movie_concat(html):tree = etree.HTML(html)content = tree.xpath('//div[@id="hot-comments"]//p[@class=" comment-content"]/span/text()')title = tree.xpath('//div[@class="mod-hd"]/h2/i/text()')movie_concat =  '\n' +title[0] + '\n' + '\n'.join(content)return movie_concatdef save_concat(movie_concat):with open('短评.txt', 'a+', encoding='utf-8') as f:f.write(movie_concat)if __name__ == '__main__':url = 'https://movie.douban.com/top250?start=0'for url in get_url_lists(get_html(url)):save_concat(movie_concat(get_html(url)))

效果：

二、代码学习

以下是整个代码的主要逻辑和功能：

2.1 定义了一个 `get_html` 函数

用于获取网页的 HTML 内容。在这个函数中，我们设置了一个模拟浏览器的 User-Agent 头部信息，然后使用 requests.get 方法获取网页，并处理了编码问题。

def get_html(main_url):header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36 Edg/125.0.0.0'}# 拿链接res = requests.get(url, headers=header)res.encoding = res.apparent_encodinghtml = res.textreturn html

2.2`get_url_lists` 函数

通过 lxml 的 etree 模块，使用 xpath 表达式从 HTML 中提取出电影详情页的链接列表。

def get_url_lists(html):tree = etree.HTML(html)url_lists = tree.xpath('//div[@class="hd"]/a/@href')return url_lists

2.3 `movie_concat` 函数

进一步从每个电影详情页的 HTML 中提取出电影的标题和热门短评内容，并进行整合。

def movie_concat(html):tree = etree.HTML(html)content = tree.xpath('//div[@id="hot-comments"]//p[@class=" comment-content"]/span/text()')title = tree.xpath('//div[@class="mod-hd"]/h2/i/text()')movie_concat =  '\n' +title[0] + '\n' + '\n'.join(content)return movie_concat

2.4 `save_concat` 函数

将整合好的电影短评内容保存到一个名为 短评.txt 的文件中。

def save_concat(movie_concat):with open('短评.txt', 'a+', encoding='utf-8') as f:f.write(movie_concat)

2.5 `if name == 'main'` 部分

我们指定了要爬取的豆瓣电影 top250 页面的初始链接，并通过循环遍历获取到的电影详情页链接，依次获取并保存短评内容。

if __name__ == '__main__':url = 'https://movie.douban.com/top250?start=0'for url in get_url_lists(get_html(url)):save_concat(movie_concat(get_html(url)))

通过这样的代码实现，我们能够自动获取豆瓣电影的短评信息，为进一步的数据分析或其他应用提供了基础。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/781245.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

阿里云ACK托管版初始化

阿里云ACK托管版配置图例阿里云1.30.1版本集群配置在创建过程中注意几个选项付费类型 (按量, 包年包月) 版本选择VPC 网络插件节点交换机

电机原理概要

深入理解无刷直流电机矢量控制技术第一章电机原理概要 1.1 左手定则判断通电导体在磁场中的受力。导体受力 $ F(N) $为 \[F=B\times I \times L \]式中，$B$为磁通密度（$ Wb/m^2$）；$I$为电流（$A$）；$L$为处于磁场中导体的长度（$m$）。 1.2 右手螺旋定则右手…

USB协议详解第4讲（USB描述符-标准配置描述符）

1.USB描述符 USB描述符有设备描述符、标准配置描述符、接口描述符、端点描述符、字符串描述符，HID设备有HID描述符、报告描述符和物理描述符。今天主要是学习USB标准配置描述符的组成。 2.标准配置描述符组成一个USB设备至少有一个或者多个配置，这一点可以从设备描述符的最后…

开启/关闭子系统的命令

WSL 下的运行我们需要怎么关闭或者开启子系统呢用管理员权限打开的命令行先用 wsl -l -v查看当前有无任务我这边是关闭的，于是我想把它开上，输入net start LxssManager已经开启，接下来去想去的地方操作就好了如果要关掉子系统呢直接net stop LxssManager即可关闭本文来…

问题现象解决办法如下 1、使用@JsonFormat @JsonFormat(pattern = "yyyy-MM-dd HH:mm:ss", timezone = "GMT+8")结果2、使用SpringMVC提供的ExtendMessageConverters @Slf4j @Configuration public class WebMvcConfig extends WebMvcConfigurationSupport…

windows网络正常,但是网络图标变为飞机

本文来自博客园，作者：东岸，转载请注明原文链接：https://www.cnblogs.com/donghao99/p/18353254

气象爱好者必备网址（持续更新）

目录测站资料雷达资料探空图资料学习教程论坛/BBS/个人站天气模拟器测站资料 q-weather 中山市气象公众网深圳市气象局（台）-自动站查询雷达资料 NMC-全国雷达回波反射率组合图广州天气PDA版-雷达回波图广州市海珠区Swift 江门雷达（相控阵雷达） NaTyphoon-雷达回波反射…

springMVC 请求流程解析

` @SuppressWarnings("deprecation") protected void doDispatch(HttpServletRequest request, HttpServletResponse response) throws Exception { // 实际处理时用的请求，如果不是上传请求，则直接使用接收到的 request,否则封装成上传的 request HttpServletRequ…

时间分辨率、采样率与采样深度三者关系理解

在脑成像研究中，分辨率和采样率是一个经常被提及的概念，但分辨率和采样率有时候容易混淆。除此之外，采样深度这个重要的概念却很少被提及。因此，本篇随笔主要内容是为阐述上述三者的概念以及相关联系。概念的明晰了解关系之前，首先需要明晰三者的定义概念，其中分辨率仅…

SciTech-BigDataAIML-Algorithm-: 主观经验:先验概率似然概率和客观事实:后验概率条件概率 + Floyd(弗落伊得)最短路线算法

主观经验和客观事实:后验概率 Subjective主观经验: 先验概率 & 似然概率 Objective客观事实: 后验概率 & 条件概率Floyd(弗落伊得)最短路线算法

SciTech-BigDataAIML-Algorithm-Floyd(弗落伊得)最短路线算法

动手做科研-day01-AI的最新进展与科研应用

01. Python 程序运行工具以及环境搭建选择使用kaggle官方的notebook作为环境搭建的平台，因为之前使用过kaggle进行注册，因此直接简单登录，按照下图依次进行操作 note: 需要挂来登录 1. 点击create2. 创建notebook记事本3. 尝试写一个简单的hello world 先新建codeprint(&q…