【python】爬取酷狗音乐Top500排行榜【附源码】

 一、导入必要的模块:

    这篇博客将介绍如何使用Python编写一个爬虫程序,从斗鱼直播网站上获取图片信息并保存到本地。我们将使用requests模块发送HTTP请求和接收响应,以及os模块处理文件和目录操作。

        如果出现模块报错

        进入控制台输入:建议使用国内镜像源

pip install requests -i https://mirrors.aliyun.com/pypi/simple

         我大致罗列了以下几种国内镜像源:

        

清华大学
https://pypi.tuna.tsinghua.edu.cn/simple阿里云
https://mirrors.aliyun.com/pypi/simple/豆瓣
https://pypi.douban.com/simple/ 百度云
https://mirror.baidu.com/pypi/simple/中科大
https://pypi.mirrors.ustc.edu.cn/simple/华为云
https://mirrors.huaweicloud.com/repository/pypi/simple/腾讯云
https://mirrors.cloud.tencent.com/pypi/simple/

    

二、发送GET请求获取响应数据:

        设置了请求头部信息,以模拟浏览器的请求,函数返回响应数据的JSON格式内容。

def get_html(url):header = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'}response = requests.get(url=url, headers=header)# print(response.json())html = response.json()return html

        如何获取请求头:

        火狐浏览器:
  1. 打开目标网页并右键点击页面空白处。
  2. 选择“检查元素”选项,或按下快捷键Ctrl + Shift + C(Windows)
  3. 在开发者工具窗口中,切换到“网络”选项卡。
  4. 刷新页面以捕获所有的网络请求。
  5. 在请求列表中选择您感兴趣的请求。
  6. 在右侧的“请求标头”或“Request Headers”部分,即可找到请求头信息。

     将以下请求头信息复制出来即可

三、爬取酷狗TOP500排行榜

        从酷狗音乐排行榜中提取歌曲的排名、歌名、歌手和时长等信息

        

        具体步骤如下:

  1. 导入需要的模块:requests用于发送HTTP请求,BeautifulSoup用于解析HTML,time用于控制爬虫的速度。

  2. 设置请求头部信息:通过headers字典设置了User-Agent,模拟浏览器发送请求,防止被网站封禁。

  3. 定义函数get_info(url):该函数接收一个URL参数,用于爬取指定网页的信息。

  4. 发送网络请求并解析HTML:使用requests.get()函数发送GET请求获取网页的HTML内容,并使用BeautifulSoup模块解析HTML。

  5. 通过CSS选择器定位需要的信息:使用select()方法根据CSS选择器定位到歌曲的排名、歌名和时长等元素。

  6. 循环遍历每个信息并存储到字典中:使用zip()函数将排名、歌名和时长等元素打包成一个迭代器,然后通过循环遍历,将每个信息存储到data字典中。

  7. 打印获取到的信息:使用print()函数打印data字典中的信息。

  8. 主程序入口:使用if __name__ == '__main__':判断当前文件是否被直接执行,如果是则执行以下代码。

  9. 构造要爬取的页面地址列表:使用列表推导式构造一个包含要爬取的页面地址的列表。

  10. 调用函数获取页面信息:使用for循环遍历页面地址列表,并调用get_info()函数获取每个页面的信息。

  11. 控制爬虫速度:使用time.sleep()函数控制爬虫的速度,防止过快被封IP。

源码:

import requests  # 发送网络请求,获取 HTML 等信息
from bs4 import BeautifulSoup  # 解析 HTML 信息,提取需要的信息
import time  # 控制爬虫速度,防止过快被封IPheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36"# 添加浏览器头部信息,模拟请求
}def get_info(url):# 参数 url :要爬取的网页地址web_data = requests.get(url, headers=headers)  # 发送网络请求,获取 HTML 等信息soup = BeautifulSoup(web_data.text, 'lxml')  # 解析 HTML 信息,提取需要的信息# 通过 CSS 选择器定位到需要的信息ranks = soup.select('span.pc_temp_num')titles = soup.select('div.pc_temp_songlist > ul > li > a')times = soup.select('span.pc_temp_tips_r > span')# for 循环遍历每个信息,并将其存储到字典中for rank, title, time in zip(ranks, titles, times):data = {"rank": rank.get_text().strip(),  # 歌曲排名"singer": title.get_text().replace("\n", "").replace("\t", "").split('-')[1],  # 歌手名"song": title.get_text().replace("\n", "").replace("\t", "").split('-')[0],  # 歌曲名"time": time.get_text().strip()  # 歌曲时长}print(data)  # 打印获取到的信息if __name__ == '__main__':urls = ["https://www.kugou.com/yy/rank/home/{}-8888.html".format(str(i)) for i in range(1, 24)]# 构造要爬取的页面地址列表for url in urls:get_info(url)  # 调用函数,获取页面信息time.sleep(1)  # 控制爬虫速度,防止过快被封IP

效果图:

  给大家推荐一个网站

    IT今日热榜 一站式资讯平台


        里面包含了上百个IT网站,欢迎大家访问:IT今日热榜 一站式资讯平台

   iToday,打开信息的新时代。作为一家创新的IT数字媒体平台,iToday致力于为用户提供最新、最全面的IT资讯和内容。里面包含了技术资讯、IT社区、面试求职、前沿科技等诸多内容。我们的团队由一群热爱创作的开发者和分享的专业编程知识爱好者组成,他们精选并整理出真实可信的信息,确保您获得独特、有价值的阅读体验。随时随地,尽在iToday,与世界保持连接,开启您的信息新旅程!

IT今日热榜 一站式资讯平台IT今日热榜汇聚各类IT热榜:虎嗅、知乎、36氪、京东图书销售、晚点、全天候科技、极客公园、GitHub、掘金、CSDN、哔哩哔哩、51CTO、博客园、GitChat、开发者头条、思否、LeetCode、人人都是产品经理、牛客网、看准、拉勾、Boss直聘http://itoday.top/#/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/175599.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

绘图软件 OmniGraffle mac中文版特点说明

OmniGraffle mac是一款图形绘制和图表设计软件,主要面向 macOS 和 iOS 平台。它适用于用户创建流程图、组织结构图、原型设计、网站线框图、地图等各种类型的图形。该软件的界面直观,用户友好,让用户能够轻松地创建和编辑复杂的图形。 OmniGr…

【概率论】Python:实现求联合分布函数 | 求边缘分布函数 | Joint distribution | Marginal distribution

猛戳订阅! 👉 《一起玩蛇》🐍 💭 写在前面:本章我们将通过 Python 手动实现联合分布函数和边缘分布函数,部署的测试代码放到文后了,运行所需环境 python version >= 3.6,numpy >= 1.15,nltk >= 3.4,tqdm >= 4.24.0,scikit-learn >= 0.22。 0x00 …

uniapp蓝牙搜索设备并列表展示

1.需求:3.0的桩可以值扫码通过蓝牙名字直接绑定,2.0的桩二维码无蓝牙名称则需通过蓝牙列表来绑定 2.碰到问题 1.0 蓝牙列表需要去重(蓝牙列表通过deviceId去重再放进展示列表) 2.0页面会卡顿(调用my.stopBluetoothDevi…

时间序列预测实战(十六)PyTorch实现GRU-FCN模型长期预测并可视化结果

往期回顾:时间序列预测专栏——包含上百种时间序列模型带你从入门到精通时间序列预测 一、本文介绍 本文讲解的实战内容是GRU-FCN(门控循环单元-全卷积网络),这是一种结合了GRU(用于处理时间序列数据)和FCN(全卷积网络…

Elasticsearch:ES|QL 动手实践

在我之前的文章 “Elasticsearch:ES|QL 查询语言简介”,我对 Elasticsearch 的最新查询语言 ES|QL 做了一个简单的介绍。在今天的文章中,我们详细来使用一些例子来展示 ES|QL 强大的搜索与分析功能。 安装 如果你还没有安装好自己的 Elastic…

Facebook账号运营技巧

Facebook作为全球知名的社交媒体平台之一,坐拥着庞大的用户群体,吸引大量的跨境电商加入,那么肯定就会有少部分的卖家对于Facebook账号运营不是很了解,下面小编将讲一下Facebook账号运营的一些小技巧。 1、明确目标受众 首先需要明…

【Python】一文带你掌握数据容器之集合,字典

目录: 一、集合 思考:我们目前接触到了列表、元组、字符串三个数据容器了。基本满足大多数的使用场景为何又需要学习新的集合类型呢? 通过特性来分析: (1)列表可修改、支持重复元素且有序 (2)元组、字符…

0基础学习VR全景平台篇第121篇:认识视频剪辑软件Premiere

上课!全体起立~ 大家好,欢迎观看蛙色官方系列全景摄影课程! 大家好,这节课是带领大家认识认识我们的剪辑软件Premiere,一般简称是PR。 (PR界面) 我们首先打开PR,第一步就是要创建…

Centos7下mbr主引导记录演示

linux mbr主引导记录演示 dd if/dev/sda ofmbr.bin bs446 count1 dd if/dev/sda ofmbr.bin bs446 count1hexdump -C mbr.bin[rootlocalhost ~]# cd /boot/grub2 [rootlocalhost grub2]# ls [rootlocalhost grub2]# grub2-editenv list #默认引导内核查看 [rootlocalhost g…

Activiti工作流学习笔记(四)——工作流引擎中责任链模式的建立与应用原理

原创/朱季谦 本文需要一定责任链模式的基础与Activiti工作流知识,主要分成三部分讲解: 一、简单理解责任链模式概念二、Activiti工作流里责任链模式的建立三、Activiti工作流里责任链模式的应用 一、简单理解责任链模式概念 网上关于责任链模式的介绍…

esp32cam串口问题

选择的串口 Failed to execute script esptool不存在或开发板没有连接 设置串口参数时出错:9,600 N 8 1注意到他说的串口设置错误,但是在设置里不能设置串口参数 所以说是串口打印的问题 把他换成esp32用的115200就行

linux DMA设备驱动详解

一,DMA相关定义(fpga、wait_queue 、device、interrupt、 dma_request_channel 函数、dma_start_transfer函数、poll、read,platform总线) DMA (直接内存读写)是Direct Memory Access的缩写,也就是内存到内存&#xf…