Crawler爬虫基础知识

本来其实不知道爬虫的意义的,但是发现爬虫在信息收集的那一方面好像挺重要!!

   那么就来浅学一下吧!!!     

1.基本的储备

对于爬虫,我们一般都是用的python去编写脚本 ,其中还要导入对应的一些库

pip install lxml 
pip install bs4
pip install requests

这些库都要在后面所用到

2.Requests

话不多说,我们直接上代码,再上代码之前,我们先拿RCE的页面来举例子!!!

对,没错,我们就是要去爬取这个页面

from requests import *my_file = open("D:/crawler_data/data.txt","a+")try:url="http://127.0.0.1/pikachu/vul/rce/rce.php"response = get(url)response.encoding="utf-8"  ##设置响应内容的编码方式text=response.textprint(text)
except Exception as e:print("发生错误:", e)

来解释一下这些代码

  1. 先从requests模块导入了所有东西
  2. try except这种错误捕获模块就不说了
  3. 然后就是先定义了一个目标网站的url !! 并且用response来接受请求结果
  4.   response.encoding="utf-8" 是用来设置返回结果的编码方式为 utf-8
  5. 然后用text来接受response返回会的text内容,并且输出

最后的得到的结果如下!!

有咩有别的偷懒一点的写法呢?? 那也肯定还是有的!!!

from requests import *my_file = open("D:/crawler_data/data.txt","a+")try:url="http://127.0.0.1/pikachu/vul/rce/rce.php"response = get(url)text=response.content.decode()print(text)except Exception as e:print("发生错误:", e)

还是来解释一下对应的代码,一样的我就不讲了,来讲一下这一行!!!

text=response.content.decode()

没错,它就是首先获取了response的content的内容然后用默认是utf-8解码的decode函数去解码

3.BeautifulSoup

所以为什么这个模块要叫这个名字呢,哈哈哈我也不知道,可能它的汤比较好喝吧!!!

1.对象创建

对于BeautifulSoup的对象创建,第一部分就是文档内容,第二部分是lxml解释器!!

soup = BeautifulSoup("文档内容",'lxml')

2.搜索方法

对于创建出来的对象,我们有三种搜索方法!!!

1.根据标签的名字查找

find("标签的名字")  ---> 返回第一个标签和其对应的内容!!

假设我想要寻找我的网页的script标签,那么就要这么写

from requests import *
from bs4 import BeautifulSoup
my_file = open("D:/crawler_data/data.txt","a+")try:url="http://127.0.0.1/pikachu/vul/rce/rce.php"response = get(url)text=response.content.decode()soup =BeautifulSoup(text,'lxml')search = soup.find("script")print(search)except Exception as e:print("发生错误:", e)
2.根据属性的名称查找

像在日常的生活中,一些标签有对应的一些属性

那么我们就可以这样查找 

  1. soup.find(属性名="对应属性值")   不适用于属性名字含有 -符号的情况!!!
  2.  soup.find(attrs{"属性名":"属性值"})

而且你的标签还要包含全,如果你只包含多个属性中的一个,那么是不会有返回值的!!!

from requests import *
from bs4 import BeautifulSoup
my_file = open("D:/crawler_data/data.txt","a+")try:url="http://127.0.0.1/pikachu/vul/rce/rce.php"response = get(url)text=response.content.decode()soup =BeautifulSoup(text,'lxml')search = soup.find(type="text/javascript")print(search)
except Exception as e:print("发生错误:", e)

这个代码就能找到第一个标签属包含 type='text/javascript' 的标签,并返回内容

提示一下,如果想要返回全部的结果,那么你只需要用find_all()这个函数就行

只需要略微修改上面的代码

search = soup.find_all(type="text/javascript")for sample in search:print(sample)

就能得到全部的结果(美观版!!!)

3.根据内容进行查找(???)

这个虽然我不知道有什么用,但是还是讲讲!   用法

soup.find(string="你要查找的内容") 但是建议这个不存在嵌套,否则情况不一样

 search = soup.find(string='Get the pikachu')

4.Tag对象

书接上回,当我们用find之后,返回的变量其实就是一个Tag对象

对于Tag对象,我们可以进行以下操作(假设这个对象是以属性查询后返回) 就是这样 

1.name

这个功能用来获取标签名,直接上代码

 search = soup.find(type="text/javascript")Tag=search.nameprint(Tag)

   成功返回标签名

2.attrs

应该就是attribution的缩写  我们也是直接上代码

search = soup.find(type="text/javascript")Tag=search.attrsprint(Tag)

 也是成功返回属性内容

3.text

字面理解就是直接获取标签所对应的文本  也是上代码

search = soup.find(type="text/javascript")Tag=search.textprint(Tag)

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/499566.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【南方CASS干货教程】几种CASS坐标批量提取的方法

【南方CASS干货教程】几种CASS坐标批量提取的方法 文章目录 前言方法一:指定点生成数据文件方法二:批量提取高程数据总结前言 一般在土方量计算中,需要提取区域的高程数据,CASS软件提供7种坐标文件提取,地形测绘、土方量计算、断面图绘制时都需要高程数据进行模型计算,提…

【免费】两阶段鲁棒优化matlab实现——CCG和benders

目录 1 主要内容 2 部分代码 3 程序结果 4 下载链接 1 主要内容 程序采用matlab复现经典论文《Solving two-stage robust optimization problems using a column-and-constraint generation method》算例,实现了C&CG和benders算法两部分内容,通过…

DAY9-防病毒AV概述

DNS过滤 URL过滤和DNS过滤对比

OpenAI划时代大模型——文本生成视频模型Sora作品欣赏(十)

Sora介绍 Sora是一个能以文本描述生成视频的人工智能模型,由美国人工智能研究机构OpenAI开发。 Sora这一名称源于日文“空”(そら sora),即天空之意,以示其无限的创造潜力。其背后的技术是在OpenAI的文本到图像生成模…

递归下载网页数据集

Index of /fs-det/ wget -r -p -np -k http://dl.yf.io/fs-det

外包干了两个月,让我的技术明显退步

在湖南的一个安静角落,我,一个普通的大专生,开始了我的软件测试之旅。四年的外包生涯,让我在舒适区里逐渐失去了锐气,技术停滞不前,仿佛被时间遗忘。然而,生活的转机总是在不经意间降临。 与女…

一张图读懂人工智能

一、生成人工智能的概念和应用,以及如何使用大型语言模型进行聊天和创造原创内容。这项技术将会对人类和企业产生深远影响。 计算机获得学习、思考和交流的能力,被称为生成人工智能。生成人工智能可以立即获得人类所有知识的总和,并回答任何…

lv20 QT主窗口

熟悉创建主窗口项目 1 QAction 2 主窗口 菜单栏:fileMenu menuBar()->addMenu(tr("&File")); 工具栏:fileToolBar addToolBar(tr("File")); 浮动窗:QDockWidget *dockWidget new QDockWidget(tr("Dock W…

QT集成Protobuf

1.定义protobuf package ImageRender;message MessagePadding {required int32 left 1;required int32 top 2;required int32 right 3;required int32 bottom 4; }2.通过protoc.exe编译proto文件 一般可以写一个bat来执行命令: %~d0 cd %~p0rem The following…

fork创建子进程及僵尸进程的产生及规避

本篇文章的学习与总结来源于 https://www.bilibili.com/cheese/play/ep182659?csourcecommon_hp_history_null&t3&spm_id_from333.1007.top_right_bar_window_history.content.click 通常使用fork()函数产生新的子进程&#xff0c;需要包含两个头文件<sys/types.h…

关键字:private关键字作用,解析及用法

private关键字在 Java 中用于定义类的成员&#xff08;如变量、方法&#xff09;的访问权限。它表示该成员只能在类的内部被访问和修改&#xff0c;而在类的外部是不可见的。 以下是private关键字的主要作用和解析&#xff1a; 作用&#xff1a; 封装性&#xff1a;通过将类的…

数学建模【聚类模型】

一、聚类模型简介 “物以类聚&#xff0c; 人以群分”&#xff0c;所谓的聚类&#xff0c;就是将样本划分为由类似的对象组成的多个类的过程。聚类后&#xff0c;我们可以更加准确的在每个类中单独使用统计模型进行估计、分析或预测&#xff0c;也可以探究不同类之间的相关性和…