爬虫系列-web请求全过程剖析-编程知识

爬虫系列-web请求全过程剖析

news/2025/3/9 22:25:41/文章来源:https://blog.csdn.net/in_seattle/article/details/136077762

🌈个人主页: 会编程的果子君
💫个人格言:“成为自己未来的主人~”

上一小节我们实现了一个网页的整体抓取工作，那么本小节，给各位好好剖析一下web请求的全部过程，这样有助于后面我们遇到的各种各样的网站就有了入手的基本准则了

那么到底我们浏览器在输入完网址到我们看到网页的整体内容，这个过程究竟发生了写什么？

这里我们以百度为例，在访问百度的时候，浏览器会把这一次的请求发送给百度的服务器（百度的一台电脑），由服务器接收到这个请求，然后加载一些数据，返回给浏览器，再由浏览器进行显示，听起来好像是个废话......但是这里蕴含着一个极为重要的东西在里面，注意，百度的服务器返回给浏览器的不直接是页面，而是页面源代码（有html，css，js组成）由浏览器把页面源代码进行执行，然后把执行之后的结果展示给用户，所以我们能看到在上一届的内容中，我们拿到的是百度的源代码（就是那堆看不懂的鬼东西），具体过程如图：

接下来就是一个比较重要的事情了，所有的数据都在页面源代码里么，非也~这里要介绍一个新的概念。

那就是页面渲染数据的过程，我们常见的页面渲染过程有两种

1.服务器渲染

这个最容易理解，也是最简单的，含义呢就是我们在请求到服务器的时候，服务器直接把数据全部写入到html中，我们浏览器就能直接拿到带有数据的html内容，比如：

由于数据是直接写到html当中的，所以我们能看到的数据都在页面源代码中能找的到的

这种网页一般都相对比较容易就能抓取到页面内容。

2.前段JS渲染

这种就稍显麻烦，这种机制一般是第一次请求服务器返回一堆HTML框架结构，然后再次请求到真正保存数据的服务器，由这个服务器返回数据，最后在浏览器丧对数据进行加载。

这样做的好处是服务器那边能缓解压力，而且分工明确，比较容易维护，典型的有这么一个网页

那数据是何时加载进来的呢，其实就是在我们页面向下滚动的时候，JD就在偷偷的加载数据了，此时想要看到这个页面的加载全过程，我们就需要借助浏览器的调试工具（F12）

有些时候，我们的数据不一定都是直接来自于页面源代码，如果你在页面源代码里面找不到你要的数据的时候，那很可能数据是存放在另一个请求里

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/466940.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

C# CAD交互界面-自定义面板集-查找定位（六）

C# CAD交互界面-自定义面板集-查找定位（六）

运行环境 vs2022 c# cad2016 调试成功一、代码说明 1. 类成员变量声明： List<ObjectId> objectIds new List<ObjectId>(); // 用于存储AutoCAD实体对象的ObjectId列表 private static Autodesk.AutoCAD.Windows.PaletteSet _ps2; // 自定义浮动面板…

阅读更多...

C++ //练习 5.12 修改统计元音字母的程序，使其能统计以下含有两个字符的字符序列的数量：ff、fl和fi。

C++ //练习 5.12 修改统计元音字母的程序，使其能统计以下含有两个字符的字符序列的数量：ff、fl和fi。

C Primer（第5版） 练习 5.12 练习 5.12 修改统计元音字母的程序，使其能统计以下含有两个字符的字符序列的数量：ff、fl和fi。环境：Linux Ubuntu（云服务器） 工具：vim 代码块 /****…

阅读更多...

matlab入门，在线编辑，无需安装matab

matlab入门，在线编辑，无需安装matab

matlab相关教程做的很完善，除了B站看看教程，官方教程我觉得更加高效。跟着教程一步一步编辑，非常方便。阅读 MATLAB 官方教程： MATLAB 官方教程提供了从基础到高级的教学内容，内容包括 MATLAB 的基本语法、数据处理…

阅读更多...

探索ChatGPT-4：智能会话的未来已来

探索ChatGPT-4：智能会话的未来已来

深入了解ChatGPT-4：前沿AI的强大功能 ChatGPT-4是最先进的语言模型之一，由OpenAI开发，它在自然语言理解和生成方面的能力已经达到了新的高度。如今，ChatGPT-4已经被广泛应用于多个领域，从教育到企业，再到技…

阅读更多...

python适配器模式开发实践

python适配器模式开发实践

1. 什么是适配器设计模式？ 适配器（Adapter）设计模式是一种结构型设计模式，它允许接口不兼容的类之间进行合作。适配器模式充当两个不兼容接口之间的桥梁，使得它们可以一起工作，而无需修改它们的源代码。 …

阅读更多...

最新在线看4K高清电影网站推荐

最新在线看4K高清电影网站推荐

随着互联网技术的发展，观看高清电影已经不再是难事。这里我为大家分享几个最新的在线看4K高清电影网站，让您在家就能享受到极致观影体验。通过下面这个即可 1. 【超清影视】【超清影视】是国内新兴的4K高清电影网站，拥有海量的影片资源&a…

阅读更多...

Netty源码系列之 FastThreadLocal源码

Netty源码系列之 FastThreadLocal源码

目录 Netty优化方案之 FastThreadLocal 前言 ThreadLocal ThreadLocal是干什么的？ 为什么要使用ThreadLocal工具类去操控存取目标数据到Thread线程 ？ ThreadLocal的使用场景目标数据存储到Thread线程对象的哪里？ 怎么样把一个目标数据…

阅读更多...

【Java程序设计】【C00251】基于Springboot的医院信息管理系统（有论文）

【Java程序设计】【C00251】基于Springboot的医院信息管理系统（有论文）

基于Springboot的医院信息管理系统（有论文） 项目简介项目获取开发环境项目技术运行截图项目简介这是一个基于Springboot的医院信管系统本系统分为管理员功能模块、系统功能模块以及医生功能模块。系统功能模块：医院信管系统，…

阅读更多...

如何在C# Windows Forms应用程序中实现控件之间的连接线

如何在C# Windows Forms应用程序中实现控件之间的连接线

帮我实现绘图工具多个控件连接线，请用c#代码实现实现绘图工具中多个控件之间的连接线功能，可以通过以下几个步骤来进行： 定义连接线的数据模型：首先需要定义一个模型来表示连接线，这个模型应该包含起点和终点的坐标。…

阅读更多...

Ubuntu Desktop - Disks

Ubuntu Desktop - Disks

Ubuntu Desktop - Disks 1. Search your computer -> DisksReferences 1. Search your computer -> Disks References [1] Yongqiang Cheng, https://yongqiang.blog.csdn.net/

阅读更多...

java对象内部都有哪些东西

java对象内部都有哪些东西

普通对象对象头 markword 占8字节ClassPointer 指针 :-XX userCompressedClassPointrs 为4字节，不开启为 8字节实例数据引用类型: -XX userCommpressedOops 为4字节，不开启8字节Padding对齐， 8的倍数数组对象对象头：markwor…

阅读更多...

【MySQL进阶之路】亿级数据量表SQL调优实战

【MySQL进阶之路】亿级数据量表SQL调优实战

欢迎关注公众号（通过文章导读关注：【11来了】），及时收到 AI 前沿项目工具及新技术的推送！ 在我后台回复「资料」可领取编程高频电子书！ 在我后台回复「面试」可领取硬核面试笔记！ 文章导读地址…

阅读更多...

推荐文章

最新文章