文章目录
- github 模拟登录
- 前言
- 模拟登录流程
- 抓包操作
- 查看登录表单的内容
- 登录操作
- 模拟登录操作
- 在 main函数的调用
- 获得 auth_token
- 调用/session接口登录处理
- 检测登录是否成功
- 总结:
github 模拟登录
前言
前面学习了requests模块的基础学习后,接下来做一个实战应用,会涉及到requests的post 请求,请求头headers的设置,利用sesson保持 cookie状态等
模拟登录流程
如下图是模拟登录的流程,在知道了具体的流体后,写代码才能流畅。
抓包操作
在使用 chrom进行抓包操作时,需要新开一个无痕窗口
查看登录表单的内容
- 主要是看html结构,可以知道提交的目标地址,提交的方式(POST|GET),提交的表单的主要字段。
- 同时需要开启Preserve.log,这样子页面在跳转时,也那个记录前面的请求会话
登录操作
- 通过提交登录表单,触发session 接口,从 request headers,以及Form Data,方便为后端准备数据
- 同时发现 auth_token 值在不同页面,是不一样的,根据 post数据源的几种类比较判断,具体在前面的 requests模块介绍的文章,其值是属于存在静态页面中的预设值,一开始进到登录页时已经生成
模拟登录操作
完整代码链接:https://gitee.com/allen-huang/python/blob/master/crawler/do-request/login_github.py
根据上面的流程,后端在做模拟登录时,需要做3步如下:
- 通过 session.get获得github登录页面 生成的auth_token
- 组装 /session的 from data和请求头 headers,通过 session.post调用/session 请求
- 正则分析个人页的 title来验证,登录状态的验证
在 main函数的调用
if __name__ == '__main__':# todo 声明一个session对象,并设置请求头session = requests.session()session.headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36'}# todo: 1.获取登录页面的auth_tokenauth_token = get_auth_token(session)# todo:2.组装表单数据,使用 session.post(),请求/session,用来记录登录状态do_login(session)# todo: 3.通过请求github.com/用户名,验证是否登录成功chk_login_status(session)# insert_data = {# "username": "hjc1985",# "req_headers": resp.request.headers,# "resp_headers": resp.request.headers,# "resp_status": resp.status_code,# "resp_body": resp.content.decode()# }# result = MongoPool().test.login_github.insert_one(insert_data)# print(result.inserted_id)
获得 auth_token
auth_token,这里是简写了,在 github 登录页中是authenticity_token,通过正则提取带有"authenticity_token"字段的值即可,代码如下:
def get_auth_token(session: Session) -> str:"""todo 先从github.com/login获取登录页面的html内容,然后通过正则表达式获取auth_token@param session:@return:"""resp = session.get('https://github.com/login')if resp.status_code != 200:print("请求失败,请稍后再试!")exit(0)login_html = resp.content.decode()auth_token = re.findall(r'name="authenticity_token" value="(.*?)"', login_html)[0]return auth_token
调用/session接口登录处理
注意:为了安全性考虑,这里的密码属性,password在文档展示不是真实的密码,因为,github提交的密码属于明码,没有进行二次加密过的。真实密码的登录请求我已测试通过的
def do_login(session: Session):"""todo 组装表单数据,使用 session.post(),请求/session,用来记录登录状态@param session: session对象@return:"""global resppost_data = {"commit": "Sign in","authenticity_token": auth_token,"login": "hjc1985","password": "123456", # 登录密码,为了个人账号安全我这里不是真实密码"webauthn-conditional": "undefined","javascript-support": "true","webauthn-support": "supported","webauthn-iuvpaa-support": "supported","return_to": "https://github.com/login"}resp = session.post(url='https://github.com/session', data=post_data)if resp.status_code != 200:print("请求失败,请检查参数!")else:print("请求/session 成功!")
检测登录是否成功
在 github 中,个人中心地址
github.com/用户名
的标题内容结尾,是否含有GitHub,是判断登录状态的依据之一,如果 GitHub 不存在表示登录成功,反之则登录不成功。
def chk_login_status(session: Session):"""todo: 通过请求github.com/用户名,验证是否登录成功@param session:@return:"""resp = session.get('https://github.com/hjc1985')html_content = resp.contentres = re.findall(r'<title>(.+?)(GitHub)?</title>', html_content.decode('utf-8'))"""todo 使用 try...except...来判断索引对应的值是否存在"""try:end_str = res[0][1]except IndexError:end_str = ""if end_str == "":# 个人主页的title内容如果结尾没有GitHub,说明登录成功print("登录成功!")else:print("登录失败!")with open("github-profile.html", "wb") as f:f.write(html_content)
- 登录成功的效果
- 登录不成功的效果
总结:
- 这是拿 github 模拟登录来对 requests模块的get, post方法,以及登录状态保持做的一个应用,主要是为了巩固知识点。
- 它的登录机制还算是比较简单的,因为大部分值都是固定的可以获取到,像真正项目过程中,post 来源的数据都是需要调用接口,或 JS 逆向才能拿到。