大家好，我是不温卜火，是一名计算机学院大数据专业大三的学生，昵称来源于成语—不温不火，本意是希望自己性情温和。作为一名互联网行业的小白，博主写博客一方面是为了记录自己的学习过程，另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限，博客中难免会有一些错误出现，有纰漏之处恳请各位大佬不吝赐教！暂时只在csdn这一个平台进行更新，博客主页：https://buwenbuhuo.blog.csdn.net/。

PS：由于现在越来越多的人未经本人同意直接爬取博主本人文章，博主在此特别声明：未经本人允许，禁止转载！！！

一、Cookie的简单解释

1、什么是Cookie

Cookie，有时也用其复数形式Cookies，指某些网站为了辨别用户身份、进行session跟踪而存储在用户本地终端上的数据(通常经过加密)。
Cookie是小量信息，是由Web服务器创建的，将信息存放在用户计算机的文件上

通过上述页面我们可以看到，登陆上去会有提示。

由于HTTP是一种无状态的协议，服务器但从网络连接上不能知道客户身份。如果想要知道客户身份，这是就需要一张通行证，每人一个，无论谁访问都必须携带自己的通行证。这样服务器就能通过通行证来确定客户身份，这就是Cookie的工作原理。

上述返回200代表成功访问，这是为什么呢？因为我们添加了Cookie

2、Cookie的响应过程

客户端发送一个http请求到服务器端，如果是登录操作则携带我们的用户名和密码。
服务器端验证后发送一个http响应到客户端，其中包含Set-Cookie头部。
客户端发送一个http请求到服务器端，其中包含Cookie。
服务器端发送一个http响应到客户端。

一个简单的Cookie

3、Cookie的核心内容

String name：该Cookie的名称。Cookie一旦创建，名称不可更改
Object value：Cookie的值
int maxAge：Cookie失效时间，单位为秒
boolean secure：该Cookie是否仅被使用含权协议传输
String path：Cookie的使用路径
String domain：可以访问该Cookie的域名
String comment：Cookie的使用说明
int version：该Cookie使用的版本号

4、DevTools(开发人员工具)

Chrome DevTools是Chrome浏览器自带的开发人员工具，我们检测网络流量要用到的是其中的Network面板
默认情况下，只要DevTools在开启状态，DevTools会记录所有的网络请求，记录都是在Network中展示出来

1、打开方式
在浏览器内：右键->审查元素
对应快捷键：ctrl+shift+c
点击浏览器右上角设置->工具->开发者工具
对应快捷键：ctrl+shift+i或F12
直接使用快捷键
ctrl+shift+j打开控制台(console面板)
2、通过开发人员工具查看各种信息

爬虫进阶.第3篇《模拟登录？一文为你排忧解惑！》

上述的过程都是建立在登录有Cookie的前提下才能进行访问查看，如果没有登录则不能查看及操作。

Cookie这方面博主就介绍到这里，如果想看剩下的可以看博主以往的博文。传送门——> 快速入门网络爬虫系列 Chapter13 | 模拟登陆

二、过程分析

我们知道有些网站登陆之后才可以显示需要的数据。这里需要了解web中的cookie和session。

cookie是保存在浏览器客户端的，session是保存在服务器端的，session依赖于cookie实现。当访问对应网站的时候cookie是再次发回当前网站对应的服务器。cookie和session都是有有效期的。

这个时候我们需要看下下图：
爬虫进阶.第3篇《模拟登录？一文为你排忧解惑！》
当我们添加cookie之后，相当于模拟了我们登录账号。这个时候就可以直接进入登录之后的界面

至于cookie和session时效性： cookie：一般默认为14天。 session：如果没有特殊情况，半个小时。

模拟登录的分析就这么多，那么接下来就可以来实现了。

三、代码实现

爬虫进阶.第3篇《模拟登录？一文为你排忧解惑！》

通过上图分析我们可以知道
Github的GET网址为：https://github.com/login
Github的POST网址为：https://github.com/session

3.1 手动加入cookie

import requests

url = "https://github.com/session"
headers = {
    "user-agent": "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36",
    # 加入需要的cookie表示已经登陆了
    "cookie": "_octo=GH1.1.332975439.1600306176; _ga=GA1.2.1383224642.1600306188; _device_id=b3fc5e59ed4944773db74bbfa4adafe8; has_recent_activity=1; tz=Asia%2FShanghai; tz=Asia%2FShanghai; _gat=1; logged_in=no; _gh_sess=F6769fV4FjQ9Fn%2FbXDdVeQZvq%2FxCRmVcXlS7FO3jaPp6XtEXoiqI35eogYuKa85J5gQ2LBNFK79qmJH6OTCU2U97IJHb0WanI7%2FnCe35CWsEo5D3OzQxJLeXfqm5DleVEsLcj7WzOKZngfoW30tHxPmMzcWFHO%2FwyfFhFL4w6IPdQ8tY4gg8Y4M4ugCf1sAdMSJhxwWuPFBExpfvLPVOgX4a%2FtHaVXMYUmYEdx76C512wuRiND%2FR9Yjcxz0w%2BEKzJ%2Bc6yY6hvwAUKAkLAVjVew%3D%3D--tnXOGubdyTAls3fX--TTHuSWdAkG%2Bgl%2BA9I%2B9fiw%3D%3D",
}
response = requests.get(url=url, headers=headers)
print(response)
print(response.content.decode("utf-8"))
print(response.status_code)

爬虫进阶.第3篇《模拟登录？一文为你排忧解惑！》
通过上图，我们可以看到<Response [200]>代表登录成功。至于是不是成功呢？我们可以查看以下

通过查找对比，我们发现登录成功。

3.2 修改完善

1. 分析

上述代码只能通过复制cookie来模拟登录，那么能不能智能些呢？

答案是肯定的。我们可以通过获取authenticity_token，并输入账号密码进行登录。

为什么直接就说需要这三个呢？看下图：
爬虫进阶.第3篇《模拟登录？一文为你排忧解惑！》
上图为所有的parms，经过测试，只需要最少三个即可完成登录，那就是authenticity_token，login，password。

1. 实现

想要实现，我们需要先获取authenticity_token，我们先来看网页
爬虫进阶.第3篇《模拟登录？一文为你排忧解惑！》
我们很容易就看到了authenticity_token，找到了，接下来的提取就很简单了，我们通过正则进行提取

#获取token
authenticity_token = re.findall(r'name="authenticity_token" value="(.*?)"',content)[0]

1. 完整代码

# encoding: utf-8
'''
  @author 李华鑫
  @create 2020-10-06 14:57
  Mycsdn：https://buwenbuhuo.blog.csdn.net/
  @contact: 459804692@qq.com
  @software: Pycharm
  @file: requests中的session.py
  @Version：1.0

'''
import requests
import re

headers = {
    "user-agent": "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36",
}
url_login = "https://github.com/login"
url_login_action = "https://github.com/session"
# url_profile = "https://github.com/settings/profile"
# 创建session对象
session = requests.session()
# 使用session发送请求，对应的响应中的cookie会自动保存到sesison对象中
response = session.get(url=url_login, headers=headers)
print("cookie:", response.cookies)
#获取响应内容
content = response.content.decode("utf-8")
#获取token
authenticity_token = re.findall(r'name="authenticity_token" value="(.*?)"',content)[0]
print(authenticity_token)
# 准备参数
data = {
    "authenticity_token": authenticity_token,
    "login": input("用户名："),
    "password":input("密码："),
}
# 使用session发送请求，上次存储的当前网站的cookie会自动发送过去
response2 = session.post(url=url_login_action, headers=headers, data=data)
#获取响应内容
print(response2.content.decode("utf-8"))

1. 运行结果

爬虫进阶.第3篇《模拟登录？一文为你排忧解惑！》

5.对比查看是否成功

🆗，完工！

美好的日子总是短暂的，虽然还想继续与大家畅谈，但是本篇博文到此已经结束了，如果还嫌不够过瘾，不用担心，我们下篇见！

爬虫进阶.第3篇《模拟登录？一文为你排忧解惑！》

好书不厌读百回，熟读课思子自知。而我想要成为全场最靓的仔，就必须坚持通过学习来获取更多知识，用知识改变命运，用博客见证成长，用行动证明我在努力。
如果我的博客对你有帮助、如果你喜欢我的博客内容，请“点赞” “评论”“收藏”一键三连哦！听说点赞的人运气不会太差，每一天都会元气满满呦！如果实在要白嫖的话，那祝你开心每一天，欢迎常来我博客看看。
码字不易，大家的支持就是我坚持下去的动力。点赞后不要忘了关注我哦！

爬虫进阶.第3篇《模拟登录？一文为你排忧解惑！》