爬虫入门经典(六) | 一文带你深入了解为什么使用代理IP及其如何使用

不温卜火 等级 881 1 0

  大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语—不温不火,本意是希望自己性情温和。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限,博客中难免会有一些错误出现,有纰漏之处恳请各位大佬不吝赐教!暂时只在csdn这一个平台进行更新,博客主页:https://buwenbuhuo.blog.csdn.net/

PS:由于现在越来越多的人未经本人同意直接爬取博主本人文章,博主在此特别声明:未经本人允许,禁止转载!!!

特此声明:博主在本片博文的第一部分引用借鉴的程序猿果果《爬虫为什么要使用代理IP》这篇文章,感兴趣的同学可以看下。

目录


爬虫入门经典(六) | 一文带你深入了解为什么使用代理IP及其如何使用


推荐

爬虫入门经典(六) | 一文带你深入了解为什么使用代理IP及其如何使用
  ♥各位如果想要交流的话,可以加下QQ交流群:974178910,里面有各种你想要的学习资料。♥

  ♥欢迎大家关注公众号【不温卜火】,关注公众号即可以提前阅读又可以获取各种干货哦,同时公众号每满1024及1024倍数则会抽奖赠送机械键盘一份+IT书籍1份哟~♥
爬虫入门经典(六) | 一文带你深入了解为什么使用代理IP及其如何使用

一、为什么使用代理IP

爬虫入门经典(六) | 一文带你深入了解为什么使用代理IP及其如何使用

我们在做爬虫的过程中经常会遇到以下情况,最初爬虫正常运行,正常抓取数据,一切看起来都是那么美好,然而一杯茶的功夫可能就会出现错误,比如403 Forbidden,可能会看到“您的IP访问频率太高”这样的提示。出现这种现象的原因是网站采取了一些反爬虫措施。比如,服务器会检测某个IP在单位时间内的请求次数,如果超过了这个阈值,就会直接拒绝服务,返回一些错误信息,这种情况可以称为封IP。

既然服务器检测的是某个IP单位时间的请求次数,那么借助某种方式来伪装我们的IP,让服务器识别不出是由我们本机发起的请求,不就可以成功防止封IP了吗?

这个时候就用到代理IP了,说到代理IP下面就需要先基本原理、代理的作用。

1、基本原理

代理实际上指的就是代理服务器,英文叫作proxy server,它的功能是代理网络用户去取得网络信息。形象地说,它是网络信息的中转站。在我们正常请求一个网站时,是发送了请求给Web服务器,Web服务器把响应传回给我们。如果设置了代理服务器,实际上就是在本机和服务器之间搭建了一个桥,此时本机不是直接向Web服务器发起请求,而是向代理服务器发出请求,请求会发送给代理服务器,然后由代理服务器再发送给Web服务器,接着由代理服务器再把Web服务器返回的响应转发给本机。这样我们同样可以正常访问网页,但这个过程中Web服务器识别出的真实IP就不再是我们本机的IP了,就成功实现了IP伪装,这就是代理的基本原理。

爬虫入门经典(六) | 一文带你深入了解为什么使用代理IP及其如何使用

2、代理的作用

  • 突破自身IP访问限制,访问一些平时不能访问的站点。
  • 访问一些单位或团体内部资源:比如使用教育网内地址段免费代理服务器,就可以用于对教育网开放的各类FTP下载上传,以及各类资料查询共享等服务。
  • 提高访问速度:通常代理服务器都设置一个较大的硬盘缓冲区,当有外界的信息通过时,同时也将其保存到缓冲区中,当其他用户再访问相同的信息时,则直接由缓冲区中取出信息,传给用户,以提高访问速度。
  • 隐藏真实IP:上网者也可以通过这种方法隐藏自己的IP,免受攻击。对于爬虫来说,我们用代理就是为了隐藏自身IP,防止自身的IP被封锁。

二、如何使用代理IP

爬虫入门经典(六) | 一文带你深入了解为什么使用代理IP及其如何使用
如何使用代理IP主要看你用什么语言写的爬虫,使用什么框架,使用代理是一种基本的业务需求,基本上所有爬虫都会内置支持。

一提到使用代理IP ,就不得不说是使用免费IP还是花钱使用高匿代理。这个东西主要还是看个人了,如果对ip要求不高,你可以选择使用网上免费的开放代理,自己建一个程序维护一个ip池,爬取一些代理网站的免费ip,加一道测试程序,如果测试可以用,就把它收集起来供爬虫使用。不过免费代理可用率实在是太低,而且不是很稳定,经常会失效,条件允许的话强烈建议花点钱选择收费的私密代理。

PS:经常使用的西刺代理已经挂掉了,打开网页之后,我们会发现已经无法访问了
爬虫入门经典(六) | 一文带你深入了解为什么使用代理IP及其如何使用
便宜没好货,更别说免费的,免费的代理现在好用的博主暂时也不知道。不过可以找那种免费试用的。博主测试用的是芝麻代理,如果只是测试的话可以领取每日免费IP
爬虫入门经典(六) | 一文带你深入了解为什么使用代理IP及其如何使用
下图为获取到的代理IP
爬虫入门经典(六) | 一文带你深入了解为什么使用代理IP及其如何使用
好了,代理ip已经获取完毕了,下面我们是不是需要找一个测试网站,下面博主给出一个专门测试的网站:https://httpbin.org/
爬虫入门经典(六) | 一文带你深入了解为什么使用代理IP及其如何使用
打开网页之后,我们可以看到ip为本机ip,下面我们通过添加代理ip进行访问并查看结果。

下面通过代码进行实现:

# encoding: utf-8
'''
  @author 李华鑫
  @create 2020-10-06 15:57
  Mycsdn:https://buwenbuhuo.blog.csdn.net/
  @contact: 459804692@qq.com
  @software: Pycharm
  @file: 代理ip.py
  @Version:1.0

'''
import requests

proxies = {
    "https":"https://58.218.200.247:9934"
}

response = requests.request(method="get",url="https://httpbin.org/get",proxies=proxies)
print(response.text) 

爬虫入门经典(六) | 一文带你深入了解为什么使用代理IP及其如何使用
🆗,测试完毕。说明能够使用 。下面我们再来看下刚才没有看到的部分
爬虫入门经典(六) | 一文带你深入了解为什么使用代理IP及其如何使用
在上述三者,以博主现在的水平并不能给出完美的解释,不过我们直接使用独享IP或隧道IP即可。

三、自动提取代理

上述代码虽然已经实现代理IP的作用,但是我们想想,如果这个IP被网站封了以后,我们再次手动刷新会不会很麻烦,既然这样,我们能不能让其能够自动提取代理呢?话不多说,开整。

想要实现自动提取代理,我们首先需要对生成的链接进行分析:

我们先通过多次刷新 发现我们刷新页面需要等待3秒钟,否则将会获取失败
爬虫入门经典(六) | 一文带你深入了解为什么使用代理IP及其如何使用
分析完之后,我们再来分析链接: 再打开链接之后,我们通过开发者选项进行查看
爬虫入门经典(六) | 一文带你深入了解为什么使用代理IP及其如何使用
通过查看我们发现我们需要的ip和端口号已经找到了,这个时候我们可以通过分别提取然后通过字符串拼接的方式,得到我们需要的样式代码如下:

def get_proxies():
    #这里获取的芝麻HTTP代理http https\\
    time.sleep(3)
    proxies = {
        "http": "",
        "https": ""
    }
    response = requests.get("http://http.tiqu.alicdns.com/getip3?num=1&type=2&pro=&city=0&yys=0&port=11&time=1&ts=0&ys=0&cs=1&lb=1&sb=0&pb=45&mr=2&regions=")
    content = response.json()
    print(content)
    proxies["https"] = content["data"][0]["ip"]+":"+str(content["data"][0]["port"])
    print(proxies)
    return proxies 

这是我们看下结果,是不是我们想要的:
爬虫入门经典(六) | 一文带你深入了解为什么使用代理IP及其如何使用
爬虫入门经典(六) | 一文带你深入了解为什么使用代理IP及其如何使用

🆗,完美!

分析完成,下面看下最终代码及效果图:

#!/usr/bin/env python
# encoding: utf-8
'''
  @author 李华鑫
  @create 2020-10-06 16:31
  Mycsdn:https://buwenbuhuo.blog.csdn.net/
  @contact: 459804692@qq.com
  @software: Pycharm
  @file: 自动提取代理.py
  @Version:1.0

'''
import requests
import time

def get_proxies():
    #这里获取的芝麻HTTP代理http https\\
    time.sleep(3)
    proxies = {
        "http": "",
        "https": ""
    }
    response = requests.get("http://http.tiqu.alicdns.com/getip3?num=1&type=2&pro=&city=0&yys=0&port=11&time=1&ts=0&ys=0&cs=1&lb=1&sb=0&pb=45&mr=2&regions=")
    content = response.json()
    print(content)
    proxies["https"] = content["data"][0]["ip"]+":"+str(content["data"][0]["port"])
    print(proxies)
    return proxies

proxies = get_proxies()
response = requests.request(method="get",url="https://httpbin.org/get",proxies=proxies)
print(response.text) 

爬虫入门经典(六) | 一文带你深入了解为什么使用代理IP及其如何使用
爬虫入门经典(六) | 一文带你深入了解为什么使用代理IP及其如何使用
美好的日子总是短暂的,虽然还想继续与大家畅谈,但是本篇博文到此已经结束了,如果还嫌不够过瘾,不用担心,我们下篇见!


爬虫入门经典(六) | 一文带你深入了解为什么使用代理IP及其如何使用

  好书不厌读百回,熟读课思子自知。而我想要成为全场最靓的仔,就必须坚持通过学习来获取更多知识,用知识改变命运,用博客见证成长,用行动证明我在努力。
  如果我的博客对你有帮助、如果你喜欢我的博客内容,请“点赞” “评论”“收藏”一键三连哦!听说点赞的人运气不会太差,每一天都会元气满满呦!如果实在要白嫖的话,那祝你开心每一天,欢迎常来我博客看看。
  码字不易,大家的支持就是我坚持下去的动力。点赞后不要忘了关注我哦!

爬虫入门经典(六) | 一文带你深入了解为什么使用代理IP及其如何使用
爬虫入门经典(六) | 一文带你深入了解为什么使用代理IP及其如何使用

本文转自 https://buwenbuhuo.blog.csdn.net/article/details/109235716,如有侵权,请联系删除。

收藏
评论区

相关推荐

爬虫入门经典(六) | 一文带你深入了解为什么使用代理IP及其如何使用
大家好,我是不温卜火,是一名计算机学院大数据专业大三的学生,昵称来源于成语—不温不火,本意是希望自己性情温和。作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己所犯的错误希望能够帮助到很多和自己一样处于起步阶段的萌新。但由于水平有限,博客中难免会有一些错误出现,有纰漏之处恳请各位大佬不吝赐教!暂时只在csdn这一个平台进行
HTTP协议与TCP,DNS , IP 协议的关系
在TCP/IP协议族中与HTTP密不可分的有3个协议,分别是IP、TCP和DNS。下面简单介绍下这3种协议。 1、IP协议         IP(Internet Protocol)网际协议位于网络层,几乎所有使用网络的系统都会用到 IP 协议。TCP/IP 协议族中的 IP 指的就 是网际协议,"IP"和"IP地址"是不同的,"IP"其实是一种协
笔趣阁小说api
笔趣阁api小说api,提供小说相关api接口,目前支持笔趣阁(https://m.bqkan.com/)。ip地址:http://49.234.123.245:8082 笔趣阁(https://m.bqkan.com/) 1. 首页 ip/getHome 2. 小说分类 ip/
Python 快速验证代理IP是否有效
有时候,我们需要用到代理IP,比如在爬虫的时候,但是得到了IP之后,可能不知道怎么验证这些IP是不是有效的,这时候我们可以使用Python携带该IP来模拟访问某一个网站,如果多次未成功访问,则说明这个代理是无效的。代码如下:pythonimport requestsimport randomimport timehttp_ip '118.
HCIA
**网络拓扑图** ========= ![](https://oscimg.oschina.net/oscnet/e5856a3a1a200a7b99262a80826c9ed53c3.jpg) **PC-A   配置IP地址** ![](https://oscimg.oschina.net/oscnet/79d0e488332593fe09aa30
IP地址定位之IP画像——如何形成IP用户画像?
IP用户画像系统的研究内容,包含采集IP用户的网络行为数据、对IP知识库进行特征提取等。那么我们如何形成用户画像?如图1所示,以在线广告领域的应用为例,介绍IP用户画像的形成流程,一共分为四步。 ![image.png](https://oscimg.oschina.net/oscnet/up-1b0a82a7ce8647ce500b822e4bc8731
ubuntu vpn国内外分流
先登陆VPN 下载chnroutes.py文件(见参考网址2) 执行python chnroutes.py -p linux 这将生成ip-pre-up和ip-down两个文件,把 ip-pre-up移入/etc/ppp/, ip-down移入/etc/ppp/ip-down.d/ 重新连接VPN,观察测试。 如果没有分流成功试试修改权限 `
FastDFS V6.0支持双IP特性介绍
    很高兴地告诉大家,经过半个多月的开发和测试,FastDFS v6.0发布,欢迎大家下载使用。      v6.0支持双IP,tracker server和storage server均支持双IP。v6.0新增特性说明如下:支持双IP,一个内网IP,一个外网IP,支持NAT方式的内网和外网双IP,解决跨机房或混合云部署问题。     双IP
HttpServletRequest 获取ip地址
public static String getIpAddr(HttpServletRequest request) {         String ip = request.getHeader("x-forwarded-for");         if(ip == null || ip.length() == 0 || "unk
Linux虚拟机没有IP的解决办法
这里之所以是查看下IP ,是我们后面要建一个Centos远程工具Xshell 连接Centos的时候,需要IP地址,所以我们这里先 学会查看虚拟机里的Centos7的IP地址 首先我们登录操作系统 用户名root 密码 123456 然后我们输入ip查询命名 ip addr ![](https://oscimg.oschina.net/oscnet/
Lua ip to int 和 int to ip
function _M.ipToInt( str ) local num = 0 if str and type(str)=="string" then local o1,o2,o3,o4 = str:match("(%d+)%.(%d+)%.(%d+)%.(%d+)" ) num = 2^24*o1 +
Python Apache日志处理脚本
#!/usr/bin/python #coding=gb2312 f=open('/var/log/apache2/access.log','r'); log=f.readline().rstrip(); log_home=log.split(); print log_home; ip=log_home[0]; date=log_home
Python网络编程—TCP客户端和服务器
Python网络编程—TCP客户端和服务器 ===================== * * * 客户端 --- import socket '''客户端创建步骤: 1、创建网络套接字 2、连接到目标IP地址和端口 3、收发数据 4、关闭套接字 ''' IP = so
Python进阶学习笔记——网络编程(1):IP、端口
网络编程 ==== `IP`地址 ------ * **定义**:`IP`地址就是标识网络中设备的一个地址,好比现实生活中的家庭地址。 * 种类: * `IPv4`:目前使用的`IP`地址,由点分十进制组成,4字节,如:`192.168.145.52`(局域网IP)、`10.254.2.171(公网IP)` * `IPv6
python访问百度关键词和链接
前几天在Python交流群有个同学分享了一份Python网络爬虫代码,用来获取某度关键词和链接的。其实这个需求之前我也写过代码,不过网页结构变化之后,之前的提取器已经失效了,所以代码就作废了。今天这里给再给大家分享一个使用python获取某度关键词的实践。由于某度也是设置反爬安全策略的,所有同一IP下程序运行次数多了也是会被封IP的,所有在访问过程中我们需要