爬虫时“封IP”试试这个方法

小白学大数据
• 阅读 836

我想很多会爬虫技术的小伙伴有给别人写爬虫软件赚外快的经历,小编也不例外。有时候就会遇到粉丝在后台留言,问:大佬,运行你的爬虫程序怎么报错了?于是我让他把报错信息发过来,看过之后一声叹息。多数爬虫源码运行的报错都是由于访问目标网站过于频繁,从而导致目标网站返回错误或者没有数据返回。 这也是最常见的方式,也就是我们经常听到的“封IP”,需要不断地切换 IP 访问。 我们又面临一个问题:哪来这么多独立 IP 地址呢?给粉丝推荐个平台【亿牛云代理】。注册账号就可以免费获取测试一次。并且提供的代理IP产品类型多,可以根据自己的业务需求进行选择。重点推荐他们家的爬虫隧道代理,更适合新手使用,还有示例可以参考,比如如何在python中使用代理的示例如下: ``#! -- encoding:utf-8 --

import requests
import random

# 要访问的目标页面
targetUrl = "http://httpbin.org/ip"

# 要访问的目标HTTPS页面
# targetUrl = "https://httpbin.org/ip"

# 代理服务器(产品官网 www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"

# 代理验证信息
proxyUser = "username"
proxyPass = "password"

proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
    "host" : proxyHost,
    "port" : proxyPort,
    "user" : proxyUser,
    "pass" : proxyPass,
}

# 设置 http和https访问都是用HTTP代理
proxies = {
    "http"  : proxyMeta,
    "https" : proxyMeta,
}


#  设置IP切换头
tunnel = random.randint(1,10000)
headers = {"Proxy-Tunnel": str(tunnel)}



resp = requests.get(targetUrl, proxies=proxies, headers=headers)

print resp.status_code
print resp.text

亿牛云是专业为大数据爬虫业务提供代理IP的,加入成为会员后 即可免费使用代理池,获取数据过程中遇到问题还有专业团队帮助分析解决,是爬虫工作中的最优选择。

点赞
收藏
评论区
推荐文章

暂无数据

小白学大数据
小白学大数据
Lv1
男 · 亿牛云 · python技术
宁为代码类弯腰,不为bug点提交!
文章
135
粉丝
5
获赞
18