爬虫时“封IP”试试这个方法 - HelloWorld开发者社区

我想很多会爬虫技术的小伙伴有给别人写爬虫软件赚外快的经历，小编也不例外。有时候就会遇到粉丝在后台留言，问：大佬，运行你的爬虫程序怎么报错了？于是我让他把报错信息发过来，看过之后一声叹息。多数爬虫源码运行的报错都是由于访问目标网站过于频繁，从而导致目标网站返回错误或者没有数据返回。这也是最常见的方式，也就是我们经常听到的“封IP”，需要不断地切换 IP 访问。我们又面临一个问题：哪来这么多独立 IP 地址呢？给粉丝推荐个平台【亿牛云代理】。注册账号就可以免费获取测试一次。并且提供的代理IP产品类型多，可以根据自己的业务需求进行选择。重点推荐他们家的爬虫隧道代理，更适合新手使用，还有示例可以参考，比如如何在python中使用代理的示例如下： ``#! -- encoding:utf-8 --

import requests
import random

# 要访问的目标页面
targetUrl = "http://httpbin.org/ip"

# 要访问的目标HTTPS页面
# targetUrl = "https://httpbin.org/ip"

# 代理服务器(产品官网 www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"

# 代理验证信息
proxyUser = "username"
proxyPass = "password"

proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
    "host" : proxyHost,
    "port" : proxyPort,
    "user" : proxyUser,
    "pass" : proxyPass,
}

# 设置 http和https访问都是用HTTP代理
proxies = {
    "http"  : proxyMeta,
    "https" : proxyMeta,
}


#  设置IP切换头
tunnel = random.randint(1,10000)
headers = {"Proxy-Tunnel": str(tunnel)}



resp = requests.get(targetUrl, proxies=proxies, headers=headers)

print resp.status_code
print resp.text

亿牛云是专业为大数据爬虫业务提供代理IP的，加入成为会员后即可免费使用代理池，获取数据过程中遇到问题还有专业团队帮助分析解决，是爬虫工作中的最优选择。

Java synchronized同步关键字背后的原理与源码实现

android内涵段子项目-(架构第一期)

热门文章