python爬虫实践之IP的使用

helloworld_45423603 等级 1320 0 0
标签:

Python爬虫常常会面临自己ip地址被封的情况,也许刚入行的小白就只能等ip解封之后再进行接下来的操作了,但是这样的方式却是最不能借鉴的,万一数据需求量大,那要等到猴年马月呢?所以今天我们就来探讨下如何创建一个IP池并对其进行管理。对刚入行的小白很有帮助,希望大家耐心看下去,需要的朋友可以参考下。 很多的网站都有反爬机制,其中就有这样一条,就是服务器会检查请求的user-agent参数值,如果检查的结果为python,那么服务器就知道这是爬虫,所以为了避免被服务器发现这是爬虫,我们需要添加随机user-agen。这样就可以避免服务器发现这是同一个user-agent发起多次请求。还有一条就是网站会封IP,一般这样的情况就直接添加代理IP就可以,那么,从哪里获取IP呢?小编用的是亿牛云的这个网址,网址链接为:https://www.16yun.cn/,。很多小白会问怎么使用IP,这里介绍一种最简单方便的方式,那就是动态转发代理,我们接下来分享个示例供大家参考下: #! -- encoding:utf-8 --

import requests
import random

# 要访问的目标页面
targetUrl = "http://httpbin.org/ip"

# 要访问的目标HTTPS页面
# targetUrl = "https://httpbin.org/ip"

# 代理服务器(产品官网 www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"

# 代理验证信息
proxyUser = "username"
proxyPass = "password"

proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
    "host" : proxyHost,
    "port" : proxyPort,
    "user" : proxyUser,
    "pass" : proxyPass,
}

# 设置 http和https访问都是用HTTP代理
proxies = {
    "http"  : proxyMeta,
    "https" : proxyMeta,
}


#  设置IP切换头
tunnel = random.randint(1,10000)
headers = {"Proxy-Tunnel": str(tunnel)}



resp = requests.get(targetUrl, proxies=proxies, headers=headers)

print resp.status_code
print resp.text

那我们在添加了代理IP之后怎么验证使用的ip是否可用?这里我们可以通过访问IP检测网址验证:http://current.ip.16yun.cn:802,只要返回的是代理IP那么就证明代理使用成功了,我们可以直接去访问需要获取的数据网站了。

收藏
评论区

相关推荐

Python 快速验证代理IP是否有效
有时候,我们需要用到代理IP,比如在爬虫的时候,但是得到了IP之后,可能不知道怎么验证这些IP是不是有效的,这时候我们可以使用Python携带该IP来模拟访问某一个网站,如果多次未成功访问,则说明这个代理是无效的。代码如下:pythonimport requestsimport randomimport timehttp_ip '118.
手把手教你使用XPath爬取免费代理IP
大家好,我是霖hero。前言 可能有人说,初学者Python爬虫爬数据太难啦,构造正则表达式的时候,太烦琐了,眼睛都看花了,而且前一秒还可以愉快地爬取,下一秒IP就被封了,这还爬个屁啊,不爬了。哎,不要着急,这篇文章我们教你如何使用XPath来爬取快代理中的免费代理IP,告别眼花,告别IP被封的烦恼。XPath首先我们来简单了解一下XPath,想要了解更多
IP地址定位之IP画像——如何形成IP用户画像?
IP用户画像系统的研究内容,包含采集IP用户的网络行为数据、对IP知识库进行特征提取等。那么我们如何形成用户画像?如图1所示,以在线广告领域的应用为例,介绍IP用户画像的形成流程,一共分为四步。 ![image.png](https://oscimg.oschina.net/oscnet/up-1b0a82a7ce8647ce500b822e4bc8731
IP地址分类
IP地址编址方案: --------- IP地址编址方案将IP地址空间划分为A、B、C、D、E五类,其中A、B、C是基本类,D、E类作为多播和保留使用。 介绍: === Internet上的每台主机(Host)都有一个唯一的IP地址。IP协议就是使用这个地址在主机之间传递信息,这是Internet 能够运行的基础。IP地址的长度为32位(共有2^32个
ubuntu vpn国内外分流
先登陆VPN 下载chnroutes.py文件(见参考网址2) 执行python chnroutes.py -p linux 这将生成ip-pre-up和ip-down两个文件,把 ip-pre-up移入/etc/ppp/, ip-down移入/etc/ppp/ip-down.d/ 重新连接VPN,观察测试。 如果没有分流成功试试修改权限 `
110分钟使用Python搭建自己的IP定位查询接口
背景 == 近期公司对用户定位这块提了需要ip定位的需求,找了半天资料,发现了这个超级好用的python库,基于纯真网络dat数据,ip地址库和查询全都已经封装好了,使用库10分钟搞定,美滋滋。话不多说,开整! 上代码 === ###### 说明 * 项目基于PYTHON3环境,接口端口号为8889。 * 项目使用qqwry库和fl
IPython基本介绍
**IPython简介** ------------- ipython shell是一个增强版的交互式python解释器,它的设计目的是在交互式计算和软件开发两个方面最大化的提高生产力。通过ipython可以对大部分python代码进行探索式的操作,例如使用试错法来练习和学习python中的函数,所以使用ipython将有助于提高你的工作效率。 **IP
Linux虚拟机没有IP的解决办法
这里之所以是查看下IP ,是我们后面要建一个Centos远程工具Xshell 连接Centos的时候,需要IP地址,所以我们这里先 学会查看虚拟机里的Centos7的IP地址 首先我们登录操作系统 用户名root 密码 123456 然后我们输入ip查询命名 ip addr ![](https://oscimg.oschina.net/oscnet/
OpenVPN设置客户端固定IP
在使用`openvpn`的过程中,多台客户端连接上同一台`openvpn`服务器之后,客户端的的IP地扯经常变动,导致客户端之间无法正常通讯,`openvpn`的版本变动也导致了固定IP地扯的配置不同,用以下方法设置,客户端不管再怎么连接ip地扯都不会改变了,此文使用的`openvpn`的版本为`2.3.13`。 **第一种配置** **格式:**
Python Apache日志处理脚本
#!/usr/bin/python #coding=gb2312 f=open('/var/log/apache2/access.log','r'); log=f.readline().rstrip(); log_home=log.split(); print log_home; ip=log_home[0]; date=log_home
Python网络编程—TCP客户端和服务器
Python网络编程—TCP客户端和服务器 ===================== * * * 客户端 --- import socket '''客户端创建步骤: 1、创建网络套接字 2、连接到目标IP地址和端口 3、收发数据 4、关闭套接字 ''' IP = so
srs部署到ubuntu 18.04 server
srs.txt ubuntu 18.04 安装 srs 1. 上传srs_40.7z和h2ws.7z到linux服务器,然后远程ssh连接 (假设登陆用户名是bob,linux服务器ip是192.168.0.50) $ scp *.7z bob@192.168.0.50:~ $ ssh bob@192.16
selenium如何添加代理IP?
大家好,我是皮皮。 一、前言前几天在Python钻石群有个叫【进击的python】的粉丝问了一个关于Python中selenium如何添加代理IP的问题,这里拿出来给大家分享下,一起学习。 二、解决过程这里给出【PI】吴老板大佬的解答,一起来看看吧!直接上图了,如下图所示:他写这个已经是3年前的时候。当年还是个实习生呢,现在是吴老板了。 三、总结大家好,我是
python访问百度关键词和链接
前几天在Python交流群有个同学分享了一份Python网络爬虫代码,用来获取某度关键词和链接的。其实这个需求之前我也写过代码,不过网页结构变化之后,之前的提取器已经失效了,所以代码就作废了。今天这里给再给大家分享一个使用python获取某度关键词的实践。由于某度也是设置反爬安全策略的,所有同一IP下程序运行次数多了也是会被封IP的,所有在访问过程中我们需要
python爬虫实践之IP的使用
Python爬虫常常会面临自己ip地址被封的情况,也许刚入行的小白就只能等ip解封之后再进行接下来的操作了,但是这样的方式却是最不能借鉴的,万一数据需求量大,那要等到猴年马月呢?所以今天我们就来探讨下如何创建一个IP池并对其进行管理。对刚入行的小白很有帮助,希望大家耐心看下去,需要的朋友可以参考下。很多的网站都有反爬机制,其中就有这样一条,就是服务器会检查请