python访问百度关键词和链接

helloworld_45423603
• 阅读 252

前几天在Python交流群有个同学分享了一份Python网络爬虫代码,用来获取某度关键词和链接的。其实这个需求之前我也写过代码,不过网页结构变化之后,之前的提取器已经失效了,所以代码就作废了。今天这里给再给大家分享一个使用python获取某度关键词的实践。由于某度也是设置反爬安全策略的,所有同一IP下程序运行次数多了也是会被封IP的,所有在访问过程中我们需要加上代理IP,这里推荐使用亿牛云代理。具体的实现方式如下:#! -- encoding:utf-8 --

import requests
import random

# 要访问的目标页面
targetUrl = "http://httpbin.org/ip"

# 要访问的目标HTTPS页面
# targetUrl = "https://httpbin.org/ip"

# 代理服务器(产品官网 www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"

# 代理验证信息
proxyUser = "username"
proxyPass = "password"

proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
    "host" : proxyHost,
    "port" : proxyPort,
    "user" : proxyUser,
    "pass" : proxyPass,
}

# 设置 http和https访问都是用HTTP代理
proxies = {
    "http"  : proxyMeta,
    "https" : proxyMeta,
}


#  设置IP切换头
tunnel = random.randint(1,10000)
headers = {"Proxy-Tunnel": str(tunnel)}



resp = requests.get(targetUrl, proxies=proxies, headers=headers)

print resp.status_code
print resp.text今天就只简单的分享下使用python访问百度关键词的示例,之后会给给大家分享使用bs4等方式来来提取百度关键词和链接,也欢迎大家积极尝试,一起学习。​若有收获,就点个赞吧
点赞
收藏
评论区
推荐文章
Karen110 Karen110
1年前
反爬虫策略手把手教你使用FastAPI来限制接口的访问速率
在网络爬虫的过程中,我们都会遇到各种各样的反爬虫,封禁IP和账号,设置验证码,前端加密,浏览器指纹,甚至输出假数据来等等都是可能出现的反爬手段,这些我们今天一个也不会谈及,而是谈谈一种叫访问速率限制的手段。 对于服务端而言,有时候会碰到这么一个场景:某个接口需要在某个时间段内设置最高的访问次数来降低服务器的压力,比如之前用的某度的一些接口,一分钟内访问
Python进阶者 Python进阶者
1年前
手把手教你使用Python网络爬虫获取B站视频选集内容(附源码)
大家好,我是Python进阶者。 前言前几天雪球兄在Python交流群里分享了一个获取B站视频选集的Python代码,小编觉得非常奈斯,这里整理成一篇小文章,分享给大家学习。关于雪球兄,大家应该都熟悉了,之前他写过Python实战文章,好评如潮,没来得及看的小伙伴,可以戳这里了:之前也有给大家分享B站的一些文章,感兴趣的话可以看看这个文章,Python网络爬
Python进阶者 Python进阶者
11个月前
盘点3种Python网络爬虫过程中的中文乱码的处理方法
大家好,我是Python进阶者。前几天给大家分享了一些乱码问题的文章,感兴趣的小伙伴可以前往:,这里再次给大家祭出网络爬虫过程中三种中文乱码的处理方案,希望对大家的学习有所帮助。 前言前几天有个粉丝在Python交流群里问了一道关于使用Python网络爬虫过程中中文乱码的问题,如下图所示。看上去确实头大,对于爬虫初学者来说,这个乱码摆在自己面前,犹如拦路虎一
Python进阶者 Python进阶者
5个月前
编写程序,输入若干整数(整数之间以逗号间隔),统计每个整数的出现次数。
大家好,我是皮皮。 一、前言前几天在Python钻石交流群分享了一个Python基础的问题,这里拿出来给大家分享下,一起学习下。编写程序,输入若干整数(整数之间以逗号间隔),统计每个整数的出现次数。这个题目并不难,但是对于初学者来说,还是有点难度的,一起来看看解决方法吧! 二、解决过程 解法一其实这个题目就是在考你Python基础的内容。代码如下:impor
Python进阶者 Python进阶者
5个月前
只用3行Python代码,获取星期几?
大家好,我是皮皮。 一、前言前几天在Python最强王者交流群分享了一个只用3行Python代码,获取星期几的问题,这里拿出来给大家分享下,一起学习下。看到这个代码,我当时的第一反应是,这个人基础学的还是可以的,input用到位了。对于初学者来说,能写成这样,也是不错的了,起码功能确实是实现了,虽然说起来确实有点说不上来的味道,应缺斯汀。 二、解决过程有一说
Python进阶者 Python进阶者
6个月前
盘点一个Python网络爬虫过程中中文乱码的问题
大家好,我是皮皮。 一、前言前几天在Python黄金交流群有个叫【Mt.Everest】的粉丝问了一个关于Python网络爬虫过程中中文乱码的问题,这里拿出来给大家分享下,一起学习。 二、解决过程这个问题其实很早之前,我就写过相关文章,而且屡试不爽。 【Python进阶者】解答这里给出了两个思路,照着这个思路去的话,问题不大。事实上并不巧,还是翻车了。 【黑
Python进阶者 Python进阶者
5个月前
Python网络爬虫过程中,构建网络请求的时候,参数`stream=True`的使用
大家好,我是皮皮。 一、前言前几天在Python最强王者交流群【德善堂小儿推拿瑜亮老师】分享了一个关于Python网络爬虫的问题,这里拿出来给大家分享下,一起学习。 二、解决过程这里【PI】大佬提出了思路,的确可行。【皮皮】给了一份代码,取巧,这里就不展示了。后来【月神】给了一份可行的代码,如下所示:for url in allurl: resp r
Python进阶者 Python进阶者
5个月前
Python网络爬虫中重新请求,请问有什么比较好的解决方法?
大家好,我是皮皮。 一、前言前几天在Python钻石群有个叫【某嘟】的粉丝问了一个关于Python网络爬虫中重新请求的问题,这里拿出来给大家分享下,一起学习。 二、解决过程这里【D I Y】大佬给了一个思路,确实可行。不过后来她自己又找到了一个更好的方法,找到一个HTTPAdapter可以实现超时重试,大概用法如下:from requests.adapter
Python进阶者 Python进阶者
5个月前
实战篇:盘点Pandas中的factorize()函数妙用
大家好,我是皮皮。 一、前言前几天在Python白银交流群有个叫【蛋蛋】的粉丝问了一个Pandas处理的问题,这里拿出来给大家分享下,一起学习下。一开始我都没理解她的意思,以为只是简单的替换而已,之前【月神】给了一个代码,当时也写文章记录了,代码如下:df不过很不巧,这个不是她想要的结果,她想要的结果是同样的几个都是1,然后其余的就是2,3,4,我还是没反应
Python进阶者 Python进阶者
2星期前
练习爬虫,我想问一下这个xpath语句为啥找不到元素,感谢大佬!
大家好,我是皮皮。 一、前言前几天在Python钻石交流群【萤火】问了一个Python网络爬虫的问题,下图是截图:下图是报错截图: 二、实现过程这里【error】给了一个代码,如下所示,满足粉丝的需求:用selenium没找到的话,大概率是网页还没渲染出来,代码就运行到了抓取规则,所以抓不到。其实他的匹配规则是可以拿到数据的,只不过用jupyter运行sel