一个爬虫的故事:这是人干的事儿?

九路 等级 659 0 0
标签: https后端

本文转载自 轩辕之风的文章,链接 https://mp.weixin.qq.com/s/YygbUWpa2mbPZPuPNhdt2w

爬虫原理

我是一个爬虫,每天穿行于互联网之上,爬取我需要的一切。

一个爬虫的故事:这是人干的事儿?

说起来还要感谢HTTP协议,因为它,全世界的网站和浏览器才能够连接通信,而我也是借助HTTP协议,获取我想要的数据。

我只需要伪装成一个浏览器,向服务器发送HTTP请求,就能拿到网页HTML文件。

接着,我再按照HTML的格式规范,去解析其中的图片<img>、链接<a>、表单<form>等等我关注的信息。

一个爬虫的故事:这是人干的事儿?

获取链接标签以后,我又可以进一步爬取链接背后的网页,如此反复,要不了多久,一个网站中暴露出来的内容我就能爬个干净。

当然了,咱们做爬虫也还是有底线的。干我们这一行,有一个约定俗成的规定,那就是Robots协议。

只要你在网站的根目录下放置一个叫robots.txt的文件,里面写上哪些目录禁止访问,我就会绕道而行,就像这样:

User-agent: *

Disallow: /a/

Disallow: /b/

Disallow: /c/

就像程序员们经常互相鄙视一样,在咱们爬虫的圈子里,也存在鄙视链。

地位最高的要数搜索引擎的爬虫了,他们高高在上,正大光明的爬,各个网站欢迎还来不及,都想被他们收录到搜索引擎之中,给网站带来流量。这些爬虫,都是圈子里的大佬,我们惹不起。

一个爬虫的故事:这是人干的事儿?

另外有一些爬虫,他们有的不遵守robots协议,随意乱爬,有的一天天的净知道爬美女图片,把人家服务器爬崩溃了,这些爬虫我们也是看不起的。

像我这样老实本分的爬虫,平日的工作就是爬取一些网站的数据,像购物网站、点评网站等等。虽然我们很守规矩,但这些个网站还是很不待见我们,为了拿到数据,我们展开了旷日持久的拉锯战。

一个爬虫的故事:这是人干的事儿?

反爬虫技术

现在很多网站都上云了,云上的资源可昂贵了,CPU、内存、存储这些都价格不菲,尤其是网络带宽,价格是真心贵。

一个爬虫的故事:这是人干的事儿?

那些网站不待见咱们这些爬虫也就可以理解了,我们不像搜索引擎爬虫可以给他们带来好处,相反,还会消耗他们的服务器性能,花掉他们宝贵的流量,那可是白花花的人民币,谁不心疼啊?

所以这些网站加了一个措施:一旦在HTTP请求中的user-agent字段发现这是一个爬虫,那就不搭理我们了。

一个爬虫的故事:这是人干的事儿?

这个user-agentHTTP协议中表示客户端名字的字段,那个时候我刚刚入行,没什么经验,不懂得伪装,很容易就被发现。

为了能够继续爬数据,我只好改头换面,伪装成了浏览器的名字,圈子里有的兄弟还伪装成了搜索引擎爬虫的名字,我可不像他们那样没下线。

这一招管用了没多久,这些网站就升级了策略,通过我们的行为来识别是不是真的浏览器。我们毕竟是程序,那速度比人类点击快多了,网站一旦发现我们短时间内发起了很多请求,那就掐断连接。

我只好降低爬取的频率,避免被拉入黑名单。

有些网站更狠,在网页里面插入一些假的图片,只有几个像素那种,人类的眼睛是看不见的,但是我们不知道啊,对我来说都是标签,我一访问就中计了!立刻被拉入黑名单。

没有办法,摊上这种事,我只好想办法换个IP再去爬,真是难顶。

听说圈子里有些大佬用上了分布式技术,组团去爬,很多个IP地址,其中一个或者几个封了也不用怕,我真是很羡慕。

前后端分离

在我的职业生涯中,遇到过一些奇怪的网站,明明网页中有数据,但是我一访问拿到的HTML中啥也没有,一度让我很郁闷。

后来才知道,原来他们用上了一个叫前后端分离开发的技术,数据不再从服务器渲染到HTML网页中,而是浏览器通过单独的API接口拿到后再动态加载出来,难怪我拿到的只是一个空壳子。

一个爬虫的故事:这是人干的事儿?

为了拿到数据,我只好也学着去请求这些数据接口,不过因为这些网站都有API网关,会检查请求的Token或者Authorization之类的认证字段,再加上我不知道他们的接口参数格式,导致我经常拿不到数据。

到了最近两年,我拿到的网页HTML越来越简单了,在浏览器中丰富多彩的页面,一查看源代码竟然只有简单几行,真是见了鬼了!

终于有一天,一个前辈告诉我,现在流行单页应用SPA了,页面全都是在前端动态生成的,拿到的HTML根本没有价值。

一个爬虫的故事:这是人干的事儿?

这简直欺人太甚了!

一不做二不休,我决定弄一个真正的浏览器进来,这个内嵌的浏览器没有界面,专门为我服务,嵌入到我的程序中,让他去真正的渲染网页,渲染完成后我再去取数据!

这是真正意义上模拟人类去访问网站了,再也不用模拟繁琐的数据接口访问,也不用担心单页应用,前端渲染就前端渲染,我再也不怕了!

验证码

到后来,不知道是谁发明的,网站们纷纷用上了一种叫验证码的技术,给我们出了难题。

开始的验证码还算比较简单,一般都是些简单的数字、英文字符做了些变形,就像这样:

一个爬虫的故事:这是人干的事儿?

圈子里很快有大佬教我们用文字识别技术OCR来自动识别这种验证码,我也折腾了一下,费了老大劲终于可以识别出来,准确率不敢说100%,99%还是有的。

不过没多久,这验证码就变得越来越复杂,什么汉字识别,物体识别,滑动解锁,一个比一个难,根本超出了我的理解范围,你瞧瞧下面这些验证码,这是人干的事儿吗?

一个爬虫的故事:这是人干的事儿?

哎,这还真是人才能干的事,不是我们爬虫能干的~

如今,这些网站的反爬虫技术越来越先进,我们能发挥的空间被一步步挤压。

前段时间,有个愣头青爬虫把一家公司的服务器给爬崩溃了,把人家正常业务都弄停掉了,他还被抓了起来,现在监管越来越严,搞得大家人心惶惶。

内忧外患不断,不少爬虫兄弟失业的失业,转行的转行,爬虫这碗饭,真是越来越不好吃了。。。

所以,好多人开始转行了

收藏
评论区

相关推荐

一个爬虫的故事:这是人干的事儿?
本文转载自 轩辕之风的文章,链接 https://mp.weixin.qq.com/s/YygbUWpa2mbPZPuPNhdt2w 爬虫原理 我是一个爬虫,每天穿行于互联网之上,爬取我需要的一切。 image.png(https://imghelloworld.osscnbeijing.aliyuncs.com/imgs/656d
HTTPS
### 最近网站更新为https,于是做个笔记 ### 将域名 [www.domain.com](https://www.oschina.net/action/GoToLink?url=http%3A%2F%2Fwww.domain.com) 的证书文件1\_www.domain.com\_bundle.crt 、 ### 私钥文件2\_www.doma
HTTPS
楔子 谣言粉碎机前些日子发布的《[用公共WiFi上网会危害银行账户安全吗?](https://www.oschina.net/action/GoToLink?url=http%3A%2F%2Fwww.guokr.com%2Farticle%2F100110%2F)》,文中介绍了在使用HTTPS进行网络加密传输的一些情况,从回复来看,争议还是有的。随着网络越
Java描述设计模式(09):装饰模式
本文源码:[GitHub·点这里](https://www.oschina.net/action/GoToLink?url=https%3A%2F%2Fgithub.com%2Fcicadasmile) || [GitEE·点这里](https://gitee.com/cicadasmile) 一、生活场景 ====== 1、场景描述 ------ >
3 分钟搞瘫阿里内网,拦下13亿次攻击,唯一能让马云睡安稳的男人!
![](https://oscimg.oschina.net/oscnet/ef84ea06-b1a6-4ab3-83a5-e8b963d9261e.jpg) 来源:花瓣志(ID:iihuacao) 作者:古蒙儿 有这样一个人。 拿着中学文凭去阿里巴巴面试, 结果不但成功了,还成了元老级人物。 在阿里待了8年后, 又出走自创公司。
Baby Learning Gallery (婴儿启蒙图册)
写了个Android App给儿子:) [Baby Learning Gallery (婴儿启蒙图册)](https://www.oschina.net/action/GoToLink?url=http%3A%2F%2Fwa.eguidedog.net%2Fhgneng%2FZkU) ![](http://www.eguidedog.net/image/
Github标星5300+,专门为程序员开发文档开源管理系统,我粉了
![](https://oscimg.oschina.net/oscnet/a11909a041dac65b1a36b2ae8b9bcc5c432.jpg) **码农那点事儿** 关注我们,一起学习进步 ![](https://oscimg.oschina.net/oscnet/f4cce1b7389cb00baaab228e455da78d0
Hexo + Serverless Framework,简单三步搭建你的个人博客
很多人都想拥有自己的个人博客,还得看起来漂亮、酷酷的。尤其对开发者来说,不仅可以分享技术(装)心得(逼),面试的时候还能成为加分。这里介绍两款好用的神器,不用忙前(前端)忙后(后端),简单3min即可搞定,本文免费分享给大家。 > PS:不会写代码?没有备案的域名?没有服务器?在这里,这些都不是事儿! **工具介绍** * [**Serverles
Linux下安装python详解
    本人Linux小白一枚,刚刚尝试着装好了win7+Ubuntu的双系统,打算学习一下在Linux下进行一些简单编程,然而在安装软件的第一步就出现了很多问题,大多数博客都是针对稍微有点儿Linux基础的人的,所以我在安装Python的时候还是有很多问题一点儿一点儿查出来的,为了方便跟我一样的小白,打算整理一个完整版的过程。(PS:当然了,以下步骤需要在
OSChina 周四乱弹 —— 从小到大喜欢的女孩儿嫁给别人
**Osc乱弹歌单(2019)请戳([这里](https://www.oschina.net/action/GoToLink?url=http%3A%2F%2Fmusic.163.com%2F%23%2Fmy%2Fm%2Fmusic%2Fplaylist%3Fid%3D2040211015))** **【今日歌曲】** @[tom\_tdhzz](htt
OSChina 周日乱弹 ——儿子在别人手上,怎么办!
@[翟志军](http://my.oschina.net/zjzhai) : 家乡的茶园开满花,妈妈的心肝在天涯 想妈妈, 这歌曲可以有。 家 - 南拳妈妈   手机党少年们想听歌,请使劲儿戳([这里](https://www.oschina.net/action/GoToLink?url=http%3A%2F%2Fwww.xiami.com%2F
Openshift与Kubernetes的区别
Openshift首个支持企业级 Java 的 PaaS 平台,支持 JEE6 与 JBoss 和其 Eclipse 集成开发环境以及 Maven 和 Jenkins 自动化。使用 OpenShift 的人数及社区人数在不断增长。OpenShift基于Kubernetes,增加哪儿些功能?有什么区别? ![](https://oscimg.oschina.
Rest API 的那些事儿
> **Rest API 的那些事儿** > ------------------ > > > 作者/ [asterisk](https://www.oschina.net/action/GoToLink?url=http%3A%2F%2Fwww.ituring.com.cn%2Fusers%2F178433) > > 在软件行业快速发展的今天,传统的软