如何有效管理爬虫流量?

天翼云开发者社区
• 阅读 145

本文分享自天翼云开发者社区《如何有效管理爬虫流量?》,作者:刘****海

据国际知名金融广告服务平台提供商Dianomi的报告《2018 Robot traffic report》的数据,在互联网上人类流量仅仅占了48.2%,也就是说,一个页面的10000个点击里面,大约5100个来自机器人。在航旅票务等行业,热门数据接口中甚至有超过95% 的流量是来自爬虫。如何有效管理爬虫流量,是当下业务安全面临的问题。

最早“诞生”的好爬虫 常见的善意Bot有百度爬虫、谷歌爬虫、必应爬虫等搜索引擎类爬虫,此类爬虫经常被企业用于提高站点在搜索引擎内的自然排名,使得站点在各大搜索引擎中的排名能够提高,进一步通过搜索引擎来进行引流为企业增加业务流量。

恶意爬虫带来的业务安全风险 大量“变异”的爬虫很快充斥网络,通过模拟正常用户活动和行为,大肆进行数据窃取、资源占用、薅羊毛等违法违规操作,导致从数据到业务、金钱,方方面面的安全风险

恶意爬虫特征 恶意BOT在AI技术的加持下已“进化”成智能化网络机器人给个人用户、商业平台带来巨大危害,它通常有以下几个“DNA”: 1.高并发 利用云端基础设施或者IDC机器集群,形成极高的并发访问能力 2.速度快 可在短时间内形成超量的访问,在一夜之间薅走百亿规模的羊毛 3.全天候 可以724365的工作,秒杀一切996,甚至为了逃避侦测,经常昼伏夜出、凌晨作案 4.自动化 可在完全无人看守和干预的情况下,模拟大部分人类行为并完成恶意任务,从拖库撞库、登录测试,到图片验证码破解、薅羊毛等所有任务都可以执行 5.智能化 AI技术加持,拥有超高“智慧”

如何有效防护恶意爬虫 1.威胁情报库 依托网络安全经验和大数据情报,精准识别拨号池IP、IDC机房IP、恶意扫描工具IP等多种维度的爬虫威胁情报规则,方便您在全域名或指定路径下设置阻断恶意爬虫的访问请求

2.人机交互验证 用对人类不可见的挑战机制,在不影响用户体验的基础上,要求客户端证明其支持存储 Cookie 和执行 JavaScript,从而识别出爬虫和正常用户

3.威胁分析 收集线上日志数据,输入异常分析检测模块中,根据已定规则进行多维度、上下文分析,输出异常客户端信息。

点赞
收藏
评论区
推荐文章
宙哈哈 宙哈哈
1年前
恶意爬虫?能让恶意爬虫遁于无形的小Tips
验证码是阻挡机器人攻击的有效实践,网络爬虫,又被称为网络机器人,是按照一定的规则,自动地抓取网络信息和数据的程序或者脚本。如何防控,这里简单提供几个小Tips。
穿山甲联盟:今日头条下一个总流量野兽
头条的总流量迅速,而在头条全部产品体系以外,今日头条也在团结一致手机制造商和长尾关键词app的总流量,这一点,从头条近日悄悄的发布的穿山甲联盟就可以看出去。是啥?简易而言,穿山甲联盟是一个根据移动互联广告服务的流量联盟服务平台,这一同盟的组员除开今日头条,也有许多细分化行业的头顶部APP和手机制造商,穿山甲联盟在这里当中的人物角色则是一个联接微信流量主和广告
Stella981 Stella981
2年前
Python Scrapy 实战
PythonScrapy什么是爬虫?网络爬虫(英语:webcrawler),也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。Python爬虫在爬虫领域,Python几乎是霸主地位,将网络一切数据作为资源,通过自动化程序进行有针对性
Stella981 Stella981
2年前
Joomla如何在网站中添加流量统计代码
查看网站统计是每个站长比不可少的工作。那么如何给Joomla网站添加一个统计代码,来有效的管理自己的网站呢?这里以百度流量统计为例,演示怎么给JoomlaT3Framework架构网站怎么添加统计代码。 接下来我们来看看具体的操作步骤:登录后台管理界面,在顶部导航栏中找到扩展管理中的模板管理,选择风格管理,点击!怎么给joomla
Stella981 Stella981
2年前
Spring Cloud Gateway限流浅析之一段脚本实现令牌桶
前言在一个分布式高并发的系统设计中,限流是一个不可忽视的功能点。如果不对系统进行有效的流量访问限制,在双十一和抢票这种流量洪峰的场景下,很容易就会把我们的系统打垮。而作为系统服务的卫兵的网关组件,作为系统服务的统一入口,更需要考虑流量的限制,直接在网关层阻断流量比在各个系统中实现更合适。SpringCloudGateway的实现
识别网络爬虫的策略分析
识别网络爬虫的策略分析一、网络爬虫爬虫(crawler)也可以被称为spider和robot,通常是指对目标网站进行自动化浏览的脚本或者程序,包括使用requests库编写脚本等。随着互联网的不断发展,网络爬虫愈发常见,并占用了大量的网络资源。由爬虫产生的网络流量占总流量的37.2%,其中由恶意爬虫产生的流量约占65%图1PathMarker的体系架构上述
京东云开发者 京东云开发者
8个月前
京东小程序数据中心架构设计与最佳实践 | 京东云技术团队
小程序平台是怎么保证商家业务的稳定、健康发展,服务好这些外部商家的呢?这里面非常重要的是我们平台对小程序基本流量的运营与监控。如何不让业务的小程序在线上裸奔?如何帮助业务对自身小程序流量的冲高回落有一种直观的把握和监测?如何基于海量数据指导业务去进行一个精细化的运营?实际上,京东小程序数据中心就扮演了一个这样的小程序数据问题终结者的角色,充分利用各类数据手段,解决这些痛点问题。
京东云开发者 京东云开发者
8个月前
恶意爬虫防护 | 京东云技术团队
引言如果您仔细分析过任何一个网站的请求日志,您肯定会发现一些可疑的流量,那可能就是爬虫流量。根据Imperva发布的《2023ImpervaBadBotReport》在2022年的所有互联网流量中,47.4%是爬虫流量。与2021年的42.3%相比,增长了
京东云开发者 京东云开发者
8个月前
Web应用防火墙--规则防护 | 京东云技术团队
Web应用防火墙对网站、APP的业务流量安全及合规性保护,对业务流量的识别恶意特征提取、分析识别出恶意流量并进行处理,将正常安全的流量回源到业务服务器,保护网站核心业务和数据安全。
小白学大数据 小白学大数据
2个月前
Python爬虫之Pandas数据处理技术详解
在Python爬虫中,数据处理起着至关重要的作用,但也面临着诸多挑战。为了提高数据处理效率,引入Pandas库成为一种行之有效的方法。本文将详细介绍Pandas数据处理技术,探讨其在优化Python爬虫效率中的作用。第一部分:Pandas库介绍●什么是Pa
天翼云开发者社区
天翼云开发者社区
Lv1
天翼云是中国电信倾力打造的云服务品牌,致力于成为领先的云计算服务提供商。提供云主机、CDN、云电脑、大数据及AI等全线产品和场景化解决方案。
文章
508
粉丝
8
获赞
37