查看全文
图片验证码、滑块验证、封禁 IP、给访问者增加一些加解密运算,耗费爬虫的程序资源等等。。。
这张图来自极验验证的滑块验证技术
除了刚才这些小模块,企业还可以通过 WAF(Web 应用防火墙)来防护,WAF 的功能就是通过设置一些规则,拦截掉那些不符合规则的请求。
但是,爬虫的请求,和真人的请求真的太像了。
我觉得,对这种战争一个形象的比喻就是抗癌。癌细胞的目的就是拼命躲过免疫细胞的识别,而免疫细胞的目标就是拼命分辨哪个是好细胞哪个是癌细胞。
在我看来,这场对抗爬虫的常规战眼看就要升级为「智能战」,而且战线会向云端转移。
比如腾讯云的 WAF,听说最近就要通过人工智能的方法来识别爬虫。这里就不帮他们打广告了。还有很多其他的云安全厂商,也开始主推反爬虫的技术。
不过,就像人类目前难以消灭癌症一样,企业也难以完全消灭爬虫。但是我相信,在对抗中这条战线会达到一个精妙的平衡。这个战线每向前推进一步,都需要安全研究员付出艰辛的努力。
三、《中国焦虑图鉴》
最后,中哥帮你搞到了一张秘密表格。
这是被监测到的受爬虫侵扰最多的 Top50。(采样数据,仅供参考)
这张表里,除了 google、Youtube、ask、亚洲航空这四家企业之外,应该全是中国企业(或机关)。正是从这些名字背后,我体会到了很多人的辛酸和焦虑。
爬虫是趋利的,它们永远会向有利益的地方爬行。而爬虫觉得有利益的地方,往往是我们不忍提及的隐痛。
你看,排名第 1 的「中国铁路路客户服务中心」
无数像幺哥一样的游子,他们奋斗在一个远离家乡的城市,为了让家人有更幸福的生活。正是他们难以买到过年回家车票的事实,才把 12306 推上了爬虫榜的第一名。
你看,排名第 8 的「最高人民法院公告查询」
在中国,我们的信用体系还很不完善,骗子和老赖还可以继续蒙骗新人。所以才催生了爬虫收集法院公告,形成民间信用记录的服务。
你看,排名第 15 的「北京市预约挂号统一平台」
我们的医疗改革在进行,但像你我一样的普通人仍然看病难,看病贵。又便宜又好的医疗资源需要争夺,这才有了「一号难求」的现实,才有了黄牛用爬虫拼命抢号的现象。
自不用说那些神坑的虚假广告,冲榜刷量,背后都有爬虫的影子。
最后来总结一下爬虫究竟是什么。
首先,爬虫是一个探测机器,能够模拟人的行为去各个网站溜达、查数据、把看到的信息背回来;
爬虫也分善恶,其中的骚操作集中在出行、社交、电商、搜索引擎、政府部门五个领域:
其中包括黄牛党在 12306、亚洲航空这类出行平台上抢票;
在微