一天深夜,你正在访问某大型科技媒体网站,突然,所有的网页都变成了不可描述的模样:充满了“同城约”“钙片”的图片和链接。
你十分震惊,然后批判性地浏览了一晚上。
作为一个有科学精神的媒体,雷锋网宅客频道决定深度探寻一下,这些网站究竟是如何出现在我们面前的。
首先,科普一些硬技术基础知识:
1、黄赌毒网站,国家一般是不太允许的。。。
2、黄赌毒网站,搜索引擎一般是不收录的。。。
3、黄赌毒网站,网站广告位一般是不卖给他们的。。。
实际上,如果你站在黄赌毒网站站长的立场上来看,他们宣传自己的“光明大道”已经几乎被法律和规则堵死。留给他们的,只有一条路——黑产。
页面篡改:月球背面的黑产
先来看看这些急于宣传自己的非法网站都是什么“货色”。360 搜索技术负责人张向征告诉雷锋网宅科频道,为了制作可以识别网站被黑的“悟空算法”,他和团队对一些赌博黑产做了详细的研究。
赌博网站一般会利用国家福利彩票的数据,然后自己“坐庄”。也就是说,“彩民”以为自己的钱用来买了真正的彩票。但实际上都交到了“庄家”手上。
每期开奖时,当彩民中奖金额远小于投注金额时(这是大概率事件),庄家会真的把奖金兑给彩民;当彩民运气爆棚,拿着五百万的奖券找庄家兑奖时,发现再也打不开这个网站了。
这类赌博站大都坐落在境外,所以他们的网址经常发生变化。关键是,普通的“用户”如果想找到他们比登天还难。(实际上涉及到跨境,公安机关也很难找到他们)
如此让人眼花缭乱的“盈利模式”,最终显然都是靠不明真相的群众买单。
如何获得群众基础呢?黑产盯上了搜索引擎。
在搜索引擎中“权重”越高的网站,显然浏览的人就越多。为了能够进入搜索引擎,黑产才想出把正常网页“偷天换日”的伎俩。
简单来说,就是利用网站系统漏洞,把正常的网页篡改成“黄赌毒”的网页。
目测这个庞大的黑色产业已经达到了百亿级别。
张向征说。
“身娇腰柔易推倒”的网站
一方面看,这门生意相当好赚;当然另一个方面也要考虑“黑站”的难度。
从难度上说,最容易被黑的站是教育、政府和企业网站。
一般来说两类站容易被黑,一是不涉及到直接交易的,二是以信息发布为主要功能的。
真正的银行、电商类网站,防护的力量比较强,不会轻易被攻击。
教育政府网站,一般访问人数较少,或者只有特定人群访问,而建站的主体往往并不需要经常运营维护网站。而更大数量的企业网站,可能是用模板制作,仅仅用于产品展示。企业关心的是自己业务层面,对网站并不非常关心。
相信你已经可以脑补出这些容易被攻击网站的形象了。
这些网页被篡改,不仅仅是需要改回来这么简单。黑客侵入网站,说明网站存在着严重的可以被利用的漏洞。利用这些漏洞,黑客可以把网站的所有注册用户数据窃取下来。而这又造成了新的更大问题:
很多用户在注册多个网站时会使用相同的密码,而一旦密码泄露,黑客就可以用这些密码去尝试登录你的支付宝、淘宝、网银账户等等,俗称撞库。
如果黑客掌握了你的足够多的个人信息,还可以把它们卖给诈骗集团,用来精准诈骗。没错,震惊全国的徐玉玉案,阴影中的黑手可能就是这样伸向无辜的人。
另外,利用网站漏洞,黑客还可以植入木马病毒,当用户浏览这个网页,就有可能感染病毒。病毒会寄生在用户的电脑上,监视用户的所有行为。
一万种“伤害”的方法
既然已经形成一个黑色产业,就意味着有相当多的黑帽子黑客“一起玩”。而这些黑客,显然也会分开不同的流派。简单说来有两个方向:
泥沙俱下派
这类篡改,粗犷无比。往往粗暴地把网站的全部内容直接替换成大幅的非法网站图片和链接。这样的玩法,即使是老眼昏花的老奶奶都能看出区别。
这种情况,会造成网站严重的流量异常(根本就不是一个网站了好不好),一旦被站长发现,会被第一时间处理。
精雕细琢派
这类篡改,一般不会动网站的主体结构,而是在某些特定的地方加入黄赌毒网站的宣传图片或链接。这些入口可能被放置在首页,也可能被放在不同的栏目下面。对于访问这个网站的用户来说,他们也许依然能找到自己想要的资料。同事他们也会看到非法的广告或链接,可能会点击进入。
这种情况一般不会给网站流量造成巨大的负面影响(反而有时会升高,你懂的)。由于隐蔽性好,也不容易被站长发现。
某网络安全专家曾经向雷锋网宅客频道(微信公众号:宅客频道)表示:
有些政府网站管理员很“喜欢”网站被黑,因为这样会给本来没多少人看的网页带来不错的流量。在年终做汇报的时候,倒是可以拿出不错的数据。
雷锋网(公众号:雷锋网)宅客频道表示:竟然好有道理,我竟无言以对。
网络侠客“死磕”黑客
很多站长并不关心自己的网站被黑客篡改,很多站长也无法感知自己的网页被黑客挂了非法链接。那么,最担心这件事情的就轮到了搜索引擎。因为大多数无辜群众都是通过搜索引擎才进入这些危险网页的,用户受害之后,搜索引擎“责任重大”。这也是为什么 360 搜索的安全专家要“挺身而出”的原因。
张向征介绍,小伙伴们最新研究的死磕黑客的方法,叫做“悟空算法”。
对于刚刚提到的两类篡改网页的行为,“悟空算法”都有应对的技巧。
对于“泥沙俱下派”,识别起来相对简单。
搜索引擎可以利用机器学习的方法,对正常的网站已有的标题和内容做语义分布的判断。如果同一个网站在短时间内语义分布突然发生了大面积偏移,就可以证明这个网站的页面遭遇的大规模改动。
另外,网站在短时间内突然增加了大量的外部链接,或者原有的链接全部成为“死链”,这些都是用来判定网页被篡改的识别规则。
当然,网站新的语义分布中,如果充斥着不可描述的词语,就更加可以确定它遭受了“血洗”。
对于“精雕细琢”派,识别起来就有一定的难度。
由于只有少量的内容发生变化,所以在统计意义上,并不能产生能够说明问题的偏移。这个时候就要增加参考的维度。
例如要和以前的网页做比对,对于新加入的内容做分析。
有些网站相比之前可能只有几十个字存在风险,而这恰恰就是被黑客篡改的内容。
张向征说。
狡猾的黑客,高级的猎手
所谓道高一尺,魔高一丈。月如百万的黑客们并不愿意束手就擒,想出了奇葩的对抗方法。
一半天使,一半魔鬼
张向征告诉雷锋网宅客频道:
有些黑客篡改网页,会采用“作弊”的方法。当检测到用户是通过输入网址的方法进入网页时,网页一切正常。当检测到用户是通过搜索引擎进入网页时,才会“凶相毕露”。
显然站长不会通过搜索引擎进入自己的网站,所以当他进入网站的时候,一派欢乐祥和。当用户通过搜索进入的时候,却如同进入了“月球的背面”,一片牛鬼蛇神魑魅魍魉。
这种情况下,站长很难意识到发生了什么,也可能忽略搜索引擎发来的警告。这个时候对于 360 搜索团队也是一个考验。
毁掉前世
另外,有些黑客在篡改网页的时候,甚至把域名都做了改变。此时搜索引擎就无法比对该网页的历史信息,也就没有办法判断它相对于历史形态有哪些微笑的改动。
这个时候,我们的系统就只能对新网页和我们历史数据中的网页做智能比对,从而判断它的“前世”是哪个网站。
张向征说。
专业“擦边”
除了这些,团队还要面对在识别过程中那些“擦边”的情况。张向征告诉雷锋网宅客频道:
有些网站本身不是赌博网站,但是也许报道了很多非法“六合彩”的内容。
有些网站有大量的类色情词汇分布,但也可能并不是真正的色情网站。
有些网站备案不太完整,也可能增加系统的不信任。
这些情况也许都会导致系统误判。
对于误判,除了不断改进算法之外,最有效的办法就是人工接受站长反馈。
只要人工审核认为不是真正的黑产,我们都会放开。只要你不是诱导用户去赌博。。。
他说。
尾声
至此,网页篡改的黑产大军,以及和他们“神魔斗法”的搜索团队,硝烟弥漫的战争图景展现在你的面前。
也许,正在看文章的你对于自己的判断力有充足的信心,并不认为自己会被黄赌毒网页引入歧途。但是也许你身边的人,年迈的父母,稚嫩的孩子,都是“黄赌毒”网站最肥美的猎物。
庞大的黑产告诉我们网络世界远不是天堂。而面对危险,埋怨从来无济于事。为网络世界构建秩序的点滴努力,都弥足珍贵。