摘要:
打开google,选关键词“芙蓉姐姐”点击,再任选一个“芙蓉姐姐”出现较多的一篇点击,接着出现两种可能:第一,只数秒钟,页面便突然弹跳到“亚洲在线最大的宽频影院”等等网页。第二,出现无数的“芙蓉姐姐”,再任意选择一个“芙蓉姐姐”点击,出现与第一种可能一样的页面——其内容与“芙蓉姐姐”丝毫无关,扑入眼里的是女人半裸的身体或半裸的乳房。关键字:
搜索引擎 作弊 正文:
的web站点管理员(webmaster)们如实地填写网站摘要,如实地列出跟他的网站最相关的关键字,搜索引擎们抓取、索引、检索这些诚实的meta tag,并作为搜索结果排序的重要依据。为了有效提高搜索结果,有专门的网络人员研究seo(搜索引擎优化),专门为网站提高搜索结果而进行优化。
然而,人们越来越发现,搜索结果的排序,是一个巨大的利益空间——如果谁的网站或网面能够排在搜索结果的前列,谁就有可能获得最大的“广而告之”效益而产生巨大利益。因而,许多“觉醒”过来的网站为了追逐这一利益空间而开始追求页面浏览量(pageview)——打开一个页面,却可包含数个页面元素,从而获得众多的点击数(hits)——点击数则是“注意力经济”的一个重要指标。
而到了这个地步,一度推动技术进步的“搜索引擎优化”(seo)已异化成“搜索引擎作弊工具”(英文简称“seo spam”)。
从google的“芙蓉姐姐”的搜索结果便可看到这一典型的作弊:在meta tag中塞进成堆的关键字,或塞进跟自己的网站内容无关,但是非常流行的关键字——但当你打开它时,它又迅速地跳转入作弊网站设定的网页页面中。
反spam与spam间的较量
搜索引擎第一轮反击是,在排序时更多地依赖网页正文而不是meta tag。但spam们以进为退,在正文中大量使用与网页背景相同颜色的关键字,在图片注释文字中塞进关键字,在网页代码加入“看不见的注释”。搜索引擎又开始第二轮反击,它们找到了有效的方法来过滤这些看不见的文字。
搜索引擎的spider(蜘蛛)在访问任何网站时都会自报身份,并且查阅网站的访问规定,按照各网站的规矩来办事。于是,seo随之制作两个网站,一个专供网友访问,一个专供搜索引擎访问,“各取所需”,这种方法叫做cloaking(外套)。
在国外,其实早在上世纪seo spam便已成大热门。据1998年的一次调查,在主要的搜索引擎上搜索当时的热门词汇“monica lewinsky”(莫妮卡-莱温斯基),各搜索引擎首页居然有40%的搜索结果是垃圾网站。
搜索引擎只能去寻找新的相关性排序依据,或作弊者不能控制的排序依据,即到网站以外去寻找排序的依据。于是,出现了超链分析,出现了pagerank。超链分析的原理即是看网页间的同类链接点作为重要依据,此后,又根据各网站的权重等来综合分析等。这样,gov(政府网站)和edu(教育网站)通常被赋予较高的排名,来自gov和edu的超链也有更高的价值。
但spam们又据此做大量的网站,准备大量的链接,哪个客户出钱,所有的网页都给它一个链接。这种seo方法被称为linkfarm。而反spam的做法就是凭发现的linkfarm而认定此即为作弊网站。
据某论坛上某个站长透露,目前,在中国已经形成了一个巨大seo spam市场,据反spam专家王某的估计,中国以此为生的人数大约在数十万,其网站更是高达数百万计。在互联网上,有众多seo网站,它们打着各种旗号来“指导”人们作弊,并在上面谈心得体会。
这些seo spam们“赖以生存”的方式主要是以下两种:1.利用搜索引擎引来网站流量带动的广告收入;2.贩卖通过对搜索引擎作弊获得的较高的关键词排名。网站流量以独立ip计算,根据站长的透露,自己每日5000个独立ip的访问量,仅加入了电影宽带等3家的广告联盟,月入已达1300元左右。而一个被百度收录2万左右网页的做流量的网站,每日ip很快就能涨到4万元。
前赴后继的spam
seo spam的破坏性是相当巨大的,它不仅直接破坏了每日数亿计的用户搜索体验——这是搜索引擎网站赖以生存的关键所在,同时也破坏了搜索引擎获得收益的主要来源——竞价排名以及相关广告。
据有关统计资料,在所有网页中,摒除无效网页,作弊网页占到整个网页的10%;在某些热门关键词的搜索中,其前50篇网页,垃圾网站的网页所占比例甚至可以高达80%以上。
在中国,google一直以谦谦君子的形象示人,但它也有发怒的时候。
2005年3月26日凌晨4点,忍无可忍的google突然发力,将广大批spam站点清除。google的页面恢复了以前的干净。
但事隔不到4个月,垃圾网站的网页又如潮水般涌来。据来自google的内部消息,google也一直在致力于反spam,但建立一个完整的反垃圾网站系统是一个漫长的过程,在中国,反垃圾网站的人才更是奇货可居。在采访百度时,百度即不愿披露反垃圾网站专家的姓名,“因为这是百度最为宝贵的人才之一”。
据王某透露,其实在搜索引擎与垃圾网站的长期斗争中,搜索引擎总是处于守势。这不仅因为搜索引擎公
[1][2][3]