2009年12月,淘宝开始执行屏蔽百度政策。一是百度爬虫太多影响速度,二是也会给骗子留下机会。三年过去,刚才试了一下发现百度对淘宝的收录量是2700多万条,谷歌对淘宝的收录量是2900多万条。
而2009年的时候,淘宝只说屏蔽百度,没说屏蔽谷歌,难道现在解除屏蔽了么?当然一个网站屏蔽了百度爬虫后它还是会有一些收录的,像淘宝这样的大站尤其如此。然后2010的时候新浪也屏蔽百度爬虫了,而我根据网易的收录量推算,疑似网易也屏蔽了百度爬虫。但是效果看起来不甚理想,因为很多时候还是在百度搜到新浪或者网易博客中的内容。文章源自原紫番博客-https://www.yuanzifan.com/2120.html
而值得注意的一点是——这些站,都没有屏蔽谷歌爬虫。以前谷歌搜索的结果和百度的大概有70%是不同的,经历了628K站以后,一部分优秀的站点从百度中消失。文章源自原紫番博客-https://www.yuanzifan.com/2120.html
写到这里的时候我想用facebook的收录数做对比,百度对facebook的收录数是300多(2012.07.17结果),然后我转到谷歌,企图搜索facebook的收录量,结果报出这么个提示:文章源自原紫番博客-https://www.yuanzifan.com/2120.html
文章源自原紫番博客-https://www.yuanzifan.com/2120.html
我记得,以前我查的时候还没这限制,也就是说以前我们还可以看看facebook的围墙,现在连看围墙也算是违背了“相关法律法规及政策”了。文章源自原紫番博客-https://www.yuanzifan.com/2120.html
另一个数据是:百度的市场份额还在不断增大:文章源自原紫番博客-https://www.yuanzifan.com/2120.html
文章源自原紫番博客-https://www.yuanzifan.com/2120.html
可能你会问为什么:百度不是一直很烂的么?是的,百度商业道德不怎么样,但是谷歌作为他的竞争对手,手脚被困,在大陆地区琵琶骨被穿,你说这怎么跟百度争?不是连接被重置,就是不能搜索,不明真相的群众当然骂谷歌烂,然后继续使用中国或者说全世界技术最好的局域网搜索引擎——百度。文章源自原紫番博客-https://www.yuanzifan.com/2120.html
话说了这么多已经跑题了,再回来继续说淘宝,送新闻消息上看淘宝没有任何解除屏蔽的意思,收录这么多,有可能是百度一定程度地放宽了robot对淘宝的限制。使得一部分蜘蛛可以访问之。反正已经不要脸了,再搞搞也无所谓了。这就好比,你逼良为娼是有一定困难的,因为这一不道德,二非法。但是你逼娼为良却要比逼良为娼困难,因为对于一个已经不要脸的人你要想她再要脸实在是困难重重。我忽然明白为什么大家都管百度叫度娘了……文章源自原紫番博客-https://www.yuanzifan.com/2120.html
我在想的是另一个问题:新浪屏蔽,淘宝屏蔽,百度又自废武功地K了那么多站,然后,我们用百度,还能搜出什么来?文章源自原紫番博客-https://www.yuanzifan.com/2120.html
评论