摘要:最近发现好几个朋友说百度对阿里巴巴,慧聪,163等高权重的论坛和博客,在收录文章上有时会出现大量的重复收录。原因可能是由于百度对动态地址收录上的不成熟。这张6月12号的163博客收录图应该是因为动态页面的原因。
最近有几个朋友反映,百度在阿里巴巴、慧聪、163等高权重论坛和博客的收录文章中,有时会收录大量重复文章。原因可能是百度在动态地址收录方面的不成熟,在高权重网站收录时,会对同一内容页面的不同动态地址进行临时收录,然后再进行对比删除。
阿里巴巴论坛有一个奇怪的现象,比如一个网址指向一个页面,里面包括了第一篇帖子和下面的所有评论。但是如果你在网址后面加上回复人的ID号,再进入页面,就会看到原帖人的主帖,回复只会显示添加ID的人的回复。我当时没有截图,现在已经没有了。
你说的好像有点难以理解,所以这里有一些图片。
这是一个通用地址。进入页面后会显示所有回复。本帖目前有 23 篇帖子。
我们选择了沙发的ID:ctgy168进行实验,并将他的ID名添加到原网站中。
按回车键进入页面,此时只能看到原帖者的帖子和ctgy168的回复,其他人的回复是看不到的。
从上图可以看出,只显示了一条回复。下面是翻页器。
阿里论坛的每篇帖子都是这样,不知道是不是因为阿里论坛最近更新,导致百度没有理解这个现象,导致出现重复收录的情况百度收录好的论坛,不过最近几天这个现象有所减少。
下面是朋友发来的16编程3和慧聪的两张图。
从图中可以看出,6月12日163博客的这张图很可能是因为动态页面的原因。而6月10日慧聪论坛的这张图,是因为一个版块只有一篇帖子,却被收录到很多版块。从URL中的英文单词(paper, laser, ceramic)来看,应该是指向慧聪的各个版块。但这些版块并没有使用这个三级域名百度收录好的论坛,而是使用了伪静态页面。
你在百度上搜,百度有这个收录,点进去就进入论坛首页了,之前收录的以这些三级域名开头的网页全部打不开,全部进入404页面。不知道慧聪是站点集群还是单台服务器多个三级域名,以后是否还能实现这种一帖多次收录的情况,还需要时间观察。百度对这些三级域名的最新快照是6月12日的php,也就是说这些域名应该还在用,就看慧聪以后怎么使用这些域名了。