|网站SEO建站,让你的对手遥望我们一直在努力

百度索引量:大量的重复URL被搜索引擎索引怎么处理

您现在正位于该位置:高至 > 网站SEO优化资讯 > 百度索引量:大量的重复URL被搜索引擎索引怎么处理
前言: 发现网站的收录里面很多都是重复URL该怎么处理?今天高至传媒在这篇文章里面给大家介绍关于百度索引量收录了大量重复URL怎么处理。
我们只谈论有检索意义的URL,也就是用户会从搜索引擎查找的页面.其他页面按照常用的方法做屏蔽就好了.
    最近发现很多站长们都喜欢讨论整体的收录量,可以有时候必须泼一下冷水,也许你的有效收录只是1/10.

    URL参数

    也叫URL query,是一个非常复杂,最容易被忽视,最容易被妥协的问题.他是网站运营里面必不可少的元素,假如简单的去除,其他部门就没办法工作了.
    静态化是的话题,URL参数经常被用于以下的几方面:
    同一个实体的不同状态的展示,比如同一个酒店,在不同时间点会有不同的房间库存.
    /hotel/123/?checkindate=2015-06-09&checkoutdate=2015-06-10
    为了统计不同渠道的流量
    /?tracking=website_a
    为了统计不同渠道,具体模块的点击量
    /?tracking=website_a&click_spot=zone_abc
    调试
    /product/item123/?debug=true
    全世界最奇葩的是亚马逊,居然把统计参数放到了路径中
    /abc/dp/B005TZHJEQ/ref=lp_2130608051_1_1
百度索引量

    出现这种问题的坏处有几点:

    浪费搜索引擎对你网站的各项配额,从而影响到其他正常的页面.
    丢失很多本应该拿到的链接加分,站外渠道的链接往往是最为优质的.同一个URL的分值可能分散成几十份.
    SEO的流量被统计到别的渠道(因为tracking字段写的是别的渠道,而且被收录被点击)
    往往形成一种局面,产品用一套URL,SEO用另外一套URL, 甚至不同渠道用不同的URL,后期开发以及维护的成本非常高.
为了解决这个问题,首先需要先弄清网页的URL的定义.以我的理解,每一个URL是一个静态的,独立不重复的,有意义的实体,一般也有检索意义(就是有人会搜).比如一个人,一辆车,一条道路,一个零件.而不能混入各种"状态",比如这个人生病的时候,难道就不是他自己了么? 一件商品在促销的状态难道就是另一件商品了么?
    理论上面canonical标签就可以解决这个问题了, 但是从实际测试结果看,百度对于这个标签的支持优先级非常低, 几乎可以忽略不计.那么我的解决方案是这样的:
    建立好网站的思维导图以及元信息. (可参考:SEO健康度 )
    所有和SEO元信息相关的参数都放到路径里面去
    所有和SEO元信息不相干的参数都放到#后边,因为#后边不影响web服务器返回的内容.简单的说就是用"#"替代"?".
    每个页面里面都利用js获取#后边的参数对,通过二次请求发回给统计服务器
    如果#后边的参数影响页面内容,比如酒店的入住日期.那么这部分内容用ajax加载就可以了,他是不稳定的,不属于页面内容的一部分.(当然还有变通的办法,暂不赘述.)
    原始的#锚点定义肯定会冲突,定义一个#后边的变量,并用js控制屏幕滚动,来保证原始锚点的作用.
    有人可能会想到,根据ua判断,假如是搜索引擎爬虫,就用跳转的方式去掉URL参数.但效率最高的方法肯定是从一开始就不展示错误URL.那么前面的例子优化后就变成了:
/hotel/123/#checkindate=2015-06-09&checkoutdate=2015-06-10
/#tracking=website_a
/#tracking=website_a&click_spot=zone_abc
/product/item123/#debug=true
    其实我们的竞争对手早就使用这种方式了,但是因为我们的开发效率所以没办法及时实现,还没有赶上行业的进度.所以对于一般的小网站,一定要考虑开发成本,不要轻易冒进.只要可以避免问题的发生,变通的方法还是比较多的.

    路径里面使用非必要元素

    很多网站仿照亚马逊的做法,把商品名体现在URL里面,然后再通过id来决定页面展示的内容:
     /博集典藏馆043•基督山伯爵-亚历山大·仲马/dp/B005TZHJEQ/
     这样虽然可以提高一些相关性,但是很危险.在长期甚至短期的时间里面,大量商品的名称是非常可能有变化的,那么URL也就跟着变化.成本也是相当高的,因为加大了技术实现难度,不管从站内还是站外,每次增加链接都是一件非常麻烦的事情.
    在我接手某个公司外包之前,URL被全部改成了这样,对我早期的工作造成了非常巨大的负担:
    /Shangrila_International_Hotel-12345678-hotel/
    通过日志分析发现基本所有的百度蜘蛛发起的请求都被301跳转了一次(日志分析方法可参考SEO健康度 )
    细致调查后发现,从SEO拼接规则到后台的汉字和翻译数据被一直修改.也就是说,这个URL相关的元素有:
    中文 (非必要元素)
    由中文翻译的英文 (非必要元素)
    id (必要元素)
    而当时负责SEO的同事把英文和id拼接在了URL里面
    那么这样一个URL先后变成过:
    /Shangrila_International_Hotel-12345678-hotel/
    /Xianggelila_International_Hotel-12345678-hotel/
    /XiangGeLiLa_International_Hotel-12345678-hotel/
    /Shangrila_guoji_Hotel-12345678-hotel/
    跟"相关性"比,URL的唯一性以及稳定性更加重要.所以针对这个问题,URL的最佳策略应该是
    /hotel/12345678/
    如果这个id是隶属于一个分类下的,比如城市,那么就可以
    /hotel/beijing/123/
    从技术的角度来说, id通常是数据库的primary key,可以是数字也可以是字符串,那么这个时候URL是一维的; id也可以是联合的唯一索引,那么URL就是二维的,就像上面的(bejing,123)缺一不可.电商类网站列表页经常用到三维以上.
    大小写
    如果网站的技术架构用的是开源系统,通常是不会有这个问题的.如果使用了微软的技术架构,这个问题就非常常见.
    /newyork/
    /Newyork/
    /NewYork/
    我的建议是统一使用小写,大写自动跳转为小写(小心301死循环!).

    目录的规范

    很多网站同时存在这样的URL,无形当中把收录量扩大了一倍.
    /product/123
    /product/123/
    上边第一个路径的意思是在product目录下有一个123文件.第二个路径的意思是在product目录下有一个123目录,这个目录下面可能有很多文件,但是他代表众多文件里面的index.html或者是index.php或default.aspx等优先级最高的那个文件.为了避免歧义,我定义文件都是用".html"结尾的.
    为了减少重复收录,那么按照我的习惯是:
    /product/123  => /product/123/
    或者
    /product/123  => /product/123.html

    最后的总结:

    所有部门统一使用SEO定义的URL,屏蔽非SEO URL的入口.
    用"#"替代"?"
    统一使用小写
    保证目录的规范
    把不规范的URL跳转到规范的URL
    关于百度索引量:大量的重复URL被搜索引擎索引怎么处理就介绍到这里了,通过上面这么详细的总结,你应该明白URL的几种写法了把?想了解更多关于网站seo优化的资讯欢迎关注我们。
转载请注明出处及附上该链接:http://www.highallxy.com/news/384.html

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

上一篇:<<seo外链专员告诉你发布外链的技巧有哪些可以进一步提升网站 下一篇:什么叫权重?怎么在30天里面迅速积累权重!>>