发表于: 2008年11月19日您目前的位置: 首页 » 新媒体随笔 » 互联网 » 本文 

Google SEO官方《搜索引擎优化指南》(9): 有效使用robots.txt6

Google网站管理员官方博客发布了“搜索引擎优化SEO指南”,以实例阐述和讲解了搜索引擎优化的具体操作步骤。这对网站管理员来说具有很强的指导性和参考性。下面我将用一周时间把它翻译成中文,希望对一些朋友有所帮助。
你可以在这里查看《搜索引擎优化指南》全部内容。
其中包括以下内容:

有效使用robots.txt

一个robots.txt文件可以告诉搜索引擎你网站的哪些部分允许它去抓取。而这个文件不旦必须命名成”robots.txt”,还得放在你网站的根目录上。

Google SEO官方《搜索引擎优化指南》(9): 有效使用robots.txt

我们网站robots.txt文件的路径。

Google SEO官方《搜索引擎优化指南》(9): 有效使用robots.txt

所有的遵循这一规则的搜索引擎爬虫(按照通配符*指示的那样)不应该进入并抓取/images/或者任何以/search开头的url里的内容。

你也许并不希望你网站的一些页面被抓取到,因为如果它们出现在搜索结果里对用户可能是没多大意义的。如果你想阻止搜索引擎爬取你的网页,Google网站管理员工具有一个很好用的robots.txt生成器来帮助你创建这个文件。另外如果你希望子域名里的一些内容不被爬取,你需要在子域名的目录下再新建一个robots.txt文件。你也可以在我们的网站管理员帮助中心获得更多关于robots.txt的信息

这里也有其它更便捷的方式来阻止你的内容出现在搜索结果里,比如说在robots meta标签里添加”NOINDEX”,使用htaccess来为一些目录加密或者使用Google网站管理员工具来移除某些已经被索引的内容。Google工程师 Matt Cutts一个帮助视频里粗略地介绍了各种URL排除原理的注意事项

robots.txt实践经验

  1. 为那些敏感的内容使用更加安全的方案——通过robots.txt来阻止一些敏感或者机密的内容。之所以这样做的是因为如果那些你在robots.txt里阻止的链接出现互联网上(比如说来源记录),搜索引擎就很可能引用这些URLs(不过仅难是URL,不会含有标题或者内容片段)。还有一些不遵守机器人排除标准的流氓搜索引擎则会违背robots.txt上的指令。最后一些好奇的用户就会去查看你robots.txt是声明阻止的目录或者子目录,并猜测那些你不想被看到的内容。所以对内容加密或者通过 .htaccess实现密码保护会是更安全的选择。当然你需要避免
    • 允许看起来像搜索结果一样的页面被爬取。(用户并不喜欢扔给自己一张搜索页面,全是一些没有多大意义的结果。)
    • 允许大量的自动生成的页面被抓取,而里面大多都是相同或者差异甚微的内容。“像这些100000张几乎像复制的页面被搜索引擎索引了有多大意义呢?”
    • 允许代理服务器创建的URLs被爬取。

文档来源:Google网站管理员博客

中文翻译:个篱遐想录

转载请注明个篱遐想录本文链接

以上文字英文及图片版权皆归Google网站管理员博客所有,为避免麻烦谢绝将个篱遐想录上这个指南中文翻译版制作成PDF等电子书格式进行第二次发布。

这篇文章共有6 条评论,欢迎你也来随便说点什么。
  1. ultisolar 2009-04-13, 10:51

    百度确实有些事情做得很过分

    回复

  2. Google SEO官方《搜索引擎优化指南》(9): 有效使用robots.txt | 网络营销 2008-11-28, 15:10

    [...] 转载请注明个篱遐想录及本文链接。 [...]

  3. 777cm 2008-11-22, 16:02

    最近百度,老是被骂。
    可能他做的错事太多了。

    回复

    个篱 2008-11-22, 16:17

    @777cm, 呵呵,我觉得百度一直都被人骂吧,只是最近有央视出头,骂得也就更有劲,更理直气壮了。

    回复

  4. feicun 2008-11-19, 19:22

    到底是Google博客上的文章……人家百度根本就无视你网站的robots.txt

    回复

    个篱 2008-11-19, 19:32

    @feicun, :) 写这个指南的工种师在说“还有一些不遵守机器人排除标准的流氓搜索引擎则会违背robots.txt上的指令。”时说不定就是在骂百度。

    回复

既然来了何不随便说点什么, 让我知道你的想法或者至少知道你来过.



-->