搜索引擎三巨头玩得很开心,但偶尔也会合作。去年Google,微软与雅虎合作,共同遵守统一Sitemaps标准。两天前,三巨头同时宣布共同遵守robots.txt文件标准。Google,雅虎,微软各自在其官方博客上发帖,宣布三家公司支持robots.txt文件及Meta标签和一些独特的标准。那Robots文件标准的写作标准是什么?下面总结一下。
三家都支持robots文件记录包括:
Disallow – 告诉蜘蛛不要抓取某些文件或目录。以下代码将阻止蜘蛛抓取所有网站文件:
User-agent: *
Disallow: /
Allow – 告诉蜘蛛抓取某些文件。Allow和Disallow配合使用,可以告诉蜘蛛在某个目录下,大部分都不抓,只抓一部分。以下代码使蜘蛛不抓取ab目录下其他文件,只捕获其中cd下的文件:
User-agent: *
Disallow: /ab/
Allow: /ab/cd
$通配符 – 匹配URL结尾的字符。如下面代码将允许蜘蛛访问以。htm为后缀的URL:
User-agent: *
Allow: .htm$
*通配符 – 告诉蜘蛛匹配任何字符。下面的代码将禁止蜘蛛抓取所有代码htm文件:
User-agent: *
Disallow: /*.htm
Sitemaps位置 – 告诉蜘蛛你的网站地图在哪里,格式为:
Sitemap:
三家都支持Meta标签包括:
NOINDEX – 告诉蜘蛛不要索引某个网页。
NOFOLLOW – 告诉蜘蛛不要跟踪网页上的链接。
NOFOLLOW – 告诉蜘蛛不要跟踪网页上的链接。
NOSNIPPET – 告诉蜘蛛不要在搜索结果中显示解释文本。
NOARCHIVE – 告诉蜘蛛不要显示快照。
NOODP – 告诉蜘蛛不要使用开放目录中的标题和说明。
现在三家公司共同支持上述记录或标签。雅虎微软似乎不支持通配符。百度现在也支持Disallow,Allow以及两个通配符。Meta我没有找到百度是否支持标签的官方说明。
只有Google支持的Meta标签有:
UNAVAILABLE_AFTER – 告诉蜘蛛网页什么时候过期。搜索结果中不应再出现在这个日期之后。
NOIMAGEINDEX – 告诉蜘蛛不要索引页面上的图片。
NOTRANSLATE – 告诉蜘蛛不要翻译页面内容。
雅虎还支持Meta标签:
Crawl-Delay – 允许蜘蛛延迟抓取的频率。
NOYDIR – 和NOODP标签相似,但指雅虎目录,而不是开放目录。
Robots-nocontent – 告诉蜘蛛标记的部分html它不是网页内容的一部分,也不是从另一个角度告诉蜘蛛页面的主要内容是什么(想要检索的内容)。
MSN还支持Meta标签:
Crawl-Delay
另外提醒大家注意的是,robots.txt文件不能存在,返回404错误意味着蜘蛛可以捕捉所有内容。但抓取robots.txt文件中的加班等错误可能会导致搜索引擎不包括网站,因为蜘蛛不知道robots.txt与确认文件是否存在或内容不同。
我要优化(加QQ客服第一时间和你对接)
已有 1826 企业通过我们找到了合作项目