吴贤茂:robots.txt与sitemap的运用

日期:2013-08-09    阅读:2568

首先我先讲解一下什么是robots.txt

robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

然而很多人都知道有robots这回事,却不知道应该如何下手,今天我说下如何来写robots.txt

首先你要想一下那些网站目录是不想被搜索蜘蛛给抓取的,哪些是需要被抓取的,这个很重要,如果乱写robots有可能会把屏蔽网站给搜索引擎收录的。

robots.txt文件一定要写在网站的根目录上面,例如:

www.microunite.com/robots.txt

而不能这样

www.microunite.com/seo/robots.txt

记得一定要在根目录就对了,然后里面的写法有两条

 User-Agent: 适用下列规则的漫游器

 Disallow: 要拦截的网页

 User-Agent: Googlebot(baiduspider)这个就是谷歌(百度)的蜘蛛

 Disallow: /seo

 这样写的意思就是说我不想google或者百度的蜘蛛来抓取我seo这个文件夹里面的东西,*的话就代表全部。

如果你建立一个空的或者不建立robots的话,该网站的全部内容都会搜索引擎所收录,然后很多人就会问了,网站不是被收录的越多越好吗?

我就打个比方吧,你的网站生成静态,然而之前的动态又还在,蜘蛛就是抓取两个同时收录,然后搜索引擎就会认为两个标题相同的文章出现在同一网站的话就会认为你是在作弊了,有可能会被降权。

 

sitemap(网站地图)

主要是因为很多网站的内容都没有其他链接,为了把这些链接更好的连接起来,让蜘蛛能抓取更多的资源。

如果是谷歌的话,大家可以注册个管理员工具,生成的XML文件自己提交给谷歌,百度没有管理员工具的话就可以通过在robots.txt里面写Sitemap

写法如下:

Sitemap:http://www.microunite.com/sitemap.xml

Sitemap:http://www.microunite.com/sitemap.txt

Sitemap:http://www.microunite.com/sitemap.html

这三种形式都可以,一般自动都会生成xml,如果不会生成sitemap可以去网上找下工具或者使用一些开源的cms都会有自带的!

 

Copyright © 2010-2016 微聚点(厦门)信息科技有限公司 保留公司所有权利  闽ICP备14002883号-1

关于我们  |  联系我们  |  网站地图