网站首页 / 新闻中心 / robots.txt文件存在有什么必要?

robots.txt文件存在有什么必要?

发布者: 八维 | 1435 次阅读

FIRST:在网站建设完成后,搜索引擎会不定期的来抓取文件,但有时你不希望你的一些文件被抓取,那你就必须设置robots这个文件。或者你也可以告诉搜索引擎你那些页面要被收录
首先先了解什么是robots.txt文件?
     搜索引擎机器人通过链接抵达互联网上的每个网页,并抓取网页信息。搜索引擎机器人在访问一个网站时,会首先检查该网站的根目录下是否有一个叫做robots.txt的纯文本文件。当我们的网站有一些内容不想被搜索引擎收录,我们可以通过设置robots.txt文件告知搜索引擎机器人。
     如果网站上没有禁止搜索引擎收录的内容,则不用设置robots.txt文件,或设置为空。
     从SEO的角度,robots.txt文件是一定要设置的,原因:网站上经常存在这种情况:不同的链接指向相似的网页内容。这不符合SEO上讲的“网页内容互异性原则”。
采用robots.txt文件可以屏蔽掉次要的链接。
     网站改版或URL重写优化时原来不符合搜索引擎友好的链接需要全部屏蔽掉。采用robots.txt文件删除旧的链接符合搜索引擎友好。
 
下面统计一些robots.txt文件写法
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /bw1987/ 这里定义是禁止爬寻bw1987目录下面的目录
Disallow: /bw1987/*.htm 禁止访问/ bw1987/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Allow: /bw1987/ 这里定义是允许爬寻bw1987目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图

robots

【信息来源】

八维网

上一篇:比特币,仅是一个互联网商品 下一篇:注意细节 提升网站百度权重

相关文章: