一个网站上线之初,就要立即提交robots.txt、sitemap.xml文件。这样做的目的,就是要通知搜索引擎:我的网站,您可以安排蜘蛛过来,按照我的网站地图,进行抓取了。
那么,如何制作网站robots.txt、sitemap.xml文件呢?
1. robots.txt
robots.txt的作用:
(1)发出公告,定向通知搜索引擎,前来抓取你的网站。
(2)目录筛选:告诉引擎的蜘蛛,我网站上面的文件目录,哪些是可以抓取的,哪些是不允许抓取的。
(3)指明路径:向蜘蛛说明,在允许抓取的文件目录中,按照什么样的方式(sitemap)进行抓取,防止蜘蛛走丢,遗漏重要的网站内容。
robots.txt的格式:
# robots.txt generated at http://tool.chinaz.com/robots/ // 头部声明:主要说明,这个robots.txt文件来自于哪里,可以不写 //
User-agent: // 代理声明:告诉引擎,网站允许哪些引擎的蜘蛛前来爬取 //
Disallow: // 限制声明:通知前来抓取的蜘蛛,网站哪些目录文件,不允许抓取 //
Sitemap: example.com/sitemap.xml // sitemap声明:通知前来抓取的蜘蛛,如果爬取,请按照这个路线进行数据抓取 //
robots.txt的生成:
(1)自己编写,在本地建立txt文件,将上述几点进行编写即可。
(2)工具生成robots.txt:站长工具。
robots.txt的上传:
将生成完毕的robots.txt文件,上传到网站根目录下,即可。
2. sitemap.xml
sitemap.xml的作用:
(1)通知前来抓取网站的搜索引擎蜘蛛,按照什么样的路径进行抓取。
(2)通知前来抓取网站的搜索引擎蜘蛛,按照什么样的频率进行抓取。
sitemap.xml的格式:
<?xml version="1.0" encoding="UTF-8"?> // version="1.0" 声明用的xml版本是1.0 //
// encoding="UTF-8" 声明用xml传输数据的时候的字符编码,假如文档里面有中文,编 码方式不是UTF-8,传输过去再解码的话中文就会是乱码 //
<?xml-stylesheet type="text/xsl" href="sitemap.xsl"?> // 采集网站数据的采集方式,可以是txt文本格式,也可以以xsl数据格式进行采集 //
<urlset xmlns="https://www.sitemaps.org/schemas/sitemap/0.9"> // sitemap的协议,类似于wc3协议,必填项,否则无法开始抓取 //
<url>
<loc>页面网址</loc> // 输入需要爬取的页面的网址 //
<lastmod>页面最近更新时间</lastmod> // 注明页面最近更新的时间 //
<changefreq>页面更新频率</changefreq> // 确定页面更新频率(daily、weekly、monthly、yearly...) //
<priority>页面抓取优先级</priority> // 设定页面优先级,可选值:0.0~1.0。越趋近与1.0,说明这个页面越重要 //
</url>
</urlset> // 结束抓取 // |
sitemap.xml的生成:
(1)sitemap.xml文件最好自己编写,防止遗漏网站的重要页面。
(2)开始,在txt文本格式下进行编辑。按照上面的格式,写完之后,直接将.txt变成.xml即可。
sitemap.xml的上传:
将生成完毕的sitemap.xml文件,上传到网站根目录下,即可。