很抱歉,您尚未登录!
VIP会员登陆后可以查阅当前板块内容,请登陆后查看!
请点击登录

  • TOP
  • 手机版
    全部提示消息

    易之家外贸SNS社区 Tradesns foreign trade community
    当前所在页面位置: 首页 > 外贸培训 > 如何制作网站robots.txt、sitemap.xml文件
    如何制作网站robots.txt、sitemap.xml文件
    浏览量:2267 | 回复:0 | 发布时间:2018-06-13 09:59:24

    robots.txt | sitemap.xml制作生成

    一个网站上线之初,就要立即提交robots.txt、sitemap.xml文件。这样做的目的,就是要通知搜索引擎:我的网站,您可以安排蜘蛛过来,按照我的网站地图,进行抓取了。


    那么,如何制作网站robots.txt、sitemap.xml文件呢?


    1. robots.txt


    robots.txt的作用:


    (1)发出公告,定向通知搜索引擎,前来抓取你的网站。

    (2)目录筛选:告诉引擎的蜘蛛,我网站上面的文件目录,哪些是可以抓取的,哪些是不允许抓取的。

    (3)指明路径:向蜘蛛说明,在允许抓取的文件目录中,按照什么样的方式(sitemap)进行抓取,防止蜘蛛走丢,遗漏重要的网站内容。


    robots.txt的格式:


    # robots.txt generated at http://tool.chinaz.com/robots/           //  头部声明:主要说明,这个robots.txt文件来自于哪里,可以不写  //

    User-agent:                                                                             //  代理声明:告诉引擎,网站允许哪些引擎的蜘蛛前来爬取  //

    Disallow:                                                                                  //  限制声明:通知前来抓取的蜘蛛,网站哪些目录文件,不允许抓取  //

    Sitemap: example.com/sitemap.xml                                         //  sitemap声明:通知前来抓取的蜘蛛,如果爬取,请按照这个路线进行数据抓取  //


    robots.txt的生成:


    (1)自己编写,在本地建立txt文件,将上述几点进行编写即可。

    (2)工具生成robots.txt:站长工具


    robots.txt的上传:


    将生成完毕的robots.txt文件,上传到网站根目录下,即可。


    2. sitemap.xml


    sitemap.xml的作用:


    (1)通知前来抓取网站的搜索引擎蜘蛛,按照什么样的路径进行抓取。

    (2)通知前来抓取网站的搜索引擎蜘蛛,按照什么样的频率进行抓取。


    sitemap.xml的格式:


    <?xml version="1.0" encoding="UTF-8"?>                                //  version="1.0" 声明用的xml版本是1.0  //

                                                                                                     //  encoding="UTF-8" 声明用xml传输数据的时候的字符编码,假如文档里面有中文,编                                                                                                      码方式不是UTF-8,传输过去再解码的话中文就会是乱码  //

    <?xml-stylesheet type="text/xsl" href="sitemap.xsl"?>               //  采集网站数据的采集方式,可以是txt文本格式,也可以以xsl数据格式进行采集  //

    <urlset xmlns="https://www.sitemaps.org/schemas/sitemap/0.9">             //  sitemap的协议,类似于wc3协议,必填项,否则无法开始抓取  //


    <url>

      <loc>页面网址</loc>                                                               //  输入需要爬取的页面的网址  //

      <lastmod>页面最近更新时间</lastmod>                                         //  注明页面最近更新的时间  //

      <changefreq>页面更新频率</changefreq>                             //  确定页面更新频率(daily、weekly、monthly、yearly...)  //

      <priority>页面抓取优先级</priority>                                        //  设定页面优先级,可选值:0.0~1.0。越趋近与1.0,说明这个页面越重要  // 

    </url>


    </urlset>                                                                                  //  结束抓取  //                                


    sitemap.xml的生成:


    (1)sitemap.xml文件最好自己编写,防止遗漏网站的重要页面。

    (2)开始,在txt文本格式下进行编辑。按照上面的格式,写完之后,直接将.txt变成.xml即可。        


    sitemap.xml的上传:


    将生成完毕的sitemap.xml文件,上传到网站根目录下,即可。            

    关 注 (0)
    评 论(0)
    分 享
    +13
    热门
    相关