robots.txt怎么写( 二 ) _robots

例如，如果？表示一个会话 ID，您可排除所有包含该 ID 的网址，确保 Googlebot 不会抓取重复的网页。但是，以？结尾的网址可能是您要包含的网页版本。
在此情况下，可对 robots.txt 文件进行如下设置： User-agent: * Allow: /*?$ Disallow: /*? Disallow： / *？一行将拦截包含？的网址（具体而言，它将拦截所有以您的域名开头、后接任意字符串，然后是问号（？），而后又是任意字符串的网址）。Allow： /*？$ 一行将允许包含任何以？结尾的网址（具体而言，它将允许包含所有以您的域名开头、后接任意字符串，然后是问号（？），问号之后没有任何字符的网址）。
Robots Meta标签 Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况，而Robots Meta标签则主要是针对一个个具体的页面。和其他的META标签（如使用的语言、页面的描述、关键词等）一样，Robots Meta标签也是放在页面中，专门用来告诉搜索引。
2. robots.txt文件是什么,要怎么写举一个简单的例子：当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
常见的蜘蛛识别：google蜘蛛（Googlebot）、baidu蜘蛛（Baiduspider）、bing蜘蛛（MSNbot）、sousou蜘蛛（sosospider）robots.txt文件的写法User-agent： * 这里的*代表的所有的搜索引擎种类，*是一个通配符Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL（包含子目录）。
3. robots.txt的写法 robots.txt的写法是做seo的人员必须知道的（什么是robots.txt），但该如何写，禁止哪些、允许哪些，这就要我们自己设定了。
百度蜘蛛是一机器，它只认识数字、字母和汉字，而其中robots.txt就是最重要也是最开始和百度“对话”的内容。
当我们的网站在没有建好的时候，我们不希望百度来抓取我们的网站，往往有人会禁止百度来抓取。但是，这种做法是非常不好的，这样会让百度蜘蛛很难再来到你的网站了。所以，我们必须现在本地搭建网站，等一切都搞好以后，再去买域名、空间，要不，一个网站的反复修改，会对你的网站有一定的不利影响。
我们的网站起初的robots.txt写法如下：
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
User-agent： * 的意思是，允许所以引擎抓取。
而Disallow: /wp-admin/和Disallow: /wp-includes/，则是禁止百度抓取我们的隐私，包括用户密码、数据库等。这样的写法既保护了我们的隐私，也让百度蜘蛛的抓取最大化。
如果，你想禁止百度蜘蛛抓取某一个页面，比如123.html，那就加一句代码“Disallow: /123.html/”即可。
robots.txt写好后，只需要上传到网站的根目录下即可。
4. robots.txt文件要怎么写大家先了解下robots.txt文件是什么，有什么作用。
搜索引擎爬去我们页面的工具叫做搜索引擎机器人，也生动的叫做“蜘蛛”蜘蛛在爬去网站页面之前，会先去访问网站根目录下面的一个文件，就是robots.txt 。这个文件其实就是给“蜘蛛”的规则，如果没有这个文件，蜘蛛会认为你的网站同意全部抓取网页。
Robots.txr文件是一个纯文本文件，可以告诉蜘蛛哪些页面可以爬取（收录），哪些页面不能爬取。举个例子：建立一个名为robots.txt的文本文件，然后输入User-agent： * 星号说明允许所有搜索引擎收录Disallow: index.php？表示不允许收录以index.php？前缀的链接，比如index.php?=865Disallow: /tmp/ 表示不允许收录根目录下的tmp目录，包括目录下的文件，比如tmp/232.html具体使用方法百度和谷歌都有解释，百度Robots.txt文件可以帮助我们让搜索引擎删除已收录的页面，大概需要30-50天。