该搜索引擎使用robot(又名spider)程序,在因特网上自动访问网页并获取网页信息。你可以在你的网站上创建一个纯文本文件robots.txt,在其中你可以声明网站中不希望被robot访问的部分,这样你的网站的某些或全部内容就可以不被搜索引擎收录,或者你可以指定一个搜索引擎只收录你指定的内容。
robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不能被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。由于某些系统中的URL对大小写敏感,所以robots.txt的文件名应该统一为小写。robots.txt应该放在网站的根目录下。如果您想单独定义搜索引擎的漫游器访问子目录时的行为,您可以将自定义设置合并到根目录下的robots.txt或使用robots元数据。
Robots.txt协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。注意Robots.txt是用字符串比较来确定是否获取URL,所以目录末尾有和没有斜杠“/”这两种表示是不同的URL,也不能用"Disallow: *.gif"这样的通配符。
其他的影响搜索引擎的行为的方法包括使用robots元数据:
<meta name="robots" content="noindex,nofollow" />
这个协议也不是一个规范,而只是约定俗成的,通常搜索引擎会识别这个元数据,不索引这个页面,以及这个页面的链出页面
robots.txt文件放在哪里?
robots.txt文件应该放在网站根目录下。举例来说,当robots访问一个网站时,首先会检查该网站中是否存在这个文件,如果机器人找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。
请立即点击咨询我们或拨打咨询热线: 400 777 1577,我们会详细为你一一解答你心中的疑难。项目经理在线