基本上在robots.txt档案内你只要填好这些信息:学习使用Meta Robots
要用meta robots 你只要直接把它加在head底下,你必须要在“你不希望被索引的页面底下”,加入这个卷标至head里。
所以如果你有六个页面不希望被索引? 没错这六页你都要手动去加入meta robots。
meta robots的卷标是长这样:
<head>
<meta name=”robots” content=”noindex , nofollow“>
</head>
基本上这个卷标有 noindex 以及 nofollow 两个值:
index vs noindex
当你不希望搜索引擎索引此页面,就填上noindex,若希望正常索引便填上index
follow vs nofollow
至于follow这个值是指,若你希望搜索引擎在抓取此页面时,不进一步的去抓取该页面所连出去的链接,你就填上nofollow的值。 这个功能通常会用在社群论坛或是网站讨论版,是为了防止有人在你的页面上乱贴链接来意图增加他的SEO 反向链接及排名,使用nofollow的话搜索引擎的抓取会在该页面停止,不继续往其他链接前进,固可以防止乱贴链接的事情发生。
两个值的功用完全不同,我来举几个范例让你完全清楚如何使用。
1. < meta name=”robots” content=”noindex , nofollow”>
这个做法便是告诉搜索引擎,不要索引我的网站,并且在抓取数据时该页面的相关链接也不要去抓取。
2. < meta name=”robots” content=”index , nofollow”>
抓取数据时该页面的相关链接不要抓取。
3.< meta name=”robots” content=”noindex , follow”>
不要索引我的页面,但页面上所有的链接请正常抓取(最常用之使用方式)
4.< meta name=”robots” content=”index , follow”>
这个做法就没有任何意义,加上这段卷标跟没加的道理是一样的,等于搜索引擎将正常索引及抓取。
做 SEO,何时会用robots.txt阻止Google抓取?
对于抓取(Crawl)优化的工作上,你的网站 Google必须要看得懂、并且数据也抓得到。 有些动态的网页结构对网络蜘蛛的抓取来说是有问题的,这个我于上一篇文章中有提到,毕竟最可惜的就是你的网站有优质的内容,但Google根本抓取不到数据…。 Google 的网络蜘蛛基本上已经是市场上效能最好的,但相对来说像是DDG、Bing、百度,他们的效能就未必像 Google这样优秀,所以我们要随时关注搜索引擎的抓取状况。
User-agent:填入搜索引擎蜘蛛的值(* 号代表全部)
Disallow:填入你希望搜索引擎别抓取的页面路径
Allow:若你禁止抓取的页面路径里面又有特定路径你希望搜索引擎抓取,则填入
近期评论