谷歌是一个足够智能且强大的搜索引擎,通常站长不用主动向谷歌提交网站,谷歌抓取工具(Googlebot)会24小时持续工作自动抓取互联网中的网页数据。当然你也可以登录“Google Search Console”主动向谷歌搜索提交你的网站。
谷歌抓取网页是一项免费服务
谷歌在其SEO指南中特别指出:谷歌搜索会免费抓取网络中的网页,不会收取任何费用,任何收费信息均属子虚乌有。
谷歌不保证收录所有网页
谷歌搜索虽然已经足够强大,但不保证能够抓取所有网页。想要被谷歌正常抓取,你的网站需要遵守谷歌SEO规则(通常只要不涉及违规内容或不阻止谷歌蜘蛛抓取都会被正常索引)。
谷歌搜索的工作流程
谷歌搜索分为三个步骤,分别是:
一、抓取网页(谷歌抓取工具(Googlebot)自动发现并抓取网页内容)。
谷歌蜘蛛会持续不断的发现网络中的新数据(网页),并将其纳入谷歌数据库中,这个过程被称作“网址发现”。
谷歌主要通过两种方式发现新网页:
- 第一种方式:通过已知网页中的新链接。
- 第二种方式:Googlebot索引到的新网页。
谷歌拥有大量Googlebot,每个Googlebot负责抓取一部分网页,谷歌能够抓取网络中的数十亿网页。
每个网站的更新频率不同,内容质量不同,谷歌抓取的频率也会不同。谷歌会尽量控制抓取频次,以防对网站服务器造成较大影响。
谷歌可能只会抓取网站的一部分网页,以下类型的网页可能不会被抓取。
- 1、需要会员登录才会展示的网页
- 2、网站阻止搜索引擎抓取的网页(例如robots规则限制搜索引擎抓取)
- 3、启用了JavaScript的网页可能不会被抓取(事实上谷歌已经可以抓取JS页面,只是与抓取文本、图片相比,抓取能力稍差一些)。
为了提高网页被抓取的概率,可以为网站设置网站地图(sitemap)。
二、索引网页(谷歌分析抓取到的:文本、视频、图片等并存储到数据库中)。
谷歌抓取网页后,会尝试分析该网页的内容(文字、图片、视频、title元素、alt属性),这个过程叫做“索引编制”。
谷歌会根据SEO规则决定是否将网页数据纳入数据库,以下类型的网页可能不会被正常索引。
- 1、网页内容是否违规(例如带有煽动情绪或颜色的内容)
- 2、低质量内容(例如靠关键词堆砌的内容)
- 3、重复性内容(其它网站已经重复多次发表的内容)
- 4、暗网内容(12306等需要登陆才能展示信息的网站)
符合谷歌规则的网页将被纳入数据库,根据:内容类型、区域、设备等进行分类,以应对来自不同地区和设备的用户,为其展示更吻合的信息。
三、呈现网页数据(谷歌根据用户搜索内容展示对应的网页内容)。
当用户使用谷歌进行信息查询时,谷歌会根据已索引的内容进行合理匹配,为用户展示匹配度最高的内容。
匹配度是由多种因素决定的,包括:地理位置、设备、语言等。例如身在北京的用户在搜索“宠物店”时,谷歌会在搜索结果中展示地理位置位于北京的相关网站,但搜索引擎不会明确标注站点属性(不会在搜索结果中告诉你这个网站是北京的)。