代表着数百 TB 的信息
Posted: Thu Dec 26, 2024 4:27 am
我们每月大约处理 500 亿个 URL, 上周更新发生了什么 本着TAGFEE的精神,我觉得我需要对上周的延迟更新承担一些责任,并解释发生的事情。 我们的一大目标是提供新数据。我们可以做到这一点的方法之一是缩短从获取原始内容到处理它之间的时间。这对应于上表中的“新发现的内容”部分。在上次更新中,我们将基础设施的规模扩大了一倍。除了将用于分析和合成数据的计算机数量增加一倍之外,它实际上还增加了这些计算机之间的协调。如果每个人都必须与其他人交谈,而人数增加了一倍,那么关系的数量实际上就会增加四倍。
这导致我们不得不在不同时间处理许多问题。 所有这 bc 数据欧洲 些的另一个不良副作用是,这使得机器故障比我们以前遇到的更加常见。如果你对亚马逊网络服务和Elastic Computer Cloud有所了解 ,那么你就会知道这些实例经常发生故障 因此我们需要额外的四天时间才能将数据导出。 幸运的是,我们借此机会改进了我们的基础设施、容错能力和许多其他优秀的科技创业流行语。这也是我们能够在上一次更新之后如此迅速地发布此更新的原因之一。 与往常一样,我们非常感谢反馈,所以请继续提供! 最近 SEO 行业中有一些关于“抓取限额”的讨论 - 这不是什么新概念,但 Matt Cutts 最近在 StoneTemple 与 Eric Enge 公开讨论了它(您也可以查看Rand 的图解指南)。
然而,一个大问题是,您如何了解 Google 如何抓取您的网站?虽然有多种不同的测量方法(日志文件是一种明显的解决方案),但我在这篇文章中概述的过程可以在没有技术知识的情况下完成 - 您只需要: 经过验证的 Google 网站站长中心帐户 谷歌分析 Excel 如果您想走日志文件路线,那么 Ian Lurie 的这两篇关于如何阅读日志文件和 分析日志文件以进行 SEO 的帖子可能会有用。但值得指出的是,仅仅因为 Googlebot 抓取了一个页面并不一定意味着它实际上已被编入索引。
这导致我们不得不在不同时间处理许多问题。 所有这 bc 数据欧洲 些的另一个不良副作用是,这使得机器故障比我们以前遇到的更加常见。如果你对亚马逊网络服务和Elastic Computer Cloud有所了解 ,那么你就会知道这些实例经常发生故障 因此我们需要额外的四天时间才能将数据导出。 幸运的是,我们借此机会改进了我们的基础设施、容错能力和许多其他优秀的科技创业流行语。这也是我们能够在上一次更新之后如此迅速地发布此更新的原因之一。 与往常一样,我们非常感谢反馈,所以请继续提供! 最近 SEO 行业中有一些关于“抓取限额”的讨论 - 这不是什么新概念,但 Matt Cutts 最近在 StoneTemple 与 Eric Enge 公开讨论了它(您也可以查看Rand 的图解指南)。
然而,一个大问题是,您如何了解 Google 如何抓取您的网站?虽然有多种不同的测量方法(日志文件是一种明显的解决方案),但我在这篇文章中概述的过程可以在没有技术知识的情况下完成 - 您只需要: 经过验证的 Google 网站站长中心帐户 谷歌分析 Excel 如果您想走日志文件路线,那么 Ian Lurie 的这两篇关于如何阅读日志文件和 分析日志文件以进行 SEO 的帖子可能会有用。但值得指出的是,仅仅因为 Googlebot 抓取了一个页面并不一定意味着它实际上已被编入索引。