火星科技网您的位置:首页 >科技数码 >

8月10日谷歌推出并测试的新咖啡因搜索引擎的后端

导读 谷歌不仅在网络搜索和在线消费工具方面领先于时代。出于绝对的必要性,它在设计主要基于现成的服务器、存储阵列和网络设备的大规模存储系统

谷歌不仅在网络搜索和在线消费工具方面领先于时代。出于绝对的必要性,它在设计主要基于现成的服务器、存储阵列和网络设备的大规模存储系统方面也处于领先地位。随着世界上最大的互联网搜索公司以惊人的速度增长,它现在正在开发十年内第二个定制设计的数据存储文件系统。

这个新的存储系统是谷歌于8月10日推出并测试的新咖啡因搜索引擎的后端。它将包含更多的诊断和历史数据以及自动化软件,因此系统可以为自己提供更多的思维能力,它实际上需要在人类出现之前干预解决问题。

10年前谁知道,当它成为雅虎领先搜索引擎的新手时,谷歌会成长为上亿用户每天依赖的互联网组织的重要组成部分?

在Rackable于1999年向谷歌出售第一批10,000台服务器,并以服务器和阵列的收集狂潮(总共可能有几十万箱)成立该公司之前,谷歌工程师几乎已经开始制造自己的服务器和存储阵列。

“1999年互联网泡沫最严重的时候,大家都买了好的Sun机。我们买了裸主板,放在软木板上,然后装上硬盘。这不是一个可靠的计算平台,”谷歌首席软件存储工程师肖恩昆兰(Sean Quinlan)在最近的存储大会上笑称。“但这就是谷歌在其上建立的东西。”

对于任何有知识的存储工程师来说,这种基本文件系统的主要问题是过热,并伴随着大量的网络和PDU故障,这并不奇怪。

昆兰说,“有时,500到1000台服务器会从系统中消失,需要几个小时才能恢复。”“而这些只是我们期待的问题。然后总有你没想到的问题。”

最后,谷歌工程师可以获得自己的集群存储文件系统,即令人惊叹的谷歌文件系统(GFS),并以良好的性能运行它,以连接所有这些快速定制的服务器和阵列。它被昆兰称为“熟悉的接口”,尽管它不是Posix所独有的。我们倾向于抄近路,在谷歌上做我们自己的事情”。

昆兰说,谷歌所做的只是在所有服务器上将一个装满机器的数据中心和一个文件系统作为应用分层,以便打开/关闭/读/写,而不是真正关心数据在机器中的位置。

但是有一个大问题。GFS缺少一些非常基本的功能:如果主服务器出现故障,它会自动进行故障转移。管理员不得不手动恢复主,有时谷歌可以黑一个小时。虽然后来添加了故障转移,但当故障转移开始时,它会让用户感到恼火,因为故障间隔通常只有几分钟。昆兰说现在已经降到了10秒左右。

最后,公司的增长及其随后在2004年的首次公开募股刺激了更大的增长,因此设计并构建了对文件系统的修改。这就是BigTable(2005-06年开发的),类似于数据库的分布式文件系统。它基于GFS构建,有自己“熟悉”的界面。昆兰说这不是微软SQL。

这是运行面向用户的应用程序的系统的一部分。昆兰说,每个系统都有数百个实例(称为单元),每个单元都可以扩展到数千个服务器和数Pb的数据。

哎呀,要管理这么大的存储空间。

其中大多数是Rackable的生态逻辑存储服务器,这些服务器在Linux上集群化,每个机柜的存储容量高达273TB。当然,谷歌现在使用的存储厂商多种多样,因为几乎没有一家能提供每年搜索怪物所需的大量存储盒。

Rackable产品管理高级总监Geoffrey Noer告诉eWEEK,生态逻辑存储阵列具有高效率、低功耗和智能设计的特点,旨在提高每瓦的性价比,即使在非常复杂的计算环境中也是如此。

标签:

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。