关于7月18日ProQuest平台访问故障的情况说明

对于自北京时间7月18日凌晨3点起,ProQuest平台出现访问故障问题,我们高度关注并紧急启动检查机制,检查结果是:这一极不寻常的事件是由于服务器上的一个重要硬件出现问题,导致服务器断电后,用户不能访问数个数据库/系统。截止目前,经过我们技术团队的连夜工作,ProQuest平台访问已经全面恢复。在此期间,我们与供应商一道紧密合作,全面分析故障的根本原因,排查原因,快速排除故障。作为ProQuest公司的首席信息官, 我在此向全体用户致歉!一直以来,ProQuest的使命是致力于为用户提供更好的研究、更好的学习、更好的洞察力,以此来支持他们改变他们的世界

我本人对这次的事件深感遗憾!为了构建并提供最佳的产品体系,具有高鲁棒性的平台,ProQuest每年投入巨额经费采购世界著名硬件服务商与云服务提供商的产品与服务。一直以来,ProQuest平台运行平稳,原而,这次的事件教训深刻!在此,我承诺我们会认真汲取这次的教训,在未来继续提升ProQuest产品与服务水平。

ProQuest原定于北京时间7月30日进行系统维护,为了减少对客户的影响,我们决定将系统维护时间延后。一旦确定具体时间,我们将尽快发布维护通知。
本文同时附上针对这次事件的概述、详细的技术细节、以及常见问题的解答。

如有任何问题,欢迎您发送邮件至richard.belanger@proquest.com与我联系。

感谢您对ProQuest的支持!

Richard C. Belanger

ProQuest首席技术官



ProQuest技术团队针对这次的故障进行诊断,结果是服务器上的一个核心硬件的部件出现问题,导致容错存储平台出现故障。尽管该平台部署了多层级备份机制,但是还是出现在没有预警情况下,服务器出现故障的问题。该故障不仅影响到我们的存储环境下的服务器,还包含管理环境下的服务器,这样一来,恢复过程缓慢。断电造成多达1200台虚拟服务器受影响,需要对全部服务器重启、恢复运行。这批虚拟服务器数量虽然庞大,但仅是我们整体环境架构中服务器数量的五分之一。

我们承诺为避免由于这类断电原因造成平台无法访问事件的再次发生,我们将对基础设施架构进行核查,对服务器环境改进进行评估,以提高产品的弹性。

常见问题
发生什么事情?
由于服务器某一重要硬件部件出现故障,造成断电,使ProQuest平台无法访问。当该部件修复后,ProQuest平台访问恢复正常。

为什么恢复服务需要这么长的时间?
针对该部件进行精确诊断,联系供应商对其进行实时分析、健康检查、故障排除。遗憾的是,硬件诊断没有生成正常的错误信息。这一部件在毫无预警的情况下出现故障。这造成监控服务器环境的服务出现问题,使得查明故障原因延误了一个小时。据供应商介绍,这样的故障十分罕见。

ProQuest是一家重要的在线信息服务提供商,对于类似故障,贵司有没有制定维护计划? 你们为什么没有使用备份服务器?
我们的产品广泛应用了容错性设计。我们拥有备份服务器、备份存储设备、备份电源、备份采暖、通风、空调系统,备份网路系统等。遗憾的是,这次的故障,使多个具有容错功能的部件无法工作。我们正与硬件供应商共同核查,全面了解原因,以便解决问题。

我了解ProQuest公司采用了亚马逊AWS公有云服务,是这样的吗?请问这次的故障是亚马逊的问题吗?
ProQuest广泛应用了亚马逊的AWS公有云服务, 而我们的某些核心业务,包含身份认证,都部署在我们自己的数据中心。我们所有的云服务系统运行正常,但由于这些部署在数据中心服务的问题,使得用户无法访问部分平台。未来,我们考虑把这些服务迁移到AWS平台。

ProQuest如何避免类似的事情再次发生?
我们将采取如下措施以避免类似故障发生:

• 与供应商合作,对我们的存储环境下的服务器进行进行全面检查,确保我们全部的存储平台通过供应商的健康检测,具备所有必要的容错功能,正确配置。尽管,这个平台由供应商安装,予以认证,我们仍希望确保没有任何潜在的问题。
• 我们将核查我们的物理架构,识别在整个硬件基础设施层进行分布式存储我们服务的途径,使具有较高水平冗余系统性能进一步提升。
• 我们将继续做好将服务环境迁移到亚马逊AWS公有云服务的计划。尽管公有云也存在其局限性,但它能提供更多容错机制。

在与客户联系方面,你们会有改进措施吗?对于这一事件,我们过了很久才了解相关信息。
我们致力于与客户的联系公开透明。鉴于这是一个特殊的事件,我们未能在受影响的平台发布故障通知。我们将继续透过多个渠道,包含ProQuest Support Center、博客、Twitter, Facebook,微博、微信公众号等,及时通报最新信息。针对这次事件, 我们在社交媒体上实时发布最新信息,Twitter上共发布了29条,在Facebook上共发布了12条,在微博,微信公众号上各发布了两条。我们将继续评估与客户联系的流程,进一步完善沟通的机制。如需了解ProQuest产品与服务的实时资讯,欢迎大家关注ProQuest微博(ProQuest-China)与微信公众号(ProQuest)。

Tags:

Comments are closed.