關於7月18日ProQuest平臺訪問故障的情況說明

對於自臺北時間7月18日淩晨3點起,ProQuest平臺出現訪問故障問題,我們高度關注並緊急啟動檢查機制,檢查結果是:這一極不尋常的事件是由於伺服器上的一個重要硬體出現問題,導致伺服器斷電後,使用者不能訪問數個資料庫/系統。截止目前,經過我們技術團隊的連夜工作,ProQuest平臺訪問已經全面恢復。在此期間,我們與供應商一道緊密合作,全面分析故障的根本原因,排查原因,快速排除故障。作為ProQuest公司的首席資訊官, 我在此向全體用戶致歉!一直以來,ProQuest的使命是致力於為用戶提供更好的研究、更好的學習、更好的洞察力,以此來支持他們改變他們的世界

我本人對這次的事件深感遺憾!為了構建並提供最佳的產品體系,具有高魯棒性的平臺,ProQuest每年投入巨額經費採購世界著名硬體服務商與雲服務提供者的產品與服務。一直以來,ProQuest平臺運行平穩,原而,這次的事件教訓深刻!在此,我承諾我們會認真汲取這次的教訓,在未來繼續提升ProQuest產品與服務水準。

ProQuest原定於臺北時間7月30日進行系統維護,為了減少對客戶的影響,我們決定將系統維護時間延後。一旦確定具體時間,我們將儘快發佈維護通知。
本文同時附上針對這次事件的概述、詳細的技術細節、以及常見問題的解答。

如有任何問題,歡迎您發送郵件至richard.belanger@proquest.com與我聯繫。

感謝您對ProQuest的支持!

Richard C. Belanger

ProQuest首席技術官



ProQuest技術團隊針對這次的故障進行診斷,結果是伺服器上的一個核心硬體的部件出現問題,導致容錯存儲平臺出現故障。儘管該平臺部署了多層級備份機制,但是還是出現在沒有預警情況下,伺服器出現故障的問題。該故障不僅影響到我們的存儲環境下的伺服器,還包含管理環境下的伺服器,這樣一來,恢復過程緩慢。斷電造成多達1200台虛擬伺服器受影響,需要對全部伺服器重啟、恢復運行。這批虛擬伺服器數量雖然龐大,但僅是我們整體環境架構中伺服器數量的五分之一。

我們承諾為避免由於這類斷電原因造成平臺無法訪問事件的再次發生,我們將對基礎設施架構進行核查,對伺服器環境改進進行評估,以提高產品的彈性。

常見問題
發生什麼事情?
由於伺服器某一重要硬體部件出現故障,造成斷電,使ProQuest平臺無法訪問。當該部件修復後,ProQuest平臺訪問恢復正常。

為什麼恢復服務需要這麼長的時間?
針對該部件進行精確診斷,聯繫供應商對其進行即時分析、健康檢查、故障排除。遺憾的是,硬體診斷沒有生成正常的錯誤資訊。這一部件在毫無預警的情況下出現故障。這造成監控伺服器環境的服務出現問題,使得查明故障原因延誤了一個小時。據供應商介紹,這樣的故障十分罕見。

ProQuest是一家重要的線上資訊服務提供者,對於類似故障,貴司有沒有制定維護計畫? 你們為什麼沒有使用備份伺服器?
我們的產品廣泛應用了容錯性設計。我們擁有備份伺服器、備份存放裝置、備份電源、備份採暖、通風、空調系統,備份網路系統等。遺憾的是,這次的故障,使多個具有容錯功能的部件無法工作。我們正與硬體供應商共同核查,全面瞭解原因,以便解決問題。

我瞭解ProQuest公司採用了亞馬遜AWS公有雲服務,是這樣的嗎?請問這次的故障是亞馬遜的問題嗎?
ProQuest廣泛應用了亞馬遜的AWS公有雲服務, 而我們的某些核心業務,包含身份認證,都部署在我們自己的資料中心。我們所有的雲服務系統運行正常,但由於這些部署在資料中心服務的問題,使得使用者無法訪問部分平臺。未來,我們考慮把這些服務遷移到AWS平臺。

ProQuest如何避免類似的事情再次發生?
我們將採取如下措施以避免類似故障發生:

• 與供應商合作,對我們的存儲環境下的伺服器進行進行全面檢查,確保我們全部的存儲平臺通過供應商的健康檢測,具備所有必要的容錯功能,正確配置。儘管,這個平臺由供應商安裝,予以認證,我們仍希望確保沒有任何潛在的問題。
• 我們將核查我們的物理架構,識別在整個硬體基礎設施層進行分散式存儲我們服務的途徑,使具有較高水準冗餘系統性能進一步提升。
• 我們將繼續做好將服務環境遷移到亞馬遜AWS公有雲服務的計畫。儘管公有雲也存在其局限性,但它能提供更多容錯機制。

在與客戶聯繫方面,你們會有改進措施嗎?對於這一事件,我們過了很久才瞭解相關資訊。
我們致力於與客戶的聯繫公開透明。鑒於這是一個特殊的事件,我們未能在受影響的平臺發佈故障通知。我們將繼續透過多個管道,包含ProQuest Support Center、博客、Twitter, Facebook等,及時通報最新資訊。針對這次事件, 我們在社交媒體上即時發佈最新資訊,Twitter上共發佈了29條,在Facebook上共發佈了12條。我們將繼續評估與客戶聯繫的流程,進一步完善溝通的機制。如需瞭解ProQuest產品與服務的即時資訊,歡迎大家關注ProQuest Twitter與Facebook。

Comments are closed.