平穩應對I/O棧故障,浪潮云海InCloud Rail V8.0持續追求系統性能與穩定性最優解
面對副本強一致性帶來的故障處理性能挑戰,InCloud Rail V8.0在分布式存儲組件dSAN最新架構中引入“故障預診與實時感知”、“數據副本降級寫入”、“動態智能同步”組合方案,在充分保證數據安全性的前提下,實現副本故障I/O不中斷,故障中性能下降<20%,完美解決副本故障與慢盤故障難題。 在超融合實際應用場景中,數據庫、redis隊列、PaaS服務等高I/O敏感型業務對I/O質量有較高需求,超融合分布式存儲的I/O質量直接決定了業務連續性與可用性,真實場景下I/O質量問題帶來的業務連續性故障屢見不鮮。實際經驗告訴我們,用戶注重I/O數量的同時,需要高度關注I/O質量,I/O質量越來越成為不可忽視的問題,是業務連續性的重要決定因素。 在故障場景下,InCloud Rail V8.0超融合分布式存儲設計以數據安全為根本出發點,實現了多種數據安全策略和方法的創新應用。為了保障數據的安全性,InCloud Rail V8.0采取強一致性分布式存儲同步方案:即請求I/O的多個副本全部完成后請求才能完成,這種機制有效地保證了業務數據的安全、可靠、可用。 但是這種副本強一致性架構也面臨挑戰:一旦副本所在服務器或磁盤發生故障或出現慢盤,造成某副本無法及時完成讀寫操作,分布式存儲系統為了保證數據的一致性,I/O請求需等待數據同步后再進行下一步操作,造成業務級I/O中斷,且分布式存儲系統受數據同步的影響導致大量I/O返回時延增加,呈現為分布式存儲之上虛擬機承載業務出現I/O中斷或應用訪問延遲,故障后相當長一段時間內業務持續受到影響無法恢復,最終使業務不可用。 InCloud Rail V8.0通過故障預診與實時感知,降低I/O中斷時間,并按照副本寫降級和智能動態恢復的方式,降低故障帶來的數據同步影響,保證強一致性模型的前提下,降低I/O下降時間和對整體集群性能的影響。 故障預診與實時感知:通過對集群異常的提前診斷與實時感知,做到故障時I/O不中斷,保障I/O的連續性以降低跌零可能性與時長。 副本降級寫:通過寫入健康副本和降級副本加降級圖譜,解除I/O與數據同步的強依賴關系,保障降級后數據副本容錯能力、I/O性能和數據一致性。 動態智能同步:通過對數據同步策略的動態精準調控,降低數據同步對性能的影響,做到數據同步與業務I/O性能的均衡,最大程度降低對應用性能的影響。 InCloud Rail V8.0通過多維度智能組合策略,最大限度保障故障場景下I/O連續性,多維度保證超融合系統I/O質量,以實現超融合系統“持續可用”,InCloud Rail V8.0在追求更高I/O輸出能力的基礎上,更加注重I/O質量的輸出,以更加穩健的產品定位,支撐更多客戶核心關鍵業務連續運行。 |
網友評論