知乎專欄 | 多維度架構 | 微信號 netkiller-ebook | QQ群:128659835 請註明“讀者” |
演練的主要目的是,驗證兩個交易系統能夠互備,相互做對方的備份,我們將當前登錄的系統稱為主系統,另一次叫做災備系統(僅僅是觀看的角度)。
另一個目的是,雙活系統能夠自動規避很多小災難,災難沒有擴大前系統已經自動修復了,長此以往系統管理員就會麻木,懶惰,僥倖。當更大的故障發生或雙活不能正常工作時,由於管理員長期不再狀態,就會產生難以預期的後果。
災備原理
災備中心繫統結構(系統部署圖、網絡結構圖)
災備系統運營維護
公司操作流程
切換操作流程
數據檢查與驗證
業務準備
確定演練時間
通知參與演練的客戶
通知參與演練的業務部門
技術準備
做好演練前的數據備份
檢查災備各應用服務狀態
參與部門
開發部門
測試部門
業務部門
模擬災難: 在演練開始時間,關閉主交易中心的所有的應用,模擬災難發生。此時,公司應完全按照“公司操作流程”和“災備系統切換流程”來切換災備系統。
演練過程: 見“切換操作”和“公司操作流程”
演練級別定義
演練的方式有兩種
演練方式
第一種方式適合災備演練初期,因為各部門都有準備,是在良好的環境下進行,大家都坐在電腦前,看著嚴控數據,有條不紊按部就班。
但故障是隨時都能出現的,是無法預知的。所以我們還需要實行“突擊演練”。“突擊演練”最近接真是故障發生的場景,可能大家會手忙腳亂,打破之前的各種流程。你會接到各部門領導的電話,可能你當時還在睡覺或外出路上,你沒有地方上網,你的腦子一片空白,這才是真實場景。
切換前操作
主要的工作室數據備份,其他工作可能作為演練的一部們,工作流程等各種問題在演練中暴漏出來,才能對後面的工作改進有所幫助。
雙活互備切換操作,要進行兩次,第一次將A機房視為主機房,從A向災備機房B切換。完成後檢查無誤,再反向操作一次。
切換要模擬各種故障,通常採用的手段就是拔網綫,關閉伺服器,關閉應用,使其每條災備鏈路都能跑通。
數據中心故障
模擬機房停電,將另一側災備機房關機
接入鏈路故障
防火牆設備故障
交換機故障設備故障
伺服器故障
切換過程中,每一次動作,都應該收到來自監控系統的報警並精確描述的故障。這也是完善監控系統絶佳機會。
應用系統服務狀態檢查
主庫備庫數據是否一致
介面能否正常工作
網上交易能否正常進行
交易壓力是否正常
公司需要進行多方面的數據核對,包括
委託單是否一致, 委託回報是否完整
成交回報是否完整, 交易記錄是否完整
行情數據是否正確
客戶資金是否正常
當主交易系統切換到災備系統後,必然會有一些影響業務的情況會發生,公司需要事先有所準備,並制定相關應急預案。
由於發生重大事件,可能造成災害發生時切換到災備中心的交易系統無法切換回主交易系統。導致交易需要長時間在災備中心運行,對災備中心形成壓力。對於此情況,公司應該制定詳細的預案,保證災備中心能承擔起正常交易壓力,使用戶交易正常進行。 當確認災備中心無法在短時間切換回主交易中心時,公司應立即啟動預案,並和服務部門聯繫,請求技術支持。通過增加伺服器、增加訪問頻寬、交易數據備份等方式,使災備中心轉換為主交易系統,長期承擔主交易系統交易工作。
當主交易系統需要切換到災備系統時,為避免一部分人仍然連接到主交易系統,一部分人連接到災備系統,切換前必須關閉主交易系統的應用伺服器或者段外網絡。
在切換以後,有部分業務將受影響,以下為部分情況:
當災備中心承擔交易時,災備系統中的所有交易數據將進行備份,供事後的查詢和備案。公司可以採用熱備系統,備份災備中心的交易數據。並做好災備中心數據及時轉移到安全位置。確保災備中心數據不會丟失。