鄭州地鐵集團有限公司 徐淑鵬,陳俊亞,曹美閣
摘要:本文基于鄭州市軌道交通自動售檢票線網管理中心(ANCC)系統主副中心雙活設計方案,從災備中心建設的必要性入手,分析得出選擇雙活中心方案建設。其次對雙活中心的容災架構、存儲雙活、應用雙 活和主備倒切流程等分別做出分析,展現了雙活中心的架構特點和相較于傳統方案的應用優勢,為后續城市線網管理中心的建設提供參考。
關鍵詞:城市軌道交通;自動售檢票系統;災備
Abstract: In this paper, based on the Zhengzhou rail transit automatic fare collection line network management center (ANCC) system main and auxiliary center double live design scheme and starting from the necessity of the construction of disaster recovery center, we analysis the choice of double live center construction scheme. Then we analysis the disaster recovery architecture, storage, application and main / standby switching process of the dual activity center respectively, showing the architecture characteristics of the dual activity center and the application advantages compared with the traditional scheme. The analysis of this paper provides a reference for the subsequent construction of urban network management center.
Key words: Urban rail transit; Automated fare collection system; Disaster recovery
1 引言
近年,全國各地城市軌道交通的快速建設,各大城市的城軌線網逐漸成型,對線網級自動化、智能化調度指揮和運維管理的需求日益加強[1]。鄭州市軌道交通在建設多線路中心(MLC)和清分中心(ACC)擴容的背景下,從架構、可行性、建設成本、技術發展趨勢等方面進行了充分的論證和分析,依托云平臺、大數據的快速發展,最終確定實施ACC及MLC系統組合建設方案, 即建設鄭州市軌道交通線網管理中心ANCC系統。
可以看出,ANCC成為了鄭州市軌道交通全線網 AFC系統協調及對外票務信息服務和管理的主要窗口, 重要性可見一斑。ANCC系統癱瘓或者由于其它原因 (火災、恐怖襲擊等)退出運行,將會導致全線網運營管理處于癱瘓狀態,造成票務收益損失[2],因此建立一套安全、可靠的災備系統,是非常必要的[3]。本文基于鄭州市軌道交通ANCC系統的建設,分析了災備中心建設的必要性、雙活中心方案的設計選擇,并對雙活中心的建設方案進行介紹。
2 建設背景
2.1 必要性分析
災備方案是ANCC建設工作重要內容,關系到業務可用性、業務連續性、數據安全性、系統合規性等多方面[4]。
高可用設計包括平臺架構高可用和業務系統高可 用,保證整個業務平臺可以穩定運行,當故障出現時快速定位并恢復故障[5];對于業務系統來說,在出現意外宕機時業務不會中斷,對用戶無感知。
ANCC作為線網級生產平臺,作為各線路的大腦,如果由于意外事故的出現,線網級業務癱瘓并停止運行,會給整個行業帶來嚴重的后果[6]。所以應該建立擁有線網業務功能的后備中心系統,當主系統發生故障或意外不能正常工作時,及時、快速地接管主系統的基本工作,實現正常情況下異地災備、緊急情況 下應急處理等。
2.2 雙活中心的選擇
災備包含三個層次,即基礎設施災備、數據災備和應用災備[7]。基礎設施災備是對業務處理邏輯相關的設備備份,數據災備是對數據備份以保證數據的完整 性,應用災備是對應用處理系統的冗余備份。
雙活中心方案從基礎設施、數據、應用三個層面進行容災,具有更高級的連續性和高可用性,能夠針對服務器、硬盤、適配器卡、網絡等物理設備實施保護, 也能針對操作系統、數據庫、應用、服務等軟件的致命錯誤實施保護,對于發生在本地的錯誤,具備自動接管功能[8]。該方案技術實現復雜度最高,但能夠充分利用兩個中心的所有資源,業務高可用性和連續性最優。
3 ANCC系統雙活中心關鍵技術
3.1 雙活容災架構
各線路數據匯聚節點就近接入,主副中心同時處理業務,資源得到有效利用;業務處理完成后,寫入主中心數據庫,主副中心數據庫通過數據庫同步軟件進行同步;當主中心/副中心接入故障或業務處理故障時, 系統通過預置的備用路由,自動完成線路接入的切換; 當系統數據存儲出現故障時,系統通過內部業務倒切, 實現數據的有序入庫存儲;通過系統應用雙活設計,實現系統的高穩定運營。
生產中心發生災難(生產中心停電、火災等): 可對受云服務器高可用性(CSHA)服務保護的生產云服務器自動或手工切換到災備中心,快速啟動容災云服務器。
計劃內停機(計劃性停電、日常運維等):容災管理員可對受CSHA服務保護的生產云服務器進行一鍵式的計劃性遷移,在災備中心快速啟動容災云服務器,保證業務數據零丟失;在原生產中心完成計劃性活動后,容災管理員對受保護云服務器進行反向重保護,并在合適時間通過計劃性遷移將業務切回到原生產中心。
雙活中心的總體架構如圖1所示。
圖1 雙活中心總體架構
3.2 存儲雙活方案
3.2.1 方案描述
云硬盤高可用服務(VHA)為云服務器中的云硬盤提供本地存儲雙活保護[9]。當單套存儲設備發生故障時,數據零丟失,業務不中斷。該方案是基于 FusionSphere OpenStack云操作系統平臺的IaaS層云服務器容災方案。它通過云數據中心結合存儲雙活實現單中心內的云硬盤容災。
3.2.2 方案架構
云硬盤高可用服務與網絡是解耦的,原則上使用 FusionCloud的通用網絡方案即可,僅要求在通用組網方案上預留存儲網絡端口,增加兩套雙活存儲間的雙活數據路徑。
在組件部署上,云硬盤高可用主要增加了存儲仲裁軟件和BCManager eReplication兩大組件。二者均可部署在物理機中,也可以部署在虛擬機中。如圖2所示。
圖2 存儲雙活方案架構
3.2.3 實現原理
租戶登錄VHA服務申請界面,為云主機申請本地存儲雙活容災保護。系統過濾出該租戶具備創建容災保護條件但還尚未創建的云主機[10]。租戶可從中選擇單個或多個需要容災保護的云主機,提交申請。后臺自動調用容災管理組件對應API,創建存儲雙活保護,實現的基本原理及主要步驟如下:
(1)調用Cinder建卷API,在對應的容災存儲上創建雙活占位卷(并設置為預留狀態)及雙活LUN;
(2)調用DRextend容災擴展組件,為雙活LUN 配置雙活Pair;
(3)調用DRextend容災擴展組件,創建雙活一 致性組(將雙活Pair加入雙活一致性組,當災難發生時,可實現存儲一致性切換,實現存儲一致性保護);
(4)調用Nova的在線重連雙活卷擴展接口,將創 建的雙活LUN掛載給云主機;
(5)生成VHA保護服務實例。
3.2.4 方案優勢
(1)開放架構
業界率先推出基于Openstack+KVM云架構的云硬盤 高可用方案,在一套Openstack私有云架構上構建云服務 器本地存儲雙活保護能力防止廠商鎖定,為客戶節約成本擴展Openstack標準并開放接口,只要第三方廠家支持該 接口,就可以接入進行統一高可用配置和管理。
(2)按需使用
支持租戶按需自助申請云硬盤高可用服務,服務開通便捷高效,業務發放周期由一周縮短到半小時內,系 統根據租戶要求自動化配置和開通云硬盤高可用服務。
(3)可靠高效
基于存儲側的雙活技術,對主機性能無影響;數據實時同步。
3.3 應用雙活方案
3.3.1 方案描述
此方案特點是各線路就近接入主、副中心,主副 中心同時處理業務,有效利用資源;針對主副中心不能 同時上線的情況,由單中心改為雙中心的實施過程較簡 單,可在線操作,不影響業務運行,實施風險較小。總體架構如圖3所示。
圖3 應用中心總體架構
3.3.2 實現原理
云服務器高可用(CSHA)是為了當生產中心故障 后,容災云服務器能夠掛載容災端的卷,并在災備中心快速啟動,實現的基本原理如下:
租戶根據生產中心網絡、計算的資源類型及高可用要求,在災備中心配置相同或相似的網絡、計算資源,并申請CSHA服務實例。
服務申請成功后,根據生產端云服務器的云磁盤信息,自動在容災端創建相同規格的云磁盤,并在存儲層配置雙活復制對、一致性組,實現數據的鏡像保護。
當生產中心發生站點級故障時,云平臺仲裁服務顯示站點故障,同時生產云服務器、存儲層雙活復制對故障。此時,可自動或管理員手工觸發CSHA保護組切換,將災備中心的云硬盤掛載至容災云服務器并啟動云服務器。
容災云服務器接入所在災備中心的網絡,取決于容災云服務器創建時所接入的VPC網絡。
3.4 主備倒切流程
主備系統倒切應急處置流程分為五個階段,即災 難發生、處置決策、前期準備、應急處置和處置結束。
災難發生階段,當系統發生災難影響生產中心正常業務時,應立即將災難情況報告給應急處置小組組長、副組長。
處置決策階段,應急處置小組組長、副組長,收到災難情況報告后,應立即組織小組成員開會,分析災 難具體情況、判斷影響范圍并確定對應措施啟動相關預案,開展應急處置工作。
前期準備階段,根據應急處置小組組長決策,各分組組長按照預案內容,組織分組成員進行主備系統倒切前的相關技術準備。副組長負責與相關單位溝通,協調主備系統倒切前工作。
應急處置階段,準備工作完成后,應急處置小組組長指揮小組成員進行主備系統倒切工作。系統倒切完成后,各分組組長負責確認系統狀態、業務情況,并向組進行報告。
處置結束階段,主備系統倒切完成后,確認系統狀態、業務情況正常后,應急處置小組組長向上級單位、 領導匯報應急處置工作情況。
4 結論
軌道交通自動售檢票系統線網管理中心的建設,提高了基礎設施資源的利用率,實現了鄭州軌道信息化基礎設施資源的統一規劃、統一建設、按需調配、即需即用、有效共享。采用雙活中心的容災方案,可更大程度 保證業務的連續性,也可有效保障災難發生后,業務恢復的時效性。隨著技術的發展和建設需求,后續可繼續探索災備中心建設的可能性。
作者簡介:
徐淑鵬(1969-),男,山東莘縣人,高級工程師,學士,現就職于鄭州地鐵集團有限公司,主要從事地鐵 AFC系統建設的工作。
陳俊亞(1993-),女,河南周口人,助理工程師,碩士,現就職于鄭州地鐵集團有限公司,主要從事地鐵 AFC系統建設的工作。
曹美閣(1989-),女,河南許昌人,工程師,碩士, 現就職于鄭州地鐵集團有限公司,主要從事地鐵AFC系統建設的工作。
參考文獻:
[1] 李中浩. 城軌互聯網票務系統建設指南[J]. 城市軌道交通, 2019, 37 (03) : 25 - 28.
[2] 王彪. 城軌云架構下災備方案研究[J]. 都市快軌交通, 2019, 32 (03) : 33 - 39.
[3] 趙晗, 陳琦, 高偉, 等. “互聯網+"技術在鄭州地鐵AFC系統中的應用[J]. 都市快軌交通, 2017, (4) : 81 - 85.
[4] 顧洋, 陳青云. 移動支付在軌道交通自動售檢票系統中的設計與應用[J]. 都市快軌交通, 2016, (6) : 114 - 119.
[5] 廖東玲. 深圳地鐵三期工程AFC系統建設與創新實踐[J]. 鐵路技術創新, 2016, (6) : 17 - 22.
[6] 張守芝. 軌道交通清分系統災備升級方案研究[J]. 鐵道通信信號, 2016, 52 (012) : 72 - 76.
[7] 徐鐘全, 張見, 張寧, 等. 基于數據倉庫的ACC系統架構方案探討[J]. 鐵路通信信號工程技術, 2017, 14 (03) : 62 - 67.
[8] 顧洋, 陳青云. 基于雙活架構的城市軌道交通自動售檢票系統設計[J]. 城市軌道交通研究, 2020, 23 (10) : 129 - 133.
[9] 湛維昭, 張森. 基于金融標準的移動支付技術在寧波軌道交通的應用[J]. 都市快軌交通, 2017, (1) : 106 - 109.
[10] 李道全. 城市軌道交通自動售檢票系統多元化支付研究與應用[J]. 都市快軌交通, 2019, (4) : 126 - 131
摘自《自動化博覽》2021年6月刊