0 引言
廣州地鐵自動售檢票系統(Automatic Fare Collection ,AFC)是基于計算機、通信、網絡、自動控制等技術,實現城市軌道交通售票、檢票、計費、收費、清分、管理等全過程的自動化系統。AFC系統共分為車票、車站終端設備、車站計算機系統、線路中央計算機系統、清分系統五個層次。其中清分系統亦即軌道交通清分綜合中央計算機系統(Integrated Central Computer System,ICCS)為AFC系統的數據中心,主要用于廣州市軌道交通各條線路之間,與公交系統、銀行系統及其他相關系統之間的清算分賬、車票交易數據的處理及統計分析,同時還具備對線路AFC系統設備運營管理的功能。ICCS遠期定位于整個廣州市及珠江三角洲城際軌道交通系統的清分中心和AFC運營管理中心,服務于整個廣州市軌道交通線路的收益清分,實現整體處理車票交易數據及統計分析,但不涉及具體線路的內部運作。
清分體系是軌道交通線網票務數據的頂級收斂口,其建立及原則的制定最終服務于“數據綜合應用”的目的,除了滿足日常的結算業務外,更重要的是使得體系內所匯集的各類票務數據能被有效整合、利用。為了提高清分系統的健壯性和可用性,增強系統抵御突發性災難的能力,建立了容災系統,即使發生系統災難,也能快速地恢復系統和數據,確保業務的連續性。
1 容災技術概述
容災(disater tolerant)是指除了本地系統以外,用戶另外建立的冗余系統,當災難發生本地系統受到破壞時,冗余系統可以接管用戶正常的業務,達到業務不間斷的目的。容災表現為一種未雨綢繆的主動性,而不是在災難發生后的“亡羊補牢”。
1.1 容災原理
容災技術的基本原理就是數據備份。數據備份是指為防止由系統故障所導致的數據丟失,而將全部或部分數據生產中心的主機系統存儲設備復制到其他的存儲介質的過程。數據備份是用戶進行容災系統建設的第一步,也是最終容災系統恢復的基礎。
隨著業務數據的不斷增加和可用性要求不斷提高,傳統的離線、在線備份根本無法滿足需求。要想達到抵御災難的目的,必須選用專門的軟硬件設施,制定相應的容災方案。雖然容災的核心是備份,但其不同于一般意義上的數據備份,因為通常的備份存儲系統總是與工作系統處于同一位置,而容災備份是通過在異地建立和維護一個備份存儲系統,利用地理上的分離來保證系統和數據對災難性事件的抵御能力。因此,容災與備份的根本區別在于容災不僅要保證企業數據的安全可靠,同時要保證業務的連續性。
1.2 容災系統的構成
容災系統應包括兩個層面的問題:數據容災和應用容災。
數據容災就是指建立一個異地的數據系統,該系統是本地關鍵應用數據的一個實時復制。在本地數據及整個應用系統出現災難時,系統至少在異地保存一份可用的關鍵業務的數據。應用容災是在容災的基礎上,在異地建立一套完整的與本地系統相當的備份應用系統,在災難情況下,遠程系統迅速接管業務運行。數據容災是容災系統的基本要求,而應用容災是系統建設目標,應用容災必須建立在數據容災的基礎之上,通過整合應用系統、網絡系統等各種資源來實現。
1.3 容災關鍵技術
在建立容災系統時會涉及到多種技術,目前,關鍵的技術主要有:遠程復制技術、快照技術、基于SAN的互連技術、虛擬存儲等。
1.3.1 遠程復制技術
遠程復制技術是將主點數據中心的數據復制到遠程的備份數據中心,隨著更新在主站點的執行,遠程站點保持與主站點的同步,遠程復制技術是容災備份技術的核心技術,同時也是保持遠程數據同步和實現災難恢復的基礎。
1.3.2 快照技術
快照是通過軟件對要備份的磁盤子系統的數據快速掃描,建立一個要備份數據的快照邏輯單元號LUN和快照cache。在快速掃描時,把備份過程中即將要修改的數據塊同時快速拷貝到快照cache中。快照LUN是一組指針,它指向快照cache和磁盤子系統中不變的數據塊(在備份過程中)。在正常業務進行的同時,利用快照LUN實現對原數據的一個完全的備份。它可使用戶在正常不受影響的情況下,實時提取當前在線業務數據。其“備份窗口”接近于零,可大大增加系統業務的連續性,為實現系統真正的7×24運轉提供了保證。
遠程復制技術往往同快照技術結合起來實現遠程備份,即先通過遠程復制技術把數據備份到遠程的存儲系統中,再用快照技術把遠程存儲系統中的信息備份到遠程的磁帶庫、光盤庫中。
1.3.3 基于SAN的互連技術
主點數據中心和備點數據中心之間的數據備份,可通過運用SAN的遠程復制技術來實現。目前,出現了多種基于IP的SAN的遠程數據容災備份技術。它們是基于IP的SAN的互連協議,將主點數據中心SAN中的信息通過現有的TCP/IP網絡,遠程復制到備援中心SAN中。當備點數據中心存儲的數據量過大時,可利用快照技術將其備份到磁帶庫或光盤庫中。這種基于IP的SAN的遠程容災備份可以跨越LAN、MAN和WAN。
1.3.4 虛擬存儲
虛擬存儲技術在系統彈性和可擴展性上開創了新的局面,它將幾個IDE或SCSI驅動器等不同的存儲設備串聯為一個存儲池。存儲集群的整個存儲容量可以分為多個邏輯卷,并作為虛擬分區進行管理。
2 容災技術在城市軌道交通系統中的應用
圖 1 容災系統組成框圖
2.1 數據級容災的實現
2.1.1 數據復制產品
容災系統中的遠程數據復制產品選用Sybase 復制服務器RS(Replication Server)。該技術是Client/ Server環境下實現數據高可用性的一種方法。一個完整的復制服務器RS系統應包括:主備點ASE ,RS(Replication server) , LTM(Log Transfer Manger) 或Rep Agent,RSSD(RS System Database),如圖2所示。RS的復制分為基于表的復制和數據庫的復制兩種。考慮到數據一致性維護的簡易性,采用基于數據庫整庫的復制模式。
圖2 sybase復制結構示意圖
為不影響清算業務的正常運行,復制同步在非業務進行時間進行,其中主點復制器名為:PS,備點服務器名為:BS,復制服務器名為:ccds_rep,復制服務器系統數據庫名為:RSSD,預復制的數據庫名為:dt_center,復制同步過程如下:
1、停用主點數據庫dt_center的Rep agent 線程
isq1 -Usa -P -SPS
> use dt_center
> go
> sp_stop_rep_agent dt_center
> go
2、執行忽略輔助截斷點操作,以免在復制未開啟時主點的日志堆積導致日志空間的不可用
> dbcc settrunc (‘ltm’,‘ignore’)
> go
3、 截斷主點數據庫dt_center的日志
dump tran dt_center with truncate_only
4、備份主點數據庫dt_center
dump database dt_center to‘/export/home/sybase/dt_center.dmp’
2.1.3 數據復制同步步驟
1、以單用戶模式重啟復制服務器
Startserver -f RUN_ccds_rep
2、清空復制服務器穩定隊列中的數據
isq1 -Usa -P -Sccds_rep
> sysadmin sqm_purge_queue ,q number ,q type
> go
q number和q type的值使用admin who或admin who,sqm或admin who,sqt查找,其中:q type=0 表示出站隊列,q type=1 表示入站隊列。
3、登錄到復制系統數據庫,對主點數據庫執行LTM清空操作
isql -Usa -SBS
> use ccds_rep_RSSD
> go
> rs_zeroltm PS,dt_center
2> go
4、關閉復制服務器
isq1 -Usa -P -Sccds_rep
> shutdown
> go
5、在復制點裝載(load) 主點dt_center數據庫的備份
> load database dt_center from‘/export/home/sybase/dt_center.dmp’
> go
6、以正常模式重啟復制服務器
Startserver -f RUN_ccds_rep
7、恢復主點數據庫的輔助截斷點
isq1 -Usa -P -SPS
> use dt_center
> go
> dbcc settrunc (‘ltm’,‘valid’)
> go
8、恢復主點數據庫的復制代理
> sp_start_rep_agent dt_center
> go
2.1.4 復制同步后續工作
數據復制同步后,查看相關DSI和Agent是否已經UP,并進行復制測試,根據復制日志及時排錯,確保復制功能成功啟用。
復制技術作為Sybase數據庫系統的關鍵技術之一,采用傳遞事務而不是數據行的復制機制,這樣可以大大減少數據的傳送量,并能夠有效地保證數據一致性、可靠性。通過以上的操作,實現了容災系統中數據級的容災。
2.2 應用級容災的實現
在建立了以上數據級容災的基礎上,在異地容災中心建立一套完整的與主點數據中心系統相同的關鍵業務應用系統,確保在災難情況下,遠程系統能迅速接管業務運行。
3 小結
建立性能穩定的災備中心并不意味著從此可以高枕無憂,還必須要制定災備的管理制度。廣州地鐵清分中心從容災系統的基礎理論出發,構建滿足信息系統性能要求的容災系統的同時相應制定了一系列日常備份制度和災難恢復措施,如災備恢復流程,并在實踐中不斷進行評估、演練并加以完善,以保證災備不僅僅是形式上的內容,能真正意義上確保主點故障情況下業務的連續性。
參考文獻
[1] 單桂軍,容災技術在校園網絡信息中心安全中的應用與研究[J].太原師范學院學報(自然科學版),2006,9(5):40-43
[2] 楊曉紅,李健,楊衛國.信息系統容災技術的分析與研究[J].計算機工程與設計,2005,10(10):2727-2729
[3] 李兆玉,韋世紅,李鶇.容災系統的建設方案研究[J].重慶郵電學院學報(自然科學版),2005,8(4):478-482
[4] 王渝次.信息系統災難恢復的規劃及實施[M].北京:北京交通大學出版社,2006
[5] 朱躍龍,洪筱菡.Sybase Replication Server12. 0 的復制服務器技術研究及應用[J]. 計 算 機 與 現 代 化,2002,12,59-62