VSAN數(shù)據(jù)存儲是一個對象存儲,以文件系統(tǒng)的形式呈現(xiàn)給vSphere主機,這個對象存儲服務會從啟用VSAN集群中的每臺主機上加載卷。將他們展現(xiàn)為單一的、在所有節(jié)點上可見的分布式共享數(shù)據(jù)存儲,VSAN簡化了存儲配置,對于虛擬機來說,只有一個數(shù)據(jù)存儲,這個分布式數(shù)據(jù)存儲來自VSAN集群中每一臺vSphere主機上的存儲空間,通過磁盤組進行配置,在單獨的存儲實體中存儲所有的虛擬機文件,這種數(shù)據(jù)存儲的方式相對來說已經很安全了,但是在出現(xiàn)閃存盤或者是容量盤出現(xiàn)故障的時候,數(shù)據(jù)會往其他的節(jié)點轉移,在轉移的時候過程中,也有可能出現(xiàn)其他的故障,我公司近期解決了一個VSAN存儲崩潰,虛擬機無法訪問的故障。
出現(xiàn)故障是四臺dell的服務器組成的VSAN集群,每臺服務器上兩個磁盤組,一個磁盤組是一個SSD硬盤帶5塊SAS硬盤,SSD做閃存,SAS做容量盤,其中一個節(jié)點上的一個磁盤組中的容量盤出現(xiàn)故障離線,這個時候VSAN進行數(shù)據(jù)重構遷移,在很不趕巧的時候,這個時候由于停電導致數(shù)據(jù)遷移沒有完成,在來電的時候,其中另外一個磁盤組中的容量盤也由兩塊故障離線了,導致整個數(shù)據(jù)存儲出現(xiàn)故障,VSAN的管理控制臺可以登陸,但是所有的虛擬機都無法訪問了。
先把四個節(jié)點的所有硬盤都做個只讀的鏡像,包含SSD閃存盤和SAS容量盤,還有三塊因故障離線的硬盤,備份完成之后,把所有的原盤都還原到服務器上,開始對鏡像文件來進行分析底層數(shù)據(jù)存儲結構,來確認虛擬機所在硬盤的分布信息,因為現(xiàn)有的虛擬化程序沒有針對VSAN的架構來恢復虛擬機的,工程師在分析底層數(shù)據(jù)存儲結構的時候,也在做相應的程序開發(fā),來測試數(shù)據(jù)分布信息的準確性。
單獨分析每個節(jié)點上的兩個磁盤組,看下磁盤組內的閃存硬盤和容量盤之間的對應關系,每塊硬盤都有一個唯一標識進行磁盤間的對應,根據(jù)硬盤的ID信息,判讀磁盤組里面的硬盤ID信息。
1、在每塊硬盤上獲取磁盤的UUID和磁盤組的UUID
2、根據(jù)每個磁盤組中的容量盤的組件信息獲取此容量盤的組件信息
3、根據(jù)組件信息中記錄的組件的MAP位置提取組件位圖。
4、根據(jù)組件的位圖提取組件數(shù)據(jù)和緩存數(shù)據(jù)
5、根據(jù)組件的描述信息獲取組件所屬對象及組件順序,并把組件合并成對象
6、根據(jù)對象,提取數(shù)據(jù)。
對象也可以看成一個卷,也可以理解成是一個邏輯卷,每個存在于數(shù)據(jù)存儲上的VSAN對象都是由多個組件構成,這些組件分布于集群主機上配置的磁盤組中,在恢復的過程中,組件的信息提取是關鍵的步驟,因為組件是每個對象的重要組成部分,本次故障組件損壞的很少,恢復出來的虛擬機都能正常啟動,這次故障解決在分析組件位圖和磁盤對應關系用來比較長的時間,但是最后把所有的技術難題都解決了,恢復出來的虛擬機都正常啟動,圓滿解決了VSAN出現(xiàn)故障導致數(shù)據(jù)丟失的恢復。
更多關于云服務器,域名注冊,虛擬主機的問題,請訪問西部數(shù)碼官網:www.ps-sw.cn