RAID Rebuild的風險及RAID使用建議
當有硬碟發生故障時候,必須將故障硬碟換下,換上新的硬碟,
這時候RAID就會啟動Rebuild機制,將新的硬碟寫入資料。
Rebuild完成時,整組RAID才會恢復容錯機制。
這邊要來與各位談談RAID Rebuild時會有什麼風險存在:
- RAID Rebuild 時無容錯功能
以RAID 5來說,當RAID 5啟動Rebuild時,這時RAID是沒有任何容錯功能的
也就是說若在RAID 5 Rebuild過程當中,若不幸又再壞一顆硬碟,
這時候RAID 5就無法再繼續Rebuild,且整個儲存空間會損毀。
建議採用容錯兩顆以上的RAID,則可以避免此風險產生。
例如:Netapp RAID-DP
- RAID Rebuild時會影響效能
RAID 在Rebuild過程,所有硬碟都會同時在做大量讀寫。
這時候整體運作效能就會下降,
若是在高運算的環境下使用者會很明顯感受到延遲狀況。
- RAID Rebuild容量越大所花的時間越久
RAID在Rebuild會對整個儲存空間進行演算,
空間越大所需要的Rebuild時間就越長,
以前單顆硬碟容量小並不會察覺,
而現在動輒4T、8T的硬碟,Rebuild時間往往是一週起跳。
以現在大容量的硬碟,不建議再用傳統的RAID來做。
▲RAID5 Rebuild的畫面
RAID要同時壞兩顆硬碟以上,這個機率其實是非常低的。
但是我們常常收到的RAID需要資料救援的狀況不外乎以下兩種情形,
- Rebuild過程中又有硬碟發生故障
上述有提到,RAID Rebuild過程是沒有任何容錯空間,
而Rebuild時每顆硬碟又是在大量讀寫作業,
再加上硬碟容量大RAID Rebuild時間就會拉長。
在Rebuild期間要再壞一顆硬碟的機率是很高的。
- RAID硬碟發生故障無人察覺
平常設備若無人維護的情形下,
在壞掉一顆硬碟的時候並無察覺,覺得系統都還能正常運作。
就會認為沒有問題,沒有人去做更換硬碟做Rebuild的動作。
等到系統完全不能運作的時候,這時才發現已經壞掉兩顆硬碟以上。(實際案例參考)
▲RAID故障的Log畫面
- 避免利用Server來作為儲存空間
Server主要是提供運算資源,雖然將硬碟插滿可以創造出儲存空間來使用。
但內部往往是一片RAID控制卡來接所有硬碟。
這類型的RAID控制卡功能較為陽春。保護機制是沒那麼完善的。且沒有擴充的靈活度。
- 儲存空間超過20TB以上不建議使用RAID5
越大的儲存空間,對RAID的影響在於Rebuild的時間。
20TB的儲存空間,Rebuild過程大約最少要耗費整整5個工作天。
在Rebuild的這5天在使用上會心驚膽跳。
建議可以挑選外商品牌的Storage或者具有動態RAID的設備。
- 建議使用專用的Storage
市面上有幾個外商品牌專門在做Storage,(例如:Netapp、EMC、HDS)
它們的保護機制都做得非常完善。
這些廠牌有自己的作業系統且研發專屬的RAID模式,
除了上述所提到傳統RAID的風險都能夠避免發生。
在空間運用的靈活度,也會比用Server來得好。甚至可以做到空間隨意放大與縮小。
我們在做資料救援這行,遇到這類Storage需要資料救援情況是非常之低的。
- 挑選適合的硬碟機
會用有RAID的設備,平常是不太會去關機。
而硬碟機挑選就非常重要,要挑選適合可以長時間持續運作的硬碟。
避免選到節能硬碟,否則容易造成RAID故障。
許多大廠的設備都會隨硬碟一起出貨,這類的硬碟就別太擔心,
都已經經過大廠的品管認可。且硬碟上有專屬For設備的Firmware,
確保硬碟不會產生相容性的問題。
- 平常設備維護要確實
現在的設備都可以有自動告警的機制,
即時能掌握設備的健康狀況,一有問題產生就要盡快排除。
在這方面可以請專業的廠商來協助(鉅亨科技提供相關諮詢),將設備維護好才不會有意外發生。
可以在很短時間內恢復RAID內的資料。
當RAID發生故障時請注意以下:
- 請勿將硬碟位置隨意更換
RAID硬碟每顆都有自己的編號,當在做硬碟位置更換,
可能會造成系統誤判為新的硬碟而自行做修復動作。
- 請勿重新建立RAID
這屬於破壞性動作,會將原有的RAID Config打亂。
嚴重一點會將資料清空,變成無法救援的情況。
- 請勿持續開關機測試
若是硬碟機本身故障,不斷開關機只會讓硬碟反覆通電旋轉。
會造成故障硬碟機狀況越來越糟。
- 保持故障當下聯繫專業廠商救援
鉅亨科技在RAID資料救援已經有10多年以上的救援經驗,
熟悉各種廠牌的RAID演算方式,可以在很短時間內將資料全數恢復完成。
當RAID發生故障當下,若沒再經過人為不當的操作,救援的成功率都是非常高的。
▲RAID故障勿隨意更換硬碟位置
其他相關文章
-
QNAP&Synology NAS常見的故障,可以用這幾招來迅速恢復資料
目前使用NAS的人越來越多,甚至已經成為家用個人主流儲存媒體了。而大多數NAS的作業系統並非Windows,所以NAS故障後大多數人都會不知所措,鉅亨科技擁有豐富NAS救援經驗,提供全方位NAS資料救援的解決方案。
2019-05-25 -
告訴你如何拯救虛擬化資料-VM虛擬機資料救援
現在大多數企業都已經導入伺服器虛擬化,節省硬體成本支出及方便管理。發生VM虛擬機無法開啟狀況該怎麼辦?鉅亨科技專研VM虛擬化多年,能夠快速將故障的虛擬機資料成功救出。包括VMware、Hyper-V...等皆能救援。
2018-08-26 -
伺服器RAID資料該怎麼救援?
x86 Server雖有RAID保護機制,但往往還是會遇到Server會需要資料救援的時刻。原因在於Server主要在於提供運算資源,所以RAID的功能都還只能算陽春。鉅亨科技熟悉Dell、HP、IBM、Lenovo...等各大廠牌x86伺服器,當Server發生故障當下歡迎立即與我們聯繫,我們可以提供你專業的建議。
2018-08-03 -
各種RAID級別介紹 - RAID資料救援專家
鉅亨科技為10多年的RAID救援專家,在這寫一篇RAID級別介紹給各位參考, 了解RAID各級別的運作方式及組成方法。 什麼樣的情境適合用什麼樣的RAID級別最適當, 若RAID發生問題請別慌張,請立即來電我們提供免費諮詢。
2018-04-14