客服專線:(02)25060311 / 7x24H 救援專線:0973-499286
線上商店

技術論壇sharing of technologies

儲存論壇
06.May.2018 / [2018-05-06~]

RAID Rebuild的風險及RAID使用建議

傳統RAID是具有容錯機制儲存空間,容許有一顆硬碟故障皆還能繼續使用。
當有硬碟發生故障時候,必須將故障硬碟換下,換上新的硬碟,
這時候RAID就會啟動Rebuild機制,將新的硬碟寫入資料。
Rebuild完成時,整組RAID才會恢復容錯機制。
這邊要來與各位談談RAID Rebuild時會有什麼風險存在:
 
傳統RAID存在的風險
  • RAID Rebuild 時無容錯功能
    以RAID 5來說,當RAID 5啟動Rebuild時,這時RAID是沒有任何容錯功能的
    也就是說若在RAID 5 Rebuild過程當中,若不幸又再壞一顆硬碟,
    這時候RAID 5就無法再繼續Rebuild,且整個儲存空間會損毀。
    建議採用容錯兩顆以上的RAID,則可以避免此風險產生。
    例如:Netapp RAID-DP
     
  • RAID Rebuild時會影響效能
    RAID 在Rebuild過程,所有硬碟都會同時在做大量讀寫。
    這時候整體運作效能就會下降,
    若是在高運算的環境下使用者會很明顯感受到延遲狀況。
     
  • RAID Rebuild容量越大所花的時間越久
    RAID在Rebuild會對整個儲存空間進行演算,
    空間越大所需要的Rebuild時間就越長,
    以前單顆硬碟容量小並不會察覺,
    而現在動輒4T、8T的硬碟,Rebuild時間往往是一週起跳。
    以現在大容量的硬碟,不建議再用傳統的RAID來做。

    RAID5 Rebuild
    ▲RAID5 Rebuild的畫面
     
RAID常見的故障情形

RAID要同時壞兩顆硬碟以上,這個機率其實是非常低的。
但是我們常常收到的RAID需要資料救援的狀況不外乎以下兩種情形,
  • Rebuild過程中又有硬碟發生故障
    上述有提到,RAID Rebuild過程是沒有任何容錯空間,
    而Rebuild時每顆硬碟又是在大量讀寫作業,
    再加上硬碟容量大RAID Rebuild時間就會拉長。
    在Rebuild期間要再壞一顆硬碟的機率是很高的。
     
  • RAID硬碟發生故障無人察覺
    平常設備若無人維護的情形下,
    在壞掉一顆硬碟的時候並無察覺,覺得系統都還能正常運作。
    就會認為沒有問題,沒有人去做更換硬碟做Rebuild的動作。
    等到系統完全不能運作的時候,這時才發現已經壞掉兩顆硬碟以上。(實際案例參考)

    RAID故障示意圖
    ▲RAID故障的Log畫面
 
避免RAID發生故障的建議
  • 避免利用Server來作為儲存空間
    Server主要是提供運算資源,雖然將硬碟插滿可以創造出儲存空間來使用。
    但內部往往是一片RAID控制卡來接所有硬碟。
    這類型的RAID控制卡功能較為陽春。保護機制是沒那麼完善的。且沒有擴充的靈活度。
     
  • 儲存空間超過20TB以上不建議使用RAID5
    越大的儲存空間,對RAID的影響在於Rebuild的時間。
    20TB的儲存空間,Rebuild過程大約最少要耗費整整5個工作天。
    在Rebuild的這5天在使用上會心驚膽跳。
    建議可以挑選外商品牌的Storage或者具有動態RAID的設備。
    Rebuild容量越大時間越長
     
  • 建議使用專用的Storage
    市面上有幾個外商品牌專門在做Storage,(例如:Netapp、EMC、HDS)
    它們的保護機制都做得非常完善。
    這些廠牌有自己的作業系統且研發專屬的RAID模式,
    除了上述所提到傳統RAID的風險都能夠避免發生。
    在空間運用的靈活度,也會比用Server來得好。甚至可以做到空間隨意放大與縮小。
    我們在做資料救援這行,遇到這類Storage需要資料救援情況是非常之低的。
     
  • 挑選適合的硬碟機
    會用有RAID的設備,平常是不太會去關機。
    而硬碟機挑選就非常重要,要挑選適合可以長時間持續運作的硬碟。
    避免選到節能硬碟,否則容易造成RAID故障。
    許多大廠的設備都會隨硬碟一起出貨,這類的硬碟就別太擔心,
    都已經經過大廠的品管認可。且硬碟上有專屬For設備的Firmware,
    確保硬碟不會產生相容性的問題。
     
  • 平常設備維護要確實
    現在的設備都可以有自動告警的機制,
    即時能掌握設備的健康狀況,一有問題產生就要盡快排除。
    在這方面可以請專業的廠商來協助(鉅亨科技提供相關諮詢),將設備維護好才不會有意外發生。
     
RAID 資料救援處理方式
​​​​​​鉅亨科技熟悉各種廠牌的RAID運算模式,
可以在很短時間內恢復RAID內的資料。
當RAID發生故障時請注意以下:
  • 請勿將硬碟位置隨意更換
    RAID硬碟每顆都有自己的編號,當在做硬碟位置更換,
    可能會造成系統誤判為新的硬碟而自行做修復動作。
     
  • 請勿重新建立RAID
    這屬於破壞性動作,會將原有的RAID Config打亂。
    嚴重一點會將資料清空,變成無法救援的情況。
     
  • 請勿持續開關機測試
    若是硬碟機本身故障,不斷開關機只會讓硬碟反覆通電旋轉。
    會造成故障硬碟機狀況越來越糟。
     
  • 保持故障當下聯繫專業廠商救援
    鉅亨科技在RAID資料救援已經有10多年以上的救援經驗,
    熟悉各種廠牌的RAID演算方式,可以在很短時間內將資料全數恢復完成。
    當RAID發生故障當下,若沒再經過人為不當的操作,救援的成功率都是非常高的。

    RAID抽換硬碟
    ▲RAID故障勿隨意更換硬碟位置
分享文章 分享到line

其他相關文章

  • 告訴你如何拯救虛擬化資料-VM虛擬機資料救援

    現在大多數企業都已經導入伺服器虛擬化,節省硬體成本支出及方便管理。發生VM虛擬機無法開啟狀況該怎麼辦?鉅亨科技專研VM虛擬化多年,能夠快速將故障的虛擬機資料成功救出。包括VMware、Hyper-V...等皆能救援。

  • 伺服器RAID資料該怎麼救援?

    x86 Server雖有RAID保護機制,但往往還是會遇到Server會需要資料救援的時刻。原因在於Server主要在於提供運算資源,所以RAID的功能都還只能算陽春。鉅亨科技熟悉Dell、HP、IBM、Lenovo...等各大廠牌x86伺服器,當Server發生故障當下歡迎立即與我們聯繫,我們可以提供你專業的建議。

  • NAS資料迅速救回方法 - 鉅亨擁有NAS資料救援領先技術

    NAS在救援過程會需耗費很長時間,客戶就只能等待再等待, 鉅亨科技針對這樣的狀況,已經有快速的解決方案。 我們特別對各廠家的NAS做研究並整合過去救援NAS的經驗。 可在短時間內將NAS資料完整救回。

請立刻聯繫我們來救回您的資料

讓我們找回您遺失的珍貴資料 – 資料救援的專家鉅亨科技。
相信鉅亨,專業、誠信、熱忱 !