Archive

Archive for September 16th, 2015

(不)部署監控措施的成本

September 16th, 2015 No comments

無線溫度計與 Ping 工具有何共同之處?答案是這兩者都可以避免企業蒙受金錢損失。

企業經營若想保持正軌,方法之一是嚴格控制成本。因此不難想到,要說服企業管理者將預算花在 IT 監控軟件上是一項挑戰。對於普通管理者—說得更坦率一點,當 IT 專業人員興奮地從技術角度大談特談部署監控措施的好處,卻不闡明這樣做的經濟效益時,對於他們試圖說服的中層經理而言,部署監控措施看起來像是一項純粹的沉沒成本,沒有獲得回報的可能性。

但是,IT 專業人員知道事實並非如此。要幫助別人明白這一點,只需回答一個問題:如果不部署監控措施,將付出多少成本?

典型案例:最近,一間有 300 個床位的醫院考慮花費 5000 美元實施自動溫度監控系統,用於監控為醫院儲藏食物的雪櫃的溫度。該系統將會測量每個冷櫃及雪櫃的當前溫度,並在溫度超出可接受範圍時傳送通知,從而節省工作人員的時間。

醫院管理層拒絕實施該系統,他們認為只是為了知道雪櫃溫度低了五度就付出這麼多成本實在太不值得了。接下來發生的事情不難預料,終於有一天,一名工作人員忘記關上主冷櫃門,導致壓縮機整晚不停工作,直至完全失靈。第二天早上,來上班的工作人員發現該冷櫃中的所有食物都變質了。為了消除這次故障的影響,需要緊急訂購食物、投入額外人力、進行維修工作並花費大量加班時間。

這次事件造成的代價非常高昂,總成本達到 100 萬美元,是當初被認為「太不值得」的監控系統成本的 200 倍。原本花費少許前期投資就可以避免之後的慘重代價,這樣的情景對於 IT 專業人員來說應該並不陌生。

記住這個例子後,作為 IT 專業人員應該意識到,我們必須能夠以非技術人員也能懂的術語清楚解釋第一線 IT 人員一眼就能看穿的道理:不部署監控措施所付出的成本往往遠高於可幫助我們第一時間避免故障的工具所需的成本。

在發生重大系統故障後,要說服非 IT 人員相信部署監控工具的必要性可能相對簡單,因為在很長時間內,事件所造成的影響會在人們的腦海中記憶猶新。但是,如果之前沒有出現過實際的 IT 資源故障,IT 專業人員怎樣才能說服管理者部署監控措施呢?又或者說,如果一個組織的特定系統出了故障,IT 專業人員怎樣才能說服管理者購買監控工具來保護其他關鍵任務系統呢?

這實際上又回到了「確定故障的潛在成本」這一問題上。對於同樣的問題,每個管理團隊可能有不同的感受,某個組織的領導層覺得很嚴重的問題,其他組織的管理者可能並不放在心上,而只是簡單地考慮業務成本。因此,IT 專業人員需要重點指出完全可避免的成本。需要考慮的一些因素包括:

  1. 如果某個問題沒有被發現,會造成的最終後果
  2. 特定故障發生後,可能在多長時間內無人發現
  3. 修復故障系統所需的時間
  4. 相關系統的每小時常規人工費用
  5. 相關系統的加急及加班人工費用
  6. 預定廠商維護服務的費用與加急廠商維修服務的費用
  7. 每小時因相關系統無法使用造成的銷售收入或其他收入損失

要了解所有因素如何共同發揮作用,只需要考慮一個簡單的例子:主要電子郵件伺服器上的硬碟故障。任何有自尊心的 IT 專業人員都絕對會在電子郵件之類的關鍵系統上部署某種形式的容錯措施。因此,在這個例子中,我們假設有一個已部署的鏡像硬碟,但是在第二個硬碟出故障之前,這個鏡像硬碟已經壞了幾天了。由於沒有部署監控解決方案,沒有人注意到這件事,於是這個系統成了一個單硬碟系統。

最終結果是系統崩潰了。你可能會認為電子郵件系統崩潰將立即被注意到,但 Outlook 之類的電子郵件用戶端具有非常出色的離線快取能力,因此實際上要過一段時間才會有人注意到系統崩潰了。在本例中,我們假設這需要 30 分鐘。

從硬碟故障中恢復需要時間,除非手邊馬上就有備件,並且有某種類型的立即復原選項。我們假設更換硬碟本身需要花費大約一小時,從備份中還原又需要一小時。但是,維修工作需要由廠商來進行。因此在維修之前需要等待四小時,即使是加急服務,也需要等一小時。

我們現在來算算成本。假設常規人工費用是每小時 53 美元,加班費用是每小時 75 美元。標準廠商維修服務是免費的,但請記住,在維修前需要等四小時。加急廠商維修服務的費用是每小時 150 美元,至少需要兩小時。

這意味著電子郵件系統將當機三個半小時到六個半小時,修復成本在 106 美元至 450 美元之間。這看起來可能沒什麼大不了。但是,這僅僅是一次硬碟故障的成本。想想一家公司如果一年出現 350 次硬碟故障(我曾親眼目睹過這樣的事情),那麼付出的成本就是每年 37,000 美元至 157,000 美元,而這還不包括電子郵件系統當機以及由此引發的工作效率大跌造成的公司收入損失。

當然,無論是否部署監控措施,硬碟都會出現故障。但是在上述例子中,如果能發現第一個硬碟的故障,在方便的時間進行更換,避免系統當機以及執行資料復原所花的時間,則一年下來可以節約 18,500 美元至將近 140,000 美元。

我們有必要為 IT 環境中的所有關鍵任務系統(包括電子郵件、CRM 及 Web 服務系統)做一做類似的算術題,將不同類型的當機情況,例如磁碟機故障、應用程式崩潰及網絡故障都考慮進去,這個任務很重要。

為了避免被繁重的任務弄得暈頭轉向,你應該分清主次。仔細審視 IT 環境,誠實評估哪些系統穩若磐石,而哪些系統則不那麼穩定。此外,在必要時參考其他團隊成員的意見,向他們詢問需要過多久才能發現系統當機,以及令系統恢復正常工作需要多長時間。

這個過程看起來可能單調乏味,但是在很多時候,只有這樣才能幫助非 IT 人員的管理者及其他決策制定者明白下面的道理:適當的監控措施至關重要,不部署監控措施的成本可能遠超過部署監控措施的成本。簡而言之:從管理者最關心的角度切入,從錢的角度談問題。

作者:SolarWinds 極客達人 Leon Adato

Leon Adato 是 SolarWinds 公司(新聞快訊)的一位極客達人,SolarWinds 公司是一家位於德克薩斯州奧斯汀的 IT 管理軟件供應商。Adato 具有超過 25 年的 IT 工作經驗,其中有 14 年從事與面向伺服器、網絡及 Web 的系統管理、監控及自動化解決方案相關的工作。Adato 也是微軟認證系統工程師、思科(新聞快訊)認證網絡工程師及 SolarWinds 認證專家。加入 SolarWinds 之前,Adato 曾擔任 Cardinal Health 的資深監控顧問。

以上資訊由www.hkitblog.com提供