2009年1月8日 星期四

元旦期間的移民署當機事件與乖乖的關係

看到標題或許讀者會以為,這篇也是要講綠色乖乖很重要之類的廢水文。不過,你猜錯了,我個人一向很鄙視那些平時不用功只想靠拜拜來打通關的同業。跟乖乖有關係是因為,這次移民署電腦當機事件中,那篇把乖乖吃掉的文章,竟然是我的廠商的工程師寫的。

原本對於這個事件只是從報紙上看看,順便譏笑一下報社記者的無知,比如說自由時報一篇由姚介修、羅添斌署名的報導『移民署境管電腦凸槌/當機36小時 「丟臉丟到國際」』。其中有一段說到:

據了解,電腦可在昨日恢復正常,完全是歸功一名已有二十年資歷的移民署資深高級電腦分析師章毅昌,而且是昨天內政部長「欽點」的人物。他在昨日下午一點站上火線指導,兩點五十分電腦搶修恢復,四點三十分補登資料完成,五點完全恢復正常。

這也使得基層紛紛納悶,為何在電腦當掉三十一小時後,才找到建立系統的工程師,實在讓人難以理解;顯見高層在緊急處理時未加入專業考量找到「對的人」,不但旅客、基層受到影響,國家聲譽、機場評比受到的損害也很難彌補。


最好就是這位電腦高手可以讓資料restore速度加快10倍啊。前一天的消息已經公告是儲存設備故障,資料回存的時間受限於硬體的限制,再高的高手也無法加速。以這種莫名其妙的時間點關係來導出沒有用「對的人」不知道是這兩位記者是『聰明過人』還是別有用意。

但是今天忽然聽到廠商工程師說起,才發現原來移民署用的設備,我這邊也有,囧rz。霎那間,原本只是哈拉的話題忽然變成切身相關;除了東西一樣之外,維護的人馬也一樣,難怪今天會變冷阿。除了透過google把所有相關新聞與blog都看過一遍之外,還把廠商的工程師抓起來逼問。

原來移民署這次出問題所用的設備是上個世紀很流行的組合,SUN的大型主機E10K與EMC的高階儲存設備。但現在已經是2009,所以這套系統也已經用了10年,甚至於SUN與EMC都已經宣告EOSL。什麼叫EOSL?『就是不要說買整台了,現在已經連零件都沒有了。』(拖到一個設備連零件都無法替換卻還在使用,你說移民署的人有沒有疏失?)

坦白說,類似的主機與儲存設備再現在還使用在很多地方,而且都是很重要的地方。(就是因為太重要到無法輕易更換才會留用到現在阿。)這一次移民署的大當機,把相關人等的神經又緊繃了一步。因為翻出EMC的公告文件出來,確定相關零組件已經於去年9月全面停產,SUN的主機則是於今年1月停產零件。好險是兩年多前我剛接這工作時就有提出系統更換計劃,今年度已經是到了汰換掉舊設備的階段,加上這次事件汰換速度應該會更快。

說到乖乖,也不知道是那個天兵想出來的? 現在可真是到處都可以見到,平時不知道鑽研技術、提昇能力,靠幾包乖乖就想要叫系統不出包 =.=

那天機房變成老鼠窩就知道乖乖的用處了。以移民署這次的問題來說,一面倒的說是因為乖乖被吃掉了所以當機,事實上去年就已經有設備故障(把廠商工程師抓起來刑求問出來的),只是不把事情當成一回事。再加上更換承包商這種事竟然是在合約到期前一天才換,出事的時候新廠商根本還沒有進駐,那也表示移民署完全沒一丁點IT專業,也完全不尊重技術專業。這次的問題可以大聲的說沒有人為疏失,但是肯定有管理疏失,當機當的一點都不冤。更有甚者,保持這樣的管理方式,未來還是會繼續當機下去吧。

警告:以下說一些比較專業的東西,有助眠效果,請勿於上班時間觀看,免得打瞌睡變成黑五類。

E10K+EMC Symetrix系列Storage,在那個年代必然是使用raid 1,也就是做mirror。同時損壞production與standby的4顆hard disk是很難讓人相信的事情。除非原本就已經有硬碟故障但是沒被發現,不然就是production故障,資料損毀之後又透過replication機制把損毀資料備份到standby。如果是前者,那去年的維護廠商就問題大了;如果是後者,表示系統設計上有瑕疵,應該整套更新。以移民署每年的維護費用來說,三年的維護就足以重建一套全新系統,不肯更換只能說是官僚心態。

會造成這樣大的當機事件,原因不會是單純的一個點,必然是長期累積下來結果。很多機關只想著把一切外包,但是承包商又怎麼可能有能力瞭解系統全貌?如果他能夠瞭解的話又何必只做苦哈哈的SI生意,只是許多公司與單位都只想把自己不會的東西用錢解決。比方說E10K,我可是吃了這套古董機器不少苦頭,上面許多東西都是當時SUN的工程師自己想出來的,不見於古籍也不為外人所知。好險是SUN有把文件開放在網路上,一點一滴的唸了許多才摸清楚這台骨董是怎麼運作的。

如果一切抱著讓廠商做的心態,我根本不可能提得出如何更換的計畫。指望SI?你怎麼不乾脆指望中張樂透好回家當宅男?

Engineer就是要有解決問題的能力。外包商能做到什麼程度,端賴發包的人對於整個系統瞭解到什麼程度。如果發包的人什麼都不瞭解,那就算發包出去也是一樣會出包。

沒有留言:

最常被訪