2個月前,20:05空蕩蕩的辦公區
徐璐盯著監控屏上跳動的告警信息,手指無意識摩挲著鍵盤邊緣。
半小時前發生的歸檔進程阻塞事故已經解決,但剛進公司一個月不到的小李在故障處理時誤刪歸檔日誌的陰影還在心頭縈繞。
她調出操作審計日誌,突然聽到身後傳來咖啡杯輕磕桌麵的聲響。
“徐姐,這麼晚還喝真不怕睡不著嗎?”劉洋倚在隔斷旁,看著滿屏的ORA00312錯誤代碼,“要不要試試我的解壓大法?”他晃了晃手機,屏幕裡麵是連連看...
徐璐剛要拒絕,目光掃過工位旁積灰的團隊合影——那是三年前容災演練成功後拍的,照片裡大家舉著“零宕機”的錦旗笑得燦爛。
現在錦旗還掛在茶水間,但上次集體活動已經是半年前了。
“幫我約A區三樓的會議室。”她突然調出知識庫文檔,“明天下午三點,把上次ERP索引丟失的事故分析加進材料。”
第二天15:00A315會議室
投影儀在幕布上投出醒目的標題:《那些年我們填過的坑》,副標題寫著“數據庫故障複盤故事會(第一期)”。
徐璐把馬克筆塞給縮在角落的小李時,發現對方眼神有點躲閃,不由反省自己是不是真的這麼可怕。
“從我開始吧。”她點開自己加密的故障日誌文件夾,大屏上突然出現五年前的郵件截圖:
————————————
主題:緊急:生產庫控製文件損壞
內容:今日淩晨因存儲陣列故障導致所有控製文件丟失,當前數據庫無法掛載...
“當時我剛休完產假。”徐璐的聲音平靜得像在講彆人的故事,“用老控製文件強行Open時觸發了ORA01578,偏偏備份磁帶機正在檢修。”
會議室響起倒吸氣聲。
幾個老員工交換眼神——這是部門禁忌話題,當年因為這個事故差點丟掉運營商大單。
“我抱著筆記本在機房坐了18小時。”她調出當時手寫的恢複流程圖,“最後用隱含參數allOWreSetlOgSCOrrUptiOn打開數據庫,然後立刻做全庫邏輯導出。”
劉洋突然舉手:“但OraCle官方明確警告過這個參數會...”
“會破壞數據一致性。”徐璐接話,“所以導出數據後我們對比和校驗了三天三夜。”她點開滿是紅線的校驗報告,“找到137處數據塊校驗錯誤,全靠開發團隊連夜寫修複腳本。”
投影切換到感謝名單,二十多個泛黃的名字裡,徐璐用紅圈標出三個:“這三位前輩已經離職,但他們的日誌分析工具現在還在知識庫裡。”
16:20轉折時刻
當小李顫巍巍站到台前時,徐璐忙裡偷閒正用平板給女兒回消息。
“昨、昨天我誤刪歸檔日誌...”實習生剛開口就哽咽了,任誰工作第一個月就犯了大錯都不好受,“當時徐工讓我用RMAN做增量備份,但我忘了檢查控製文件...”
徐璐突然起身走向白板,在“人為失誤”的分類欄下重重畫圈,說道,“這個標簽該撕了。”
她在眾人錯愕的目光中調出操作審計日誌,又補充道:“你們看小李的操作時序——他在刪除前三次嘗試過CrOSSCheCk命令,但係統提示歸檔日誌驗證失敗。”
劉洋突然直起身:“等等!如果CrOSSCheCk失敗,說明歸檔日誌早就損壞了?”
“沒錯。”徐璐點開存儲係統的SMART檢測報告,“硬盤早在三天前就出現重分配扇區激增,但監控係統沒設置預警閾值。”
她把馬克筆拋給存儲組的老嶽,“這個坑是不是該你們填?”
會議室突然活了過來。開發部的人搶著講編譯器優化引發的隱式鎖升級,網絡組吐槽防火牆重置丟包害他們背了三次鍋。
小李悄悄擦掉眼淚,在本子上記下“智能監控閾值動態調整算法”。
17:45
徐璐整理著散落的便簽紙,發現劉洋在“歸檔日誌自動修複”的構想上寫寫畫畫。
“徐姐,下周能不能加場?”劉洋抱著筆記本電腦湊過來,“我想講分布式事務時鐘偏移的問題...”
門口卻突然傳來陳默的掌聲。
不知何時倚著門框的陳總晃著咖啡杯,一臉欣慰的說道,“案例會實錄記得發知識庫,我讓其他團隊也來取取經。”他指了指白板上徐璐畫的故障分類框架,“這個很實用。”
徐璐低頭收拾投影線,發現小李正給運維組演示他剛寫的日誌分析腳本,屏幕上的代碼注釋裡擠滿顏文字。
一天前,人事任命公布當天,徐璐在車庫偶遇到陳默。